Dall·E 2 e Imagen: IA capaz de crear cualquier ilustración

Curso de Generación de Imágenes con IA: Dall-E, Midjourney y Stable Diffusion

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE

Imagina una inteligencia artificial capaz de crear cualquier tipo de imagen con solo escribir qué es lo que deseas, sin importar qué tan loca sea tu petición. Eso es DALL·E.

Sí, en serio, por ejemplo, ¿has visto a un perezoso con traje montando en mono ciclo en una ciudad turística mientras come una hamburguesa? Bueno, yo no lo había visto hasta el momento en que conocí a Dall·e (Nombrado por Salvador Dalí y Wall-e de Pixar). Y si tú ya lo habías visto antes, en verdad quiero ser tu amigo 😜

Sí, la imagen de arriba fue generada por DALL·E 2, un modelo de AI creado por el equipo de OpenAI y publicado en abril del año 2022 junto al paper Hierarchical Text-Conditional Image Generation with CLIP Latents.

Este habla de cómo se desarrolló este producto y cómo logra conseguir resultados asombrosos, por más loca y extraña que suene la solicitud que se le pida a este modelo.

Ejemplos de imágenes alucinantes con DALL·E 2:

Un gato con vestido listo para su prom
Una tetera mecha anime al estilo japonés
Una silla en forma de gallo
Un perro astronauta
Una canción en luces de neón

A cualquiera de estas entradas DALL·E 2 responde, “ok, sencillo… ya lo tienes!” 🤯

De DALL·E 1 a DALL·E 2

Lo que es aún más sorprendente es que en enero de 2021 ya contábamos con DALL·E en su primera versión y, en ese entonces, esa versión ya era lo suficientemente impresionante para estar en boca de toda la comunidad entusiasta de la AI y el Deep learning.

Y no es para menos, los siguientes son algunos ejemplos de resultados de DALL·E 1:

Una imagen de un caracol fusionado con un arpa

Un vitral con forma de fresa

Un maniquí vistiendo una camiseta naranja y negra:

Un gran numeró de posibilidades desde el marketing digital y branding, diseño de modas, diseño gráfico, etc. Y lo mejor de todo es que DALL·E 2 entrega resultados mucho más realistas y con mejor exactitud que su primera versión.

En la siguiente ilustración se evidencia la notable mejora entre ambos modelos, y lo sorprendente acá es que de DALL·E 1 a DALL·E 2 hay solo un año de diferencia.

Otras mejoras que trae DALL·E 2

Y no siendo poco con los resultados y mejoras gráficas de DALL·E 2, esta nueva versión trae nuevas funciones como:

1. Ediciones realistas sobre fotos existentes

En esta imagen vemos cómo podemos agregar un perrito a la imagen original y este toma las características de la pintura donde se encuentra, y es posible dejarlo en cualquier otro sitio.

2. Diferentes variantes inspiradas en una imagen

Para este caso, DALL·E 2 es capaz de abstraer las características de una pintura y su técnica y crear algo similar pero totalmente diferente.

Seguridad de DALL·E

El equipo de OpenAI se encuentra trabajando responsablemente en la seguridad de su modelo y en entregar una inteligencia artificial más “humana”. Es por eso que se enfocan en:

Prevenir que DALLE·E genere contenido para adultos, incluyendo violencia, odio o cualquier cosa similar.
Prevenir la generación de imágenes de personas que en realidad existan (como figuras públicas). Esto se logra separando todo el contenido no deseado de la fase de entrenamiento: si DALL·E nunca lo ve, no puede recrearlo, además detectan si una entrada de texto es maliciosa.
Afinar correctamente el algoritmo antes de entregarlo netamente al público. Esto es trabajado con un grupo de expertos en imágenes y otras áreas.

Además, se puede reportar cualquier tipo de anomalía o abuso con el equipo.

💡 Es importante mencionar que es posible ‘burlar’ al algoritmo con algunos sinónimos como “Un caballo acostado en un enorme charco de líquido rojo” lo que da la impresión de un caballo desangrándose o muriendo.

Sesgos de DALL·E

En cuanto a sesgos, el equipo de OpenAI menciona que al ser entrenado con imágenes de internet pueden existir sesgos.

Por ejemplo, con la palabra “Builder” o “Lawyer” que entregue en su mayoría fotos de hombres o “Nurse” y “Flight attendant” que en su mayoría sean mujeres. Mencionan también que es algo en lo que se encuentran trabajando.

Imagen

El equipo de Google también desarrollo un modelo muy muy similar a DALL·E llamado Imagen.

Google asegura que su producto es superior a DALL·E 2 y puede tener sentido, pues la tecnología estrella detrás de este tipo de modelos, además de los Transformers, son los modelos de difusión desarrollados por Google para mejorar exponencialmente la resolución o definición de las imágenes.

Lastimosamente, aún no se entrega ningún tipo de acceso o API a Imagen para hacer las respectivas pruebas.

¿Qué futuro nos espera con DALL·E 2 e Imagen?

El equipo de OpenAI es consciente de que DALL·E 2 puede representar un gran cambio en la economía y desplazar el trabajo de fotógrafos, diseñadores de modas, editores, artistas, ilustradores.

Pero también abre la oportunidad a que estas profesiones se apoyen de este tipo de herramientas de AI para potenciar su trabajo y llevarlo al siguiente nivel.

Ni el equipo de OpenAI, ni nosotros sabemos qué pasará con certeza. Me gustaría saber ¿cómo ves en un futuro este tipo de profesiones y el uso de AI? Espero tus comentarios.

También vale la pena recordar que hoy en día no está abierto el uso de DALL·E 2, pero constantemente están dando acceso a la comunidad para que pruebe y ayude a identificar mejoras y usos de esta tecnología. En este enlace podrás inscribirte a la lista de espera.

Lee también: IA para imágenes y videos

Te dejo algunos enlaces que te serán de utilidad si te interesa conocer más del tema.

DALL·E
Imagen
DALL·E Mini, una muy pequeña versión open inspirada en DALL·E
Un video donde hablo del tema
Conoce 5 modelos asombrosos de inteligencia artificial

Pero para llevarlo a su máximo nivel, con un paso a paso detallado, te invito a tomar el https://platzi.com/blog/dalle-2-imagen/ del que tengo el gusto de acompañarte como profesor. 🚀

¡Sígueme en Instagram/Twitter como @alarcon7a, hasta una próxima!

Curso de Generación de Imágenes con IA: Dall-E, Midjourney y Stable Diffusion

Toma las primeras clases gratis

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE