39

Dall·E 2 e Imagen: IA capaz de crear cualquier ilustración

15392Puntos

hace 2 años

Imagina una inteligencia artificial capaz de crear cualquier tipo de imagen con solo escribir qué es lo que deseas, sin importar qué tan loca sea tu petición. Eso es DALL·E.

Sí, en serio, por ejemplo, ¿has visto a un perezoso con traje montando en mono ciclo en una ciudad turística mientras come una hamburguesa? Bueno, yo no lo había visto hasta el momento en que conocí a Dall·e (Nombrado por Salvador Dalí y Wall-e de Pixar). Y si tú ya lo habías visto antes, en verdad quiero ser tu amigo 😜

1.png

Sí, la imagen de arriba fue generada por DALL·E 2, un modelo de AI creado por el equipo de OpenAI y publicado en abril del año 2022 junto al paper Hierarchical Text-Conditional Image Generation with CLIP Latents.

Este habla de cómo se desarrolló este producto y cómo logra conseguir resultados asombrosos, por más loca y extraña que suene la solicitud que se le pida a este modelo.

Ejemplos de imágenes alucinantes con DALL·E 2:

  • Un gato con vestido listo para su prom
  • Una tetera mecha anime al estilo japonés
  • Una silla en forma de gallo
  • Un perro astronauta
  • Una canción en luces de neón

A cualquiera de estas entradas DALL·E 2 responde, “ok, sencillo… ya lo tienes!” 🤯

2.png

De DALL·E 1 a DALL·E 2

Lo que es aún más sorprendente es que en enero de 2021 ya contábamos con DALL·E en su primera versión y, en ese entonces, esa versión ya era lo suficientemente impresionante para estar en boca de toda la comunidad entusiasta de la AI y el Deep learning.

Y no es para menos, los siguientes son algunos ejemplos de resultados de DALL·E 1:

Una imagen de un caracol fusionado con un arpa

3.png

Un vitral con forma de fresa

4.png

Un maniquí vistiendo una camiseta naranja y negra:

5.png

Un gran numeró de posibilidades desde el marketing digital y branding, diseño de modas, diseño gráfico, etc. Y lo mejor de todo es que DALL·E 2 entrega resultados mucho más realistas y con mejor exactitud que su primera versión.

En la siguiente ilustración se evidencia la notable mejora entre ambos modelos, y lo sorprendente acá es que de DALL·E 1 a DALL·E 2 hay solo un año de diferencia.

6.png

Otras mejoras que trae DALL·E 2

Y no siendo poco con los resultados y mejoras gráficas de DALL·E 2, esta nueva versión trae nuevas funciones como:

1. Ediciones realistas sobre fotos existentes

7.png

En esta imagen vemos cómo podemos agregar un perrito a la imagen original y este toma las características de la pintura donde se encuentra, y es posible dejarlo en cualquier otro sitio.

8.png

2. Diferentes variantes inspiradas en una imagen

9.png
10.png

Para este caso, DALL·E 2 es capaz de abstraer las características de una pintura y su técnica y crear algo similar pero totalmente diferente.

Seguridad de DALL·E

El equipo de OpenAI se encuentra trabajando responsablemente en la seguridad de su modelo y en entregar una inteligencia artificial más “humana”. Es por eso que se enfocan en:

  • Prevenir que DALLE·E genere contenido para adultos, incluyendo violencia, odio o cualquier cosa similar.
  • Prevenir la generación de imágenes de personas que en realidad existan (como figuras públicas). Esto se logra separando todo el contenido no deseado de la fase de entrenamiento: si DALL·E nunca lo ve, no puede recrearlo, además detectan si una entrada de texto es maliciosa.
  • Afinar correctamente el algoritmo antes de entregarlo netamente al público. Esto es trabajado con un grupo de expertos en imágenes y otras áreas.

Además, se puede reportar cualquier tipo de anomalía o abuso con el equipo.

💡 Es importante mencionar que es posible ‘burlar’ al algoritmo con algunos sinónimos como “Un caballo acostado en un enorme charco de líquido rojo” lo que da la impresión de un caballo desangrándose o muriendo.

Sesgos de DALL·E

En cuanto a sesgos, el equipo de OpenAI menciona que al ser entrenado con imágenes de internet pueden existir sesgos.

Por ejemplo, con la palabra “Builder” o “Lawyer” que entregue en su mayoría fotos de hombres o “Nurse” y “Flight attendant” que en su mayoría sean mujeres. Mencionan también que es algo en lo que se encuentran trabajando.

11.png

Imagen

El equipo de Google también desarrollo un modelo muy muy similar a DALL·E llamado Imagen.

Google asegura que su producto es superior a DALL·E 2 y puede tener sentido, pues la tecnología estrella detrás de este tipo de modelos, además de los Transformers, son los modelos de difusión desarrollados por Google para mejorar exponencialmente la resolución o definición de las imágenes.

12.png

Lastimosamente, aún no se entrega ningún tipo de acceso o API a Imagen para hacer las respectivas pruebas.

¿Qué futuro nos espera con DALL·E 2 e Imagen?

El equipo de OpenAI es consciente de que DALL·E 2 puede representar un gran cambio en la economía y desplazar el trabajo de fotógrafos, diseñadores de modas, editores, artistas, ilustradores.

Pero también abre la oportunidad a que estas profesiones se apoyen de este tipo de herramientasde AI para potenciar su trabajo y llevarlo al siguiente nivel.

Ni el equipo de OpenAI, ni nosotros sabemos qué pasará con certeza. Me gustaría saber ¿cómo ves en un futuro este tipo de profesiones y el uso de AI? Espero tus comentarios.

También vale la pena recordar que hoy en día no está abierto el uso de DALL·E 2, pero constantemente están dando acceso a la comunidad para que pruebe y ayude a identificar mejoras y usos de esta tecnología. En este enlace podrás inscribirte a la lista de espera.

Lee también: IA para imágenes y videos

Te dejo algunos enlaces que te serán de utilidad si te interesa conocer más del tema.

Pero para llevarlo a su máximo nivel, con un paso a paso detallado, te invito a tomar el https://platzi.com/blog/dalle-2-imagen/ del que tengo el gusto de acompañarte como profesor. 🚀

¡Sígueme en Instagram/Twitter como @alarcon7a, hasta una próxima!

Alarcon7a
Alarcon7a
alarcon7a

15392Puntos

hace 2 años

Todas sus entradas
Escribe tu comentario
+ 2
Ordenar por:
2
4039Puntos

Toda una revolución, aún sigo sin creerlo, igual que Lambda

2
8858Puntos

Que hermoso momento para aprender IA, o cualquier conocimiento de la industria Tech. Me llama mucho la atención Codex de OpenAI donde entiende lenguaje natural, le describimos que queremos hacer y la IA genera el Codigo y lo muestra visualmente ademas. Tambien GitHub Copilot donde nos ayuda a reescribir codigo, y ademas al seleccionar un pedazo de Codigo nos explica que hace lo que seleccionamos. Lambda tambien, en finn. :DD

2
22506Puntos

Que bueno no me habia informado del todo sobre Dalle-2 sigo a DOT csv en twitter y sube constantemente contenido sobre AI y estos ultimos meses todas imagenes creadas por dalle-2.
Para los diseñadores es una muy buena herramienta, si alguien sabe sobre diseño industrial le puede servir mucho.

2

Particularmente lo veo de manera positiva; esto va a facilitar procesos como conceptualización y experimentación, además claro esta ayudara a acelerar procesos de trabajo.

2
54075Puntos

Wow que genial

1
38844Puntos

Será épico el día o instante que haya acceso libre a esta tecnología.
.
Su cuenta de Instagram esta bien cool.

1
3215Puntos

¿Creen que un ilustrador por ejemplo pueda usarlo para complementarlo a su trabajo?

2
2 años

Yo lo veo de manera positiva, al menos en términos de conceptualización y experimentación gráfica puede ser muy interesante.