Imagina una inteligencia artificial capaz de crear cualquier tipo de imagen con solo escribir qué es lo que deseas, sin importar qué tan loca sea tu petición. Eso es DALL·E.
Sí, en serio, por ejemplo, ¿has visto a un perezoso con traje montando en mono ciclo en una ciudad turística mientras come una hamburguesa? Bueno, yo no lo había visto hasta el momento en que conocí a Dall·e (Nombrado por Salvador Dalí y Wall-e de Pixar). Y si tú ya lo habías visto antes, en verdad quiero ser tu amigo 😜
Sí, la imagen de arriba fue generada por DALL·E 2, un modelo de AI creado por el equipo de OpenAI y publicado en abril del año 2022 junto al paper Hierarchical Text-Conditional Image Generation with CLIP Latents.
Este habla de cómo se desarrolló este producto y cómo logra conseguir resultados asombrosos, por más loca y extraña que suene la solicitud que se le pida a este modelo.
A cualquiera de estas entradas DALL·E 2 responde, “ok, sencillo… ya lo tienes!” 🤯
Lo que es aún más sorprendente es que en enero de 2021 ya contábamos con DALL·E en su primera versión y, en ese entonces, esa versión ya era lo suficientemente impresionante para estar en boca de toda la comunidad entusiasta de la AI y el Deep learning.
Y no es para menos, los siguientes son algunos ejemplos de resultados de DALL·E 1:
Una imagen de un caracol fusionado con un arpa
Un vitral con forma de fresa
Un maniquí vistiendo una camiseta naranja y negra:
Un gran numeró de posibilidades desde el marketing digital y branding, diseño de modas, diseño gráfico, etc. Y lo mejor de todo es que DALL·E 2 entrega resultados mucho más realistas y con mejor exactitud que su primera versión.
En la siguiente ilustración se evidencia la notable mejora entre ambos modelos, y lo sorprendente acá es que de DALL·E 1 a DALL·E 2 hay solo un año de diferencia.
Y no siendo poco con los resultados y mejoras gráficas de DALL·E 2, esta nueva versión trae nuevas funciones como:
En esta imagen vemos cómo podemos agregar un perrito a la imagen original y este toma las características de la pintura donde se encuentra, y es posible dejarlo en cualquier otro sitio.
Para este caso, DALL·E 2 es capaz de abstraer las características de una pintura y su técnica y crear algo similar pero totalmente diferente.
El equipo de OpenAI se encuentra trabajando responsablemente en la seguridad de su modelo y en entregar una inteligencia artificial más “humana”. Es por eso que se enfocan en:
Además, se puede reportar cualquier tipo de anomalía o abuso con el equipo.
💡 Es importante mencionar que es posible ‘burlar’ al algoritmo con algunos sinónimos como “Un caballo acostado en un enorme charco de líquido rojo” lo que da la impresión de un caballo desangrándose o muriendo.
En cuanto a sesgos, el equipo de OpenAI menciona que al ser entrenado con imágenes de internet pueden existir sesgos.
Por ejemplo, con la palabra “Builder” o “Lawyer” que entregue en su mayoría fotos de hombres o “Nurse” y “Flight attendant” que en su mayoría sean mujeres. Mencionan también que es algo en lo que se encuentran trabajando.
El equipo de Google también desarrollo un modelo muy muy similar a DALL·E llamado Imagen.
Google asegura que su producto es superior a DALL·E 2 y puede tener sentido, pues la tecnología estrella detrás de este tipo de modelos, además de los Transformers, son los modelos de difusión desarrollados por Google para mejorar exponencialmente la resolución o definición de las imágenes.
Lastimosamente, aún no se entrega ningún tipo de acceso o API a Imagen para hacer las respectivas pruebas.
El equipo de OpenAI es consciente de que DALL·E 2 puede representar un gran cambio en la economía y desplazar el trabajo de fotógrafos, diseñadores de modas, editores, artistas, ilustradores.
Pero también abre la oportunidad a que estas profesiones se apoyen de este tipo de herramientasde AI para potenciar su trabajo y llevarlo al siguiente nivel.
Ni el equipo de OpenAI, ni nosotros sabemos qué pasará con certeza. Me gustaría saber ¿cómo ves en un futuro este tipo de profesiones y el uso de AI? Espero tus comentarios.
También vale la pena recordar que hoy en día no está abierto el uso de DALL·E 2, pero constantemente están dando acceso a la comunidad para que pruebe y ayude a identificar mejoras y usos de esta tecnología. En este enlace podrás inscribirte a la lista de espera.
Lee también: IA para imágenes y videos
Te dejo algunos enlaces que te serán de utilidad si te interesa conocer más del tema.
Pero para llevarlo a su máximo nivel, con un paso a paso detallado, te invito a tomar el https://platzi.com/blog/dalle-2-imagen/ del que tengo el gusto de acompañarte como profesor. 🚀
¡Sígueme en Instagram/Twitter como @alarcon7a, hasta una próxima!
Particularmente lo veo de manera positiva; esto va a facilitar procesos como conceptualización y experimentación, además claro esta ayudara a acelerar procesos de trabajo.
Que bueno no me habia informado del todo sobre Dalle-2 sigo a DOT csv en twitter y sube constantemente contenido sobre AI y estos ultimos meses todas imagenes creadas por dalle-2.
Para los diseñadores es una muy buena herramienta, si alguien sabe sobre diseño industrial le puede servir mucho.
Que hermoso momento para aprender IA, o cualquier conocimiento de la industria Tech. Me llama mucho la atención Codex de OpenAI donde entiende lenguaje natural, le describimos que queremos hacer y la IA genera el Codigo y lo muestra visualmente ademas. Tambien GitHub Copilot donde nos ayuda a reescribir codigo, y ademas al seleccionar un pedazo de Codigo nos explica que hace lo que seleccionamos. Lambda tambien, en finn. :DD
Toda una revolución, aún sigo sin creerlo, igual que Lambda
Wow que genial
¿Creen que un ilustrador por ejemplo pueda usarlo para complementarlo a su trabajo?
Yo lo veo de manera positiva, al menos en términos de conceptualización y experimentación gráfica puede ser muy interesante.