Fundamentos de generación de imágenes con texto

1

¿Qué es text-to-Image en inteligencia artificial?

2

Cómo funciona text-to-Image: difussion

3

Exponentes de IA generativa: DALL·E 2, Midjourney y Stable Difussion

DALL·E 2

4

Generación de imágenes con DALL·E 2

5

Restricciones y limitantes de DALL·E 2

6

Prompt tuning: luces, detalles, sombras y perspectivas

7

Prompt tuning en DALL·E 2: práctica

8

Prompt tuning: estilos y artistas

9

Prompt tuning en DALL·E 2: práctica de estilos y artistas

10

Uso de API de DALL·E 2 con Python

Midjourney

11

Generación de imágenes con Midjourney

12

Prompt tuning con Midjourney

13

Prompt tuning con Midjourney: práctica

14

Image-to-Image y Blend con Midjourney

Stable Diffusion

15

Stable Diffusion con Google Colab y DreamStudio

16

Instalación de AUTOMATIC 1111

17

AUTOMATIC 1111: interfaz web de Stable Diffusion

18

Prompt tuning con Stable Diffusion

19

Prompt tuning con Stable Diffusion: práctica

Inpainting y outpainting

20

DALL·E 2: Inpainting

21

Stable Diffusion: Inpainting

22

DALL·E 2: Outpainting

23

Instalación de PaintHua

24

Stable Diffusion: Outpainting con PaintHua

Stable Diffusion features

25

Upscale: escalado de imágenes

26

Image-to-Image

27

Depth-to-Image

28

¿Cómo funciona DreamBooth?

29

DreamBooth: fine-tuning

30

Merge models: combinar modelos de difussion

Implicaciones éticas y económicas de imágenes con inteligencia artificial

31

Sesgos y bias en modelos de generación de imágenes

32

¿Cómo afecta la generación de imágenes con IA a otras profesiones?

33

Impacto de arte y diseño con IA: entrevista con Daniel Torres Buriel

34

Perspectiva de artistas y diseñadoras: entrevista con Juan Dávila

35

Perspectiva de artistas y diseñadoras: entrevista con Amelia Amórtegui

Conclusión

36

¿Qué nos deparará el futuro de la IA generativa?

Aprende todo un fin de semana sin pagar una suscripción 🔥

Aprende todo un fin de semana sin pagar una suscripción 🔥

Regístrate

Comienza en:

3D
20H
9M
6S

Cómo funciona text-to-Image: difussion

2/36
Recursos

Aportes 30

Preguntas 7

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Y listo, ya sabemos como funcionan los modelos de generacion de imagenes

Hola Chicos 😄!

Stable Diffusion:

1. Text encoder(Entendimiento de texto)

  • CLIP: (Contrastive Language-Image Pre-Training): Es una tecnologia o arquitectura desarrollada por el equipo de Open AI capaz de relacionar textos con imagenes.

2. Image generator

  • Image formation creator: Generador de la información de la imágen

  • Image autoencoder: Quien toma el espacio vectorial y genera una imagen como resultado
    Diffuser: Generar ruido en una imagen

Mi creaciòn por medio de texto

DALL·E 2: A rancher frog playing the banjo in a swamp, straw hat, cool color scheme, misty, digital art

2 - Cómo funciona text-to-Image: difussion

DALLE es libre y cualquier puede generar una imagen con solo ingresar un PROMPT = descripcion.

Nos enfocaremos en Stable diffusion, que es otra IA de text-to-image, pero con algo muy particular e interesante, ya que funciona en una espacio vectorial en su modelo de DIFFUSION → es una tecnica que agrega ruido a una imagen de alta definicion.

Estos modelos basados en DIFFUSION, funcionan con 2 perspectivas o enfoques:

  1. PROMPT → Text encoder (Entendimiento del texto)
    1. Se basa en CLIP → arquitectura desarrollada por openai, capaz de relacionar textos con imagenes, se entrena con data sets de imagenes + su descripción detallada.
  2. image generator: lo que genera la magen → toma un vector generado por CLIP
    1. image formator creator: Generador de la información de la imágen
    2. image auto encoder: Quien toma el espacio vectorial y genera una imagen como resultado
      • Diffuser: es una tecnica que agrega ruido en una imagen, el secreto es pasar una imagen con mucho ruido a una imagen de alta calidad, basicamente predice la imagen, eliminando el ruido
      • **U-net**: arquitectura que reduce la dimensionalidad, para q sea mas facil de trabajar y luego tambien puede aumentarlo.

Miren los logos que realicé:

Anoche estuve buscando un curso de Stable Diffusion sin éxito, y entro a platzi y me encuentro con esto recién publicado ❤️

Me Rindo

¿A qué nos referimos con Prompt?
Es una indicación o instrucción que se le da a un programa para que pueda realizar una tarea específica; en este caso, para la generación de la imagen.


Prompt: cute mini panda working behind a laptop
Midjourney

Las manos son problemáticas para las IA, no he visto alguna que lo haya resuelto 100%.

Si alguien no conocía el término Cadena de Markov (me incluyo) aquí una pequeña definición: Una cadena de Markov se define como una secuencia de variables aleatorias que representan los estados de un determinado sistema durante una serie de intervalos de tiempo, de modo tal que el estado del sistema en el intervalo actual depende únicamente de su estado en el intervalo inmediato anterior y no de los estados previos. Fuente

Luego de varios intentos, esta imagen que logré crear.

Que increible la cantidad de informacion que tomaron para entrenar a esta inteligencia.

Si estás en Venezuela, debes usar VPN

⚛️ Si quieren ver una explicación más detallada de CLIP a su vez que leen el paper, les recomiendo este video, y de paso que le den una mirada a los otros videos de ese canal, creo que son muy entendibles para los papers de ML

La cantidad de procesos internos que se desarrollan dentro de estos elementos es altamente complejo y es bueno saber. Gracias

Este fue mi promt![](````

Create an image in DALLE-2 that combines cyberpunk elements with the music of Gustavo Cerati, Charly García, and Fito Paez. Use vibrant and saturated colors, as well as technological and futuristic elements that suggest a dystopian society. The three musicians should be represented in the image, perhaps as avatars or digital characters. The image should be a tribute to the music of these artists and their influence on Latin American culture. Let the future meet the past in your design! y la les muestro como me quedo por que no pude subir la imagen!j

Text-to-Image Diffusion (T2ID) es una técnica de generación de imágenes que utiliza un modelo de difusión para generar imágenes a partir de texto. El modelo de difusión es un modelo generativo que se basa en la idea de que las imágenes se pueden construir a partir de una serie de pasos de difusión que aplican pequeñas perturbaciones a una imagen inicial. En T2ID, estas perturbaciones se generan a partir de un texto de entrada.


Lo primero que generé con Dalle-E: el Homero Simpson bailando reggaeton

Gracias, esperaba este curso, toca afinar la técnica.

No se dice "encodeamos" (horrible). Se dice "codificamos".
Tenía muchas ganas de este curso. Enhorabuena Carlos. Ni intentes utilizarlo para generar assets para la creación de videojuegos. Espero que pronto sigas grabando la continuacion de este y nos lleves por otros mundos. 🙂 Voy a probar todo esto en un proyecto cyberpunk. El devblog: puede seguirse aquí: https://youtube.com/@DaniMartinIndie Gracias y ánimos con el curso!

Team Platzi, cada vez me sorprendes más,.
Gracias.

:3 Ya me emocione.

Muchas expectativas por este curso, amo aquí!

Image with noise in stable difussion!! 💚