Fundamentos de generaci贸n de im谩genes con texto

1

驴Qu茅 es text-to-Image en inteligencia artificial?

2

C贸mo funciona text-to-Image: difussion

3

Exponentes de IA generativa: DALL路E 2, Midjourney y Stable Difussion

DALL路E 2

4

Generaci贸n de im谩genes con DALL路E 2

5

Restricciones y limitantes de DALL路E 2

6

Prompt tuning: luces, detalles, sombras y perspectivas

7

Prompt tuning en DALL路E 2: pr谩ctica

8

Prompt tuning: estilos y artistas

9

Prompt tuning en DALL路E 2: pr谩ctica de estilos y artistas

10

Uso de API de DALL路E 2 con Python

Midjourney

11

Generaci贸n de im谩genes con Midjourney

12

Prompt tuning con Midjourney

13

Prompt tuning con Midjourney: pr谩ctica

14

Image-to-Image y Blend con Midjourney

Stable Diffusion

15

Stable Diffusion con Google Colab y DreamStudio

16

Instalaci贸n de AUTOMATIC 1111

17

AUTOMATIC 1111: interfaz web de Stable Diffusion

18

Prompt tuning con Stable Diffusion

19

Prompt tuning con Stable Diffusion: pr谩ctica

Inpainting y outpainting

20

DALL路E 2: Inpainting

21

Stable Diffusion: Inpainting

22

DALL路E 2: Outpainting

23

Instalaci贸n de PaintHua

24

Stable Diffusion: Outpainting con PaintHua

Stable Diffusion features

25

Upscale: escalado de im谩genes

26

Image-to-Image

27

Depth-to-Image

28

驴C贸mo funciona DreamBooth?

29

DreamBooth: fine-tuning

30

Merge models: combinar modelos de difussion

Implicaciones 茅ticas y econ贸micas de im谩genes con inteligencia artificial

31

Sesgos y bias en modelos de generaci贸n de im谩genes

32

驴C贸mo afecta la generaci贸n de im谩genes con IA a otras profesiones?

33

Impacto de arte y dise帽o con IA: entrevista con Daniel Torres Buriel

34

Perspectiva de artistas y dise帽adoras: entrevista con Juan D谩vila

35

Perspectiva de artistas y dise帽adoras: entrevista con Amelia Am贸rtegui

Conclusi贸n

36

驴Qu茅 nos deparar谩 el futuro de la IA generativa?

Aprende todo un fin de semana sin pagar una suscripci贸n 馃敟

Aprende todo un fin de semana sin pagar una suscripci贸n 馃敟

Reg铆strate

Comienza en:

3D
20H
9M
6S

C贸mo funciona text-to-Image: difussion

2/36
Recursos

Aportes 30

Preguntas 7

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Y listo, ya sabemos como funcionan los modelos de generacion de imagenes

Hola Chicos 馃槃!

Stable Diffusion:

1. Text encoder(Entendimiento de texto)

  • CLIP: (Contrastive Language-Image Pre-Training): Es una tecnologia o arquitectura desarrollada por el equipo de Open AI capaz de relacionar textos con imagenes.

2. Image generator

  • Image formation creator: Generador de la informaci贸n de la im谩gen

  • Image autoencoder: Quien toma el espacio vectorial y genera una imagen como resultado
    Diffuser: Generar ruido en una imagen

Mi creaci貌n por medio de texto

DALL路E 2: A rancher frog playing the banjo in a swamp, straw hat, cool color scheme, misty, digital art

2 - C贸mo funciona text-to-Image: difussion

DALLE es libre y cualquier puede generar una imagen con solo ingresar un PROMPT = descripcion.

Nos enfocaremos en Stable diffusion, que es otra IA de text-to-image, pero con algo muy particular e interesante, ya que funciona en una espacio vectorial en su modelo de DIFFUSION 鈫 es una tecnica que agrega ruido a una imagen de alta definicion.

Estos modelos basados en DIFFUSION, funcionan con 2 perspectivas o enfoques:

  1. PROMPT 鈫 Text encoder (Entendimiento del texto)
    1. Se basa en CLIP 鈫 arquitectura desarrollada por openai, capaz de relacionar textos con imagenes, se entrena con data sets de imagenes + su descripci贸n detallada.
  2. image generator: lo que genera la magen 鈫 toma un vector generado por CLIP
    1. image formator creator: Generador de la informaci贸n de la im谩gen
    2. image auto encoder: Quien toma el espacio vectorial y genera una imagen como resultado
      • Diffuser: es una tecnica que agrega ruido en una imagen, el secreto es pasar una imagen con mucho ruido a una imagen de alta calidad, basicamente predice la imagen, eliminando el ruido
      • **U-net**: arquitectura que reduce la dimensionalidad, para q sea mas facil de trabajar y luego tambien puede aumentarlo.

Miren los logos que realic茅:

Anoche estuve buscando un curso de Stable Diffusion sin 茅xito, y entro a platzi y me encuentro con esto reci茅n publicado 鉂わ笍

Me Rindo

驴A qu茅 nos referimos con Prompt?
Es una indicaci贸n o instrucci贸n que se le da a un programa para que pueda realizar una tarea espec铆fica; en este caso, para la generaci贸n de la imagen.


Prompt: cute mini panda working behind a laptop
Midjourney

Las manos son problem谩ticas para las IA, no he visto alguna que lo haya resuelto 100%.

Si alguien no conoc铆a el t茅rmino Cadena de Markov (me incluyo) aqu铆 una peque帽a definici贸n: Una cadena de Markov se define como una secuencia de variables aleatorias que representan los estados de un determinado sistema durante una serie de intervalos de tiempo, de modo tal que el estado del sistema en el intervalo actual depende 煤nicamente de su estado en el intervalo inmediato anterior y no de los estados previos. Fuente

Luego de varios intentos, esta imagen que logr茅 crear.

Que increible la cantidad de informacion que tomaron para entrenar a esta inteligencia.

Si est谩s en Venezuela, debes usar VPN

鈿涳笍 Si quieren ver una explicaci贸n m谩s detallada de CLIP a su vez que leen el paper, les recomiendo este video, y de paso que le den una mirada a los otros videos de ese canal, creo que son muy entendibles para los papers de ML

La cantidad de procesos internos que se desarrollan dentro de estos elementos es altamente complejo y es bueno saber. Gracias

Este fue mi promt![](````

Create an image in DALLE-2 that combines cyberpunk elements with the music of Gustavo Cerati, Charly Garc铆a, and Fito Paez. Use vibrant and saturated colors, as well as technological and futuristic elements that suggest a dystopian society. The three musicians should be represented in the image, perhaps as avatars or digital characters. The image should be a tribute to the music of these artists and their influence on Latin American culture. Let the future meet the past in your design! y la les muestro como me quedo por que no pude subir la imagen!j

Text-to-Image Diffusion (T2ID) es una t茅cnica de generaci贸n de im谩genes que utiliza un modelo de difusi贸n para generar im谩genes a partir de texto. El modelo de difusi贸n es un modelo generativo que se basa en la idea de que las im谩genes se pueden construir a partir de una serie de pasos de difusi贸n que aplican peque帽as perturbaciones a una imagen inicial. En T2ID, estas perturbaciones se generan a partir de un texto de entrada.


Lo primero que gener茅 con Dalle-E: el Homero Simpson bailando reggaeton

Gracias, esperaba este curso, toca afinar la t茅cnica.

No se dice "encodeamos" (horrible). Se dice "codificamos".
Ten铆a muchas ganas de este curso. Enhorabuena Carlos. Ni intentes utilizarlo para generar assets para la creaci贸n de videojuegos. Espero que pronto sigas grabando la continuacion de este y nos lleves por otros mundos. 馃檪 Voy a probar todo esto en un proyecto cyberpunk. El devblog: puede seguirse aqu铆: https://youtube.com/@DaniMartinIndie Gracias y 谩nimos con el curso!

Team Platzi, cada vez me sorprendes m谩s,.
Gracias.

:3 Ya me emocione.

Muchas expectativas por este curso, amo aqu铆!

Image with noise in stable difussion!! 馃挌