Y listo, ya sabemos como funcionan los modelos de generacion de imagenes
Generación de imágenes con Stable Diffusion
Generación de imágenes con Stable Diffusion Online
¿Cómo funciona text-to-Image: difussion?
Stable Diffusion con Google Colab y DreamStudio
Quiz: Generación de imágenes con Stable Diffusion
Generación de imágenes desde AUTOMATIC 11111
Instalación de AUTOMATIC 1111
AUTOMATIC 1111: interfaz web de Stable Diffusion
Quiz: Generación de imágenes desde AUTOMATIC 11111
Mejora de prompts para Stable Diffusion
Prompt tuning con Stable Diffusion
Prompt tuning con Stable Diffusion: práctica
Quiz: Mejora de prompts para Stable Diffusion
Inpainting y outpainting con Stable Diffusion
Stable Diffusion: Inpainting
Instalación de PaintHua
Stable Diffusion: Outpainting con PaintHua
Quiz: Inpainting y outpainting con Stable Diffusion
Funciones avanzadas de Stable Diffusion
Upscale: escalado de imágenes
Image-to-Image
Depth-to-Image
Merge models: combinar modelos de difussion
Qué es Control Net de Stable Difussion y cómo utilizarlo.
Quiz: Funciones avanzadas de Stable Diffusion
DreamBooth: fine tuning de modelos de difusión
¿Cómo funciona DreamBooth?
DreamBooth: fine-tuning
Quiz: DreamBooth: fine tuning de modelos de difusión
Implicaciones éticas y económicas de imágenes con inteligencia artificial
Sesgos y bias en modelos de generación de imágenes
¿Cómo afecta la generación de imágenes con IA a otras profesiones?
Impacto de arte y diseño con IA: entrevista con Daniel Torres Burriel
Perspectiva de artistas y diseñadoras: entrevista con Amelia Amórtegui
Quiz: Implicaciones éticas y económicas de imágenes con inteligencia artificial
Conclusión
¿Qué esperar de Stable Diffusion y el open source en el futuro?
Aportes 89
Preguntas 1
Y listo, ya sabemos como funcionan los modelos de generacion de imagenes
Hola Chicos 😄!
Stable Diffusion:
1. Text encoder(Entendimiento de texto)
2. Image generator
Image formation creator: Generador de la información de la imágen
Image autoencoder: Quien toma el espacio vectorial y genera una imagen como resultado
Diffuser: Generar ruido en una imagen
Mi creaciòn por medio de texto
Miren los logos que realicé:
DALLE es libre y cualquier puede generar una imagen con solo ingresar un PROMPT = descripcion.
Nos enfocaremos en Stable diffusion, que es otra IA de text-to-image, pero con algo muy particular e interesante, ya que funciona en una espacio vectorial en su modelo de DIFFUSION → es una tecnica que agrega ruido a una imagen de alta definicion.
Estos modelos basados en DIFFUSION, funcionan con 2 perspectivas o enfoques:
PROMPT
→ Text encoder (Entendimiento del texto)
CLIP
→ arquitectura desarrollada por openai, capaz de relacionar textos con imagenes, se entrena con data sets de imagenes + su descripción detallada.image generator
: lo que genera la magen → toma un vector generado por CLIP
Diffuser
: es una tecnica que agrega ruido en una imagen, el secreto es pasar una imagen con mucho ruido a una imagen de alta calidad, basicamente predice la imagen, eliminando el ruido**U-net**
: arquitectura que reduce la dimensionalidad, para q sea mas facil de trabajar y luego tambien puede aumentarlo.DALL·E 2: A rancher frog playing the banjo in a swamp, straw hat, cool color scheme, misty, digital art
Luego de varios intentos, esta imagen que logré crear.
Información resumida de esta clase
#EstudiantesDePlatzi
Es importante que el Promt este en ingles
Stable Difusion funciona con 2 perspectivas, primero el entendimiento del texto y segundo, la generación de la imagen
CLIP es una tecnología desarrollada por Open IA, capas de relacionar texto con imágenes
Podemos dividir el image generator en dos: Image formation creator y image autoencoder
Difusion es una técnica en donde agregamos ruido a una imagen de alta definición
Los modelos de Difusion inician con una imagen con mucho ruido y terminan con una imagen de alta calidad
U-Net es una arquitectura donde buscamos reducir en el espacio dimensional algo
Con cada paso se reduce el ruido
Es buena idea tomarse el tiempo para entender como funciona esta tecnología
Prompt -> Clip -> Espacio vectorial -> U-Net -> Decoder -> image
Prompt: cute mini panda working behind a laptop
Midjourney
¿A qué nos referimos con Prompt?
Es una indicación o instrucción que se le da a un programa para que pueda realizar una tarea específica; en este caso, para la generación de la imagen.
Me Rindo
Si alguien no conocía el término Cadena de Markov (me incluyo) aquí una pequeña definición: Una cadena de Markov se define como una secuencia de variables aleatorias que representan los estados de un determinado sistema durante una serie de intervalos de tiempo, de modo tal que el estado del sistema en el intervalo actual depende únicamente de su estado en el intervalo inmediato anterior y no de los estados previos. Fuente
Anoche estuve buscando un curso de Stable Diffusion sin éxito, y entro a platzi y me encuentro con esto recién publicado ❤️
Dall-e ya no es gratuito, Microsoft a través de Bing ofrece el servicio todavía gratis.
https://www.bing.com/images/create
⚛️ Si quieren ver una explicación más detallada de CLIP a su vez que leen el paper, les recomiendo este video, y de paso que le den una mirada a los otros videos de ese canal, creo que son muy entendibles para los papers de ML
que lastima que ya no es gratis 😕
Se nota que Carlos Alarcón sabe bastante del tema, el detalle que veo es que muchas veces -en varios cursos que he visto con él- da por descontado que todos los demás estamos familiarizados con los términos técnicos que usa y se ahorra la explicación.
Sí, uno toma notas y luego investiga los términos, pero eso interrumpe el proceso didáctico y se pierde continuidad del aprendizaje. Algo que ojalá se tome en cuenta pronto en Platzi, porque de resto los temas son muy oportunos.
Las manos son problemáticas para las IA, no he visto alguna que lo haya resuelto 100%.
Dall-E ya no deja hacer lo que se ve en la clase requiere de creditos
En esta lección, profundizaremos en el funcionamiento de Stable Diffusion, un componente fundamental en la generación de imágenes asistida por inteligencia artificial (IA). Stable Diffusion opera como un modelo vectorial en el proceso de difusión y se compone de dos elementos esenciales:
El Codificador de Texto se fundamenta en CLIP (Preentrenamiento de Lenguaje-Imagen Contrastiva), una arquitectura desarrollada por OpenAI. Esta fase del proceso tiene como objetivo establecer relaciones entre textos e imágenes. Implica la codificación tanto del texto como de la imagen, seguido de una comparación utilizando medidas de similitud, como la similitud de coseno. Esto facilita la correlación entre las secuencias de texto y las secuencias de píxeles en las imágenes.
El dataset empleado para entrenar Stable Diffusion es conocido como LAION-5B y consta de 5 billones de imágenes, cada una acompañada de su correspondiente “caption.”
El Generador de Imágenes toma un vector de dimensión 77x768 derivado de CLIP y utiliza una imagen de ruido aleatorio para generar una imagen en formato RGB (rojo, verde, azul). El Generador de Imágenes se divide en dos componentes principales:
Para una comprensión completa del funcionamiento de Stable Diffusion, es crucial entender el papel de la Información de Imagen y el Difusor en el proceso de generación de imágenes.
El proceso de difusión es una técnica que involucra la adición progresiva de ruido a una imagen de alta definición. A través de una serie de etapas, el ruido se incorpora gradualmente a la imagen hasta que esta se vuelve prácticamente indistinguible. Este proceso se conoce como “Proceso de Difusión Fija.”
A continuación, el proceso de Desruido Generativo se encarga de recuperar la imagen de alta definición a partir del ruido. En este proceso, el modelo se entrena para determinar cuánto ruido debe eliminarse de la imagen para que esta sea perceptible y nítida.
La utilización de U-Net implica la reducción de la dimensionalidad de las imágenes, lo que simplifica el procesamiento. A través de múltiples pasos de U-Net, el ruido se elimina gradualmente, resultando en una imagen más definida. Por ejemplo, podrían llevarse a cabo 50 pasos en este proceso.
La arquitectura de difusión sigue el siguiente flujo:
Este flujo describe cómo las imágenes se procesan desde su forma original en el espacio de píxeles hasta la incorporación de ruido constante, la condición relacionada con CLIP y, finalmente, el proceso de Denoising U-Net para obtener imágenes nítidas y de alta calidad.
La ejecución de la generación de imágenes a partir de un texto, como “An astronaut riding a horse,” utilizando el modelo Text-to-Image con Stable Diffusion generalmente seguiría los siguientes pasos:
Input del Usuario: El usuario proporciona un texto descriptivo que describe la imagen que desea generar. En este caso, el texto es “An astronaut riding a horse.”
Codificación del Texto: El texto proporcionado (“An astronaut riding a horse”) se codifica utilizando el modelo Text Encoder basado en CLIP. Esto implica la representación numérica del texto, lo que permite establecer una relación entre el texto y las imágenes.
Generación de Imagen en Espacio Latente: El vector codificado del texto se utiliza como entrada para el Generador de Imágenes. El Generador de Imágenes genera una imagen inicial en un espacio latente, que es una imagen en bruto basada en la descripción textual.
Proceso de Difusión: La imagen generada inicialmente se somete al proceso de difusión. En este proceso, se agrega gradualmente ruido a la imagen, lo que la hace menos nítida y más abstracta a medida que avanza el proceso.
Proceso de Denoising Generativo: Luego, se aplica el proceso de Denoising Generativo para eliminar el ruido y restaurar la claridad de la imagen. Este proceso implica entrenar al modelo para eliminar el ruido añadido en el paso anterior.
U-Net y Reducción Dimensional: En cada paso de U-Net, la imagen se somete a una reducción de dimensionalidad para eliminar aún más el ruido y mejorar la definición de la imagen.
Resultado Final: Después de un número específico de pasos de U-Net (por ejemplo, 50 pasos), se obtiene una imagen final que representa la descripción textual proporcionada por el usuario. En este caso, sería una imagen que muestra a un astronauta montando un caballo.
Entrega de la Imagen al Usuario: La imagen generada se presenta al usuario como resultado, y el usuario puede visualizarla o utilizarla según sea necesario.
Es importante recordar que este proceso es altamente complejo y requiere de una potencia computacional significativa. Además, la calidad de la imagen generada dependerá de la precisión del modelo y del texto de entrada proporcionado por el usuario. En este ejemplo, el modelo Text-to-Image con Stable Diffusion debería ser capaz de crear una representación visual convincente de un astronauta montando un caballo basada en la descripción textual dada.
Les comparto algunas imagenes que he generado este año con la IA, espero les guste
hola a todos, si estas aprendiendo y te topaste que los creditos de DALL-E 2 cuestan 15 dolares. puedes probar como funciona la IA de BING te regala 100 creditos y tambien tiene un chatgpt
SI QUIEREN TENER DALL-E EN ESPAÑOL O OTROS IDIOMAS, POR EL MOTOR DE BUSQUEDA CHROME, EL HACE LA TRADUCCION AUTOMATICA, AJUSTAN EL IDIOMA
La cantidad de procesos internos que se desarrollan dentro de estos elementos es altamente complejo y es bueno saber. Gracias
DALL-E es de pago, pero hay opciones gratuitas como Bing, Midjourney o LeonardoAI, que es lo que yo utilizo
Messi y cr7 besandose JAJAJAJAJ
AI: Midjourney
Prompt: Photograph of Cristiano Ronaldo and Messi kissing on the beach while the sun sets behind them. Beach portrait photography style with warm and pastel tones. (Styles) References to artists like Annie Leibovitz and Peter Lindbergh.Natural sunset light that gives a soft and romantic effect. Golden light reflector that focuses on the main scene.Warm and saturated color settings to highlight the models’ skin and the background beach.Photograph taken with a Canon EOS R6 camera with Canon RF 50mm f/1.2L USM lens. Focus on the models to create a blurry effect on the background beach.
Dall-e 2 es un sistema de AI pero ya no es gratuito, ya que pide créditos para generar las imágenes. Los prompt deben estar siempre en inglés.
You’re out of credits?
Ya se acabaron los creditos gratuitos para los que se inscriban después del 6 de abril 😦
Qué lástima que Dalle ya no es gratis U_U.
Text-to-Image Diffusion (T2ID) es una técnica de generación de imágenes que utiliza un modelo de difusión para generar imágenes a partir de texto. El modelo de difusión es un modelo generativo que se basa en la idea de que las imágenes se pueden construir a partir de una serie de pasos de difusión que aplican pequeñas perturbaciones a una imagen inicial. En T2ID, estas perturbaciones se generan a partir de un texto de entrada.
Image with noise in stable difussion!! 💚
Dall-E pide créditos para generar las imágenes.
🤯 quedé así jajajaja, es increíble todo lo que hay por detrás de estos modelos, qué intimidante, abrumador pero sobre todo retador de aprender.🔥
¡Qué interesante! Es sorprendente cómo la tecnología ha avanzado hasta el punto en que podemos generar imágenes a partir de una simple descripción. La técnica de text-to-image basada en difusión es fascinante y me encanta cómo funciona con un enfoque de dos perspectivas: texto e imagen. A través de la combinación de CLIP y el generador de imagen, los modelos basados en difusión pueden crear imágenes cada vez más realistas mediante la eliminación del ruido en una imagen. Además, la lectura recomendada y los enlaces proporcionados son muy útiles para entender mejor esta técnica. ¡Increíble lo que se puede hacer con la inteligencia artificial!
Que increible la cantidad de informacion que tomaron para entrenar a esta inteligencia.
Si estás en Venezuela, debes usar VPN
Difusion es una tecnica que se encarga de agregar ruido a una imagen
Difusion es una tecnica que se encarga de agregar ruido a una imagen
Difusion es una tecnica que se encarga de agregar ruido a una imagen
Difusion es una tecnica que se encarga de agregar ruido a una imagen
Difusion es una tecnica que se encarga de agregar ruido a una imagen
Difusion es una tecnica que se encarga de agregar ruido a una imagen
Difusion es una tecnica que se encarga de agregar ruido a una imagen
Difusion es una tecnica que se encarga de agregar ruido a una imagen
Difusion es una tecnica que se encarga de agregar ruido a una imagen
Para crear imágenes en Dall-E se requiere pagar
1. Text
Estas IA funcionan con 2 perspectivas. 1. Entendimiento del texto. 2. Generation Image.
"Text to Image" es una técnica utilizada para generar imágenes o ilustraciones a partir de una descripción de texto que se proporciona como entrada. Esta técnica aprovecha modelos de inteligencia artificial y aprendizaje automático para transformar una descripción textual en una imagen que corresponda a esa descripción. Esencialmente, el proceso implica convertir el lenguaje natural en contenido visual
Soy en único que piensa que Dall-E me suena como Wall-E el simpatico Robot de la pelicula homonima de Disney Pixar
Tienes la capacidad de producir cualquier descripción o imagen siempre y cuando esté en inglés.
This not is free
Muy interesante
No es magia es ciencia!!!
Clip
Este fue mi promt![](````
Create an image in DALLE-2 that combines cyberpunk elements with the music of Gustavo Cerati, Charly García, and Fito Paez. Use vibrant and saturated colors, as well as technological and futuristic elements that suggest a dystopian society. The three musicians should be represented in the image, perhaps as avatars or digital characters. The image should be a tribute to the music of these artists and their influence on Latin American culture. Let the future meet the past in your design! y la les muestro como me quedo por que no pude subir la imagen!j
Lo primero que generé con Dalle-E: el Homero Simpson bailando reggaeton
Gracias, esperaba este curso, toca afinar la técnica.
:3 Ya me emocione.
Muchas expectativas por este curso, amo aquí!
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?