Upscale: escalado de imágenes

Clase 11 de 23 • Curso de Stable Diffusion para Generación de Imágenes con AI

Resumen

¿Qué hemos aprendido hasta ahora?

¡Hola! Felicitaciones por llegar tan lejos en este curso. Has adquirido una comprensión detallada sobre la generación de imágenes a partir de texto utilizando herramientas como DALL·E, MidJourney y Stable Diffusion. Ahora entiendes cómo funcionan los modelos de difusión y cómo CLIP juega un papel crucial en combinar texto e imagen. Además, has conocido a OpenAI y otras destacadas compañías en este campo.

¿Qué es Stable Diffusion Upscale?

Stable Diffusion es una tecnología de código abierto que sigue creciendo a través de nuevas librerías y técnicas. En esta clase, exploraremos el método Upscale, que permite aumentar la resolución de una imagen base sin perder calidad.

¿Cómo funciona Stable Diffusion Upscale?

Dentro de la interfaz de Automatic 1111 y usando Stable Diffusion 2.0, te enseñaré a transformar una imagen usando Upscale. Por ejemplo, generamos una imagen sencilla de un perrito con un sombrero (768x768) y luego escalamos su resolución:

Paso 1: Generar la imagen base.
Paso 2: Enviar la imagen a ImageToImage.
Paso 3: Usar el script Stable Diffusion Upscale, estableciendo un factor de escala. Por defecto, podrías duplicar la resolución inicial. Prefiero usar el modelo Ersgan 4x para un escalado óptimo de imágenes.
Paso 4: Ajustar el Denoising String entre 0.2 y 0.4.
Paso 5: Utilizar Euler Ancestral (Euler A) para la mejor calidad de escalado.
Resultado: Generar la imagen final, ahora escalada a 1536x1536.

¿Qué otras herramientas ofrece Automatic 1111?

Además del escalado, otra función poderosa de Automatic 1111 es "Interrogar CLIP". Esto invierte el proceso text-to-image:

Al cargar una imagen existente y seleccionar "interrogar", el sistema analiza y describe la imagen seleccionada con texto preciso. Por ejemplo, podría describir la imagen que generamos como "un perro con un gorrito o sombrero azul, sentado en una superficie verde, con un fondo naranja". Esto ofrece una útil herramienta de interpretación y descripción visual en el módulo image-to-image.

Este proceso demuestra las amplias capacidades de Stable Diffusion para no solo generar imágenes a alta resolución, sino también traducir las características visuales a descripciones textuales precisas.

Sigue explorando y aprendiendo sobre estas herramientas y ¡nos vemos en la siguiente clase, donde ahondaremos en las posibilidades de image-to-image con Stable Diffusion!