Genera imágenes con Stable Diffusion en Colab

Taller de Creación de Contenido con Inteligencia Artificial

Contenido del curso

¡Conoce el proyecto y comienza a crear!

Crea contenido con IA

Crea videos animados con Inteligencia Artificial

Tomar examen

Genera imágenes con Stable Diffusion en Colab

Resumen

Crear imágenes con inteligencia artificial dejó de ser exclusivo de artistas digitales. Con Stable Diffusion puedes generar retratos hiperrealistas en segundos, sin pagar licencias y con la opción de entrenar un modelo personalizado de tu propio rostro. Aquí te muestro el flujo completo en Google Colab para que armes tu primer avatar listo para una campaña visual.

¿Qué es Stable Diffusion y por qué usarlo?

Stable Diffusion es un modelo de generación de imágenes desarrollado por Stability AI que convierte texto en imagen (text to image). A diferencia de Dall-E o Midjourney, es libre, gratuito y permite ejecutarlo en tu propio entorno.

¿Qué diferencia a Stable Diffusion de Dall-E o Midjourney? Stable Diffusion es de código abierto, gratuito y puedes entrenar modelos personalizados con tu rostro o estilo. Dall-E y Midjourney funcionan como servicios cerrados de pago.

La versión que vamos a usar es la 2.1 en resolución 512x512, suficiente para retratos limpios y bien definidos.

¿Cómo preparar el entorno en Google Colab?

El flujo arranca en un notebook de Google Colab que se ejecuta celda por celda. El orden importa porque cada paso instala dependencias necesarias para la siguiente etapa [01:20].

Instala la librería para conectar con Google Drive, donde puede reposar tu modelo personalizado.
Verifica que el entorno de ejecución esté en GPU, no en CPU.
Otorga permisos a Colab para montar tus archivos de Drive.
Instala Automatic1111, la interfaz visual que hace cómodo el manejo de Stable Diffusion.
Carga los requerimientos extra y descarga los pesos del modelo 2.1 [02:45].

Si entrenaste un modelo propio, copias la ruta del archivo CKPT y la pegas en el campo Path model. Si no, el modelo base funciona perfecto para empezar.

¿Qué hace Automatic1111?

Es una interfaz web que se levanta desde Colab y te entrega una URL para trabajar con Stable Diffusion sin tocar código Python. Allí escribes los prompts, ajustas parámetros y descargas las imágenes generadas.

¿Cómo escribir un buen prompt para Stable Diffusion?

El prompt es la instrucción de texto que describe lo que quieres ver. Mientras más específico seas, mejor responde el modelo. La caja inferior, el negative prompt, sirve para listar lo que no quieres que aparezca.

Un ejemplo de partida sería: portrait of an astronaut without a helmet, front view, middle shot, hyperrealistic, 4K, high definition. En el negative prompt escribes: blurry, helmet, ugly, fingers, letters.

¿Qué es un negative prompt? Es el campo donde describes elementos que el modelo debe evitar en la imagen, como blurry, helmet o ugly. Funciona como un filtro inverso.

Un detalle importante: estos modelos son muy textuales. Si escribes whitout en lugar de without, el casco vuelve a aparecer. Cada palabra cuenta.

¿Qué parámetros ajustar para mejorar la imagen?

Más allá del texto, hay tres controles que cambian radicalmente el resultado.

Sampling steps: número de pasos que el modelo usa para construir la imagen. Subirlo a 30 pasos mejora calidad pero tarda más.
CFG scale: define qué tan fiel es el modelo al prompt. Valores altos respetan más la instrucción pero matan creatividad. Un valor de 10 suele ser un buen balance.
Seed: la semilla aleatoria. En -1 genera imágenes nuevas cada vez. Si fijas una semilla puntual, replicas una imagen que te gustó.

¿Cómo iterar hasta encontrar la imagen ideal?

La generación es un proceso de prueba y refinamiento. Empiezas con un prompt base, observas qué falla y vas afinando. Por ejemplo, si quieres una mujer astronauta centrada, el prompt cambia a portrait of a female astronaut, centered y agregas man al negative prompt [07:30].

Cuando una imagen te convence, puedes:

Copiar su seed para reproducirla.
Cambiar el width a 768 para mayor resolución.
Guardarla con un nombre descriptivo como astronauta campaña.

¿Para qué sirve entrenar un modelo personalizado?

Un modelo personalizado consiste en una interpretación digital de tu rostro generada a partir de tus fotos. Esto te permite aparecer como astronauta, científico o personaje de fantasía en cualquier prompt que diseñes.

La lógica es la misma: cargas el archivo CKPT entrenado en la celda de pesos y todas las generaciones se basan en tu rostro. Es ideal para campañas personales, avatares profesionales o proyectos creativos donde quieres ser el protagonista.

Ahora te toca a ti: comparte el avatar que creaste para la campaña del Space Program. Puedes probar con científicos, ingenieros, estudiantes o seres de otro planeta. Comenta qué prompt usaste y dale retroalimentación a los avatares de tus compañeros.