Contenido del curso

Anatomía de un prompt para imágenes con IA

Resumen

Crear imágenes impactantes con Stable Diffusion o Flux no depende solo del modelo, depende de cómo escribes el prompt. Aquí aprendes la anatomía de un prompt efectivo para que tus resultados dejen de verse genéricos y empiecen a parecerse a esa imagen que tienes en la cabeza.

¿Por qué un prompt no es lo mismo que una idea?

Cuando hablas con ChatGPT pides cosas en abstracto: "hazme una tabla", "explícame esto". Pero los modelos de imagen como Flux o Stable Diffusion no funcionan igual. Ellos no interpretan deseos, interpretan descripciones estructuradas.

El camino siempre es el mismo: pasas de una idea, a una descripción, a un prompt.

Mira el contraste. Tu idea puede ser "un viajero en una montaña en el futuro". Eso, suelto, le dice muy poco al modelo. La descripción ya añade detalle: "un viajero con una mochila viendo una ciudad futurista a lo lejos sobre el filo de una montaña". Y el prompt final lo lleva a otro nivel: "un viajero solitario con una mochila de trekking de pie al borde de una montaña, observando una ciudad futurista que brilla con luces de neón, drones volando en el cielo, fusionando estéticas solarpunk y cyberpunk, con iluminación dramática y atmósfera cinematográfica".

¿Qué es un prompt para generar imágenes? Es una descripción precisa y estructurada de la escena que quieres crear. No es un deseo ni una idea suelta, es una instrucción detallada con sujeto, contexto, elementos visuales y estilo.

¿Cuál es la estructura de un buen prompt para imágenes?

Un prompt sólido se construye sobre cuatro bloques. Si te falta alguno, el modelo improvisa, y ahí es donde aparecen esas imágenes "normales" que no terminan de convencerte.

Sujeto principal y ángulo de visión

Es el quién o el qué de la imagen. Aquí defines características concretas: tipo de objeto, color, figura, texto si lo lleva. Si es un carro, ¿qué tipo? Si es una persona, ¿cómo está vestida?

Después viene el ángulo de visión. No es lo mismo un plano aéreo desde la montaña que un primer plano de una mano con un anillo. Define desde dónde se ve la escena.

Contexto y entorno

Aquí ubicas al sujeto en un lugar y le das un mood. Incluye:

  • Ubicación y paisaje, como una montaña, una ciudad o un interior arquitectónico.
  • Ambiente espacial, es decir, dónde sucede la escena.
  • Atmósfera y estado de ánimo, por ejemplo melancólico, nocturno, al atardecer o cinematográfico.

Un mismo sujeto cambia por completo según el contexto que lo rodea.

Elementos visuales y estilo

Los elementos visuales suman colores, texturas e iluminación. Tonos cálidos de atardecer, textura rugosa de corteza, luz suave, sombras marcadas, iluminación dramática.

El estilo y estética cierran el prompt. Aquí decides si quieres acuarela, arte digital, fotorrealismo o anime de los 90. Puedes apoyarte en influencias artísticas concretas como Van Gogh o Beksinski para guiar la dirección visual.

¿Por qué importa el orden de los elementos en el prompt? Porque el modelo interpreta jerarquía según la secuencia. Si cambias el orden, cambian los resultados. Por eso conviene iterar: prueba, mueve un elemento y compara qué pasa.

¿En qué idioma debo escribir mis prompts?

Puedes escribirlos en español, pero la recomendación es escribirlos en inglés. La mayoría de modelos de imagen están optimizados para inglés, y muchas empresas lanzan sus primeros features solo en ese idioma. Apple Intelligence, por ejemplo, arrancó disponible únicamente con Siri en inglés.

Si te sientes más cómodo pensando en español, hay un truco simple: escribe tu prompt completo en español y pídele a ChatGPT que lo traduzca a inglés. Le pasas el prompt largo, le dices "traduce este prompt a inglés" y lo usas en Flux o Stable Diffusion.

Un detalle práctico: dependiendo del modelo y de si lo pagas o no, puede que el prompt sea demasiado largo y exceda los tokens disponibles. En ese caso toca optimizar y recortar para que entre dentro del límite del modelo.

¿Cómo se ve un prompt completo, desglosado?

Volvamos al ejemplo del viajero, ahora separado por bloques:

  1. Sujeto principal: un viajero solitario con una mochila de trekking de pie al borde de una montaña, observando una ciudad futurista que brilla con luces de neón, drones volando en el cielo.
  2. Estilo y estética: fusión de estéticas solarpunk y cyberpunk.
  3. Contexto y entorno: una ciudad vibrante, con vegetación integrada en arquitectura avanzada, paneles solares y tecnología elegante.
  4. Elementos visuales: contraste entre paisaje natural y entorno urbano de alta tecnología, iluminación dramática y atmósfera cinematográfica.

Cuando juntas los cuatro bloques, el modelo deja de adivinar y empieza a construir exactamente lo que tienes en mente.

¿Con qué tipo de imágenes deberías practicar primero?

Antes de saltar a productos comerciales, conviene practicar con escenarios de fantasía e imaginación. Describir escenas complejas te entrena el músculo de la estructura, y eso después se traduce en mejores fotos de producto cuando llegues al terreno comercial.

Un par de variables extra para sumar a tu práctica son la acción del sujeto y la composición de la imagen. Juega con ellas, mueve el orden, cambia el estilo, prueba ángulos distintos.

¿Qué imagen vas a crear primero? Comparte abajo lo que generes y cuéntanos qué bloque de la estructura te costó más afinar.