Resumen

Pedirle a la inteligencia artificial que genere "una oficina moderna" puede darte un resultado genérico que no se parece en nada a lo que tenías en mente. La diferencia entre una imagen predecible y una que refleje exactamente tu visión está en cómo describes la escena. Dominar la estructura de un prompt para generación de imágenes es una habilidad que transforma resultados mediocres en creaciones precisas y profesionales.

¿Por qué un prompt vago produce imágenes genéricas?

Cuando escribes instrucciones como "genera una imagen de una oficina moderna", el modelo interpreta esas palabras con la referencia más común que tiene en sus datos de entrenamiento [0:08]. El resultado será algo ordenado, limpio y estándar, pero quizás tú imaginabas un open space caótico al estilo de las oficinas de Facebook o Google.

La analogía es simple: imagina que estás en una escena y hablas por teléfono con alguien para que se la imagine [0:42]. Si solo dices "estoy en una oficina", esa persona pensará en cualquier oficina. Pero si describes los monitores, las plantas, la gente moviéndose, el ruido, entonces la imagen mental será mucho más cercana a la tuya. Ser descriptivo es ser preciso.

Otra forma de entenderlo: no es lo mismo decir "tráeme ese vaso de la cocina" que decir "tráeme el vaso azul que está al lado del microondas" [1:17]. Ambas instrucciones podrían funcionar, pero solo la segunda garantiza que recibirás exactamente lo que esperabas.

¿Cuáles son los tres componentes de un prompt efectivo para imágenes?

La clave está en descomponer la escena en tres partes [0:55]: el protagonista, el estilo visual y la composición.

¿Cómo describir al protagonista?

No digas "un perro grande". Describe al golden retriever con collar rojo, estatura mediana, que parece tener dos años y es juguetón [1:02]. Cada detalle que agregas reduce la ambigüedad y acerca el resultado a lo que realmente quieres. Cuanto más específico seas con el sujeto principal de tu imagen, menos margen de interpretación le dejas al modelo.

¿Qué significa definir el estilo visual?

Piensa en el estilo visual como un filtro de Instagram [1:42]. Pregúntate: ¿quieres una foto realista tomada con un celular? ¿Una caricatura? ¿Un personaje al estilo Disney? ¿Una foto con apariencia vintage? Es como elegir el outfit para una ocasión [2:05]: no es lo mismo ropa de ejercicio que un traje formal con corbatín. Describir colores, texturas y el tipo de representación gráfica le da vida a tu imagen.

¿Cómo componer la escena como un director de fotografía?

Imagina que eres el director de fotografía de tu propia película [2:27]. Define desde qué ángulo se toma la foto: ¿a nivel de mesa o desde la esquina del cuarto para capturar a todas las personas? [2:33]. Considera la iluminación: ¿la luz entra por la ventana o son luces blancas de techo que hacen ver todo muy despierto? [2:44].

La atmósfera se crea a partir de los detalles. Si mencionas una cafetería, cada persona imaginará la más cercana a su casa. Pero si agregas que la tetera está sacando humo y nublando la vista [3:10], de repente esa imagen genérica se transforma en algo específico y evocador.

¿Cómo se aplica esto en un ejercicio práctico con ChatGPT?

En lugar de escribir "personas trabajando", un prompt más elaborado sería: "Genera una imagen de cuatro profesionales diversos colaborando alrededor de una mesa redonda con laptops y documentos" [3:34]. Eso define al protagonista. Luego se añade el estilo: fotografía corporativa moderna [3:46]. Finalmente, la composición: vista de un ángulo de 45 grados con luz natural de oficina [3:52].

El resultado será mucho más cercano a lo esperado. Y si no es perfecto a la primera, funciona como cocinar: vas probando, dando feedback específico sobre lo que no salió bien [4:05]. Un consejo valioso es que, una vez que llegues a la imagen deseada, le preguntes al modelo cuál hubiera sido el prompt ideal para generarla desde el inicio [4:16].

Un último punto fundamental: no seas contradictorio en tus instrucciones [4:22]. Pedir una foto realista con estilo de caricatura confunde al modelo y produce resultados incoherentes, como pedirle a alguien que cante a todo volumen pero en voz baja [4:38].