Crear imágenes y audio con inteligencia artificial deja de ser un truco de suerte cuando aplicas técnicas de prompting estructurado. Aquí descubrirás cómo usar ChatGPT-4o y la API de OpenAI para diseñar pósters, locuciones profesionales y piezas creativas, incluso si no dominas diseño gráfico ni producción de audio.
¿Cómo escribir un prompt efectivo para generar imágenes en ChatGPT?
El error más común es pedir algo genérico como "hazme una foto de un perrito". El modelo cumple, pero el resultado queda lejos de una pieza profesional. La clave está en delegar la construcción del prompt a un GPT que actúe como diseñador experto antes de pasarlo a GPT-4o, que es el modelo con capacidad de generar imágenes [01:05].
¿Cómo construir un prompt de póster paso a paso?
Un flujo que funciona consiste en abrir un chat nuevo y pedirle al modelo que asuma un rol específico. Por ejemplo: "Actúa como el mejor diseñador de pósters de películas y crea un prompt que describa cómo debe ser la gráfica del póster para el libro". Luego entregas el resumen del libro entre triples comillas para delimitar el contexto [02:10].
En la demostración se usó la novela Cadáver exquisito de Agustina Bazterrica. El modelo devolvió un prompt con ambiente oscuro, líneas simples y una figura humana frente a una cabeza de ganado. Ese texto se copió a GPT-4o y produjo un póster minimalista en blanco y negro [03:30].
¿Puedo editar solo una parte de la imagen generada? Sí. Selecciona el elemento que quieres modificar dentro del lienzo, escribe la nueva instrucción (por ejemplo, "haz que la vaca se vea más peligrosa") y el modelo conserva el resto de la composición.
¿Cómo aplicar estilos visuales como Studio Ghibli?
Una vez tienes la imagen base, puedes pedir transformaciones de estilo en lenguaje natural: "hazlo en el estilo de animación de Studio Ghibli". El modelo reinterpreta la pieza manteniendo la idea central. Esta técnica también funciona si subes imágenes de referencia y le pides al modelo que genere un prompt inspirado en ese estilo antes de crear tu pieza final.
¿Cómo generar audio realista con OpenAI?
La generación de voz tiene su propio campo de juego en openai.fm, una herramienta que permite probar voces, vibras y scripts antes de pasar a la API. Allí escoges una voz, defines un prompt que controla tono y entrega, y pegas el guion que la voz va a leer [09:15].
¿Qué variables controlan la voz generada por IA?
El prompt de audio se estructura en bloques que afinan cada matiz de la locución:
- Voz: cálida, clara, amigable, con acento latino marcado.
- Tono: inspirador, retador, empático y analítico, capaz de transitar entre alerta y esperanza.
- Puntuación: comas y pausas naturales para que no suene a inteligencia artificial.
- Pronunciación: español de Latinoamérica para evitar el acento de España.
- Delivery: rápido, dinámico, con pausas estratégicas y sin tono monótono.
Cada vez que presionas play, el sistema genera un audio nuevo. Esto significa que dos reproducciones del mismo prompt nunca son idénticas, igual que ocurre con las respuestas de texto en chats distintos.
¿Qué es TTS en el playground de OpenAI? TTS significa Text to Speech. Es el módulo del playground donde introduces el texto, las instrucciones de voz, eliges modelo (GPT-4o es el más avanzado), seleccionas voz y ajustas la velocidad de reproducción.
¿Cómo afinar la velocidad y la voz en el playground?
Dentro del playground tienes control fino sobre la salida. Puedes mover la velocidad entre 0.5x y valores superiores a 1x. En la demostración, 0.5x sonó demasiado lento y 1.20x resultó más natural para una pieza tipo TikTok [16:40]. Las voces disponibles incluyen Coral, Alloy, Ash, Echo y Onyx, cada una con personalidad distinta.
Un truco útil es partir el guion en fragmentos, generar un prompt específico para cada frase y luego unir los audios. Así controlas el ritmo y la emoción de cada bloque por separado.
¿Por qué usar ChatGPT para escribir prompts de imagen y audio?
Cuando no dominas el lenguaje técnico de diseño o producción sonora, ChatGPT funciona como traductor entre tu intención y el vocabulario que el modelo entiende mejor. Puedes pegar tu prompt actual y pedirle: "actúa como un prompt engineer que está haciendo un prompt de text to speech y mejora el siguiente prompt". El modelo identifica ambigüedades y propone ajustes concretos [20:10].
Este ciclo iterativo, donde construyes el prompt en conversación con el LLM, es especialmente valioso en dominios donde no tienes vocabulario experto. Está demostrado que los modelos de lenguaje son buenos creando prompts, y lo más importante en ese proceso es detectar la ambigüedad y generar claridad usando las técnicas de prompting que ya conoces.
El dato clave que apareció en el guion del promo (el 68% de las empresas no logran encontrar expertos en inteligencia artificial para liderar el cambio) muestra cómo un buen prompt respeta la puntuación, las pausas y la intención del mensaje original [12:50]. Esa es la diferencia entre un audio plano y uno que conecta.
¿Qué pieza vas a generar primero, un póster o una locución? Cuéntalo en los comentarios y comparte el prompt que mejor te funcionó.