Genera imágenes y audio con prompts en ChatGPT

Curso de Prompt Engineering

Contenido del curso

Fundamentos de los LLMs

Tipos de Prompts y sus Aplicaciones

Técnicas Avanzadas de Prompt Engineering

Optimización y Aplicaciones del Prompt Engineering

Tomar examen

Genera imágenes y audio con prompts en ChatGPT

Resumen

Crear imágenes y audio con inteligencia artificial deja de ser un truco de suerte cuando aplicas técnicas de prompting estructurado. Aquí descubrirás cómo usar ChatGPT-4o y la API de OpenAI para diseñar pósters, locuciones profesionales y piezas creativas, incluso si no dominas diseño gráfico ni producción de audio.

¿Cómo escribir un prompt efectivo para generar imágenes en ChatGPT?

El error más común es pedir algo genérico como "hazme una foto de un perrito". El modelo cumple, pero el resultado queda lejos de una pieza profesional. La clave está en delegar la construcción del prompt a un GPT que actúe como diseñador experto antes de pasarlo a GPT-4o, que es el modelo con capacidad de generar imágenes [01:05].

¿Cómo construir un prompt de póster paso a paso?

Un flujo que funciona consiste en abrir un chat nuevo y pedirle al modelo que asuma un rol específico. Por ejemplo: "Actúa como el mejor diseñador de pósters de películas y crea un prompt que describa cómo debe ser la gráfica del póster para el libro". Luego entregas el resumen del libro entre triples comillas para delimitar el contexto [02:10].

En la demostración se usó la novela Cadáver exquisito de Agustina Bazterrica. El modelo devolvió un prompt con ambiente oscuro, líneas simples y una figura humana frente a una cabeza de ganado. Ese texto se copió a GPT-4o y produjo un póster minimalista en blanco y negro [03:30].

¿Puedo editar solo una parte de la imagen generada? Sí. Selecciona el elemento que quieres modificar dentro del lienzo, escribe la nueva instrucción (por ejemplo, "haz que la vaca se vea más peligrosa") y el modelo conserva el resto de la composición.

¿Cómo aplicar estilos visuales como Studio Ghibli?

Una vez tienes la imagen base, puedes pedir transformaciones de estilo en lenguaje natural: "hazlo en el estilo de animación de Studio Ghibli". El modelo reinterpreta la pieza manteniendo la idea central. Esta técnica también funciona si subes imágenes de referencia y le pides al modelo que genere un prompt inspirado en ese estilo antes de crear tu pieza final.

¿Cómo generar audio realista con OpenAI?

La generación de voz tiene su propio campo de juego en openai.fm, una herramienta que permite probar voces, vibras y scripts antes de pasar a la API. Allí escoges una voz, defines un prompt que controla tono y entrega, y pegas el guion que la voz va a leer [09:15].

¿Qué variables controlan la voz generada por IA?

El prompt de audio se estructura en bloques que afinan cada matiz de la locución:

Voz: cálida, clara, amigable, con acento latino marcado.
Tono: inspirador, retador, empático y analítico, capaz de transitar entre alerta y esperanza.
Puntuación: comas y pausas naturales para que no suene a inteligencia artificial.
Pronunciación: español de Latinoamérica para evitar el acento de España.
Delivery: rápido, dinámico, con pausas estratégicas y sin tono monótono.

Cada vez que presionas play, el sistema genera un audio nuevo. Esto significa que dos reproducciones del mismo prompt nunca son idénticas, igual que ocurre con las respuestas de texto en chats distintos.

¿Qué es TTS en el playground de OpenAI? TTS significa Text to Speech. Es el módulo del playground donde introduces el texto, las instrucciones de voz, eliges modelo (GPT-4o es el más avanzado), seleccionas voz y ajustas la velocidad de reproducción.

¿Cómo afinar la velocidad y la voz en el playground?

Dentro del playground tienes control fino sobre la salida. Puedes mover la velocidad entre 0.5x y valores superiores a 1x. En la demostración, 0.5x sonó demasiado lento y 1.20x resultó más natural para una pieza tipo TikTok [16:40]. Las voces disponibles incluyen Coral, Alloy, Ash, Echo y Onyx, cada una con personalidad distinta.

Un truco útil es partir el guion en fragmentos, generar un prompt específico para cada frase y luego unir los audios. Así controlas el ritmo y la emoción de cada bloque por separado.

¿Por qué usar ChatGPT para escribir prompts de imagen y audio?

Cuando no dominas el lenguaje técnico de diseño o producción sonora, ChatGPT funciona como traductor entre tu intención y el vocabulario que el modelo entiende mejor. Puedes pegar tu prompt actual y pedirle: "actúa como un prompt engineer que está haciendo un prompt de text to speech y mejora el siguiente prompt". El modelo identifica ambigüedades y propone ajustes concretos [20:10].

Este ciclo iterativo, donde construyes el prompt en conversación con el LLM, es especialmente valioso en dominios donde no tienes vocabulario experto. Está demostrado que los modelos de lenguaje son buenos creando prompts, y lo más importante en ese proceso es detectar la ambigüedad y generar claridad usando las técnicas de prompting que ya conoces.

El dato clave que apareció en el guion del promo (el 68% de las empresas no logran encontrar expertos en inteligencia artificial para liderar el cambio) muestra cómo un buen prompt respeta la puntuación, las pausas y la intención del mensaje original [12:50]. Esa es la diferencia entre un audio plano y uno que conecta.

¿Qué pieza vas a generar primero, un póster o una locución? Cuéntalo en los comentarios y comparte el prompt que mejor te funcionó.

Alejandrina Lara Tovar

Estudiante

Usé o4-mini-high

Actúa como una ilustradora profesional y crea una imagen de la siguiente manera: <Descripción general> Plano medio-busto de un <personaje> juvenil, con el mar al atardecer como fondo. La escena transmite calidez, frescura y movimiento. </Descripción general> <Composicion-y-encuadre> Plano: busto (desde la mitad del torso hasta un poco por encima de la cabeza). Ángulo: ligeramente contrapicado suave (∼15°) para abrir el horizonte marino detrás. Regla de los tercios: Línea del horizonte colocada en el tercio superior para dar protagonismo al <personaje> </Composicion-y-encuadre> <personaje> Rasgo y Detalle requerido: Edad aparente de 18-22 años. Género ambiguo / andrógino (dejando que el peinado y la ropa definan la expresividad). Rostro: Ojos ligeramente entrecerrados por la luz cálida; sonrisa abierta y genuina. Cabello corto, color negro, desenfadado, mechones sueltos moviéndose con la brisa marina; reflejos anaranjados por la luz del atardecer. Vestimenta: Ropa de playa moderna y holgada —camisa de lino abierta sobre camiseta sin mangas, colores suaves; la tela debe mostrar pliegues ondulantes para sugerir el viento. Gestualidad de hombros relajados, una mano asomando a la altura del pecho agarrando suavemente la camisa para enfatizar movimiento. </personaje> <Iluminacion-y-color> Fuente principal: luz dorada de “golden hour” (luz rasante desde el contraluz derecho), generando un halo cálido alrededor del cabello. Temperatura: dominante cálida (naranjas y rosados) con acentos fríos reflejados en la ropa para contraste. Sombras: suaves, bordeadas por un rim-light anaranjado que separa al <personaje> del fondo. </Iluminacion-y-color> <Fondo> Mar: olas suaves y algo desenfocadas (profundidad de campo media) con reflejos del sol poniente. Cielo: degradado del naranja intenso al rosa y finalmente lila suave; algunas nubes finas para añadir textura. Atmósfera: partículas ligeras de bruma marina iluminadas (bokeh sutil) para reforzar la calidez. </Fondo> <Estilo-visual> Técnica: ilustración manga digital con pinceles de bordes suaves para la piel y texturas sutiles tipo acuarela en el cielo. </Estilo-visual> <Emocion-y-narrativa> La sonrisa y la brisa sugieren un momento de libertad y tranquilidad tras un día de playa. El espectador debe sentir que comparte un instante íntimo con el <personaje> justo cuando el sol se despide. </Emocion-y-narrativa> </Emocion-&-narrativa>

Alejandrina Lara Tovar

Estudiante

recomiendo quitar los "& t l ; " y cambiarlos por "<"

Gabriel Obregón

Jose Ricardo Dueñas Suarez

Gerson Solis

Catherine Argüello Castro

Miguel Angel Reyes Moreno

Javier Ramos

Renato Puello Pereira

JOHN RESTREPO

Gerson Antonio Cabrera

•

David Valbuena Rodriguez

Bibiana Hernández

Josue Castro

Sergio Enrique Duque Tamayo

Cristian Alonzo Prada Prada

Diego Mauricio Zuluaga Rodríguez

Ibrahim Guzmán

Jorge Arias Argüelles

Andres David Martinez Torres

Alieth Vásquez

Eduwin Leon

José Santiago Aldunate Forero

Luis Alejandro Sarmiento

Julio Cesar Romero

Maria Gabriela Rosendo

Genera imágenes y audio con prompts en ChatGPT

Fundamentos de los LLMs

Este curso tiene una versión actualizada.

Qué es un LLM y cómo darle contexto

Qué son los embeddings y vectores en LLMs

Tokenización y su impacto en costos y efectividad de prompts

Priming y mecanismo de atención en modelos de inteligencia artificial

Configuración y uso básico de OpenAI Playground

Tipos de Prompts y sus Aplicaciones

Técnica zero-shot con 4 elementos clave

Cómo mejorar un prompt zero-shot con XML

Few-shot prompting para clasificar reseñas

Técnica Prompt Chaining para análisis de datos en Excel

Meta prompting para crear tweets exitosos con estructura definida

Técnicas Avanzadas de Prompt Engineering

Refinamiento de prompts con pruebas comparativas

Técnica Chain of Thought para prompts más efectivos

Técnica Chain of Thought para prompting con modelos de lenguaje

Formato de salida en ChatGPT: PDF, Excel y JSON

Optimización y Aplicaciones del Prompt Engineering

Genera imágenes y audio con prompts en ChatGPT

Configuración de temperatura y parámetros en modelos de IA

Resumen