Videoensayo con IA: de texto a video editado

Desafío IA: Crea videos y animaciones con herramientas avanzadas de IA

Contenido del curso

Desafío IA: Crea videos y animaciones con herramientas avanzadas de IA

Videoensayo con IA: de texto a video editado

Resumen

Editar un videoensayo con inteligencia artificial dejó de ser ciencia ficción. Si quieres aprender a unir voz, música, efectos y subtítulos generados por IA en una sola línea de tiempo, aquí encontrarás el flujo completo para crear una pieza audiovisual desde cero, pensado para creadores que recién exploran este mundo.

La propuesta nace dentro del reto Desafío IA de Platzi Marketing, donde se construye un video sobre la exploración espacial usando Midjourney, ChatGPT, D-ID, Runway, Wavtool y Premiere. La pieza se llama videoensayo, un formato narrativo que mezcla voz en off, imágenes y reflexión, como el documental Plastic bag, donde una bolsa plástica relata su recorrido desde la fábrica hasta el océano [01:08].

¿Qué es un videoensayo y por qué usar IA para crearlo?

Un videoensayo es una pieza audiovisual que combina narración reflexiva con imágenes que la acompañan. No necesita actores ni grandes producciones: necesita una idea, una voz y un montaje coherente. La inteligencia artificial entra como un playground creativo que reemplaza pasos costosos, como contratar locutores, comprar bancos de música o filmar locaciones.

¿Qué es un videoensayo? Es un formato audiovisual donde una voz en off hilvana imágenes para reflexionar sobre un tema. Funciona como un texto pensado en imágenes, no como un documental tradicional.

Un buen referente es el video de Linkin Park cocreado con artistas en Kaiber, donde reciclaron material de archivo y lo intervinieron con IA [02:25]. Esa lógica de transformar lo existente con prompts es la base del flujo que verás a continuación.

¿Cómo escribir el guion y generar las voces con IA?

Todo arranca en el texto. Pidiéndole a ChatGPT un poema sobre el universo y la vida en la ciudad se obtiene una primera versión genérica, que luego se edita en Notion para acortarla y darle ritmo [04:30]. Lo que entrega el modelo no se copia y pega: se cura.

Con el guion listo, la voz se genera en D-ID, una plataforma que convierte texto en un video de una persona hablando con lip sync. El flujo se ve así:

Pegas el texto en la herramienta y eliges idioma, en este caso español de Colombia con la voz de Gonzalo [05:43].
Seleccionas un avatar entre los modelos disponibles.
Generas el clip y descargas el resultado.

En inglés hay más opciones de tonos y emociones, así que para el cierre del videoensayo se traduce la última línea con ChatGPT y se genera un tercer personaje en inglés. Resultado: tres voces distintas para una misma pieza, sin grabar a nadie.

¿Cómo crear música original sin saber tocar instrumentos?

Aquí entra Wavtool, una herramienta que genera canciones por prompt. Le pides una pista de 30 segundos, electrónica, futurista, sobre el espacio, y la IA refina tu instrucción a parámetros musicales como 120 bpm, sintetizador, bassline y drums en pistas separadas [10:30].

Lo interesante es que puedes iterar: si suena demasiado ocho bits, cambias el prompt a algo más futurista y reemplazas elementos hasta encontrar la melodía que combine con tu narración.

¿Wavtool sirve si no soy músico? Sí. Genera la base musical desde un prompt en lenguaje natural y entrega tracks separados que puedes editar como en un estudio.

¿Cómo intervenir las imágenes con Runway Gen-1?

Runway es la estrella del flujo. Su herramienta Gen-1 toma un video base y le aplica un estilo visual a partir de un prompt, una imagen de referencia o un preset como acuarela, lápiz o carboncillo [16:45].

Para el videoensayo, el primer avatar de D-ID se transforma en un personaje neón 3D futurista subiendo la creatividad al 100%. Esa barra define cuánta libertad tiene la IA para reinterpretar la imagen original: en cero apenas la toca, en 100 puede derretirla por completo.

Otra función clave es Remove Background: subes el clip, marcas con nodos al sujeto, refinas la máscara con include y exclude, y exportas un MP4 con canal alfa, es decir, con fondo transparente [14:20]. Eso permite montar al personaje sobre cualquier paisaje.

Un dato importante: la versión gratuita de Runway entrega tres proyectos de prueba con créditos limitados y exporta a 720p. La suscripción cuesta 15 dólares y desbloquea más libertad creativa.

¿Cómo montar todo en la línea de tiempo de Premiere?

La edición final se hace en Premiere, aunque CapCut y DaVinci sirven igual. El orden recomendado:

Coloca la música base como pista de fondo.
Encima ubica los videos de los avatares en alfa.
Debajo agrega imágenes de archivo del espacio y la ciudad desde librerías creative commons.
Aplica modos de fusión como aclarar o pantalla para integrar los avatares con el fondo galáctico [25:50].

Un truco de mezcla de audio: la música de fondo debe picar en promedio en -24 dB, mientras las voces deben moverse entre -12 y -6 dB para que se escuchen claras sin saturar [22:15].

¿Cómo generar subtítulos automáticos y exportar para redes?

Premiere incluye una herramienta de transcripción automática que usa IA, aunque no la etiquete como tal. Marcas el inicio con I y el final con O, eliges la pista de audio correcta para que no se confunda con la música, y el programa genera los subtítulos en segundos [29:40]. Después puedes editar tipografía, tamaño y posición.

Para exportar, Premiere ofrece presets por dispositivo. Un Match Source mantiene la calidad original, y un Mobile Device 1080p deja la pieza lista para móviles. Si quieres una versión vertical, duplica la secuencia y cambia los ajustes a 1080 x 1920, reposicionando manualmente cada elemento.

Los subtítulos no son un capricho estético: muchas personas consumen video en transporte público sin sonido, así que el texto en pantalla amplía el alcance real de tu pieza.

Habilidades y conceptos clave que aparecen en la clase

Videoensayo [01:00]: formato narrativo que mezcla voz en off y montaje reflexivo.
Prompt engineering aplicado a imagen y sonido, refinando instrucciones hasta lograr el resultado buscado.
Canal alfa [14:50]: transparencia que permite superponer un sujeto sobre cualquier fondo.
Modos de fusión en edición [26:10]: aclarar, pantalla, multiplicar para integrar capas.
Niveles de audio [22:15]: música a -24 dB, voces entre -12 y -6 dB.
Gen-1 de Runway [16:45]: transferencia de estilo de un prompt a un video base.
Transcripción con IA en Premiere [29:40]: subtitulado automático sin plugins.

¿Qué herramienta de las que viste vas a probar primero en tu próximo proyecto? Cuéntalo en los comentarios y comparte el enlace de tu video con el hashtag #CreandoConPlatzi.