Crear un video con IA paso a paso

Clase 9 de 15 • Taller de Creación de Contenido con Inteligencia Artificial

Resumen

Crear un video con inteligencia artificial es más simple de lo que parece. Con Stable Diffusion, Adobe Podcast y D-ID, puedes pasar de un copy basado en ChatGPT a un avatar con voz y audio de calidad de estudio, listo para tu campaña en redes. Aquí tienes el flujo probado, incluidas buenas prácticas y conceptos clave.

¿Cómo crear un video con IA desde texto e imagen?

Con un mensaje claro y una imagen potente, el proceso fluye. La imagen creada en Stable Diffusion sirve como base visual, el copy nace de ChatGPT y se ajusta para objetivos de campaña, y el audio se optimiza con IA antes de animar el avatar en D-ID.

¿Qué rol cumple el copy de ChatGPT y la personalización?

El copy generado por ChatGPT es la base del guion. Un equipo creativo lo ajusta para hacerlo más personal, añadir URLs/enlaces y orientarlo al objetivo de la campaña.

Define un mensaje aterrizado con intención clara.
Añade enlaces estratégicos para ampliar información.
Ajusta tono y llamados a la acción.

Ejemplo de mensaje usado: “Atención, PlatziNautas... únete al Space Program en platzi.com/space”.

¿Cómo mejorar la calidad de audio con Adobe Podcast?

La locución puede llegar con ruido o calidad baja. Adobe Podcast permite subir o arrastrar el archivo y devuelve un audio con calidad de estudio, listo para descarga con la opción “download”.

Sube el audio y espera el procesamiento.
Obtén una mejora notable de claridad y presencia de voz.
Descarga el archivo final para usarlo en tu editor o en D-ID.

Caso aplicado: voz grabada por Camila desde el centro espacial que se optimiza y queda profesional.

¿Cómo generar el video en D-ID con un avatar de Stable Diffusion?

En D-ID, crea un nuevo proyecto, carga la imagen del avatar desde “Pictures” y usa tu audio optimizado con “Upload your voice”. Luego, presiona “Generar video”. El sistema informa el costo de 2 créditos y una duración de 27 segundos para el resultado.

Carga el avatar creado previamente con Stable Diffusion.
Sube el audio final y verifica la reproducción.
Genera el video y descarga el resultado para tu campaña.
Úsalo en redes sociales y en los canales de marca.

Dato útil: D-ID es de pago, pero su versión gratuita ofrece créditos sin costo para crear avatares y clips iniciales.

¿Qué aporta el Text-to-Speech en español dentro de D-ID?

Además de subir tu propia voz, D-ID integra un modelo Text-to-Speech: escribes el copy del guion y lo convierte en audio. La mayoría de algoritmos funcionan mejor en inglés, y en español hay opciones más limitadas, pero funcionales para prototipos.

¿Cuándo conviene usar Text-to-Speech?

Cuando no hay locución humana disponible.
Para iterar rápido versiones de guion.
Para maquetas internas o pruebas de concepto.

Limitación actual: el audio generado en español puede sonar menos emocional y menos natural que una voz humana, aunque es un gran avance para agilizar entregables.

¿Cómo se integra al guion y al prompt?

Escribe el texto del copy y define la voz en D-ID.
Genera el audio y aplícalo al avatar.
Evalúa naturalidad, pausas y énfasis.

Ejemplo usado: “Atención, PlatziNautas. Hemos lanzado el Space Program... para que nuestros estudiantes aprendan a comunicarse con él.” Útil para validar narrativa y tiempos antes de una locución final.

¿Cómo cerrar la campaña y mejorar en equipo?

Con el video listo, llega el momento de publicar y refinar con retroalimentación. La colaboración eleva el impacto del mensaje y asegura una entrega más sólida al cliente.

Descarga el video final y súbelo a redes sociales.
Incluye el enlace clave: platzi.com/space.
Pide comentarios: qué gustó, qué mejorar y nuevas ideas.
Reúne observaciones del equipo para afinar el guion, el audio y la edición.

Cuéntanos en comentarios: ¿qué parte del flujo te resultó más útil y qué optimizarías en tu próxima campaña con IA?

Camila Barajas Salej

teacher•

¡Mamá soy astronauta!

Hallking Quesada Medina

student•

Marcos Monteverde

student•

No sabia que se podia crear un video entero con ia 🤩🤩

Nicolas Pantoja Diaz

student•

Ya fui la voz de un alien astronauta gracias a Platzi 😳¡Increíble la IA!

Natalia Villegas

teacher•

¡Qué bien! Ya quiero ver el resultado final! :)

Alexander Romero Cajahuanca

student•

una consulta, en que momento creamos el texto en audio, me perdí

Francis Galeano

student•

Es una grabacion de audio normal, por ejemplo con tu telefono :D o con una herramienta como vocaroo. Luego ese audio se pasa por adobe podcast :)

Rolando Iván Vázquez Hernández

student•

Yo también me perdí en esa parte, muchas gracias por la aclaración Sofía

Esteban Blanco Ortuno

student•

space satellite

Natalia Villegas

teacher•

Me encanta! ¡Adelante con el proyecto final!

Lener Crisologo Narro

student•

Comparto parte de mi video https://twitter.com/Lener_cn/status/1633179477176987649?s=20

Hugo Montoya Diaz

student•

Esta genial. Excelente Carlos

Sergio Andrey Guarin Ruiz

student•

Aqui les comparto el resultado de mi trabajo, espero les guste.

https://twitter.com/ru1z_1/status/1642776322282774531

Juan Carlos Valerio Barreto

student•

Hola, esta super, una pregunta. Como generaste la voz?

Juan Sebastian Mendieta Acosta

student•

Aquí esta mi astronauta latina 🚀

Rodrigo Alles

student•

Aquí te explicamos cómo crear videos a partir de imágenes con text to speech para generar la voz del avatar utilizando la plataforma d-id

Prepara tus imágenes: selecciona las imágenes que quieras utilizar en tu video y asegúrate de que tengan una resolución adecuada para que se vean bien en pantalla.

Crea un guion: escribe un guion para el video que incluya todo lo que quieres que se diga. Puedes utilizar herramientas de edición de texto para darle formato y asegurarte de que se ajuste al tiempo del video.

Carga las imágenes en la plataforma de d-id sube las imágenes a la plataforma de d-idy configura la duración de cada una.

Genera la voz del avatar: utiliza la función de text to speech de la plataforma de d-id para generar la voz del avatar. Puedes elegir entre diferentes idiomas y acentos para personalizar la voz.

Optimiza el audio: edita y ajusta el audio generado para que suene lo más natural y fluido posible. Puedes ajustar la velocidad y el tono de la voz para que se ajuste a la duración de cada imagen.

Exporta el video: una vez que hayas editado y ajustado el audio, exporta el video en el formato deseado. Puedes añadir música y efectos de sonido para hacerlo más interesante y atractivo.

Con estas sencillas pasos, puedes crear fácilmente un video a partir de imágenes con text to speech para generar la voz del avatar utilizando la plataforma de d-id ¡Empieza a crear tus propios videos y compártelos con el mundo!

Sweet Sardaneta

student•

Aquí va mi pequeña entrega. Sufrí demasiado con la imagen pero valió la pena. No me encantó la voz, pero en DID no me permite hacer el text to audio como se ve en el video. Comparto el enlace del proyecto final. Gracias!

Sweet Sardaneta

student•

Paola Belén Robles Barrios

student•

A alguien más le salta de la clase 6 a la 8 sin poder reproducir la clase número 7?

Juliana Castillo Araujo

Team Platzi•

La anterior clase es un animado video de IA 👩‍💻

Joseal Pantoja Durán

student•

¿Quieres comunicarte con el espacio? 🚀🌌 @Platzi lo hace posible con su #SpaceProgram ! 🌟

👨‍🚀 Lanza un satélite al espacio y descubre todos los secretos del universo. 😱💫 Únete ahora al programa y vive una experiencia única. 🌟👽 #PlatziSpaceProgram #Platzi

https://twitter.com/josealpantoja/status/1655954429336604674?s=20