Resumen

Crear un video con inteligencia artificial es más simple de lo que parece. Con Stable Diffusion, Adobe Podcast y D-ID, puedes pasar de un copy basado en ChatGPT a un avatar con voz y audio de calidad de estudio, listo para tu campaña en redes. Aquí tienes el flujo probado, incluidas buenas prácticas y conceptos clave.

¿Cómo crear un video con IA desde texto e imagen?

Con un mensaje claro y una imagen potente, el proceso fluye. La imagen creada en Stable Diffusion sirve como base visual, el copy nace de ChatGPT y se ajusta para objetivos de campaña, y el audio se optimiza con IA antes de animar el avatar en D-ID.

¿Qué rol cumple el copy de ChatGPT y la personalización?

El copy generado por ChatGPT es la base del guion. Un equipo creativo lo ajusta para hacerlo más personal, añadir URLs/enlaces y orientarlo al objetivo de la campaña.

  • Define un mensaje aterrizado con intención clara.
  • Añade enlaces estratégicos para ampliar información.
  • Ajusta tono y llamados a la acción.

Ejemplo de mensaje usado: “Atención, PlatziNautas... únete al Space Program en platzi.com/space”.

¿Cómo mejorar la calidad de audio con Adobe Podcast?

La locución puede llegar con ruido o calidad baja. Adobe Podcast permite subir o arrastrar el archivo y devuelve un audio con calidad de estudio, listo para descarga con la opción “download”.

  • Sube el audio y espera el procesamiento.
  • Obtén una mejora notable de claridad y presencia de voz.
  • Descarga el archivo final para usarlo en tu editor o en D-ID.

Caso aplicado: voz grabada por Camila desde el centro espacial que se optimiza y queda profesional.

¿Cómo generar el video en D-ID con un avatar de Stable Diffusion?

En D-ID, crea un nuevo proyecto, carga la imagen del avatar desde “Pictures” y usa tu audio optimizado con “Upload your voice”. Luego, presiona “Generar video”. El sistema informa el costo de 2 créditos y una duración de 27 segundos para el resultado.

  • Carga el avatar creado previamente con Stable Diffusion.
  • Sube el audio final y verifica la reproducción.
  • Genera el video y descarga el resultado para tu campaña.
  • Úsalo en redes sociales y en los canales de marca.

Dato útil: D-ID es de pago, pero su versión gratuita ofrece créditos sin costo para crear avatares y clips iniciales.

¿Qué aporta el Text-to-Speech en español dentro de D-ID?

Además de subir tu propia voz, D-ID integra un modelo Text-to-Speech: escribes el copy del guion y lo convierte en audio. La mayoría de algoritmos funcionan mejor en inglés, y en español hay opciones más limitadas, pero funcionales para prototipos.

¿Cuándo conviene usar Text-to-Speech?

  • Cuando no hay locución humana disponible.
  • Para iterar rápido versiones de guion.
  • Para maquetas internas o pruebas de concepto.

Limitación actual: el audio generado en español puede sonar menos emocional y menos natural que una voz humana, aunque es un gran avance para agilizar entregables.

¿Cómo se integra al guion y al prompt?

  • Escribe el texto del copy y define la voz en D-ID.
  • Genera el audio y aplícalo al avatar.
  • Evalúa naturalidad, pausas y énfasis.

Ejemplo usado: “Atención, PlatziNautas. Hemos lanzado el Space Program... para que nuestros estudiantes aprendan a comunicarse con él.” Útil para validar narrativa y tiempos antes de una locución final.

¿Cómo cerrar la campaña y mejorar en equipo?

Con el video listo, llega el momento de publicar y refinar con retroalimentación. La colaboración eleva el impacto del mensaje y asegura una entrega más sólida al cliente.

  • Descarga el video final y súbelo a redes sociales.
  • Incluye el enlace clave: platzi.com/space.
  • Pide comentarios: qué gustó, qué mejorar y nuevas ideas.
  • Reúne observaciones del equipo para afinar el guion, el audio y la edición.

Cuéntanos en comentarios: ¿qué parte del flujo te resultó más útil y qué optimizarías en tu próxima campaña con IA?