Watson Text to Speech

Clase 16 de 25 • Curso de Inteligencia Artificial con IBM Watson

Contenido del curso

Aprende a usar Manejo de Lenguaje Natural con Watson

Bases para el curso

Aprende el manejo del lenguaje natural con Watson

Watson Studio: Ciencia de Datos y Más

Integración

Tomar examen

Resumen

Transformar texto escrito en voz natural es una de las capacidades más prácticas de la inteligencia artificial, y IBM Watson Text to Speech lo hace posible con apenas unas líneas de configuración. A continuación se explica paso a paso cómo crear el servicio, configurar las credenciales y ejecutar una petición que genere un archivo de audio a partir de cualquier texto.

¿Qué es Text to Speech y para qué sirve?

Text to Speech es una API que convierte texto en habla [0:08]. Aunque suele implementarse junto con Watson Assistant y Speech to Text para construir asistentes de voz, sus aplicaciones van mucho más allá de los chatbots. Un caso de uso muy valioso es la lectura de contenidos para personas con discapacidad visual [0:25], lo que amplía la accesibilidad de cualquier plataforma digital.

¿Cómo se crea el servicio en IBM Cloud?

El proceso es directo [0:35]:

Ingresar al catálogo de IBM Cloud, sección de AI.
Seleccionar Text to Speech.
Elegir la región y el plan light (gratuito).
Asignar un nombre al servicio y hacer clic en crear.

Una vez creado, se generan las credenciales en la sección Service Credentials del panel izquierdo [0:55]. Los datos que se necesitan son el API key, la URL y el identificador de idioma y voz.

¿Cuál es la diferencia entre voces Standard y Neural?

Watson ofrece dos tipos de voces [1:25]:

Standard: basada en grabaciones de audio tradicionales.
Neural: basada en redes neuronales, identificada como versión tres y con una calidad de síntesis más avanzada y natural.

Los idiomas disponibles incluyen portugués de Brasil, inglés de Estados Unidos, francés, alemán, español de Latinoamérica y español de Norteamérica. Además, cada idioma puede tener voces masculinas y femeninas [2:10].

¿Cómo consumir la API con cURL?

Dentro de los recursos del curso se incluye un archivo cURL listo para usar [2:25]. La estructura de la petición es la siguiente:

bash curl -X POST
-u "apikey:{API_KEY}"
--header "Content-Type: application/json"
--header "Accept: audio/wav"
--data '{"text": "Hola, Padawan, es un honor poderte compartir mi conocimiento en Platzi"}'
--output hola_pad.wav
"{URL}/v1/synthesize?voice=es-LA_SofiaV3Voice"

Los puntos importantes de esta petición son:

Se envía un POST con el API key como autenticación.
El Content-Type indica que el cuerpo es JSON.
El Accept solicita el formato audio/wav como respuesta.
En el campo text se escribe el contenido que se desea convertir en voz.
El parámetro voice define el idioma y la voz; en este ejemplo se usa es-LA_SofiaV3Voice, la voz neural en español latinoamericano [2:50].
El output guarda el resultado en un archivo .wav.

Un detalle técnico a cuidar: verificar que la URL termine con la diagonal correcta antes de la ruta del endpoint, ya que sin ella la petición falla [3:20].

¿Cómo se ejecuta y verifica el resultado?

Desde la terminal, ubicándose en la carpeta del proyecto [3:35]:

Ejecutar el comando cURL.
Esperar a que la petición se complete.
Confirmar que se generó el archivo hola_pad.wav.
Reproducir el archivo para escuchar el resultado.

El audio generado reproduce con claridad: "Hola, Padawan. Es un honor poder compartirte mi conocimiento en Platzi" [3:55]. Así de sencillo se logra la transcripción de texto a audio.

Este servicio, combinado con Speech to Text y Watson Assistant, forma un ecosistema completo de voz. La integración de los tres se simplifica con un servicio llamado Voice Agent [4:20], que permite conectar todo a un proveedor SIP e incluso recibir llamadas en plataformas como WhatsApp. ¿Qué tipo de implementación, fuera de un chatbot, se te ocurre para Text to Speech? Comparte tu idea en los comentarios.

Comentarios

David Jaramillo Saldarriaga

student•

Acá dejo el curl que se usa en esta clase, los dos hello world corresponden al texto y al nombre del archivo respectivamente.

curl -X POST -u &quot;apikey:{apikey}&quot; \
--header &quot;Content-Type: application/json&quot; \
--header &quot;Accept: audio/wav&quot; \
--data &quot;{\&quot;text\&quot;:\&quot;hello world\&quot;}&quot; \
--output hello_world.wav \
&quot;{url}/v1/synthesize?voice={voice}&quot;

Apikey, url y voice se deben reemplazar por los parámetros que se deseen usar, y se deben borrar las llaves {}.

Juan David Arias González

student•

Gracias!

Jorge Humberto Ramírez Aristizábal

student•

Excelente tu apoyo!

Jimmy Buriticá Londoño

student•

El servicio Text to Speech procesa texto y lenguaje natural para generar salida de audio sintetizada completa con la entonación y cadencia adecuadas.

Guillermo Parejo

student•

Lo resolvi desde el Getting de IBM alli esta el codigo hize varios ejemplos para mi familia

curl -X POST -u &quot;apikey:{Pegar aqui la Apikey}&quot; \
--header &quot;Content-Type: application/json&quot; \
--header &quot;Accept: audio/wav&quot; \
--data &quot;{\&quot;text\&quot;:\&quot;-Escribir aqui el texto-\&quot;}&quot; \
--output mi_actividad.wav \
&quot;{Pegar aqui la Url}/v1/synthesize?voice=es-LA_SofiaV3Voice&quot; ```

Alexander G

student•

curl -X POST -u "apikey:XYZ" --header "Content-Type: application/json" --header "Accept: audio/wav" --data "{"text":"hola, bienvenidos al programa de entrenamiento"}" --output hello_world.wav "https://api.us-south.text-to-speech.watson.cloud.ibm.com/instances/f5f2c1f1-f0b0-4a74-9381-aea9bf71ecc5/v1/synthesize?voice=es-LA_SofiaV3Voice"

Loren Johanna Vásquez Rivera

student•

Súper interesante esta herramienta, mejora el acceso que se puede tener a varias páginas web para tener una lectura del texto. Lo considero útil para personas que prefieran escuchar en vez de leer.

Jhon Jaiver Supelano Rojas

student•

Al parecer solo funciona con pocos caracteres 499 por entrada, seria interesante que no tuviera limites, en textos largos se crearian varios archivos de audio, en el plan lite solo permite 10.000 caracteres al mes y en Estándar cobran 0.02 USD por caracter

William Schnaider Torres Bermon

student•

Aquí pueden encontrar más información sobre los formatos de audio soportados por Watson.

Carlos Andrés Mosquera Arria

student•

Eso es lo que pasa por no tener MAC o Linux. Las peticiones curl hay que saberlas hacer.... y aqui no enseñan como es en Windows y menos en la documentación de IBM. Casi no he podido hacer las cosas y gasto horas sin encontrar solución en la Web ni poder resolverlo yo mismo.

Alberto Perdomo

student•

Puedes usar un shell basado en Unix para no perderte tanto. EN windows tienes como opción powrshell o git bash.

Israel Yance

student•

Como recomendación es aprender usar la terminal de comandos basados en Unix y si tienes Windows tener una terminal de ese tipo.

No solo por ese curso, sino para diversa cantidad de tareas. Te facilitará la vida.

Este es el curso, lo hacen justo en Windows https://platzi.com/clases/terminal/ Esta es la clase para la instalación: https://platzi.com/clases/1748-terminal/24394-windows-subsystem-for-linux-wsl-como-acceder-a-la-/

Usuario anónimo

user•

Super, me encanto poder hacer la programación, me salio mucho error porque el código no estaba en los enlaces, pero creo que aprendí mas porque me daba cuenta de los errores y me logre mentalizar un poco mas de la estructura.

Abel Fernando Becerra Carrillo

student•

Excelente herramienta. Muy buen curso

JOHN GERMAN GARCIA GONZALEZ

student•

Adjunto no esta el archivo curl.txt ??

Hugo Alexander Gonzalez Bocanegra

student•

no esta adjunto, pero si lo necesitas te lo paso para que le ejecutes en el CMD de windows:

curl -X POST -u "apikey:{Apikey}" --header "Content-Type: application/json" --header "Accept: audio/wav" --data "{\"text\":\"-Escribir aqui el texto-\"}" --output mi_actividad.wav "{URL}/v1/synthesize?voice=es-LA_SofiaV3Voice"

recuerda que si le escribes acentos al texto, es possible que no puedas ejecutar el archivo *.wav

Hugo Montoya Diaz

student•

Wilder Bravo

student•

Tiene múltiples usos, interesante aplicar en el campo de la inclusión para personas con discapacidad.

Mateo Murcia Valles

student•

Me dedico hace ya unos años a enseñar inglés y se me ocurre una aplicación en donde mis estudiantes y compañeros lo utilicen para corregir su pronunciación, sin necesidad de ir a un traductor de Google o la presencia misma de un docente. ¡Genial esta clase!

Jhon Jairo Meneses Prieto

student•

interesante opción, no reconoce las tildes pero en general es muy bueno el detector de idioma que utiliza

Eduardo Revollo Escudero

student•

En Windows 10 no reconoce las tildes. Habría que investigar si se puede solucionar. Yo instalé Ubuntu en Windows 10 siguiendo los pasos descritos en https://docs.microsoft.com/en-us/windows/wsl/install-win10 y luego hice la prueba desde Ubuntu desplegándolo desde Windows Terminal y sí me reconoció las tildes.

Jose Daniel Delgado Ballen

student•

curl -X GET -u "apikey:{apikey}"
--output hola_mundo.wav
"{url}/v1/synthesize?accept=audio%2Fwav&text=hola%20mundo&voice=es-ES_EnriqueVoice"

Matias Jesus Ruiz Ruiz

student•

Hola, falta el archivo del curso... nuevamente :D

Rafael Antonio Chica Pretelt

student•

Esto le daría escalabilidad horizontal a aplicaciones que requieran brindar información a personas con bajo nivel ya sea de lectura o de visión!! Fantástico!

Guillermo Parejo

student•

Espectacular la clase Profe Isaac, hace falta el archivo .txt del curl para realizar la actividad

Usuario anónimo

user•

cada vez mejor

curl -X POST -u &quot;apikey:{apikey}&quot; \
--header &quot;Content-Type: application/json&quot; \
--header &quot;Accept: audio/wav&quot; \
--data &quot;{\&quot;text\&quot;:\&quot;hello world\&quot;}&quot; \
--output hello_world.wav \
&quot;{url}/v1/synthesize?voice={voice}&quot;

curl -X POST -u &quot;apikey:{Pegar aqui la Apikey}&quot; \
--header &quot;Content-Type: application/json&quot; \
--header &quot;Accept: audio/wav&quot; \
--data &quot;{\&quot;text\&quot;:\&quot;-Escribir aqui el texto-\&quot;}&quot; \
--output mi_actividad.wav \
&quot;{Pegar aqui la Url}/v1/synthesize?voice=es-LA_SofiaV3Voice&quot; ```

curl -X POST -u "apikey:{Apikey}" --header "Content-Type: application/json" --header "Accept: audio/wav" --data "{\"text\":\"-Escribir aqui el texto-\"}" --output mi_actividad.wav "{URL}/v1/synthesize?voice=es-LA_SofiaV3Voice"

Watson Text to Speech

Aprende a usar Manejo de Lenguaje Natural con Watson

Bases para el curso

Introducción de Watson

Configuración del entorno de trabajo

Instalar cURL en Windows

Arquitectura REST

Aprende el manejo del lenguaje natural con Watson

Uso de Watson Personality Insights via CURL

Uso de Watson Personality Insights via SDK

Watson Natural Language Classifier

Watson Natural Language Understanding

Discovery

Introducción a Watson Knowledge Studio

Entrenamiento de Watson Knowledge Studio

Introducción a Watson Assistant

Implementación de Watson Assistant

Funciones en Javascript

Watson Speech to Text