Watson Speech to Text

Clase 15 de 25 • Curso de Inteligencia Artificial con IBM Watson

Contenido del curso

Aprende a usar Manejo de Lenguaje Natural con Watson

Bases para el curso

Aprende el manejo del lenguaje natural con Watson

Watson Studio: Ciencia de Datos y Más

Integración

Tomar examen

Resumen

Convertir audio en texto de forma automática abre posibilidades enormes para aplicaciones de atención al cliente, toma de apuntes, chatbots y herramientas de accesibilidad. Speech to Text de IBM Watson es un API que hace exactamente eso: recibe audio y devuelve una transcripción precisa, lista para integrarse con otros servicios como Watson Assistant.

¿Qué es Speech to Text y para qué sirve?

Speech to Text es un servicio de la suite Watson que transcribe audio en texto [0:06]. Su uso más popular es en combinación con Watson Assistant: en lugar de escribir mensajes a un chatbot, puedes hablarle directamente usando el micrófono [0:18]. Sin embargo, sus aplicaciones van mucho más allá.

Puedes implementarlo en cualquier escenario donde necesites convertir voz a texto:

Aplicaciones de dictado y toma de apuntes.
Transcripción de llamadas en mesas de ayuda.
Herramientas de accesibilidad para personas con discapacidad visual.

¿Cuáles son las tres formas de interacción con el servicio?

El servicio ofrece tres modos de comunicación [1:00]:

Síncrona: envías el audio y esperas la respuesta antes de continuar. Usa protocolo HTTP.
Asíncrona: envías el audio y tu código sigue ejecutándose mientras se procesa. También usa HTTP.
WebSocket: se establece una conexión persistente y envías paquetes de audio en tiempo real para obtener la transcripción al instante.

Para comenzar de forma sencilla, el modo síncrono con curl es el más directo.

¿Cómo se crea el servicio en IBM Cloud?

El proceso es el habitual dentro del catálogo de IBM Cloud [1:30]. Vas a la sección de AI, buscas Speech to Text y seleccionas el plan Light, que incluye quinientos minutos por mes de forma gratuita [1:44]. Una vez creado, solo necesitas las credenciales: el API key y la URL del servicio.

¿Cómo funciona la transcripción con curl?

En la demostración se transcriben dos archivos de audio con contenido similar [2:12]. Al enviar el segundo archivo mediante curl, el servicio devuelve la transcripción con un nivel de confianza del ochenta y cinco por ciento [3:06]. Junto con el resultado principal, Watson también ofrece alternativas de transcripción, cada una con su propio porcentaje de certeza.

El parámetro de modelo de idioma es importante: al seleccionar español mexicano, el servicio ajusta su reconocimiento a las particularidades de esa variante lingüística [3:30].

¿Qué son las keywords y cómo se detectan palabras clave?

Una de las funcionalidades más poderosas del servicio es la detección de keywords o palabras clave [3:40]. En lugar de revisar toda una transcripción manualmente, puedes indicar qué palabras buscas y el sistema te dice en qué segundo exacto se mencionaron y con qué nivel de confianza.

Esto resulta especialmente útil para:

Monitorear llamadas de atención al cliente buscando menciones de la competencia.
Identificar cuándo un vendedor dice su nombre en una grabación.
Localizar momentos específicos dentro de audios largos.

¿Cómo se configura el threshold de confianza?

Al agregar keywords en la URL del curl, también se define un threshold (umbral de confianza) [4:20]. Este valor determina a partir de qué porcentaje de certeza el sistema considera que la palabra realmente fue dicha. En el ejemplo se usa un valor de 0.5, aunque queda a criterio de cada implementación ajustarlo.

En la prueba con la palabra "Isaac", los resultados muestran detección con cien por ciento de confianza en el segundo dos, y una segunda aparición en el segundo trece con noventa y cinco por ciento de confianza [5:00]. Cada resultado incluye el rango exacto de tiempo: segundo de inicio y segundo de fin.

Al repetir el proceso con el segundo archivo de audio, los resultados son igualmente precisos, confirmando que la funcionalidad es consistente sin importar el archivo [5:40].

¿Qué viene después de transcribir audio?

Una vez que dominas la transcripción de audio a texto, el siguiente paso lógico es el proceso inverso: Text to Speech, que convierte texto en voz [6:22]. Combinando ambos servicios con Watson Assistant, puedes construir un flujo completo de conversación por voz donde el usuario habla, el sistema transcribe, Assistant responde y esa respuesta se lee en voz alta.

Graba tu propio audio, prueba con y sin keywords, y comparte tu experiencia con los distintos formatos que acepta el servicio.

Comentarios

Jimmy Buriticá Londoño

student•

El servicio Speech to Text convierte la voz humana en palabras escritas. Se puede utilizar en cualquier lugar donde se necesite llenar el hueco entre la palabra hablada y la forma escrita, incluido el control de voz de los sistemas incorporados, la transcripción de reuniones y teleconferencias y el dictado de correo electrónico y notas.

Ricardo Diago Pinilla Sánchez

student•

El modelo de idioma español Colombia es: model=es-CO_BroadbandModel

Sergio Andrés Zapata Saldarriaga

student•

Muchas gracias, Excelente aporte

Jaziel Flores

student•

Qué bonito es cuando sí funciona jaja ![](

Julian David Orozco Colorado

student•

la verdad no me funciono coomo esperaba, envie dos audios.

hola soy julian orozco y soy de "ciudad" "confidence": 0.36, "transcript": "when I started my number is called auto school showed up there you go "
estados unidos de norte america "confidence": 0.5, "transcript": "espousal near the North America " nos se si hay que configurar el idioma de entrada o que paso aca.

Carlos Andrés Mosquera Arria

student•

En la petición debes configurar el idioma con ?model=es-MX_BroadbandModel Es decir, tu petición curl quedaria asi para Windows (desde la carpeta donde está el audio): curl -X POST -u “apikey:tu_api_key” ^ –header “Content-Type: audio/flac” ^ –data-binary @audio-file.flac ^ “https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/tu_instancia/v1/recognize?model=es-MX_BroadbandModel”

Julian David Orozco Colorado

student•

Gracias compa me funciono.

Loren Johanna Vásquez Rivera

student•

Un pequeño comentario, se pone la url justo antes de v1, pues por ejemplo a mi no me aparece "api" al final de mi url:

curl -X POST -u "apikey:SPkIfPpktELAu5mS0fR2D6eQz5fvGFUUdbxGzzmWz2wz" \
 --header "Content-Type: audio/flac" --data-binary @audio-file2.flac \
  "https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/219b75ae-b66c-4993-b2d6-06025c1813a4/v1/recognize?model=es-MX_BroadbandModel&keywords=%22isaac%22&keywords_threshold=0.5"

Jhon Jaiver Supelano Rojas

student•

¿Las malas palabras estan incluidas en Watson Speech to Text? no lo encontre en el docs

Nicolas Enrique Duque Aguirre

student•

Con los audios de la clase funciona bien pero al grabar un audio con el celular y enviarlo ya no funciona, dice error 400, en el reproductor que uso (VCL) se reproduce bien, la solucion fue tomar el archivo original y pasarlo por un conversor a flac y en este caso si funciono

David Andrés Torres Forero

student•

Lo que debe pasar es el formato del archivo. Los audios de la clase están en .flac mientras que los del celular deben ser mp4. Resiva el formato del archivo e intenta. Lo hice con audacity exportando el .flac y funcionó correctamente. Saludos.

Ronal Saith Lopesierra Chartuni

student•

Buenas comunidad de Platzi. Tuve un problema al ejecutar el CURL, debido a que me aparece el siguiente error: "curl: (35) schannel: next InitializeSecurityContext failed: Unknown error (0x80092012) - La función de revocación no puede comprobar la revocación para el certificado.". Si alguien conoce una solución estaría agradecido que me la comunicase.

Alberto Perdomo

student•

En este post de stack-overflow tienen literalmente el mismo problema y lo solucionan.

https://stackoverflow.com/questions/54938026/curl-unknown-error-0x80092012-the-revocation-function-was-unable-to-check-r

Ronal Saith Lopesierra Chartuni

student•

Gracias. Al parecer el problema era con el Antivirus.

Mario Emiliano Gordon Pico

student•

Como puedo setear para un audio de llamada, donde haya dos personas hablando en español

Isaac Carrada

teacher•

Hola! Si ya tienes el audio, al hacer la petición necesitarías mandar en el header como verdadero "speaker_labels"

Te mando el ejemplo de la petición: curl -X POST -u "apikey:{apikey}" --header "Content-Type: audio/flac" --data-binary @{path}audio-multi.flac "{url}/v1/recognize?model=en-US_NarrowbandModel&speaker_labels=true"

Puedes encontrar mas información aquí: https://cloud.ibm.com/docs/speech-to-text?topic=speech-to-text-output

Cristian Dario Prieto Avella

student•

se puede usar otro formato de audio?

Jhon Raul Perez Muñoz

student•

Mi resultado no transcribe las palabras con tildes, como puedo solucionarlo?

"cu├íl nombre es isaac y a su gusto ser tu profesora en este curso s├¡gueme mi redes en instagram estoy como el buen isi y en lo dem├ís como isaac karrada "

Isaac Carrada

teacher•

Hola!

Speech to text en español ya incluye las tildes, en caso de que quieras entrenar una palabra específica que utiliza símbolos fonéticos te dejo la documentación: https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-sprs&locale=es

Debes utilizar el elemento <phoneme> del SSML (Speech Synthesis Markup Language)

Luis Alberto Pinzon Gasca

student•

¿Que tal compañeros?, utilizo windows, e intente con soluciones de otros compañeros, sin embargo, a mi me sale esto luego de correr el codigo: Usage: curl [options...] <url> +Una lista desplegable de bastantes lineas, que aparentarian ser los usos de curl.

¿Alguien sabe que puedo hacer?

Lo corro de la siguiente manera: curl -X POST -u "apikey:xVWvQ7_mubpqd1ChnHBPlfFNeizq0-g_dXIDX4l8602C" ^ –header “Content-Type: audio/flac” ^ –data-binary @audio-file.flac ^ “https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/0768a672-4c16-4873-bc28-231c941c0eda/v1/recognize?model=es-MX_BroadbandModel”

Quedo atento muchas gracias!

Miguel Rodríguez

student•

Hola, yo uso Windows y la consola de GitBash no se si lo hayas probado, pero corre con las instrucciones de linux

Jhon Jairo Meneses Prieto

student•

Me genera error, pero no veo nada mal en el: Warning: Couldn't read data from file "audio-file.flac", this makes an empty Warning: POST. {"code":401, "error": "Unauthorized"}

<curl -X POST -u "apikey:5BTGKqgirHxJXWnYaRUv4Oyu6VKWIqdkOiauZgwJrE5" ^
--header "Content-Type: audio/flac" ^
--data-binary @audio-file.flac ^
"https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/7847f8e0-c233-49d3-9ef9-5b996f5040cc/v1/recognize">

Isaac Carrada

teacher•

hola! probablemente tu apikey es incorrecta...checalo y avisame si funciona!

Gustavo Adolfo Abello Fernandez

student•

estas ubicado en la ruta donde esta el audio ? recuerda que para que lo reconozca debes estar en la misma carpeta posicionado con la terminal. saludos

Carlos Andrés Mosquera Arria

student•

Mi petición con keywords no sirve. Aparentemente el linux shell trata los caracteres & diferente:

curl -X POST -u "apikey:Rzf5xXv3lCFsRwUD3ijSlOaOiQFgkmkwnq39oKnD9_CS" ^ --header "Content-Type: audio/flac" ^ --data-binary @audio-file.flac ^ "https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/d11993ca-8813-4612-9ef4-bf8ddc7557ac/v1/recognize?model=es-MX_BroadbandModel&keywords=%22isaac%22&keywords_threshold=0.5"

Le he puesto doble &, y varias cosas y nada sirve (&, &&, %&, etc y nada).

Hugo Montoya Diaz

student•

Gustavo Adolfo Abello Fernandez

student•

Me funciono igual. "transcript": "cuéllar isaac gracias por tomar este curso sígueme mi redes en instagram estoy como el buen isi y en lo demás como isaac carranza "

Guillermo Parejo

student•

Excelente clase

Usuario anónimo

user•

super

Daniela Stephanie Romero Martinez

student•

¿Alguien me podría ayudar? me sale lo siguiente: "keywords" no se reconoce como un comando interno o externo, programa o archivo por lotes ejecutable. "keywords_threshold" no se reconoce como un comando interno o externo, programa o archivo por lotes ejecutable.

Daniel Fernando Ramírez Avendaño

student•

Me sucedio lo mismo, resulto que me faltaban las comillas con las que se abre la url

Daniel Felipe Naranjo Cruz

student•

Solo recibe audios .flac? Como se configura que idioma es el que debe transcribir?

curl -X POST -u "apikey:SPkIfPpktELAu5mS0fR2D6eQz5fvGFUUdbxGzzmWz2wz" \
 --header "Content-Type: audio/flac" --data-binary @audio-file2.flac \
  "https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/219b75ae-b66c-4993-b2d6-06025c1813a4/v1/recognize?model=es-MX_BroadbandModel&keywords=%22isaac%22&keywords_threshold=0.5"

<curl -X POST -u "apikey:5BTGKqgirHxJXWnYaRUv4Oyu6VKWIqdkOiauZgwJrE5" ^
--header "Content-Type: audio/flac" ^
--data-binary @audio-file.flac ^
"https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/7847f8e0-c233-49d3-9ef9-5b996f5040cc/v1/recognize">

Watson Speech to Text

Aprende a usar Manejo de Lenguaje Natural con Watson

Bases para el curso

Introducción de Watson

Configuración del entorno de trabajo

Instalar cURL en Windows

Arquitectura REST

Aprende el manejo del lenguaje natural con Watson

Uso de Watson Personality Insights via CURL

Uso de Watson Personality Insights via SDK

Watson Natural Language Classifier

Watson Natural Language Understanding

Discovery

Introducción a Watson Knowledge Studio

Entrenamiento de Watson Knowledge Studio

Introducción a Watson Assistant

Implementación de Watson Assistant

Funciones en Javascript