Watson Speech to Text

Clase 15 de 25 • Curso de Inteligencia Artificial con IBM Watson

Contenido del curso

Aprende a usar Manejo de Lenguaje Natural con Watson

Bases para el curso

Aprende el manejo del lenguaje natural con Watson

Watson Studio: Ciencia de Datos y Más

Integración

Tomar examen

Comentarios

Jimmy Buriticá Londoño

student•

El servicio Speech to Text convierte la voz humana en palabras escritas. Se puede utilizar en cualquier lugar donde se necesite llenar el hueco entre la palabra hablada y la forma escrita, incluido el control de voz de los sistemas incorporados, la transcripción de reuniones y teleconferencias y el dictado de correo electrónico y notas.

Ricardo Diago Pinilla Sánchez

student•

El modelo de idioma español Colombia es: model=es-CO_BroadbandModel

Sergio Andrés Zapata Saldarriaga

student•

Muchas gracias, Excelente aporte

Jaziel Flores

student•

Qué bonito es cuando sí funciona jaja ![](

Julian David Orozco Colorado

student•

la verdad no me funciono coomo esperaba, envie dos audios.

hola soy julian orozco y soy de "ciudad" "confidence": 0.36, "transcript": "when I started my number is called auto school showed up there you go "
estados unidos de norte america "confidence": 0.5, "transcript": "espousal near the North America " nos se si hay que configurar el idioma de entrada o que paso aca.

Carlos Andrés Mosquera Arria

student•

En la petición debes configurar el idioma con ?model=es-MX_BroadbandModel Es decir, tu petición curl quedaria asi para Windows (desde la carpeta donde está el audio): curl -X POST -u “apikey:tu_api_key” ^ –header “Content-Type: audio/flac” ^ –data-binary @audio-file.flac ^ “https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/tu_instancia/v1/recognize?model=es-MX_BroadbandModel”

Julian David Orozco Colorado

student•

Gracias compa me funciono.

Loren Johanna Vásquez Rivera

student•

Un pequeño comentario, se pone la url justo antes de v1, pues por ejemplo a mi no me aparece "api" al final de mi url:

curl -X POST -u "apikey:SPkIfPpktELAu5mS0fR2D6eQz5fvGFUUdbxGzzmWz2wz" \
 --header "Content-Type: audio/flac" --data-binary @audio-file2.flac \
  "https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/219b75ae-b66c-4993-b2d6-06025c1813a4/v1/recognize?model=es-MX_BroadbandModel&keywords=%22isaac%22&keywords_threshold=0.5"

Jhon Jaiver Supelano Rojas

student•

¿Las malas palabras estan incluidas en Watson Speech to Text? no lo encontre en el docs

Nicolas Enrique Duque Aguirre

student•

Con los audios de la clase funciona bien pero al grabar un audio con el celular y enviarlo ya no funciona, dice error 400, en el reproductor que uso (VCL) se reproduce bien, la solucion fue tomar el archivo original y pasarlo por un conversor a flac y en este caso si funciono

David Andrés Torres Forero

student•

Lo que debe pasar es el formato del archivo. Los audios de la clase están en .flac mientras que los del celular deben ser mp4. Resiva el formato del archivo e intenta. Lo hice con audacity exportando el .flac y funcionó correctamente. Saludos.

Ronal Saith Lopesierra Chartuni

student•

Buenas comunidad de Platzi. Tuve un problema al ejecutar el CURL, debido a que me aparece el siguiente error: "curl: (35) schannel: next InitializeSecurityContext failed: Unknown error (0x80092012) - La función de revocación no puede comprobar la revocación para el certificado.". Si alguien conoce una solución estaría agradecido que me la comunicase.

Alberto Perdomo

student•

En este post de stack-overflow tienen literalmente el mismo problema y lo solucionan.

https://stackoverflow.com/questions/54938026/curl-unknown-error-0x80092012-the-revocation-function-was-unable-to-check-r

Ronal Saith Lopesierra Chartuni

student•

Gracias. Al parecer el problema era con el Antivirus.

Mario Emiliano Gordon Pico

student•

Como puedo setear para un audio de llamada, donde haya dos personas hablando en español

Isaac Carrada

teacher•

Hola! Si ya tienes el audio, al hacer la petición necesitarías mandar en el header como verdadero "speaker_labels"

Te mando el ejemplo de la petición: curl -X POST -u "apikey:{apikey}" --header "Content-Type: audio/flac" --data-binary @{path}audio-multi.flac "{url}/v1/recognize?model=en-US_NarrowbandModel&speaker_labels=true"

Puedes encontrar mas información aquí: https://cloud.ibm.com/docs/speech-to-text?topic=speech-to-text-output

Cristian Dario Prieto Avella

student•

se puede usar otro formato de audio?

Jhon Raul Perez Muñoz

student•

Mi resultado no transcribe las palabras con tildes, como puedo solucionarlo?

"cu├íl nombre es isaac y a su gusto ser tu profesora en este curso s├¡gueme mi redes en instagram estoy como el buen isi y en lo dem├ís como isaac karrada "

Isaac Carrada

teacher•

Hola!

Speech to text en español ya incluye las tildes, en caso de que quieras entrenar una palabra específica que utiliza símbolos fonéticos te dejo la documentación: https://cloud.ibm.com/docs/text-to-speech?topic=text-to-speech-sprs&locale=es

Debes utilizar el elemento <phoneme> del SSML (Speech Synthesis Markup Language)

Luis Alberto Pinzon Gasca

student•

¿Que tal compañeros?, utilizo windows, e intente con soluciones de otros compañeros, sin embargo, a mi me sale esto luego de correr el codigo: Usage: curl [options...] <url> +Una lista desplegable de bastantes lineas, que aparentarian ser los usos de curl.

¿Alguien sabe que puedo hacer?

Lo corro de la siguiente manera: curl -X POST -u "apikey:xVWvQ7_mubpqd1ChnHBPlfFNeizq0-g_dXIDX4l8602C" ^ –header “Content-Type: audio/flac” ^ –data-binary @audio-file.flac ^ “https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/0768a672-4c16-4873-bc28-231c941c0eda/v1/recognize?model=es-MX_BroadbandModel”

Quedo atento muchas gracias!

Miguel Rodríguez

student•

Hola, yo uso Windows y la consola de GitBash no se si lo hayas probado, pero corre con las instrucciones de linux

Jhon Jairo Meneses Prieto

student•

Me genera error, pero no veo nada mal en el: Warning: Couldn't read data from file "audio-file.flac", this makes an empty Warning: POST. {"code":401, "error": "Unauthorized"}

<curl -X POST -u "apikey:5BTGKqgirHxJXWnYaRUv4Oyu6VKWIqdkOiauZgwJrE5" ^
--header "Content-Type: audio/flac" ^
--data-binary @audio-file.flac ^
"https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/7847f8e0-c233-49d3-9ef9-5b996f5040cc/v1/recognize">

Isaac Carrada

teacher•

hola! probablemente tu apikey es incorrecta...checalo y avisame si funciona!

Gustavo Adolfo Abello Fernandez

student•

estas ubicado en la ruta donde esta el audio ? recuerda que para que lo reconozca debes estar en la misma carpeta posicionado con la terminal. saludos

Carlos Andrés Mosquera Arria

student•

Mi petición con keywords no sirve. Aparentemente el linux shell trata los caracteres & diferente:

curl -X POST -u "apikey:Rzf5xXv3lCFsRwUD3ijSlOaOiQFgkmkwnq39oKnD9_CS" ^ --header "Content-Type: audio/flac" ^ --data-binary @audio-file.flac ^ "https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/d11993ca-8813-4612-9ef4-bf8ddc7557ac/v1/recognize?model=es-MX_BroadbandModel&keywords=%22isaac%22&keywords_threshold=0.5"

Le he puesto doble &, y varias cosas y nada sirve (&, &&, %&, etc y nada).

Hugo Montoya Diaz

student•

Gustavo Adolfo Abello Fernandez

student•

Me funciono igual. "transcript": "cuéllar isaac gracias por tomar este curso sígueme mi redes en instagram estoy como el buen isi y en lo demás como isaac carranza "

Guillermo Parejo

student•

Excelente clase

Usuario anónimo

user•

super

Daniela Stephanie Romero Martinez

student•

¿Alguien me podría ayudar? me sale lo siguiente: "keywords" no se reconoce como un comando interno o externo, programa o archivo por lotes ejecutable. "keywords_threshold" no se reconoce como un comando interno o externo, programa o archivo por lotes ejecutable.

Daniel Fernando Ramírez Avendaño

student•

Me sucedio lo mismo, resulto que me faltaban las comillas con las que se abre la url

Daniel Felipe Naranjo Cruz

student•

Solo recibe audios .flac? Como se configura que idioma es el que debe transcribir?

curl -X POST -u "apikey:SPkIfPpktELAu5mS0fR2D6eQz5fvGFUUdbxGzzmWz2wz" \
 --header "Content-Type: audio/flac" --data-binary @audio-file2.flac \
  "https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/219b75ae-b66c-4993-b2d6-06025c1813a4/v1/recognize?model=es-MX_BroadbandModel&keywords=%22isaac%22&keywords_threshold=0.5"

<curl -X POST -u "apikey:5BTGKqgirHxJXWnYaRUv4Oyu6VKWIqdkOiauZgwJrE5" ^
--header "Content-Type: audio/flac" ^
--data-binary @audio-file.flac ^
"https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/7847f8e0-c233-49d3-9ef9-5b996f5040cc/v1/recognize">

Watson Speech to Text

Aprende a usar Manejo de Lenguaje Natural con Watson

Bases para el curso

Introducción de Watson

Configuración del entorno de trabajo

Instalar cURL en Windows

Arquitectura REST

Aprende el manejo del lenguaje natural con Watson

Uso de Watson Personality Insights via CURL

Uso de Watson Personality Insights via SDK

Watson Natural Language Classifier

Watson Natural Language Understanding

Discovery

Introducción a Watson Knowledge Studio

Entrenamiento de Watson Knowledge Studio

Introducción a Watson Assistant

Implementación de Watson Assistant

Funciones en Javascript