Resumen

Convertir audio en texto de forma automática abre posibilidades enormes para aplicaciones de atención al cliente, toma de apuntes, chatbots y herramientas de accesibilidad. Speech to Text de IBM Watson es un API que hace exactamente eso: recibe audio y devuelve una transcripción precisa, lista para integrarse con otros servicios como Watson Assistant.

¿Qué es Speech to Text y para qué sirve?

Speech to Text es un servicio de la suite Watson que transcribe audio en texto [0:06]. Su uso más popular es en combinación con Watson Assistant: en lugar de escribir mensajes a un chatbot, puedes hablarle directamente usando el micrófono [0:18]. Sin embargo, sus aplicaciones van mucho más allá.

Puedes implementarlo en cualquier escenario donde necesites convertir voz a texto:

  • Aplicaciones de dictado y toma de apuntes.
  • Transcripción de llamadas en mesas de ayuda.
  • Herramientas de accesibilidad para personas con discapacidad visual.

¿Cuáles son las tres formas de interacción con el servicio?

El servicio ofrece tres modos de comunicación [1:00]:

  • Síncrona: envías el audio y esperas la respuesta antes de continuar. Usa protocolo HTTP.
  • Asíncrona: envías el audio y tu código sigue ejecutándose mientras se procesa. También usa HTTP.
  • WebSocket: se establece una conexión persistente y envías paquetes de audio en tiempo real para obtener la transcripción al instante.

Para comenzar de forma sencilla, el modo síncrono con curl es el más directo.

¿Cómo se crea el servicio en IBM Cloud?

El proceso es el habitual dentro del catálogo de IBM Cloud [1:30]. Vas a la sección de AI, buscas Speech to Text y seleccionas el plan Light, que incluye quinientos minutos por mes de forma gratuita [1:44]. Una vez creado, solo necesitas las credenciales: el API key y la URL del servicio.

¿Cómo funciona la transcripción con curl?

En la demostración se transcriben dos archivos de audio con contenido similar [2:12]. Al enviar el segundo archivo mediante curl, el servicio devuelve la transcripción con un nivel de confianza del ochenta y cinco por ciento [3:06]. Junto con el resultado principal, Watson también ofrece alternativas de transcripción, cada una con su propio porcentaje de certeza.

El parámetro de modelo de idioma es importante: al seleccionar español mexicano, el servicio ajusta su reconocimiento a las particularidades de esa variante lingüística [3:30].

¿Qué son las keywords y cómo se detectan palabras clave?

Una de las funcionalidades más poderosas del servicio es la detección de keywords o palabras clave [3:40]. En lugar de revisar toda una transcripción manualmente, puedes indicar qué palabras buscas y el sistema te dice en qué segundo exacto se mencionaron y con qué nivel de confianza.

Esto resulta especialmente útil para:

  • Monitorear llamadas de atención al cliente buscando menciones de la competencia.
  • Identificar cuándo un vendedor dice su nombre en una grabación.
  • Localizar momentos específicos dentro de audios largos.

¿Cómo se configura el threshold de confianza?

Al agregar keywords en la URL del curl, también se define un threshold (umbral de confianza) [4:20]. Este valor determina a partir de qué porcentaje de certeza el sistema considera que la palabra realmente fue dicha. En el ejemplo se usa un valor de 0.5, aunque queda a criterio de cada implementación ajustarlo.

En la prueba con la palabra "Isaac", los resultados muestran detección con cien por ciento de confianza en el segundo dos, y una segunda aparición en el segundo trece con noventa y cinco por ciento de confianza [5:00]. Cada resultado incluye el rango exacto de tiempo: segundo de inicio y segundo de fin.

Al repetir el proceso con el segundo archivo de audio, los resultados son igualmente precisos, confirmando que la funcionalidad es consistente sin importar el archivo [5:40].

¿Qué viene después de transcribir audio?

Una vez que dominas la transcripción de audio a texto, el siguiente paso lógico es el proceso inverso: Text to Speech, que convierte texto en voz [6:22]. Combinando ambos servicios con Watson Assistant, puedes construir un flujo completo de conversación por voz donde el usuario habla, el sistema transcribe, Assistant responde y esa respuesta se lee en voz alta.

Graba tu propio audio, prueba con y sin keywords, y comparte tu experiencia con los distintos formatos que acepta el servicio.