Servicios de Voz en Cognitive Services: Conversión y Aplicaciones

Clase 10 de 27 • Curso de Azure Cognitive Services

Contenido del curso

Introducción

Lenguaje

Voz

Visión

LUIS

Conclusiones

27
Servicios Cognitivos en Azure: Conceptos y Aplicaciones
00:49 min

Tomar examen

Resumen

Los servicios de inteligencia artificial en la nube permiten integrar capacidades de voz en aplicaciones de forma accesible y potente. El servicio de voz en Cognitive Services ofrece cuatro componentes fundamentales que abren posibilidades para bots, centros de atención a clientes y sistemas de autenticación. Conocer cada uno de estos componentes es clave para elegir la solución adecuada según el escenario de negocio.

¿Qué hace el componente de voz a texto?

El primer componente es voz a texto (speech to text) [00:10]. Este servicio convierte lo que una persona dice, ya sea en tiempo real a través de un micrófono o mediante archivos de audio pregrabados, en texto que puede ser procesado por una aplicación.

Un caso práctico muy claro es la interacción con un bot conversacional [00:38]. En lugar de escribir en un cuadro de texto, el usuario activa su micrófono y habla. El bot utiliza el servicio de voz a texto para entender lo que se dice y, a partir de ahí, puede integrar otros servicios como LUIS (Language Understanding Intelligent Service) [01:05] para identificar la intención del usuario y extraer entidades relevantes del mensaje.

¿Cómo funciona el servicio de texto a voz?

El segundo componente es texto a voz (text to speech) [01:22]. Permite generar audio sintetizado a partir de texto, seleccionando el tipo de voz deseado. Gracias al uso de redes neuronales profundas, la voz sintetizada suena mucho más natural que las versiones robotizadas de generaciones anteriores [01:42].

Estos dos servicios trabajan en conjunto. Por ejemplo, un bot puede:

Recibir un mensaje de voz del usuario y convertirlo a texto.
Procesar el texto con Text Analytics para detectar el idioma [02:02].
Responder al usuario con una nota de voz en el idioma correcto usando texto a voz [02:30].

De esta forma, el bot identifica la intención, proporciona opciones al usuario y puede devolver la respuesta como mensaje de voz sintetizado.

¿Para qué sirve la traducción de voz?

El tercer componente es la traducción de voz (speech translation) [02:50]. Este servicio detecta automáticamente el idioma en el que se habla y realiza la traducción correspondiente, ya sea desde un micrófono en tiempo real o desde archivos de audio.

Su aplicación es ideal en plataformas de comunicación donde los usuarios envían notas de voz [03:08]. Cada persona puede hablar en el idioma con el que se sienta cómoda, y la aplicación se encarga de detectar y traducir al idioma del destinatario.

¿Qué es el reconocimiento de speaker y cómo aporta seguridad?

El cuarto componente es el reconocimiento del speaker (speaker recognition) [03:28]. Agrega una capa adicional de autenticación biométrica por voz. El proceso funciona así:

Se entrena un modelo con una serie de frases dichas por el usuario.
El modelo genera un perfil de voz único.
Cuando llega una nueva frase, el servicio evalúa con un nivel de confianza si fue dicha por la persona original o por alguien más [03:52].

Este servicio es un ejemplo de personalización dentro de los servicios cognitivos [04:02]. Aunque los modelos de Cognitive Services vienen preentrenados y listos para usarse, algunos permiten un entrenamiento adicional para adaptarse a necesidades específicas, como identificar a un usuario concreto.

¿Cuáles son los casos de uso reales del servicio de voz?

Dos ejemplos concretos ilustran el potencial de estos servicios:

AT&T y la red 5G [04:38]: sintetizó la voz de Bugs Bunny para que los usuarios pudieran interactuar por voz con una aplicación. Combina voz a texto (entrada del usuario) con texto a voz (respuesta del personaje) usando modelos de síntesis personalizados.
KPMG [05:08]: utiliza speech to text para transcribir y catalogar miles de llamadas en centros de atención a clientes. El audio se convierte a texto y luego se analiza con Text Analytics para extraer frases clave, detectar sentimientos positivos o negativos y generar información valiosa para el negocio [05:22].

Los centros de contacto representan uno de los casos de uso más comunes donde el input principal es la voz y la cadena de procesamiento combina múltiples servicios cognitivos para obtener inteligencia accionable. ¿Qué escenario te resulta más interesante para aplicar en tus proyectos?

Comentarios

Carlos Daniel Revetti Narvaez

student•

Un breve video de esta tecnología .

AT&T Launches Looney Tunes 5G Experience

Jesús Ignacio García Fernández

student•

¿Qué es Speech Service?

Unifica las funcionalidades de conversión de voz a texto, texto a voz y traducción de voz.
Servicio: Voz a texto Característica: Conversión de voz en texto en tiempo real Descripción: La conversión de voz en texto transcribe o traduce en tiempo real secuencias de audio o archivos de audio a texto que sus aplicaciones, herramientas o dispositivos pueden consumir o mostrar. Use voz a texto con Language Understanding (LUIS) para derivar las intenciones del usuario a partir de voz transcrita y actuar en los comandos de voz. SDK: Sí REST: Sí
Servicio: Texto a voz Característica: Texto a voz Descripción: Texto a voz convierte el texto de entrada en voz sintetizada similar a la humana mediante el Lenguaje de marcado de síntesis de voz (SSML). Use voces neuronales, que son voces similares a las humanas con tecnología de redes neuronales profundas. SDK: Sí REST: Sí

Jesús Ignacio García Fernández

student•

Servicio: Traducción de voz Caracteristica: Traducción de voz Descripción: La traducción de voz habilita la traducción de voz en varios idiomas en tiempo real en sus aplicaciones, herramientas y dispositivos. Use este servicio para la traducción de voz a voz y voz a texto. SDK: Sí REST: No
Servicio: Speaker Recognition Caracteristica: Verificación e identificación del hablante Descripción: El servicio Speaker Recognition proporciona algoritmos que comprueban e identifican a los hablantes por sus características de voz únicas. Speaker Recognition se usa para responder a la pregunta "¿quién está hablando?". SDK: Sí REST: Sí

Jesús Ignacio García Fernández

student•

Ejemplos de uso

AT&T muestra su servicio de red 5G permitiendo a los clientes hablar directamente con Bugs Bunny.

KPMG utiliza Speech to Text para transcribir y catalogar miles de llamadas, permitiendo mejorar el servicio de atención a clientes.

Oswaldo Sánchez Salazar

student•

Este curso lo encuentro patas para arriba, porque esta muy muy muy frontend, sin embargo, como UX UI designer me brinda las bases de código para demostrar a los desarrolladores que mi propuesta si se puede llevar a cabo con la combinación de varias propuestas para las personas de la 3ra edad .....

Servicios de Voz en Cognitive Services: Conversión y Aplicaciones

Introducción

Servicios Cognitivos de Microsoft: Implementación Práctica

Uso de Servicios Cognitivos de Microsoft en Aplicaciones

Configuración de Ambiente para Servicios Cognitivos en Azure

Seguridad y Autenticación en Servicios Cognitivos de Azure

Lenguaje

Text Analytics: Extracción y Análisis de Texto en Documentos

Escenarios de Uso de Servicios Cognitivos en Análisis de Datos

Análisis de Sentimiento con APIs de Azure: Uso y Configuración

Detección de Idiomas con Servicios Cognitivos Azure

Desarrollo de Aplicación de Consola con Text Analytics en C#

Voz