Contenido del curso
Lenguaje
- 5

Text Analytics: Extracción y Análisis de Texto en Documentos
10:30 min - 6

Escenarios de Uso de Servicios Cognitivos en Análisis de Datos
07:04 min - 7

Análisis de Sentimiento con APIs de Azure: Uso y Configuración
09:37 min - 8

Detección de Idiomas con Servicios Cognitivos Azure
07:26 min - 9

Desarrollo de Aplicación de Consola con Text Analytics en C#
15:53 min
Voz
- 10

Servicios de Voz en Cognitive Services: Conversión y Aplicaciones
Viendo ahora - 11

Conversión de Texto a Voz con Azure Cognitive Services
11:38 min - 12

Conversión de Voz a Texto con Servicios Cognitivos en Visual Studio
13:33 min - 13

Implementación de Traducción de Voz en Visual Studio
10:14 min - 14

Implementación de Reconocimiento de Voz con Visual Studio
13:37 min
Visión
- 15

Visión Computacional con Microsoft: Análisis y Aplicaciones Prácticas
06:37 min - 16

Creación de un Servicio de Computer Vision en Azure y su Implementación
11:56 min - 17

Servicio OCR: Conversión de Imágenes a Texto Usando Azure
08:46 min - 18

Reconocimiento Facial: Detección y Análisis de Rasgos Humanos
08:50 min - 19

Detección y Análisis de Rostros con Face API
04:44 min - 20

Uso de la API Face para Detección y Verificación de Rostros
16:53 min
LUIS
- 21

Implementación de Luis para Comprensión del Lenguaje Natural
11:39 min - 22

Creación de Modelos e Intenciones en Aplicaciones de Luis
11:52 min - 23

Desarrollo de Aplicaciones en LUIS desde Cero
12:09 min - 24

Uso de Modelos Prediseñados en Aplicaciones de Luis
07:25 min - 25

Entrenamiento y Publicación de Modelos en LUIS
16:34 min - 26

Integración del modelo Luis en aplicaciones con SDK de C#
08:28 min
Conclusiones
Servicios de Voz en Cognitive Services: Conversión y Aplicaciones
Resumen
Los servicios de inteligencia artificial en la nube permiten integrar capacidades de voz en aplicaciones de forma accesible y potente. El servicio de voz en Cognitive Services ofrece cuatro componentes fundamentales que abren posibilidades para bots, centros de atención a clientes y sistemas de autenticación. Conocer cada uno de estos componentes es clave para elegir la solución adecuada según el escenario de negocio.
¿Qué hace el componente de voz a texto?
El primer componente es voz a texto (speech to text) [00:10]. Este servicio convierte lo que una persona dice, ya sea en tiempo real a través de un micrófono o mediante archivos de audio pregrabados, en texto que puede ser procesado por una aplicación.
Un caso práctico muy claro es la interacción con un bot conversacional [00:38]. En lugar de escribir en un cuadro de texto, el usuario activa su micrófono y habla. El bot utiliza el servicio de voz a texto para entender lo que se dice y, a partir de ahí, puede integrar otros servicios como LUIS (Language Understanding Intelligent Service) [01:05] para identificar la intención del usuario y extraer entidades relevantes del mensaje.
¿Cómo funciona el servicio de texto a voz?
El segundo componente es texto a voz (text to speech) [01:22]. Permite generar audio sintetizado a partir de texto, seleccionando el tipo de voz deseado. Gracias al uso de redes neuronales profundas, la voz sintetizada suena mucho más natural que las versiones robotizadas de generaciones anteriores [01:42].
Estos dos servicios trabajan en conjunto. Por ejemplo, un bot puede:
- Recibir un mensaje de voz del usuario y convertirlo a texto.
- Procesar el texto con Text Analytics para detectar el idioma [02:02].
- Responder al usuario con una nota de voz en el idioma correcto usando texto a voz [02:30].
De esta forma, el bot identifica la intención, proporciona opciones al usuario y puede devolver la respuesta como mensaje de voz sintetizado.
¿Para qué sirve la traducción de voz?
El tercer componente es la traducción de voz (speech translation) [02:50]. Este servicio detecta automáticamente el idioma en el que se habla y realiza la traducción correspondiente, ya sea desde un micrófono en tiempo real o desde archivos de audio.
Su aplicación es ideal en plataformas de comunicación donde los usuarios envían notas de voz [03:08]. Cada persona puede hablar en el idioma con el que se sienta cómoda, y la aplicación se encarga de detectar y traducir al idioma del destinatario.
¿Qué es el reconocimiento de speaker y cómo aporta seguridad?
El cuarto componente es el reconocimiento del speaker (speaker recognition) [03:28]. Agrega una capa adicional de autenticación biométrica por voz. El proceso funciona así:
- Se entrena un modelo con una serie de frases dichas por el usuario.
- El modelo genera un perfil de voz único.
- Cuando llega una nueva frase, el servicio evalúa con un nivel de confianza si fue dicha por la persona original o por alguien más [03:52].
Este servicio es un ejemplo de personalización dentro de los servicios cognitivos [04:02]. Aunque los modelos de Cognitive Services vienen preentrenados y listos para usarse, algunos permiten un entrenamiento adicional para adaptarse a necesidades específicas, como identificar a un usuario concreto.
¿Cuáles son los casos de uso reales del servicio de voz?
Dos ejemplos concretos ilustran el potencial de estos servicios:
- AT&T y la red 5G [04:38]: sintetizó la voz de Bugs Bunny para que los usuarios pudieran interactuar por voz con una aplicación. Combina voz a texto (entrada del usuario) con texto a voz (respuesta del personaje) usando modelos de síntesis personalizados.
- KPMG [05:08]: utiliza speech to text para transcribir y catalogar miles de llamadas en centros de atención a clientes. El audio se convierte a texto y luego se analiza con Text Analytics para extraer frases clave, detectar sentimientos positivos o negativos y generar información valiosa para el negocio [05:22].
Los centros de contacto representan uno de los casos de uso más comunes donde el input principal es la voz y la cadena de procesamiento combina múltiples servicios cognitivos para obtener inteligencia accionable. ¿Qué escenario te resulta más interesante para aplicar en tus proyectos?