Conversión de Voz a Texto con Servicios Cognitivos en Visual Studio

Clase 12 de 27 • Curso de Azure Cognitive Services

Resumen

¿Cómo implementar el servicio de voz a texto?

El servicio de voz a texto transforma el audio en texto utilizando tecnología cognitiva avanzada. Para comenzar a usarlo, es esencial disponer de una suscripción al servicio cognitivo de Azure. Aquí aprenderás cómo configurarlo desde cero en un entorno de Visual Studio, utilizando C# y algunas herramientas adicionales para trabajar con el sistema de archivos y métodos asíncronos.

¿Qué necesitas para comenzar?

Suscripción al servicio cognitivo de speech: Este servicio es clave para realizar la conversión de voz a texto.
Llave de suscripción y ubicación: Configura estos elementos cruciales para acceder al servicio y ejecutarlo correctamente.

¿Cómo configurar Visual Studio?

Crear una aplicación de consola: Selecciona la opción de consola para crear una nueva aplicación. Esto simplifica el proceso de configuración inicial.
Seleccionar framework: Elige el framework .NET adecuado para trabajar.
Agregar el paquete NuGet:
- Haz clic derecho en el proyecto y selecciona "Administrar paquetes de Nuget".
- Busca Microsoft.CognitiveServices.Speech y añade el paquete.

¿Cómo configurar el servicio de voz a texto?

Obtener la suscripción y configurar la región

Dirígete al portal de Azure:

Selecciona el servicio cognitivo de tipo speech.
Confirma la región en la que está configurado, por ejemplo, WestUS.
Copia la primera llave desde la sección de keys and endpoint.

Configurar la clave de suscripción

En Visual Studio, configura la suscripción y región en tu aplicación con speech config:

using var speechConfig = SpeechConfig.FromSubscription("YourSubscriptionKey", "WestUS");

¿Cómo capturar el audio desde el micrófono?

Crear un método asíncrono: Define un método para capturar audio, por ejemplo async static Task FromMic.
Configurar orígenes de audio: Utiliza el micrófono por defecto para captar el audio:

using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
using var recognizer = new SpeechRecognizer(speechConfig, audioConfig);

Generar reconocimiento de voz:
- Solicita al usuario que hable al micrófono.
- Usa el reconocedor para transcribir en texto la voz captada.

var result = await recognizer.RecognizeOnceAsync();
Console.WriteLine("Tú dijiste: " + result.Text);

¿Cómo procesar un archivo de audio?

Crear otro método asíncrono: Define async static Task FromFile.
Configuración del archivo: Cambia el origen de micrófono a un archivo de audio:

using var audioConfig = AudioConfig.FromWavFileInput("test.wav");

Ejecutar reconocimiento: Usa el mismo proceso de reconocimiento, pero manteniendo la configuracion para procesar un archivo:

var result = await recognizer.RecognizeOnceAsync();
Console.WriteLine("El resultado es: " + result.Text);

Ejecución completa

Para ejecutar correctamente, ajusta la firma del método Main en el programa de consola para trabajar con tareas asíncronas, e invoca los métodos según necesites trabajar desde un micrófono o un archivo de audio:

static async Task Main()
{
    var speechConfig = SpeechConfig.FromSubscription("YourSubscriptionKey", "WestUS");
    await FromMic(speechConfig);
    // or
    await FromFile(speechConfig);
    Console.ReadLine();
}

¡Y ahí lo tienes! Con estas instrucciones, podrás implementar y probar el servicio de voz a texto empleando tanto entradas de micrófono como archivos de audio. Explorando el repositorio del curso, también encontrarás ejemplos más avanzados. Conviértete en un experto en procesamiento de voz aprovechando estas herramientas.

Gustavo Gonzalez Montero

student•

Hola, estoy haciendo los ejercicios desde una Mac y no me detecta el micrófono, o sea la app empieza y aunque empiece a hablar desde antes de ejecutar el programa, continúa y no reconoce nada de lo que digo:

Hello World!
Habla al micrófono
Tu dijiste lo siguiente:

Probé con diferentes configuraciones de idioma español y hasta en ingles "en-US" y no me funciona.

Hay algo que tengo que configurar adicionalmente? El micrófono si funciona y está disponible. Lo probe con la app de notas de voz, y con todas mis reuniones previas de Teams y Zoom.

Este es mi còdigo:

namespace SpeechToText
{
    class Program
    {
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription("lallavedetuservicioaprovisionadoeneastus", "eastus");
            Console.WriteLine("Hello World!");

            await fromMic(speechConfig);
            Console.ReadLine();
        }

        async static Task fromMic(SpeechConfig speechConfig)
        {
            using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
            using var recognizer = new SpeechRecognizer(speechConfig, "es-MX", audioConfig);
            Console.WriteLine("Habla al micrófono");
            var result = await recognizer.RecognizeOnceAsync();
            Console.WriteLine("Tu dijiste lo siguiente: " + result.Text);
        }
    }
}

Gustavo Gonzalez Montero

student•

El procedimiento de "fromFile" si me sirvió el servicio:

Mi código:

using System;
using System.IO;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;

namespace SpeechToText
{
    class Program
    {
        async static Task Main(string[] args)
        {
            var speechConfig = SpeechConfig.FromSubscription("a45b8a026d8d477a966b79a871b0c2ab", "eastus");
            Console.WriteLine("Hello World!");

            //await fromMic(speechConfig);
            await fromFile(speechConfig);
            Console.ReadLine();
        }

        async static Task fromMic(SpeechConfig speechConfig)
        {
            using var audioConfig = AudioConfig.FromDefaultMicrophoneInput();
            using var recognizer = new SpeechRecognizer(speechConfig, "es-MX", audioConfig);
            Console.WriteLine("Habla al micrófono");
            var result = await recognizer.RecognizeOnceAsync();
            Console.WriteLine("Tu dijiste lo siguiente: " + result.Text);
        }

        async static Task fromFile(SpeechConfig speechConfig)
        {
            using var audioConfig = AudioConfig.FromWavFileInput("test.wav");
            using var recognizer = new SpeechRecognizer(speechConfig, audioConfig);

            var result = await recognizer.RecognizeOnceAsync();
            Console.WriteLine("El resultado es: " + result.Text);

        }
    }
}

Resultado:

Hello World!
El resultado es: When you're on the freeway, it's a good idea to use a GPS.

Conversión de Voz a Texto con Servicios Cognitivos en Visual Studio

Introducción

Servicios Cognitivos de Microsoft: Implementación Práctica

Uso de Servicios Cognitivos de Microsoft en Aplicaciones

Configuración de Ambiente para Servicios Cognitivos en Azure

Seguridad y Autenticación en Servicios Cognitivos de Azure

Lenguaje

Text Analytics: Extracción y Análisis de Texto en Documentos

Escenarios de Uso de Servicios Cognitivos en Análisis de Datos

Análisis de Sentimiento con APIs de Azure: Uso y Configuración

Detección de Idiomas con Servicios Cognitivos Azure

Desarrollo de Aplicación de Consola con Text Analytics en C#

Voz

Servicios de Voz en Cognitive Services: Conversión y Aplicaciones

Conversión de Texto a Voz con Azure Cognitive Services

Conversión de Voz a Texto con Servicios Cognitivos en Visual Studio

Implementación de Traducción de Voz en Visual Studio

Implementación de Reconocimiento de Voz con Visual Studio

Visión

Visión Computacional con Microsoft: Análisis y Aplicaciones Prácticas

Creación de un Servicio de Computer Vision en Azure y su Implementación

Servicio OCR: Conversión de Imágenes a Texto Usando Azure

Reconocimiento Facial: Detección y Análisis de Rasgos Humanos

Detección y Análisis de Rostros con Face API

Uso de la API Face para Detección y Verificación de Rostros

LUIS

Implementación de Luis para Comprensión del Lenguaje Natural

Creación de Modelos e Intenciones en Aplicaciones de Luis

Desarrollo de Aplicaciones en LUIS desde Cero

Uso de Modelos Prediseñados en Aplicaciones de Luis

Entrenamiento y Publicación de Modelos en LUIS

Integración del modelo Luis en aplicaciones con SDK de C#

Conclusiones

Servicios Cognitivos en Azure: Conceptos y Aplicaciones