Implementación de Reconocimiento de Voz con Visual Studio

Clase 14 de 27 • Curso de Azure Cognitive Services

Contenido del curso

Introducción

Lenguaje

Voz

Visión

LUIS

Conclusiones

27
Servicios Cognitivos en Azure: Conceptos y Aplicaciones
00:49 min

Tomar examen

Resumen

¿Qué es el servicio de reconocimiento de voz?

El servicio de reconocimiento de voz actualmente se encuentra en fase de preview. Su función principal es identificar a una persona a partir de su voz. Para ello, el servicio genera una "firma de audio" al hacer que el usuario repita una frase varias veces. Este proceso permite capturar las características únicas de una voz y almacenarlas para comparaciones futuras. El siguiente paso es verificar si una nueva muestra de voz coincide con la firma almacenada, determinando si es la misma persona con un nivel de confianza dado.

¿Cómo crear una aplicación de consola en Visual Studio?

La creación de una aplicación de consola en Visual Studio es el primer paso para implementar el servicio de reconocimiento de voz. A continuación se presentan los pasos necesarios:

Crear un nuevo proyecto: Selecciona "Aplicación de consola" en Visual Studio y asígnale un nombre, por ejemplo, "speaker recognition".
Seleccionar la versión de .NET: Asegúrate de elegir Netcore 3.1.
Manejo de paquetes NuGet:
- Haz clic derecho en el proyecto y selecciona "Manejar paquetes de Nuget".
- Busca el paquete Microsoft.CognitiveServices.Speech y acepta los términos de licencia.

¿Cómo habilitar el reconocimiento de voz?

Para trabajar correctamente con el reconocimiento de voz, es necesario realizar algunas configuraciones en el código:

Configuración básica

Agregar 'usings' necesarios: Debes incluir los elementos necesarios para trabajar con el servicio de reconocimiento de voz y manejar tareas asíncronas.
Modificar la firma del método principal: Adapta el método principal para que funcione de manera asíncrona.
Llave de suscripción y región: Obtén la llave de suscripción y la región desde Azure, asegurándote de trabajar en la región correcta, actualmente USUS para el servicio en preview.

// Ejemplo de código para establecer la configuración
using Microsoft.CognitiveServices.Speech;
using System.Threading.Tasks;

class Program
{
    static async Task Main(string[] args)
    {
        var config = SpeechConfig.FromSubscription("YOUR_SUBSCRIPTION_KEY", "USUS");
        // ...
    }
}

¿Cómo enrolar una voz?

Para enrolar una voz en el sistema, se sigue el siguiente proceso:

Perfil de voz: Usa VoiceProfileClient para crear un perfil de voz, configurando el idioma en inglés.
Entrada de audio: Indica la fuente de la entrada de audio, ya sea desde el micrófono o un archivo pregrabado.
Frase de enrolamiento: Solicita al usuario que diga "My voice is my password, verify me" varias veces, para completar el proceso de enrolamiento.

Ejemplo de enrolamiento de voz

async Task EnrolProfile(SpeechConfig config, ProfileMapping profileMapping)
{
    // Crear cliente de perfil de voz.
    var client = new VoiceProfileClient(config);
    
    // Crear perfil en inglés
    var profile = await client.CreateProfileAsync(VoiceProfileType.TextDependentVerification, "en-US");
    
    // Configurar captura de audio desde el micrófono.
    var audioConfig = AudioConfig.FromDefaultMicrophoneInput();

    // Realizar el enrolamiento.
    var result = await client.EnrollProfileAsync(profile, audioConfig);
    // ...
}

¿Cómo se verifica la identidad de un usuario con el perfil?

Una vez completado el enrolamiento, debes crear un método para verificar si el usuario actual es quien dice ser, comparando la firma de la voz registrada con una nueva muestra de voz.

Modelo de verificación de voz: Crea un modelo de verificación de voz usando el perfil obtenido.
Comparación de audio: Utiliza el micrófono u otro archivo de audio para la comparación.
Nivel de confianza: Determina si la voz registrada en el perfil coincide con la nueva muestra, proporcionando un porcentaje de certeza.

async Task VerifySpeaker(SpeechConfig config, string profileId)
{
    var recognizer = new SpeakerRecognizer(config, AudioConfig.FromDefaultMicrophoneInput());
    var model = SpeakerVerificationModel.FromProfile(profileId);
    
    // Solicitar al usuario que realice la verificación
    var result = await recognizer.RecognizeOnceAsync(model);
    
    // Mostrar nivel de confianza
    Console.WriteLine($"Nivel de confianza: {result.Score}");
}

¿Cuáles son las aplicaciones del reconocimiento de voz?

Este servicio puede convertirse en un mecanismo adicional de autenticación en tus aplicaciones, permitiendo una capa extra de seguridad gracias a la identificación biométrica de los usuarios. Además, facilita la implementación de interfaces más naturales y accesibles que mejoran la experiencia del usuario. ¡Explora y sigue practicando para sumergirte más en este emocionante campo de la tecnología!

Comentarios

Johan Mazzo

student•

esta bueno pero así como ya hay modelos de ML para reconocimiento de voz también en los últimos meses se ha avanzado en la clonación de esta, por lo que no se que tan seguro sea a futuro

Luis Tapia

student•

Cabe destacar que el acceso a Speech Recognition actualmente está limitado y sólo puede ser usado por empresas que apliquen en este formulario. El motivo es para "asegurar que se use la inteligencia artificial de manera ética". . Más información aquí 👇 https://learn.microsoft.com/en-us/legal/cognitive-services/speech-service/speaker-recognition/limited-access-speaker-recognition

Jesús Ignacio García Fernández

student•

Código del ejemplo

using System;
using System.Collections.Generic;
using System.Threading.Tasks;
using Microsoft.CognitiveServices.Speech;
using Microsoft.CognitiveServices.Speech.Audio;
using Microsoft.CognitiveServices.Speech.Speaker;

class Program
{
    static async Task Main(string[] args)
    {
        string subscriptionKey = "0d0fcb275cf949ce8cdc32c215da56ed";
        string region = "westus";  // La region donde está tu servicio de
        var config = SpeechConfig.FromSubscription(subscriptionKey, region);

        var profileMapping = new Dictionary<string, string>();
        await VerificationEnroll(config, profileMapping);


        Console.ReadLine();
    }

    public static async Task VerificationEnroll(SpeechConfig config, Dictionary<string, string> profileMapping)
    {
        using (var client = new VoiceProfileClient(config))
        using (var profile = await client.CreateProfileAsync(VoiceProfileType.TextIndependentVerification, "en-us"))
        {
            using (var audioInput = AudioConfig.FromDefaultMicrophoneInput())
            {
                Console.WriteLine($"Enrolling profile id {profile.Id}.");
                // give the profile a human-readable display name
                profileMapping.Add(profile.Id, "Luis");

                VoiceProfileEnrollmentResult result = null;
                while (result is null || result.RemainingEnrollmentsSpeechLength > TimeSpan.Zero)
                {
                    Console.WriteLine("Continue speaking to add to the profile enrollment sample.");
                    result = await client.EnrollProfileAsync(profile, audioInput);
                    Console.WriteLine($"Remaining enrollment audio time needed: {result.RemainingEnrollmentsSpeechLength}");
                    Console.WriteLine("");
                }

                if (result.Reason == ResultReason.EnrolledVoiceProfile)
                {
                    await SpeakerVerify(config, profile, profileMapping);
                }
                else if (result.Reason == ResultReason.Canceled)
                {
                    var cancellation = VoiceProfileEnrollmentCancellationDetails.FromResult(result);
                    Console.WriteLine($"CANCELED {profile.Id}: ErrorCode={cancellation.ErrorCode} ErrorDetails={cancellation.ErrorDetails}");
                }
            }
        }
    }

    public static async Task SpeakerVerify(SpeechConfig config, VoiceProfile profile, Dictionary<string, string> profileMapping)
    {
        var speakerRecognizer = new SpeakerRecognizer(config, AudioConfig.FromDefaultMicrophoneInput());
        var model = SpeakerVerificationModel.FromProfile(profile);

        Console.WriteLine("Speak the passphrase to verify: \"My voice is my passport, please verify me.\"");
        var result = await speakerRecognizer.RecognizeOnceAsync(model);
        Console.WriteLine($"Verified voice profile for speaker {profileMapping[result.ProfileId]}, score is {result.Score}");
    }
}

ignacio romero

student•

Esta todo mal

Gustavo Gonzalez Montero

student•

Me da el siguiente error Exception with an error code: 0x1b (SPXERR_RUNTIME_ERROR)

No se porqué se debe. El servicio está creado en "westus"

Harrison Hipolito Mendoza Ortiz

student•

todo esto se podría hacer con visual studio code

Oswaldo Jiménez

student•

Se podría usar en un asistente virtual, en un login con biométricos.

Luis Carlos Zapata García

student•

yo me imagino, que utlizando una libreria de biométricos se podra.desconozco si existe una libreria,o como se utlizaria.

Juan Carlos Castro Socla

student•

para abrir una puerta también podría ser.

Daniel Mauricio Becerra Rincon

student•

A fecha de hoy Microsoft suspendio le uso de este servicio, ya no se pueden registrar en el formulario de momento, por lo que al tratar de ejecutar el programa saldra una excepcion por no estar autorizado.

Implementación de Reconocimiento de Voz con Visual Studio

Introducción

Servicios Cognitivos de Microsoft: Implementación Práctica

Uso de Servicios Cognitivos de Microsoft en Aplicaciones

Configuración de Ambiente para Servicios Cognitivos en Azure

Seguridad y Autenticación en Servicios Cognitivos de Azure

Lenguaje

Text Analytics: Extracción y Análisis de Texto en Documentos

Escenarios de Uso de Servicios Cognitivos en Análisis de Datos

Análisis de Sentimiento con APIs de Azure: Uso y Configuración

Detección de Idiomas con Servicios Cognitivos Azure

Desarrollo de Aplicación de Consola con Text Analytics en C#

Voz

Servicios de Voz en Cognitive Services: Conversión y Aplicaciones

Conversión de Texto a Voz con Azure Cognitive Services

Conversión de Voz a Texto con Servicios Cognitivos en Visual Studio

Implementación de Traducción de Voz en Visual Studio