Whisper: usa gratis esta AI para el reconocimiento de voz

19921Puntos

2 años

Les cuento que no me funcionó la forma mostrada por el profe Alarcón, pero encontré una forma que sí lo hizo.

Primero, en el notebook de Google Colab, ingresé a la opción “Runtime/Change runtime type”. Allí activé la aceleración de hardware con la GPU.

Luego, el código que usé fue el siguiente:

!pip install git+https://github.com/openai/whisper.git 
!sudo apt update && sudo apt install ffmpeg

!whisper "audio.mp3"

Al ejecutarlo, mi audio fue transcrito sin errores y fue maravilloso.

PD:

davidgom1122

4926Puntos

un año

Hola isaaleonardo, cómo ingresaste a la opción runtime/change runtime type?

isaaleonardo

19921Puntos

un año

Hola, David! Espero que esta imagen te ayude para ingresar a la opción:

davidgom1122

4926Puntos

un año

Me funcionó perfectamente, muchas gracias por tu ayuda.

geramfernandez

11722Puntos

2 años

al parecer no se instala correctamente, en la documentación de guthub sugiere:
pip install git+https://github.com/openai/whisper.git

edupr

34191Puntos

2 años

¡Excelente post! 😄
Al cargar audio grabado entiendo que no es en Tiempo Real, para eso se necesitaría HW asíncrono. Aun así, es muy interesante.
Llama la atención el WER del Español, mejor que el inglés, muy buen rendimiento.
No sé por qué Platzi aún no ha puesto subtítulos a sus clases para acercar el conocimiento a todas las personas, incluidas las que tengan problemas auditivos.
Creo que solo lo hacen en las clases de inglés, pero hay muchas herramientas para facilitarlo.
¡Saludos! 😃

alarcon7a

15445Puntos

2 años

es tan eficiente que puede llegar muy cercano a tiempo real

geramfernandez

11722Puntos

2 años

Es una API o toda la funcionalidad se obtiene solo instalando la librería?