Transcribir audio a texto con Whisper y Node.js

Curso de Fundamentos de Node.js

Contenido del curso

Introducción a Node.js

Módulos y gestión de paquetes

Módulos nativos en Node.js

Servidores con Node.js

Tomar examen

Transcribir audio a texto con Whisper y Node.js

Resumen

Construir un script en Node.js que transcribe audio con la API de Whisper de OpenAI es uno de los ejercicios más realistas para dominar el módulo File System. Aquí aprendes a leer un archivo .mp3, enviarlo como FormData a OpenAI y guardar la transcripción en un .txt, todo de forma compatible con cualquier sistema operativo.

¿Qué necesitas antes de transcribir audio con Whisper en Node.js?

Antes de tocar código, asegúrate de tener listos los recursos básicos para que el script funcione sin fricciones.

Una cuenta en OpenAI con tu API key generada.
Un archivo de audio en formato .mp3 (puedes usar uno propio o el del recurso de la clase).
Node.js instalado y un editor listo para crear fs-openai.js.

¿Para qué sirve la API key de OpenAI? Es la credencial que autentica tus solicitudes a Whisper. Sin ella, la API rechaza la petición y no obtienes transcripción.

¿Por qué usar el módulo Path junto a File System?

El módulo path es nativo de Node.js y resuelve un problema concreto: las rutas de archivos cambian entre Windows, Linux y macOS. Si escribes la ruta a mano, tu script se rompe al cambiar de máquina.

Al combinarlo con fs, logras dos cosas: leer y escribir archivos con seguridad, y hacerlo de forma transversal al sistema operativo. Por eso el script empieza importando ambos módulos con require('fs') y require('path') [01:55].

¿Cómo se construye la función transcribeAudio paso a paso?

La función principal es asíncrona, recibe la ruta del audio y la API key, y encapsula toda la lógica dentro de un bloque try/catch para capturar errores con claridad.

¿Cómo validar que el archivo de audio existe?

Antes de hacer cualquier solicitud, conviene confirmar que el archivo está disponible. Para eso usas fs.existsSync(audioFilePath), que devuelve true o false de forma síncrona [04:30].

Si el archivo no existe, lanzas un error con throw new Error('El archivo de audio no existe'). Esto evita gastar llamadas a la API en peticiones que ya sabes que van a fallar.

¿Cómo preparar el FormData con Blob para enviar el audio?

Whisper espera la información en formato multipart/form-data, así que necesitas tres pasos concretos:

Leer el archivo con fs.readFileSync(audioFilePath) y guardarlo en audioFile.
Envolver ese contenido en un new Blob([audioFile]) para que la API lo entienda como datos binarios.
Crear un new FormData() y agregar dos campos con append: el file con el blob y la ruta, y el model con el valor whisper-1.

El Blob es importante porque convierte el contenido crudo del audio en un objeto que el fetch puede serializar dentro del body de la solicitud.

¿Cómo hacer la solicitud fetch a la API de Whisper?

La petición usa fetch apuntando a https://api.openai.com/v1/audio/transcriptions con método POST [07:40]. En los headers envías Authorization: Bearer ${apiKey} y en el body pasas el formData ya construido.

¿Qué significa Bearer en el header Authorization? Es el esquema de autenticación que indica a la API que el valor que sigue es un token. OpenAI valida ese token contra tu cuenta antes de procesar el audio.

Después del fetch validas la respuesta con if (!response.ok). Si algo falló, extraes el detalle con await response.json() y lanzas un new Error que incluye JSON.stringify(errorData). Así sabes si el problema fue la API key, el modelo o el formato del archivo.

¿Cómo guardar la transcripción en un archivo TXT dinámico?

Una vez que recibes la respuesta, extraes el texto con const transcription = data.text. Pero el siguiente reto es guardarlo con un nombre que tenga sentido y funcione en cualquier sistema.

Para eso construyes la ruta de salida combinando varios métodos del módulo path:

path.dirname(audioFilePath) obtiene la carpeta donde vive el audio.
path.basename(audioFilePath, path.extname(audioFilePath)) extrae el nombre sin la extensión .mp3.
path.join(...) une todo y le concatena -transcription.txt.

Esto significa que si el audio se llama poema.mp3, la transcripción se guarda como poema-transcription.txt en la misma carpeta. Si mañana cambias el nombre del audio, el archivo de salida se adapta solo.

Finalmente usas fs.writeFileSync(outputFilePath, transcription) para escribir el texto y un console.log para informar al usuario dónde quedó guardado.

¿Qué aprendiste sobre File System y Path en este flujo?

Este ejercicio mezcla varias habilidades clave del desarrollo con Node.js que vale la pena identificar por nombre.

fs.existsSync: validación síncrona de existencia de archivos antes de operar sobre ellos.
fs.readFileSync: lectura síncrona del contenido binario de un audio.
fs.writeFileSync: escritura síncrona del archivo .txt con la transcripción.
Blob y FormData: transformación de datos binarios en un payload válido para APIs multipart/form-data.
fetch con async/await: solicitud HTTP moderna sin dependencias externas.
path.join, path.dirname, path.basename, path.extname: construcción de rutas portables entre Windows, Linux y macOS.
try/catch con throw new Error: manejo de errores explícito y mensajes claros para depurar.

También quedó claro el rol de whisper-1 como modelo de transcripción de OpenAI, y cómo el header Authorization: Bearer autentica cada petición con tu API key.

¿Ya tienes tu archivo .mp3 listo? Cuéntame en los comentarios qué audio vas a transcribir primero y qué nombre le pondrás a tu archivo de salida.

Luis Gutiérrez

Estudiante

Como muchos han comentado, para usar esta API se necesita PAGAR suscripcion en OpenAI, y como varios han comentado, deepgram es una version gratuita por si quieren probar este ejercicio.

No cambia mucho de la estructura del ejercicio, los puntos donde cambia son los siguientes:

- La url de la api (obviamente): - El body es directamente el Buffer, ya no es un FormData - la autenticacion de la API es "Token", ya no es "Bearer" - el modelo y el lenguaje no van como parte de los headers, se mandan como parametros en la url: ?model=nova-3&language=es-419 (modelo: nova-3, lenguaje: español latino) esto se ve en la documentacion. - la respuesta ya no esta en .text, ahora se encuentra en: results.channels[0].alternatives[0].transcript - Se agrega en los headers, en "Content-Type", el formato MIME del archivo de audio (esto lo resolvi creando una funcion que por medio del extname regresara el tipo de archivo MIME y en caso de no ser reconocido lanza un error).

Adjunto mi código espero les sirva.

Par aaquellos que se sintieron desconcertados con la clase por no entender ciertos puntos: ANIMO! este ejercicio no es tan de FUNDAMENTOS como dicen aqui, veanlo como un ejemplo funcional.

No se desanimen y sigan aprendiendo

import {access,constants, readFile, writeFile} from 'fs/promises'
import {basename, dirname, extname, join} from 'path'

const DEEPGRAM_API_KEY = '';

const fileExists = async (path) => {
  try {
    await access(path, constants.F_OK);
    return true;
  } catch {
    return false;
  }
};

const validateAudioType =(extensionName)=>{
  const extensionsMap = {
    ['.mp3']: "audio/mpeg",
    ['.wav']: "audio/wav",
    ['.aac']: "audio/aac",
    ['.mp4']: "audio/mp4",
    ['.ogg']: "audio/ogg",
  }

  if(!extensionsMap[extensionName]){
      throw new Error ('The extension of the file is invalid.')
  }

  return extensionsMap[extensionName]

}

async function transcriptAudio(audioFilePath, apiKey){
  try {

    if(!await fileExists(audioFilePath)){
      throw new Error('Audio file not found...')
    }
    console.log('File found')

    const audioType = extname(audioFilePath)
    const audioMimeType = validateAudioType(audioType)
    const audioFile = await readFile(audioFilePath)
    const response = await fetch('https://api.deepgram.com/v1/listen?model=nova-3&language=es-419',{
      method: 'POST',
      headers: {
        'Content-Type': audioMimeType,
        Authorization: `Token ${apiKey}`
      },
      body: audioFile
    })

    if(!response.ok){
      const errorData = await response.json()
      throw new Error(`Error in the ytanscription API: ${JSON.stringify(errorData)} `)
    }

    const data = await response.json();
    const transcription = data.results.channels[0].alternatives[0].transcript;

    const outputFilePath = join(
      dirname(audioFilePath),
      `${basename(audioFilePath,audioType)}_transcription.txt`
    )

    await writeFile(outputFilePath,transcription)
    console.log(`Transcription saved at: ${outputFilePath}`)
    return transcription

  } catch (error) {
    console.error(error.message)
    throw error;
  }
}


const result = await transcriptAudio('audio.mp3',DEEPGRAM_API_KEY)
console.log(result); // true o false

Opinión personal del ejercicio:

Concuerdo con varios comentarios en 2 puntos:

Esta bien que quieran usar OpenAI, pero en todo caso, recomenrdaría hacer una version con una opción gratuita, como lo es deepgram, así mismo, creo que es interesante que se use la IA desde el principio en un ejercicio, porque hace el hook con el mundo real de lo que se usa hoy, pero como un principiante en el mundo del Back, creo que como parte de fundamentos es un fallo al menos a este punto del curso hacer este ejercicio. Puede ser un ejercicio al final, pero aqui muchos detalles del código pueden no entenderse para gente que enserio va comenzando, y eso puede ser contraproducente, ya que en vez de ver una funcionalidad del mundo real, ven código podríamos catalogar basico/medio que no entienden en "FUNDAMENTOS", lo cual no tiene a mi punto de vista, mucha lógica.

Transcribir audio a texto con Whisper y Node.js

Introducción a Node.js

Qué es Node.js y cómo funciona

NVM para múltiples versiones de Node

Primer programa Node.js con argumentos

Módulos y gestión de paquetes

Módulos en Node.js: CommonJS vs ES Modules

Cómo funciona npm en tu primer proyecto

Cómo crear y probar un paquete npm local

Cómo publicar tu primer paquete npm

Módulos nativos en Node.js

CRUD de archivos con módulo fs