Script Node.js fs y Whisper API

Clase 9 de 20 • Curso de Fundamentos de Node.js

Resumen

Construye con confianza un flujo de transcripción en Node.js: leer un .mp3 con el módulo fs, enviar el audio como Blob vía FormData a la API de OpenAI Whisper y guardar un TXT con la transcripción. Con un enfoque asíncrono, manejo de errores y rutas multiplataforma con path, obtendrás un script sólido y reutilizable.

¿Cómo preparar fs y path en Node.js para Whisper?

Para empezar, crea fs-openai.js y prepara los módulos nativos. Necesitarás tu API key de OpenAI para autenticar la solicitud y un archivo de audio .mp3 (por ejemplo, audio.mp3) para transcribir.

Usa fs para verificar existencia, leer y escribir archivos.
Usa path para rutas consistentes en macOS, Windows y GNU/Linux.
Trabaja con FormData para empaquetar el archivo y el modelo.
Convierte el buffer a Blob antes de adjuntarlo.
Envía la solicitud con fetch y método POST.
Incluye headers con Authorization: Bearer y tu API key.
Procesa la respuesta con response.json() y extrae data.text.
Guarda la transcripción con fs.writeFileSync en un TXT.

¿Qué requisitos y archivos necesitas para la API key y el audio .mp3?

Cuenta en OpenAI y tu API key activa.
Un archivo .mp3 accesible por ruta, por ejemplo: audio.mp3.
Un entorno con soporte para fetch, FormData y Blob.

¿Cuál es el flujo asíncrono de lectura, solicitud y guardado?

El núcleo es una función asíncrona con try/catch que valida el archivo, construye el FormData, llama a la API y persiste el resultado.

Valida existencia con fs.existsSync.
Lee el archivo binario con fs.readFileSync.
Crea FormData y un Blob con el buffer de audio.
Adjunta 'file' y 'model' (whisper-1) al FormData.
Llama a https://api.openai.com/v1/audio/transcriptions con POST.
Verifica response.ok y, si falla, lanza error con detalles.
Parsea la respuesta a JSON y toma data.text.
Genera el nombre de salida con path.join y guarda el TXT.
Muestra en consola la ruta del archivo guardado.

// fs-openai.js
const fs = require('fs');
const path = require('path');

async function transcriptAudio(audioFilePath, apiKey) {
  try {
    if (!fs.existsSync(audioFilePath)) {
      throw new Error('El archivo de audio no existe.');
    }

    const audioFile = fs.readFileSync(audioFilePath);

    const formData = new FormData();
    const blob = new Blob([audioFile]);
    formData.append('file', blob, path.basename(audioFilePath));
    formData.append('model', 'whisper-1');

    const response = await fetch('https://api.openai.com/v1/audio/transcriptions', {
      method: 'POST',
      headers: { Authorization: `Bearer ${apiKey}` },
      body: formData,
    });

    if (!response.ok) {
      const errorData = await response.json();
      throw new Error(`Error en la API: ${JSON.stringify(errorData)}`);
    }

    const data = await response.json();
    const transcription = data.text;

    const base = path.basename(audioFilePath, path.extname(audioFilePath));
    const outputFilePath = path.join(path.dirname(audioFilePath), `${base}.transcription.txt`);

    fs.writeFileSync(outputFilePath, transcription);
    console.log(`Transcripción guardada en: ${outputFilePath}`);

    return transcription;
  } catch (error) {
    console.error('Error durante la transcripción:', error.message);
    throw error;
  }
}

¿Cómo construir el output file path con path.join?

Toma el directorio con path.dirname(audioFilePath).
Extrae el nombre base con path.basename sin la extensión.
Obtén la extensión con path.extname para removerla del nombre.
Une directorio y nombre base con sufijo .transcription.txt usando path.join.

¿Cómo validar la respuesta y manejar errores de la API?

Controla las respuestas no exitosas y comunica el problema claramente. Esto evita falsos positivos y facilita depurar cuando el modelo o la clave no son válidos.

Verifica response.ok antes de leer el cuerpo.
Si falla, obtén detalles con response.json() en errorData.
Lanza un Error con JSON.stringify(errorData) para ver el motivo.
En catch, registra con console.error y el error.message.

¿Quieres que revisemos tu implementación o nombres de archivo y rutas? Cuéntame en un comentario qué parte te gustaría profundizar.

Johan Grandas

student•

Desafortunadamente para usar el API de OpenAI para transcribir de audio a texto, deben tener una cuenta registrada con un plan activo, ya que no es gratuito, si lo intenta les saldrá el error:

429 - You exceeded your current quota, please check your plan and billing details

** ALTERNATIVA **

Pueden usar la api de deepgram si realmente quieren probar, tiene una capa gratuita, , solo necesitan generar una API_KEY y definirla como variable:

const  DEEPGRAM_API_KEY = 'API KEY GENERADA AQUI';
```Para correr el código y funcione deben instalar el sdk de deepgram via npm:


```js
npm install @deepgram/sdk

transcript.txt

Response

Psdt: Se debería mejorar esta clase, ya que se sigue todo el código para nada. :)

Cristian Ortega

student•

Gracias por tu aporte. Personalmente, usé todos mis creditos gratuitos y esta alternativa me sirvió bastante

Alfredo Martínez García

student•

te rifaste! gracias

Cayo Legal

student•

Creo que para que todos entiendan se debería explicar por ejemplo, que es un blob, que es el binario de un archivo como imágenes, videos, audios, etc.

Jose Ever Muñoz Muñoz

student•

No entiendo nada ! pero esta clase estas sumamente interesante!

Dario Mendoza

student•

Alfonso Neil Jiménez Casallas

student•

como sugerencia, deberían ocultar la API Key en el código del repositorio público por motivos de seguridad

Harvey Marín

student•

Hola, tomando como referencia la documentación de Deepgram, adapté un código muy similar al desarrollado en esta clase. De este modo, es posible seguir el contenido de la clase realizando únicamente pequeños ajustes en la URL y en la estructura de la respuesta que devuelve Deepgram con la ventaja de ser gratuito ;)

const fs = require('fs');
const path = require('path');
const apiUrl = "https://api.deepgram.com/v1/listen?model=nova-3&detect_language=true";

async function transcribeAudio(audioFilePath, apiKey) {
    try {

        if (!fs.existsSync(audioFilePath)) {
            throw new Error('El archivo de audio no existe');
        }

        const audioFile = fs.readFileSync(audioFilePath);

        const response = await fetch(apiUrl, {
            method: "POST",
            headers: {
                Accept: "application/json",
                Authorization: `Token ${apiKey}`,
                "Content-Type": "audio/mp3",
            },
            body: audioFile
        })

        if(!response.ok){
            const errorData = await response.json();
            throw new Error(`Error en la API: ${JSON.stringify(errorData)}`);
        }
        const data = await response.json();
        const transcription = data.results.channels[0].alternatives[0].transcript;
        const outputFilePath = path.join(path.dirname(audioFilePath), `${path.basename(audioFilePath, path.extname(audioFilePath))}_transcription.txt`);
        fs.writeFileSync(outputFilePath, transcription);
        return transcription

    } catch (error) {
        console.error(`Error en la transcripción: ${error.message}`);
        throw error;
    }
}
```PD: Corregí un pequeño error en la línea 30, era audioFilePath en vez de audioFile. (Este error se aborda en la siguiente clase)

Josue David

student•

Muchas gracias. Sos un crack. Me gusto esta version super similar a la que dio el profesor, ya que los cambios fueron minimos.

Cristian Arellano

student•

funciono excelente "bajo el brillo tenue del amanecer sueñan las hojas con el canto del viento mientras un rayo tímido de sol acaricia el silencio que nace del cielo en su dorada caricia florece la esperanza y el día se viste de luz nueva"

Irving Juárez

student•

Cuando intente usar la api de openai, estaba caido el sitio, entonces utilice otra AI, y funciona bastante bien, adjunto codigo

const fs = require('fs');
const path = require('path');
const { createClient } = require('@deepgram/sdk');
const SECRET_KEY = "";

async function speechToText(fileName) {
    const filePath = path.join(__dirname, fileName);

    const deepgram = createClient(SECRET_KEY);
    const { error, result } = await deepgram.listen.prerecorded.transcribeFile(
        fs.readFileSync(filePath),
        {
            model: 'nova-3',
            smart_format: true,
        }
    );

    if (error) throw new Error(error);
    if (result) {
        console.log('Successfully transcribed the audio file:');
        fs.writeFileSync(path.join(__dirname, 'output.txt'), JSON.stringify(result));
    };
}

speechToText("[yout_local_file]");
```const fs = require('fs');const path = require('path');const { createClient } = require('@deepgram/sdk');const SECRET\_KEY = "a27a612658ed5c34c1dd0499d81a19337acda96a";
async function speechToText(fileName) {    const filePath = path.join(\_\_dirname, fileName);
    const deepgram = createClient(SECRET\_KEY);    const { error, result } = await deepgram.listen.prerecorded.transcribeFile(        fs.readFileSync(filePath),        {            model: 'nova-3',            smart\_format: true,        }    );
    if (error) throw new Error(error);    if (result) {        console.log('Successfully transcribed the audio file:');        fs.writeFileSync(path.join(\_\_dirname, 'output.txt'), JSON.stringify(result));    };}
speechToText("sound-file.wav");

Alfonso Neil Jiménez Casallas

student•

¿es la API de Deepseek?, ¡super!

Irving Juárez

student•

No, no es la de deepseek, es otra con un nombre similar

William Morales

student•

Estoy tomando este curso para repasar bases de node. Super interesante esta clase para quienes ya tenemos acercamientos al backend, pero a un principiante al llegar aqui se va a desmotivar y será un caso mas de "la programacion es dificil y no es para mi".

Eduardo José Álvarez

Team Platzi•

hola!

const fs = require('fs');
const path = require('path');
const apiUrl = "https://api.deepgram.com/v1/listen?model=nova-3&detect_language=true";

async function transcribeAudio(audioFilePath, apiKey) {
    try {

        if (!fs.existsSync(audioFilePath)) {
            throw new Error('El archivo de audio no existe');
        }

        const audioFile = fs.readFileSync(audioFilePath);

        const response = await fetch(apiUrl, {
            method: "POST",
            headers: {
                Accept: "application/json",
                Authorization: `Token ${apiKey}`,
                "Content-Type": "audio/mp3",
            },
            body: audioFile
        })

        if(!response.ok){
            const errorData = await response.json();
            throw new Error(`Error en la API: ${JSON.stringify(errorData)}`);
        }
        const data = await response.json();
        const transcription = data.results.channels[0].alternatives[0].transcript;
        const outputFilePath = path.join(path.dirname(audioFilePath), `${path.basename(audioFilePath, path.extname(audioFilePath))}_transcription.txt`);
        fs.writeFileSync(outputFilePath, transcription);
        return transcription

    } catch (error) {
        console.error(`Error en la transcripción: ${error.message}`);
        throw error;
    }
}
```PD: Corregí un pequeño error en la línea 30, era audioFilePath en vez de audioFile. (Este error se aborda en la siguiente clase)

const fs = require('fs');
const path = require('path');
const { createClient } = require('@deepgram/sdk');
const SECRET_KEY = "";

async function speechToText(fileName) {
    const filePath = path.join(__dirname, fileName);

    const deepgram = createClient(SECRET_KEY);
    const { error, result } = await deepgram.listen.prerecorded.transcribeFile(
        fs.readFileSync(filePath),
        {
            model: 'nova-3',
            smart_format: true,
        }
    );

    if (error) throw new Error(error);
    if (result) {
        console.log('Successfully transcribed the audio file:');
        fs.writeFileSync(path.join(__dirname, 'output.txt'), JSON.stringify(result));
    };
}

speechToText("[yout_local_file]");
```const fs = require('fs');const path = require('path');const { createClient } = require('@deepgram/sdk');const SECRET\_KEY = "a27a612658ed5c34c1dd0499d81a19337acda96a";
async function speechToText(fileName) {    const filePath = path.join(\_\_dirname, fileName);
    const deepgram = createClient(SECRET\_KEY);    const { error, result } = await deepgram.listen.prerecorded.transcribeFile(        fs.readFileSync(filePath),        {            model: 'nova-3',            smart\_format: true,        }    );
    if (error) throw new Error(error);    if (result) {        console.log('Successfully transcribed the audio file:');        fs.writeFileSync(path.join(\_\_dirname, 'output.txt'), JSON.stringify(result));    };}
speechToText("sound-file.wav");

Script Node.js fs y Whisper API

Introducción a Node.js

Node.js: El entorno de JavaScript más allá del navegador

NVM para múltiples versiones de Node

Primer programa Node.js con argumentos

Módulos y gestión de paquetes

Tipos de módulos en Node.js: CommonJS vs ES modules

Cómo funciona npm en tu primer proyecto

Crear un paquete npm para fechas en Node.js

Cómo publicar tu primer paquete npm

Módulos nativos en Node.js

CRUD de archivos con Node.js fs

Script Node.js fs y Whisper API

Cómo implementar transcript audio con OpenAI

Console API en Node.js: métodos básicos

Console.count y console.group en JavaScript

Node.js: módulo os para datos del sistema

Crypto de Node.js: hash SHA-256 completo

Módulo process de Node.js en detalle

Módulo timers en Node.js: setTimeout y setInterval

Streams en Node.js para archivos grandes

Buffers en Node.js: crear y transformar datos binarios

Servidores con Node.js

Servidor HTTP básico en Node.js

Servidor Node.js que envía video con streams