Eleven Labs: text to speech con IA

Clase 16 de 18 • Curso de Configuración de APIs de LLMs

Contenido del curso

OpenAI API

Claude API

Gemini API y Despliegue con Vercel

Vercel AI SDK

ElevenLabs API

Tomar examen

Resumen

Cuando hablamos de inteligencia artificial, el texto suele acaparar toda la atención. Sin embargo, Eleven Labs demuestra que el audio generado con IA está en otro nivel. Fundada en 2022 en Londres, esta empresa se especializó en text to speech, speech to text, clonación de voz, traducción en tiempo real, control de acento, ritmo y pausas, todo con una calidad que sorprende desde la primera escucha. Marcas como Walt Disney, Epic Games, Nvidia, Meta y Revolut ya confían en su tecnología.

¿Qué ofrece el playground de Eleven Labs?

Directamente desde su homepage, Eleven Labs pone a disposición un playground interactivo donde se pueden probar sus capacidades principales [01:10]. Se puede generar música a partir de un prompt, convertir texto a voz e incluso indicarle al modelo cómo debe entonar: con sarcasmo, risas o susurros. Además, permite seleccionar entre un amplio catálogo de idiomas para que el audio resultante respete la pronunciación y el acento deseado.

El playground también muestra las voces disponibles organizadas por categorías:

Conversacional.
Profesional.
Informativa.
Narración.
Joven y relajada.

Cada voz tiene un nombre propio, estadísticas de uso y se pueden filtrar entre voces creadas por el usuario, voces por default y voces de la comunidad [04:30]. Esta variedad es clave para elegir el tipo de voz que mejor se adapte a cada proyecto.

¿Cómo funciona la Eleven API y cómo se genera la API key?

Todos los servicios del playground están disponibles también vía API, y el patrón de integración es muy similar al de OpenAI, Anthropic o Gemini [02:50]. Se importa la librería, se crea un cliente pasándole la API key, se le indica el formato de salida, el texto que debe leer y el model ID que se quiere utilizar.

La documentación del API ofrece múltiples endpoints:

Text to speech.
Speech to text.
Stream para recibir respuestas progresivas.
WebSocket y multi-content WebSocket.
Create speech.

Estos endpoints se pueden consumir desde TypeScript, otros lenguajes o directamente con cURL [05:25].

¿Qué hace especial la configuración de la API key?

A diferencia de otros proveedores, Eleven Labs permite una configuración muy específica al momento de crear cada API key [06:30]. Se puede establecer un límite de créditos en dólares para que, al alcanzar ese tope, la key deje de funcionar. También se seleccionan individualmente los endpoints a los que tendrá acceso esa key particular.

Es fundamental recordar que estas APIs son de pago. Si una key queda expuesta en un repositorio público, en un chat o en redes sociales, cualquier persona puede usarla y todo el consumo se cargará a tu cuenta [07:10].

¿Cuánto cuesta usar Eleven Labs?

El modelo de precios se organiza por tipo de servicio: creativo, agentes o API [08:00]. Para text to speech, el plan Flash Turbo cobra por cada mil caracteres, ofrece cuarenta mil caracteres de límite, treinta y dos idiomas disponibles y una latencia de aproximadamente setenta y cinco milisegundos, que es ultrabaja.

La generación de música permite crear pistas de hasta cinco minutos de duración. Existe una cuenta gratuita que no tiene costo mensual pero limita a veinte mil caracteres. El servicio de speech to text incluye hasta dos horas y treinta minutos de generación por mes en su plan base [09:20].

Antes de integrar cualquier servicio, conviene revisar los costos, usar el panel de analíticas para monitorear el consumo y configurar límites de gasto para no exceder el presupuesto disponible.

¿Qué se puede construir con Eleven Labs?

Las posibilidades van mucho más allá de convertir texto en audio. Con esta API se pueden crear:

Podcasts generados automáticamente desde un artículo.
Asistentes de voz con personalidad propia.
Doblaje automático de videos.
Audiolibros producidos en minutos.

Texto a audio, audio a texto, acento personalizado, pausas naturales y traducción simultánea conforman un ecosistema completo para proyectos que requieran interacción por voz [10:15]. Con la plataforma ya explorada y la API key lista, el siguiente paso es conectar Eleven Labs desde TypeScript y aplicar el mismo flujo de integración que ya se maneja con otros proveedores, pero ahora orientado a un proveedor especializado en audio.

¿Ya tienes en mente algún proyecto donde la generación de voz con IA marque la diferencia? Comparte tu idea en los comentarios.

Eleven Labs: text to speech con IA

OpenAI API

Construye tu propio ChatGPT

Cómo funciona la API de OpenAI

Conexión con la API de OpenAI

Cómo mantener contexto en conversaciones con OpenAI

Conectar OpenAI con Next.js paso a paso

Cómo integrar audio e imágenes en un chatbot

Claude API

Configuración de API keys en Anthropic

Primera llamada a la API de Claude con TypeScript

Streaming y mensajes múltiples en Anthropic

Integración de OpenAI y Anthropic en un solo chat

Gemini API y Despliegue con Vercel

Cómo generar tu API key de Google Gemini

Despliegue de Next.js con Vercel en 3 pasos

Vercel AI SDK

AI SDK: un solo código para todos los LLMs

Configurar el AI SDK de Vercel en TypeScript

AI SDK de Vercel: tres proveedores, un solo código

ElevenLabs API

Eleven Labs: text to speech con IA

Tu primera conversión de texto a voz con Eleven Labs

IA generativa: qué sigue después del curso