Creación de bot de Telegram con OpenAI para resumir audios

Clase 14 de 16 • Curso de Workflows Profesionales con n8n

Resumen

Crea confianza y ahorra tiempo con un flujo en n8n que conecta Telegram y OpenAI para convertir notas de voz largas en resúmenes claros. Aquí verás, paso a paso, cómo configurar el bot, definir la lógica para audios y devolver una respuesta en audio con un mensaje de confirmación inmediato. Sin rodeos y con los conceptos clave explicados en contexto.

¿Cómo se configura el bot de Telegram y las credenciales en n8n?

Antes de automatizar, necesitas un bot funcional y el acceso a su API. El objetivo es recibir mensajes del grupo, identificar audios y responder en el mismo chat.

Crea el bot en BotFather. Usa el comando para nuevo bot, asigna nombre público y un nombre de usuario que termine en «_bot». Obtén el token con la nota de Use this token to access the HTTP API.
En n8n, inicia un workflow y agrega el trigger de Telegram: On Message. Crea las credentials pegando el access token. Renómbralas para ubicarlas rápido.
En Telegram, crea un grupo y ajusta en BotFather la group privacy para permitir que el bot lea mensajes. Concede admin rights según necesidad para lectura en grupos y canales.
Añade el bot al grupo. Acepta que vea los mensajes posteriores para que el trigger funcione.
Prueba en n8n con execute workflow y envía “Hola” en el grupo. Puede haber un pequeño retraso inicial. Verifica que el trigger recibe el objeto del mensaje.

Conceptos clave que usarás aquí: token, HTTP API, trigger, credentials, chat ID, message ID y la práctica de guardar y hacer pin de datos para depurar.

¿Qué lógica permite gestionar audios y dar feedback inmediato?

El flujo debe reconocer un mensaje de voz, dar confirmación al usuario y preparar el archivo para transcripción.

Envía feedback con el nodo Telegram Send message. Mapea el chat ID desde el objeto del trigger. Escribe un texto breve, por ejemplo: «Dame un momento». Activa la opción reply_to_message_id y arrastra el message ID del audio.
Controla el flujo con un condicional If: verifica que el objeto voice exista. Solo si hay voz, continúa.
Obtén el archivo con Telegram get file. Mapea el file_id desde el trigger en la sección de voice. Activa la descarga para obtener el binario.
Usa pin en nodos críticos para fijar ejemplos de entrada y facilitar pruebas sin reejecutar todo.

Puntos a dominar: objeto voice (duración, extensión, archivo), file_id, mapeo de campos, respuesta encadenada con reply_to_message_id y pruebas con execute.

¿Cómo transcribir, resumir y devolver el audio con OpenAI?

Tras descargar el binario del mensaje de voz, llega el turno de la transcripción, el resumen y la síntesis de voz para responder en el mismo chat.

¿Cómo transcribir el binario?

Añade el nodo de OpenAI Transcribe recording. Selecciona las credenciales. Indica que la entrada es el campo binario data.

¿Cómo crear el resumen con un agente?

Inserta un AI Agent genérico. Cambia a define below para definir el mensaje del sistema y el prompt. Especifica que es un asistente que resume el audio en pocas frases y que devuelva lo esencial. Selecciona el modelo de OpenAI.

¿Cómo generar y enviar la respuesta en audio?

Agrega OpenAI generate audio. Conecta el output del agente al text input: ese será el texto que se leerá.
Envía el resultado con Telegram send audio. Mapea el chat ID desde el trigger. Marca que usarás un binario y apunta al campo data. Activa reply_to_message_id con el message ID original para responder en hilo.
Ejecuta y verifica que llega un audio de respuesta con el resumen. Finalmente, activa el workflow para pasar a producción.

Habilidades fortalecidas en este proceso: integración con APIs de mensajería, configuración de credentials, diseño de flujo con trigger y condicionales, manipulación de binarios, transcripción automática, prompting para resúmenes, text-to-speech y envío de multimedia. También, buenas prácticas de prueba con pin y ejecución incremental.

Notas prácticas: - Si el bot no responde al principio, puede haber un pequeño delay tras su creación. Es normal. - El patrón funciona con otros canales como WhatsApp. La lógica es la misma, aunque las credentials pueden requerir pasos extra.

¿Te gustaría adaptar este flujo a tu caso o a otro canal? Comparte tu escenario en los comentarios y afinamos juntos el diseño.