Creación de bot de Telegram con OpenAI para resumir audios

Clase 14 de 16Curso de Workflows Profesionales con n8n

Resumen

Crea confianza y ahorra tiempo con un flujo en n8n que conecta Telegram y OpenAI para convertir notas de voz largas en resúmenes claros. Aquí verás, paso a paso, cómo configurar el bot, definir la lógica para audios y devolver una respuesta en audio con un mensaje de confirmación inmediato. Sin rodeos y con los conceptos clave explicados en contexto.

¿Cómo se configura el bot de Telegram y las credenciales en n8n?

Antes de automatizar, necesitas un bot funcional y el acceso a su API. El objetivo es recibir mensajes del grupo, identificar audios y responder en el mismo chat.

  • Crea el bot en BotFather. Usa el comando para nuevo bot, asigna nombre público y un nombre de usuario que termine en «_bot». Obtén el token con la nota de Use this token to access the HTTP API.
  • En n8n, inicia un workflow y agrega el trigger de Telegram: On Message. Crea las credentials pegando el access token. Renómbralas para ubicarlas rápido.
  • En Telegram, crea un grupo y ajusta en BotFather la group privacy para permitir que el bot lea mensajes. Concede admin rights según necesidad para lectura en grupos y canales.
  • Añade el bot al grupo. Acepta que vea los mensajes posteriores para que el trigger funcione.
  • Prueba en n8n con execute workflow y envía “Hola” en el grupo. Puede haber un pequeño retraso inicial. Verifica que el trigger recibe el objeto del mensaje.

Conceptos clave que usarás aquí: token, HTTP API, trigger, credentials, chat ID, message ID y la práctica de guardar y hacer pin de datos para depurar.

¿Qué lógica permite gestionar audios y dar feedback inmediato?

El flujo debe reconocer un mensaje de voz, dar confirmación al usuario y preparar el archivo para transcripción.

  • Envía feedback con el nodo Telegram Send message. Mapea el chat ID desde el objeto del trigger. Escribe un texto breve, por ejemplo: «Dame un momento». Activa la opción reply_to_message_id y arrastra el message ID del audio.
  • Controla el flujo con un condicional If: verifica que el objeto voice exista. Solo si hay voz, continúa.
  • Obtén el archivo con Telegram get file. Mapea el file_id desde el trigger en la sección de voice. Activa la descarga para obtener el binario.
  • Usa pin en nodos críticos para fijar ejemplos de entrada y facilitar pruebas sin reejecutar todo.

Puntos a dominar: objeto voice (duración, extensión, archivo), file_id, mapeo de campos, respuesta encadenada con reply_to_message_id y pruebas con execute.

¿Cómo transcribir, resumir y devolver el audio con OpenAI?

Tras descargar el binario del mensaje de voz, llega el turno de la transcripción, el resumen y la síntesis de voz para responder en el mismo chat.

¿Cómo transcribir el binario?

  • Añade el nodo de OpenAI Transcribe recording. Selecciona las credenciales. Indica que la entrada es el campo binario data.

¿Cómo crear el resumen con un agente?

  • Inserta un AI Agent genérico. Cambia a define below para definir el mensaje del sistema y el prompt. Especifica que es un asistente que resume el audio en pocas frases y que devuelva lo esencial. Selecciona el modelo de OpenAI.

¿Cómo generar y enviar la respuesta en audio?

  • Agrega OpenAI generate audio. Conecta el output del agente al text input: ese será el texto que se leerá.
  • Envía el resultado con Telegram send audio. Mapea el chat ID desde el trigger. Marca que usarás un binario y apunta al campo data. Activa reply_to_message_id con el message ID original para responder en hilo.
  • Ejecuta y verifica que llega un audio de respuesta con el resumen. Finalmente, activa el workflow para pasar a producción.

Habilidades fortalecidas en este proceso: integración con APIs de mensajería, configuración de credentials, diseño de flujo con trigger y condicionales, manipulación de binarios, transcripción automática, prompting para resúmenes, text-to-speech y envío de multimedia. También, buenas prácticas de prueba con pin y ejecución incremental.

Notas prácticas: - Si el bot no responde al principio, puede haber un pequeño delay tras su creación. Es normal. - El patrón funciona con otros canales como WhatsApp. La lógica es la misma, aunque las credentials pueden requerir pasos extra.

¿Te gustaría adaptar este flujo a tu caso o a otro canal? Comparte tu escenario en los comentarios y afinamos juntos el diseño.