Inicialización del proyecto chatbot con Langchain

Curso de LangChain

Contenido del curso

Introducción a LangChain

Casos de uso de LangChain

Manejo de documentos con índices

Embeddings y bases de datos vectoriales

Chats y memoria con LangChain

Evolución del uso de LLM

37
Ecosistema LLM y qué sigue después de LangChain
05:26 min

Tomar examen

Inicialización del proyecto chatbot con Langchain

Resumen

Construir un chatbot que responda preguntas sobre la documentación de Hugging Face requiere preparar el entorno, descargar datos y estructurar el proyecto antes de escribir lógica conversacional. Aquí verás cómo inicializar Hasira, el proyecto base que vamos a evolucionar a lo largo del curso usando Langchain, Python y fuentes públicas en formato Markdown.

¿Qué necesitas para inicializar el proyecto Hasira?

Lo primero es clonar el repositorio desde GitHub e instalar dependencias. Tienes tres caminos: Poetry, pip con requirements.txt o conda. Usa el que mejor se adapte a tu flujo.

Si eliges Poetry, el proceso es directo:

Clona el repositorio localmente.
Ejecuta poetry install para instalar todo el entorno.
Corre el chatbot con poetry run python hasira ai_conversation.py.

¿Qué es Poetry y por qué usarlo aquí? Es una herramienta de gestión de dependencias para Python que crea un entorno aislado y reproducible a partir del archivo pyproject.toml. Te evita conflictos de versiones entre librerías.

¿Qué dependencias incluye el pyproject.toml?

El archivo pyproject.toml lista todo lo que vamos a instalar. Estas son las piezas centrales del stack:

Langchain para orquestar la lógica del chatbot.
PyTorch y Transformers para modelos de Hugging Face.
ChromaDB como base de datos vectorial.
OpenAI para interactuar con sus modelos.
Requests para llamadas HTTP a las APIs de GitHub.

¿Para qué sirve el archivo utils.py en el proyecto?

Dentro del directorio hasira vas a encontrar utils.py, una librería interna de funciones de utilidad. Es el pegamento que mantiene el código limpio mientras extraes datos y construyes el chatbot.

Estas son las funciones que vale la pena conocer desde el inicio:

DocsJsonLoader: clase que carga un JSONL (JSON Lines) y lo convierte en documents de Langchain.
load_config: lee el archivo config.yaml con la configuración global del proyecto.
get_openai_api_key: verifica que tengas la variable de entorno OPENAI_API_KEY y avisa si falta.
get_file_path: obtiene la ruta donde se guardan los archivos JSONL.
get_query_from_user: captura la pregunta del usuario para el chatbot.
create_dir y remove_existing_file: gestionan directorios y archivos previos.

¿Qué es un archivo JSONL? Es un formato donde cada línea del archivo es un objeto JSON independiente. Permite procesar grandes volúmenes de documentos línea por línea sin cargar todo en memoria.

¿Cómo extraer la documentación de Hugging Face en formato JSONL?

La configuración vive en config.yaml. Ahí defines de qué repositorios de GitHub quieres obtener documentación. En este proyecto extraemos información de cuatro fuentes principales de Hugging Face.

¿Qué fuentes vamos a indexar?

El config.yaml apunta a estos recursos, todos del owner huggingface:

La librería Transformers, en docs/source/en.
La librería PEFT.
La librería Accelerate.
El blog de Hugging Face, una fuente clave con artículos técnicos.

No estás limitado a estos. Puedes agregar la documentación de PyTorch, TensorFlow o cualquier repo público, siempre que los archivos estén en formato Markdown (.md) o MDX (.mdx). El proyecto ignora código fuente y solo descarga texto editorial.

¿Cómo funciona el script text_extractor?

El script text_extractor procesa el texto y lo deja listo para el chatbot. Cada función tiene un rol claro:

pre_process_text: limpia el contenido recibido. Por ejemplo, elimina emojis y elementos que no aportan al modelo.
download_file: recibe una URL, descarga el archivo y lo guarda en JSONL con metadatos como título, owner del repo, nombre del repo y texto.
process_directory: recorre un directorio completo y decide qué archivos descargar. Solo acepta .md y .mdx.
main: orquesta todo, valida el token de GitHub y ejecuta las llamadas con requests.

Para ejecutar la extracción, una vez instaladas las dependencias, corre en terminal:

bash poetry run python hasira text_extractor

El script empieza a recorrer carpeta por carpeta y guarda todo en un JSONL fechado dentro del directorio data. Así puedes mantener versiones actualizadas sin sobrescribir descargas anteriores.

¿Cómo lucen los datos descargados y qué hacer con ellos?

Dentro de data vas a ver el JSONL generado con la fecha de descarga. Cada fila es un JSON independiente con campos como título, owner, repositorio de origen y el texto completo del documento.

En una corrida típica el script extrae más de 500 archivos entre documentación y entradas del blog. Vas a ver, por ejemplo, una fila con el README del repo de Hugging Face y otra con un artículo de blog sobre Accelerate y DeepSeek.

¿Puedes usar tus propios datos en lugar de la documentación pública?

Sí, y aquí está lo interesante: el proyecto no te encierra en Hugging Face. Puedes alimentar el chatbot con tus propios textos. Piensa en qué fuentes te servirían para hacerle preguntas: notas internas, manuales, transcripciones.

El pipeline acepta varios formatos:

Archivos Markdown y MDX desde repositorios públicos.
Documentos PDF.
Documentos Word.
Otros formatos textuales que puedas convertir a JSONL.

Con los datos descargados y el entorno listo, el siguiente paso es transformar estos textos en documents de Langchain para que el modelo pueda consultarlos. ¿Qué fuentes vas a indexar tú en tu versión del proyecto? Cuéntalo en los comentarios.

John J. Meza

Estudiante

Actualización a Enero del 2025

Si no les funciona deben hacer lo siguiente:

1. Clonen el proyecto (por default será la rama start)

2. Creen un token en GH (settings > dev settings > Personal Access Tokens > fine-grained) y guarden ese token

3. Creen un VENV y una vez creado activarlo

4. Intalen librerias que no están en requirements pip install poetry langchain emoji python-dotenv

5. Creen 2 archivos uno que se llame .env y otro .env-example y escriban en ambos archivos GITHUB_TOKEN= (sin el token)

6. Asegúrense de que tanto venv como .env estén en .gitignore

7. En .env agreguen el token de GH sin espacios ni comillas

8. En text extractor agreguen al inicio:

   import datetime
   import json
   import os
   import re
   from typing import Dict
   from dotenv import load_dotenv

   import emoji
   import requests
   from termcolor import colored
   from utils import create_dir, load_config, remove_existing_file

   load_dotenv(dotenv_path=".env")
```  &#x20;

9\. Por ultimo pueden actualizar requirements con el siguiente comando:

`pip freeze > requirements.txt`



Espero les ayude muchísimo!!

John J. Meza

Estudiante

desde el paso 9 en adelante no es parte del código

pip freeze > requirements.txt

Laura Daniela Lasso Arciniegas

Estudiante

Muchas gracias John por tu super aporte!

La seccion del GITHUB_TOKEN, estaba muy complicada!

Inicialización del proyecto chatbot con Langchain

Introducción a LangChain

Creación de un sistema de preguntas y respuestas con LangChain

Estructura y Uso de Langchain en Python

Carga de Modelos Open Source con Langchain y Hugging Face

Cómo usar modelos OpenAI con LangChain

Creación de Prompts Dinámicos con LangChain

Tipos de cadenas en LangChain

Resumir PDFs largos con LangChain chains

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Cómo encadenar TransformChain y LLMChain

Casos de uso de LangChain

Qué es Langchain y por qué importa

Implementación de Lanchain y LLMs: Costos, Privacidad y Buenas Prácticas

Manejo de documentos con índices

Cómo los índices dan memoria a los LLMs

Fundamentos de la Clase Document en Langchain

Cómo cargar PDFs en LangChain

Lectura de CSV y conversión a DataFrame de Pandas y LangChain

Cargador JSONL personalizado en LangChain

Fragmentación de Documentos con TextSplitter en Langsteam