Creación de un Chatbot con Documentación de Hugging Face

Resumen

¿Cómo inicializar el proyecto del chatbot con documentación de Hugging Face?

Preparar el entorno de desarrollo es esencial al comenzar un proyecto de programación. En este caso, estamos creando un chatbot que nos permitirá interactuar con la documentación de Hugging Face. Sigamos con los pasos básicos para iniciar.

Clonar el repositorio: El proyecto se encuentra en un repositorio de GitHub. El primer paso es clonar este repositorio en tu máquina local.
Instalar las dependencias: Puedes optar por distintas herramientas:
- Usar Poetry: Una forma moderna de manejar dependencias y entornos virtuales. Ejecuta Poetry Install después de clonar el proyecto.
- Usar pip: Si prefieres, instala las dependencias enumeradas en el archivo requirements.txt.
- Usar conda: Como alternativa, también puedes usar este gestor de entornos.

Finalmente, una vez instaladas las dependencias, ejecuta el código con:

poetry run python hashira aiconversation.py

¿Cuáles son las dependencias clave del proyecto?

El proyecto utiliza una variedad de bibliotecas y herramientas que facilitan tanto el desarrollo como la funcionalidad de nuestro chatbot:

Langchain y PyTorch: Componentes esenciales para manejar y desplegar modelos de lenguaje.
Transformers: Biblioteca fundamental para la comprensión del lenguaje natural.
Request: Para realizar solicitudes HTTP necesarias para obtener los datos.
ChromaDb: Como base de datos vectorial.
OpenAI: Necesario para funciones avanzadas de IA.

Es crucial revisar el archivo pipproject.term generado por Poetry para entender mejor las dependencias involucradas.

¿Cómo funcionan las utilidades dentro de utils.py?

El archivo utils.py ofrece un conjunto de funciones diseñadas para facilitar diversas tareas en el proyecto:

DocsJsonLoader: Convierte archivos JSONL en documentos legibles por Langchain.
LoadConfig: Carga la configuración desde el archivo config.yaml.
GetOpenAPIKey: Verifica la existencia de una clave API de OpenAI en las variables de entorno.
GetFilePath: Obtiene la ruta a los datos JSONL.
GetQueryFromUser: Recibe preguntas de los usuarios, útil para alimentar el chatbot.
CreateDir y RemoveExistingFile: Manejan la creación de directorios y la eliminación de archivos.

Estas utilidades simplifican el flujo de trabajo, especialmente al organizar y extraer datos.

¿Cómo extraer y estructurar datos desde GitHub?

Para obtener los datos necesarios, seguimos una serie de pasos usando config.yaml y el script en TextStructor:

Configurar config.yaml: Esta configuración contiene las fuentes de donde extraeremos la documentación. Aquí deberán listar:
- Repositorios y sus rutas correspondientes para obtener documentación markdown.
- También pueden combinarse otras fuentes como blogs.
Usar TextStructor: Este script tiene funciones para:
- Limpiar y procesar texto: Elimina elementos redundantes como emojis.
- Descargar archivos a partir de URLs y guardarlos en formato JSONL, incluyendo metadatos como el título y origen.
- Revisar directorios completos para seleccionar solo archivos markdown necesarios.

Ejemplo de ejecución para descargar datos:

Una vez instaladas las dependencias, ejecuta:

poetry run python hashira text_extractor

Así, descargaremos archivos de documentación manteniendo todos los elementos relevantes en un formato JSONL estructurado y ordenado. Podemos considerar más de 500 archivos, cubriendo desde documentación de librerías hasta entradas de blog.

¿Cómo personalizar la documentación y datos utilizados?

El proyecto ofrece flexibilidad para trabajar con diversos tipos de datos adicionales que puedas tener:

Repositorios adicionales: Puedes agregar otros repositorios de interés en config.yaml para ampliar las fuentes.
Diferentes formatos: El script acepta textos en formatos PDF, Word y CSV, lo que permite customizar la base de datos según los requerimientos de interacción con el chatbot.

¡Anímate a explorar y ampliar tu proyecto utilizando toda la riqueza de estas herramientas y configuraciones! Con cada ajuste, puedes transformar a tu chatbot en una herramienta aún más poderosa y personal para realizar consultas a documentación técnica.

Comentarios

John J. Meza

student•

Actualización a Enero del 2025

Si no les funciona deben hacer lo siguiente:

1. Clonen el proyecto (por default será la rama start)

2. Creen un token en GH (settings > dev settings > Personal Access Tokens > fine-grained) y guarden ese token

3. Creen un VENV y una vez creado activarlo

4. Intalen librerias que no están en requirements pip install poetry langchain emoji python-dotenv

5. Creen 2 archivos uno que se llame .env y otro .env-example y escriban en ambos archivos GITHUB_TOKEN= (sin el token)

6. Asegúrense de que tanto venv como .env estén en .gitignore

7. En .env agreguen el token de GH sin espacios ni comillas

8. En text extractor agreguen al inicio:

   import datetime
   import json
   import os
   import re
   from typing import Dict
   from dotenv import load_dotenv

   import emoji
   import requests
   from termcolor import colored
   from utils import create_dir, load_config, remove_existing_file

   load_dotenv(dotenv_path=".env")
```  &#x20;

9\. Por ultimo pueden actualizar requirements con el siguiente comando:

`pip freeze > requirements.txt`



Espero les ayude muchísimo!!

John J. Meza

student•

desde el paso 9 en adelante no es parte del código

pip freeze > requirements.txt

Laura Daniela Lasso Arciniegas

student•

Muchas gracias John por tu super aporte!

La seccion del GITHUB_TOKEN, estaba muy complicada!

Jorge Alberto Espinoza Alegria

student•

Hola en las indicaciones dice que se ejecute la siguiente instrucción "poetry run python hashira/ai_conversation.py" pero en la carpeta no existe el archivo, tampoco en el repositorio

Wilfredo Daza

student•

Hola hay que descargar la rama main

edgardo ponce

student•

Una mínima prueba de descargar el repo y probarlo seria bueno, asi los estudiantes no tenemos que estar adivinando y perdiendo tiempo en cosas sin sentido.

Leonar Santiago Castro Vizcaya

student•

Me topo con este error al intentar instalar los requirements: (env_llm_nueva2) PS C:\Users\lcast\OneDrive\Documentos\LANGCHAIN\curso-langchain-start> conda install --file requirements.txt Collecting package metadata (current_repodata.json): done Solving environment: unsuccessful initial attempt using frozen solve. Retrying with flexible solve. Collecting package metadata (repodata.json): done Solving environment: unsuccessful initial attempt using frozen solve. Retrying with flexible solve.

PackagesNotFoundError: The following packages are not available from current channels:

torch==2.0.1
requests==2.30.0
langchain==0.0.209

Mauricio Combariza

student•

instalar cada dependencia por aparte

Luis Boivar

student•

Tener en cuenta las versiones de python y pip en la configuración de sus ambientes.

Yorday Figueroa

student•

Para ejecutar el text_extractor.py usando uv para crear el entorno virtual.

branch : start

Wilfredo Daza

student•

me da este error

TypeError: multiple bases have instance lay-out conflict

al ejecutar

python hashira/text_extractor.py

hasta aqui llegue.

JOAN ROA

student•

¿Alguna sugerencia para los problemas de compatibilidad en las versiones que se presenta al correr la instalación de paquetes con poetry e incluso con pip? No pude hacer el document load ni el text splitter ya que no encontre manera de instalar y hacer funcionar los paquetes en las versiones que tiene el repo en main. Gracias

Leonardo Acosta

student•

Como configuro la variable de entorno para que tome el github token? lo agregue a config.yaml y cree un .env pero no logro hacerlo funcionar y siempre me devuelve "GITHUB_TOKEN no está configurado en las variables de entorno."

Sebastián Franco

student•

Usé la librería dotenv para cargar los datos del .env a las variables de entorno. Primero hay que instalarla.

pip install python-dotenv

Luego, importamos la función load_dotenv de la librería.

from dotenv import load_dotenv

Finalmente, en la función main la llamaremos después de cargar la configuración y antes de cargar el token

def main():
    """
    Función principal que se ejecuta cuando se inicia el script.
    """
    config = load_config()
    load_dotenv("../.env") # ->Aquí ponemos en path
    github_token = os.getenv("GITHUB_TOKEN")

Y con eso habremos cargado todas las variables de entorno.

Para que lo anterior funcione, debes crear un archivo .env en el directorio principal del proyecto y poner los api key.

COHERE_API_KEY="" GITHUB_TOKEN="" OPENAI_API_KEY=""

Y listo.

Miguel Angel Solis Orozco

student•

Hice lo que sugirió sebastián pero me dice que no está recibiendo la GITHUB_KEY. Agregué python-dotenv al archivo pyproject.toml, también lo instalé con pip sin éxito. Creé el .env y puse las 3 keys pero parece que github_token = NULL porque me aparece el error de la línea 135.: GITHUB_TOKEN no está configurado en las variables de entorno. ¿Qué podría estarme faltando?

Creación de un Chatbot con Documentación de Hugging Face

Introducción a LangChain

Creación de un sistema de preguntas y respuestas con LangChain

Estructura y Uso de Langchain en Python

Carga de Modelos Open Source con Langchain y Hugging Face

Uso de Modelos OpenAI con LangChain: Guía Práctica para Principiantes

Creación de Prompts Dinámicos con LangChain

Uso de Cadenas en Modelos de Lenguaje con Language Chain

Procesamiento de PDFs y creación de resúmenes con LangChain

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje

Creación de cadenas secuenciales en Python para procesamiento de texto

Casos de uso de LangChain

Aplicaciones y Beneficios de Lancheng en el Manejo de LLMs

Implementación de Lanchain y LLMs: Costos, Privacidad y Buenas Prácticas

Manejo de documentos con índices

Carga de Documentos en Langchain para Creación de Índices

Fundamentos de la Clase Document en Langchain

Carga y Transformación de Documentos No Estructurados con Landship

Lectura de CSV y conversión a DataFrame de Pandas y LangChain

Creación de un Cargador de JSON-Lines Personalizado en Python

Fragmentación de Documentos con TextSplitter en Langsteam

Creación de un Chatbot con Documentación de Hugging Face

Creación de Índice Vectorial con Langchain y Embeddings

Embeddings y bases de datos vectoriales

Creación de Índices con Embeddings y Bases de Datos Vectoriales

Creación y uso de embeddings con OpenAI y Lanchain

Modelos de Embeddings Open Source en Español con Sentence Transformers

Creación y Gestión de Bases de Datos Vectoriales con Chroma

Creación y manejo de bases de datos vectoriales con OpenAI Embeddings

Creación y Uso de un Retriever en Chroma para Consultas Avanzadas

Modelo de Chat para Preguntas y Respuestas con LangChain y Chroma

Creación de un Chatbot para Preguntas con Bases de Datos Vectoriales

Chats y memoria con LangChain

Memoria de Corto Plazo en Chatbots: Implementación y Optimización

Creación y Uso de Modelos de Chat con OpenAI y LangChain

Creación de Plantillas Dinámicas para Prompts de Chat en Langstead

Memoria en chatbots: Implementación con ConversationBufferMemory

Configuración de ConversationBufferWindowMemory en Chatbots

Memoria de Resumen de Conversaciones con Chat GPT-3.5

Gestión de Memoria en Chatbots con ConversationSummaryBufferMemory

Memoria de Entidades en Chatbots para Soporte de Ventas

Implementación de Chatbot con Memoria en Python usando Langchain

Evolución del uso de LLM

Creación de Chatbots con Modelos de Lenguaje y Bases de Datos Vectoriales