Cómo encadenar TransformChain y LLMChain

Curso de LangChain

Contenido del curso

Introducción a LangChain

Casos de uso de LangChain

Manejo de documentos con índices

Embeddings y bases de datos vectoriales

Chats y memoria con LangChain

Evolución del uso de LLM

37
Ecosistema LLM y qué sigue después de LangChain
05:26 min

Tomar examen

Cómo encadenar TransformChain y LLMChain

Resumen

Cuando trabajas con LangChain, las cadenas fundacionales son los bloques mínimos que puedes combinar para construir flujos más complejos. Aquí aprenderás a unir una TransformChain con una LLMChain dentro de una SequentialChain, ideal si necesitas limpiar texto antes de pasarlo a un modelo de lenguaje.

Qué son las cadenas fundacionales y por qué encadenarlas

Una cadena fundacional es un eslabón individual que procesa texto de una forma muy concreta. La gracia está en que puedes unir varios eslabones para que el output de uno alimente al siguiente, como piezas de Lego. De hecho, la lógica recuerda mucho a cómo armas un modelo en PyTorch.

En el ejemplo que vamos a recorrer hay dos cadenas:

Una TransformChain que limpia el texto de emojis y URLs.
Una LLMChain que parafrasea el texto limpio con un estilo regional.

¿Qué es una TransformChain? Es una cadena que aplica una función de Python pura sobre el texto de entrada. No usa modelos de IA, solo transforma datos según la lógica que tú definas.

Cómo construir una TransformChain para limpiar texto

El primer paso es crear una función de Python que reciba un diccionario y devuelva otro diccionario. Esa es toda la magia: nada de inteligencia artificial todavía, solo regex aplicado con la librería re.

Función limpiar_texto paso a paso

La función toma la llave texto del diccionario de entrada y aplica dos transformaciones [01:20]:

Sustituye emojis y símbolos fuera de un rango amplio de unicode por un espacio en blanco.
Elimina cualquier patrón que parezca URL, como https o www.

Al final, retorna un diccionario con la llave texto_limpio que contiene el resultado procesado. Esto es clave porque la TransformChain se conecta con el resto del flujo justamente por esos nombres de llaves.

Instanciar la TransformChain

Importas TransformChain desde la librería chains de LangChain y creas el objeto cadena_que_limpia indicando tres argumentos:

input_variables: lista con texto.
output_variables: lista con texto_limpio.
transform: la función limpiar_texto.

Cuando la corres con un prompt como "Chequeen esta página" más un URL y un emoji, la respuesta llega casi instantánea porque no hay modelo de por medio, solo Python ejecutando regex [03:45].

Cómo unir TransformChain y LLMChain en una SequentialChain

La cadena que limpia por sí sola no aporta tanto. Lo interesante aparece cuando la conectas con una LLMChain que use un modelo de OpenAI para parafrasear.

Plantilla con dos variables de entrada

Creas un PromptTemplate con dos input_variables: texto_limpio y estilo. La instrucción dentro del prompt es "parafrasea esto", y el estilo puede ser, por ejemplo, una persona informal de Perú, México o Chile.

Luego instancias LLMChain pasando:

El modelo llm, en este caso un GPT-3.5 turbo de OpenAI.
El prompt recién creado.
El output_key igual a texto_final.

¿Por qué los nombres de las llaves importan tanto? Porque la SequentialChain conecta cadenas usando esos nombres. Si una cadena retorna texto_limpio, la siguiente debe esperar exactamente esa variable como entrada.

Ensamblar la SequentialChain

Importas SequentialChain desde chains y la instancias con [07:30]:

chains: lista con cadena_que_limpia y cadena_que_cambia_estilo.
input_variables: texto y estilo.
output_variables: texto_final.

Fíjate en el flujo: el usuario ingresa texto y estilo. La primera cadena consume texto y produce texto_limpio. La segunda recibe texto_limpio (de la cadena anterior) más estilo (del usuario) y produce texto_final.

Qué resultado entrega el flujo completo

Al correr la SequentialChain con un texto sobre la ciudad de Monterrey, México, lleno de emojis, banderitas y URLs como visitamonterrey.com, junto con el estilo "una persona de Perú", el resultado final llega sin emojis ni links.

Un fragmento del output: "Oye, Monterrey es una ciudad superchévere, tiene unas montañas impresionantes". Quien sea de Perú reconocerá ese tono, bacán.

¿Qué diferencia hay entre cadenas fundacionales y cadenas de utilidad? Las fundacionales son los bloques básicos como TransformChain o LLMChain. Las de utilidad son combinaciones con un propósito concreto, como limpiar y reformular texto.

Reto: agrega una tercera cadena al flujo

Amplía la SequentialChain con un tercer eslabón. El orden propuesto:

Limpia el texto de entrada.
Genera un texto nuevo a partir del limpio.
Crea un resumen del texto generado.

Ingresa un texto largo para que el resumen tenga sentido y comparte tu resultado en los comentarios. ¿Qué estilo regional probarás primero?

Gabriel Ichcanziho Pérez Landa

Estudiante

En esta clase veremos como funcionan las cadenas Foundatinoal y como podemos unir varias de ellas para llevar procesos más complejos a través de cadenas secuenciales SequentialChain.

Primero, vamos a construir una función personalizada para limpiar nuestros textos de URLs y emojis. Luego, utilizaremos esta función para crear una cadena en la que introduciremos nuestro texto y esperamos obtener un texto limpio como salida.

Debemos tener en cuenta que la función que hemos creado recibe como entrada un diccionario. En este diccionario, vamos a indicar los elementos que serán procesados por la cadena que estamos creando. El resultado que obtendremos de la cadena será el texto limpio.

Esto es el principio fundamental de las cadenas fundacionales, nos proporcionan un marco para llevar a cabo una serie de transformaciones de manera ordenada y estructurada.

Partimos de los antecedentes que ya conocemos:

# Antecedentes 1: Cargar el API KEY de OpenAI como una variable de sistema.
import os
from dotenv import load_dotenv

load_dotenv("../secret/keys.env")
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
os.environ['OPENAI_API_KEY'] = OPENAI_API_KEY

# Antecedentes 2: Instanciar dos LLMs de OpenAI un GPT3.5 y un Davinci
from langchain.llms import OpenAI

llm_gpt3_5 = OpenAI(
    model_name="gpt-3.5-turbo",
    n=1,
    temperature=0.3
)

Vamos a empezar creando una función de limpieza de datos. La misma es una función que recibe un diccionario con una llave texto que contiene el texto a limpiar y devuelve otro diccionario con la llave texto_limpio, el texto ya normalizado.

def limpiar_texto(entradas: dict) -> dict:
    texto = entradas["texto"]

    # Eliminamos los emojis utilizando un amplio rango unicode
    # Ten en cuenta que esto podría potencialmente eliminar algunos caracteres válidos que no son en inglés
    patron_emoji = re.compile(
        "["
        "\U0001F600-\U0001F64F"  # emoticonos
        "\U0001F300-\U0001F5FF"  # símbolos y pictogramas
        "\U0001F680-\U0001F6FF"  # símbolos de transporte y mapas
        "\U0001F1E0-\U0001F1FF"  # banderas (iOS)
        "\U00002702-\U000027B0"
        "\U000024C2-\U0001F251"
        "]+", flags=re.UNICODE,
    )
    texto = patron_emoji.sub(r'', texto)

    # Removemos las URLs
    patron_url = re.compile(r'https?://\S+|www\.\S+')
    texto = patron_url.sub(r'', texto)

    return {"texto_limpio": texto}

Con base en esta función de python podemos crear nuestro primer bloque de Cadena utilizando TransformChain:

from langchain.chains import TransformChain

cadena_que_limpia = TransformChain(
    input_variables=["texto"],
    output_variables=["texto_limpio"],
    transform=limpiar_texto
)

clean = cadena_que_limpia.run('Chequen está página https://twitter.com/home 🙈')
print(clean)

Respuesta esperada:

Chequen está página

Ahora vamos a crear un par de cadenas más y finalmente las vamos a unir todas para un flujo de información completa. Empecemos con una cadena de parafraseo de texto:

from langchain import PromptTemplate
from langchain.chains import LLMChain

# Empezamos creando nuestro prompt template que recibe como parámetro un 'texto_limpio' (salida de de la cadena de limpieza)
# y lo parafrasea con un estilo informa de una persona (estilo).
plantilla_parafrasea = """Parafrasea este texto:

{texto_limpio}

En el estilo de una persona informal de {estilo}.

Parafraseado: """

# Dado que nuestro Template tiene 2 variables, debemos indicarlas en el parámetro `input_variables
prompt_parafraseo = PromptTemplate(
    input_variables=["texto_limpio", "estilo"],
    template=plantilla_parafrasea 
)

# Ahora solo falta crear la cadena que cambia estilo utilizando como LLM a GPT3.5, esta cadena terminará creando una variable
# a la salida llamada `texto_final`
cadena_que_cambia_estilo = LLMChain(
    llm=llm_gpt3_5,
    prompt=prompt_parafraseo,
    output_key='texto_final'
)

Ahora siguiendo la misma estructura lógica, vamos a crear una nueva Chain que se encargue de parafrasear un texto de entrada:

# Texto_final es la variable de entrada, puesto que así la definimos en la cadena de parafraseo
plantilla_resumen = """Resume este texto:

{texto_final}

Resumen: """

prompt_resumen = PromptTemplate(
    input_variables=["texto_final"],
    template=plantilla_resumen
)

# Texto resumido será la variable final con la que termina nuestra secuencia de cadenas
cadena_que_resume = LLMChain(
    llm=llm_gpt3_5,
    prompt=prompt_resumen,
    output_key="texto_resumido"
)

Finalmente, para concluir vamos a unir todas nuestras cadenas entre ellas utilizando SequentialChain:

from langchain.chains import SequentialChain

cadena_secuencial = SequentialChain(
    chains=[cadena_que_limpia, cadena_que_cambia_estilo, cadena_que_resume],
    input_variables=["texto", "estilo"],
    output_variables=["texto_resumido"]
)

Nota: Esta estructura de pensamiento es MUY similar a como PyTorch Organiza las capas de un modelo de DL.

Probemos entonces nuestra SequentialChain:

texto_entrada = """
¡Monterrey es una ciudad impresionante! 🏙️
Es conocida por su impresionante paisaje de montañas ⛰️ y su vibrante cultura norteña.
¡No olvides visitar el famoso Museo de Arte Contemporáneo (MARCO)!
🖼️ Si eres fanático del fútbol, no puedes perderte un partido de los Rayados o de los Tigres. ⚽
Aquí te dejo algunos enlaces para que puedas conocer más sobre esta maravillosa ciudad:
https://visitamonterrey.com, https://museomarco.org, https://rayados.com, https://www.tigres.com.mx.
¡Monterrey te espera con los brazos abiertos! 😃🇲🇽

Monterrey es la capital y ciudad más poblada del estado mexicano de Nuevo León, además de la cabecera del 
municipio del mismo nombre. Se encuentra en las faldas de la Sierra Madre Oriental en la región noreste de 
México. La ciudad cuenta según datos del XIV Censo de Población y Vivienda del Instituto Nacional de 
Estadística y Geografía de México (INEGI) en 2020 con una población de 3 142 952 habitantes, por lo cual 
de manera individual es la 9.ª ciudad más poblada de México, mientras que la zona metropolitana de Monterrey 
cuenta con una población de 5 341 175 habitantes, la cual la convierte en la 2.ª área metropolitana más 
poblada de México, solo detrás de la Ciudad de México.8

La ciudad fue fundada el 20 de septiembre de 1596 por Diego de Montemayor y nombrada así en honor al castillo 
de Monterrey en España. Considerada hoy en día una ciudad global, es el segundo centro de negocios y finanzas 
del país, así como una de sus ciudades más desarrolladas, cosmopolitas y competitivas. Sirve como el 
epicentro industrial, comercial y económico para el Norte de México.9 Según un estudio de Mercer Human 
Resource Consulting, en 2019, fue la ciudad con mejor calidad de vida en México y la 113.ª en el mundo.10 
La ciudad de Monterrey alberga en su zona metropolitana la ciudad de San Pedro Garza García, la cual es el 
área con más riqueza en México y América Latina.11
"""

ans = cadena_secuencial({'texto': texto_entrada, 'estilo': 'ciudad de méxico'})
print(ans)

Respuesta esperada:

{'texto': 

'\n¡Monterrey es una ciudad impresionante! 🏙️\nEs conocida por su impresionante paisaje de montañas ⛰️ y su vibrante 
cultura norteña.\n¡No olvides visitar el famoso Museo de Arte Contemporáneo (MARCO)!\n🖼️ Si eres fanático del fútbol, no 
puedes perderte un partido de los Rayados o de los Tigres. ⚽\nAquí te dejo algunos enlaces para que puedas conocer más 
sobre esta maravillosa ciudad:\nhttps://visitamonterrey.com, https://museomarco.org, https://rayados.com, https://www.tigres.com.mx.
¡Monterrey te espera con los brazos abiertos! 😃🇲🇽\n\nMonterrey es la capital y ciudad más poblada del estado mexicano de 
Nuevo León, además de la cabecera del \nmunicipio del mismo nombre. Se encuentra en las faldas de la Sierra Madre Oriental en 
la región noreste de \nMéxico. La ciudad cuenta según datos del XIV Censo de Población y Vivienda del Instituto Nacional de 
\nEstadística y Geografía de México (INEGI) en 2020 con una población de 3 142 952 habitantes, por lo cual \nde manera 
individual es la 9.ª ciudad más poblada de México, mientras que la zona metropolitana de Monterrey \ncuenta con una población 
de 5 341 175 habitantes, la cual la convierte en la 2.ª área metropolitana más \npoblada de México, solo detrás de la Ciudad 
de México.8\u200b\n\nLa ciudad fue fundada el 20 de septiembre de 1596 por Diego de Montemayor y nombrada así en honor al 
castillo \nde Monterrey en España. Considerada hoy en día una ciudad global, es el segundo centro de negocios y finanzas 
\ndel país, así como una de sus ciudades más desarrolladas, cosmopolitas y competitivas. Sirve como el \nepicentro industrial, 
comercial y económico para el Norte de México.9\u200b Según un estudio de Mercer Human \nResource Consulting, en 2019, fue 
la ciudad con mejor calidad de vida en México y la 113.ª en el mundo.10\u200b \nLa ciudad de Monterrey alberga en su zona 
metropolitana la ciudad de San Pedro Garza García, la cual es el \nárea con más riqueza en México y América Latina.11\u200b\n', 

'estilo': 
'ciudad de méxico', 

'texto_resumido': '
Monterrey es una ciudad increíblemente hermosa y llena de vida, famosa por sus montañas y su cultura norteña. Es conocida 
por su Museo de Arte Contemporáneo y por los equipos de fútbol Rayados y Tigres. Es la capital y la ciudad más grande del 
estado de Nuevo León, con una población de más de 3 millones de habitantes. Es considerada una ciudad global y un importante 
centro de negocios y finanzas en México. También es una de las ciudades más desarrolladas y con mejor calidad de vida en 
el país. En resumen, Monterrey es una ciudad impresionante y llena de oportunidades.'}

Excelente, hemos podido aprender como unir varias cadenas entre ellas para crear un flujo de información efectivo a través de SequentialChains

Cómo encadenar TransformChain y LLMChain

Introducción a LangChain

Creación de un sistema de preguntas y respuestas con LangChain

Estructura y Uso de Langchain en Python

Carga de Modelos Open Source con Langchain y Hugging Face

Cómo usar modelos OpenAI con LangChain

Creación de Prompts Dinámicos con LangChain

Tipos de cadenas en LangChain

Resumir PDFs largos con LangChain chains

Creación de Cadenas de Preguntas y Respuestas con Modelos de Lenguaje