Desarrollo de un agente de code review con análisis paralelo

Clase 20 de 26 • Curso para Crear Agentes de AI con LangGraph

Resumen

Diseña un flujo de revisión de código sólido y rápido con un agente especializado que ejecuta análisis en paralelo. Con un patrón de paralelización, dos revisores independientes detectan vulnerabilidades y problemas de mantenibilidad, y un tercer nodo agrega los hallazgos en un informe final claro. Aquí verás cómo se define el estado tipado, cómo se usan structured output y schema, y cómo se orquestan los nodos para ganar tiempo sin perder calidad.

¿Cómo funciona el agente de code review con patrón de paralelización?

El objetivo es ejecutar revisiones simultáneas sobre un mismo fragmento de código y consolidarlas en un resultado único. No es conversacional: recibe código, lo analiza y devuelve un reporte.

¿Qué flujo sigue el estado y los nodos?

Se define un estado con el código de entrada y los espacios para los resultados parciales y finales.
Desde el nodo inicial se lanzan en paralelo: security review y maintainability review.
Ambos resultados llegan al nodo aggregator, que sintetiza y deja el informe final en el estado.
La interfaz muestra líneas fijas: inicio ejecuta ambos nodos en paralelo, luego el aggregator y el final. En otros flujos (por ejemplo, con React o tools), algunas transiciones son opcionales o exclusivas, pero aquí son simultáneas por diseño.

¿Qué roles cubren security review y mantenibility review?

Security review: detecta vulnerabilidades, inyección, riesgos y sugiere mitigaciones.
Maintainability review: evalúa legibilidad, estructura, buenas prácticas y calidad del código.
Ambos escriben en el estado usando formatos definidos por schema para facilitar el parsing y la agregación.

¿Qué hace el aggregator para el informe final?

Lee los dos schemas del estado y produce un resumen accionable.
Puede generar texto libre (sin structured output) cuando el objetivo es un reporte legible para el usuario.
Recomienda acciones claras: sanitización de entradas, restricciones de API, tipado, nombres más expresivos, entre otras.

¿Cómo se definen el estado y el structured output del agente?

El estado es la columna vertebral: organiza entradas, salidas parciales y el reporte final. Usar structured output tipa cada nodo y mejora la consistencia del resultado.

¿Qué contiene el estado tipado del proceso?

code: el fragmento de código a revisar.
security_review: resultado del revisor de seguridad según su schema.
maintainability_review: salida de mantenibilidad con su schema.
final_review: texto del informe consolidado para el usuario.

¿Cómo se usa structured output y schema en los nodos?

Security review define un schema con: lista de suggestions de vulnerabilidades, risk level y suggestions descriptivas.
Maintainability review define: concerns sobre el código, code quality en escala de 1 a 10 y recomendaciones de mejora.
Se menciona el uso de “Pandantic” para tipar los resultados: el LLM devuelve datos ya estructurados, listos para inyectarse en el estado sin post-processing complejo.

¿Qué modelo LLM y prompts se emplean?

Modelo: OpenAI GPT-4-4.1 mini.
Mensajería: system message y user message definidos con tuplas para simplicidad.
Ejemplo de instrucción al usuario: “review this code” junto al código fuente.
Recomendación: ampliar el prompt (no de una sola línea) para mejorar calidad, controlar inyección y, si conviene, usar formatos como XML para guiar la salida.

¿Cómo se implementa y prueba el flujo en paralelo?

El desarrollo prioriza agilidad: un archivo único llamado codereview, sin scaffolding complejo, útil para prototipado. Para proyectos grandes, conviene dividir prompts y nodos en carpetas.

¿Cómo se invocan los nodos con system message y user message?

Cada nodo recibe el código desde el estado inicial.
Se prepara el system message con el rol experto: seguridad o calidad.
Se invoca el LLM con structured output y su schema correspondiente.
Se guarda solo la parte del estado que cambió para mantener el flujo limpio.

¿Qué se observa en Landgraf Studio durante la ejecución?

Los dos nodos corren en paralelo y escriben sus resultados.
El aggregator crea un reporte final legible con acciones priorizadas.
El estado registra: vulnerabilidades medias con su lista, preocupaciones de mantenibilidad, puntuación de calidad y recomendaciones claras.
Aunque no hay chat como tal, el estado concentra toda la evidencia del proceso.

¿Qué mejoras y reto final se proponen?

Añadir un tercer revisor: performance para evaluar optimizaciones de rendimiento.
Mejorar prompts: versiones extensas, con instrucciones, formato de salida y manejo de riesgos.
Escalar la arquitectura: separar archivos por nodos y prompts cuando el proyecto crezca.

¿Te animas a implementar el revisor de performance y a pulir los prompts? Comparte tus resultados y aprendizajes en los comentarios.

Martín Nicolás

student••

PerformanceReview

Definición de la clase

class PerformanceReview(BaseModel):

performance_metrics: dict[str, float] = Field(

description="Key performance metrics (e.g., execution time in ms, memory usage in MB, throughput)",

default=None

)

complexity_score: int = Field(

description="Estimated computational complexity score from 1 (low) to 10 (high)",

default=None,

ge=1,

le=10

)

hotspots: list[str] = Field(

description="Code locations or functions that are performance hotspots",

default=None

)

suggestions: list[str] = Field(

description="Concrete suggestions to improve performance (e.g., algorithmic changes, caching)",

default=None

)

estimated_runtime: str = Field(

description="Estimated runtime characteristics or Big-O notation for critical paths",

default=None

)

Definición del State

class State(TypedDict):

code: str

security_review: NotRequired[SecurityReview]

maintainability_review: NotRequired[MaintainabilityReview]

performance_review: NotRequired[PerformanceReview]

final_review: NotRequired[str]

Por último lo agrego al aggregator

def performance_review(state: State):

code = state['code']

messages = [

("system", "You are an expert in code performance analysis. Focus on identifying bottlenecks, algorithmic complexity, memory usage, and optimization opportunities."),

("user", f"Perform a detailed performance review of this code, analyzing execution efficiency, resource consumption, and scalability: {code}")

]

llm_with_structured_output = llm.with_structured_output(PerformanceReview)

schema = llm_with_structured_output.invoke(messages)

return {

"perform_review": schema

}

def aggregator(state: State):

security_review = state.get('security_review')

maintainability_review = state.get('maintainability_review')

performance_review = state.get('performance_review')

messages = [

("system", "You are a technical lead summarizing multiple code reviews."),

("user", f"Synthesize these code review results into a concise summary with key actions: Security review: {security_review}, Maintainability review: {maintainability_review} and Perform review: {performance_review}. The final answer must be in spanish.")

]

response = llm.invoke(messages)

return {

'final_review': response.text

}

Solo quedaria agregarlo al builder y ponerlo a correr

Jean Camacho

student••

¿Porqué a veces se usa un BaseModel y en otros momentos un TypedDict? en las definiciones de los estados....

Aunque ahora que lo veo mejor... parece como que BaseModel se usa para definir estructuras / tipos (en estos ejemplos los outputs de los LLMs) y el TypedDict para definir estados en sí mismo verdad?... se pueden usar de forma intercambiable?

Nicolas Molina

teacher•

La diferencia es que TypedDict es solo un diccionario en Python, lo cual es superútil y sencillo, pero si quieres ya tipado y ser más estricto con los valores que se guardan en ese estado, entonces es mejor hacerlo con BaseModel usando pydantic.

Aquí en la docs está cómo hacerlo con ese BaseModel

Luis Daniel Gordo Navas

student•

from langgraph.graph import StateGraph, START, END
from typing import TypedDict


class State(TypedDict):
    code: str


def security_review(state: State):
    return state


def maintainability_review(state: State):
    return state


def aggregator(state: State):
    return state


builder = StateGraph(State)

builder = StateGraph(State)

builder.add_node("security_review", security_review)
builder.add_node("maintainability_review", maintainability_review)
builder.add_node("aggregator", aggregator)

builder.add_edge(START, "security_review")
builder.add_edge(START, "maintainability_review")
builder.add_edge("security_review", "aggregator")
builder.add_edge("maintainability_review", "aggregator")
builder.add_edge("aggregator", END)

agent = builder.compile()

Desarrollo de un agente de code review con análisis paralelo

Fundamentos de LangGraph

Cómo construir agentes inteligentes con LangGraph

Configuración de entorno Python y primer agente con LangGraph

Configuración de uv para escalar agentes de IA en producción

El Núcleo del Agente: Estado y LLMs

Cómo funciona el estado compartido en LangGraph

Gestión de historial de mensajes en LangGraph

Integración de modelos OpenAI y Anthropic con LangChain

Integración de LLM en grafos para agentes que razonan

RAG con OpenAI file search para consultar PDFs

Lógica y Estructura de Nodos

Prompt chaining: encadenar agentes en secuencia con LangGraph

Respuestas estructuradas en LLMs para agentes

Organización de código en LangGraph para sistemas complejos de AI

Prompts dinámicos con LangChain y templates condicionales

Agentes ReAct

Patrón ReAct para agentes que razonan y ejecutan tools

Implementación de Tools en ReAct Agents con LangChain Core

Integración de tools con LLM y manejo de respuestas estructuradas

Implementación de agente ReAct para booking de citas médicas

Grafos Avanzados y Colaboración

Enrutamiento de agentes con conditional edge en LangGraph

Routing inteligente con LLM para derivar conversaciones automáticamente

Paralelización de nodos en agentes con LangGraph