Queries SQL complejas con Copilot y ChatGPT

Clase 3 de 17 • Curso de Herramientas de Inteligencia Artificial para Equipos de Datos

Contenido del curso

IA en equipos de data

1
Clasificación de imágenes con GitHub Copilot
05:05 min

Manejo de bases de datos

Procesamiento de datos

Visualización y análisis

Generación de datos

16
Generar datasets con GPT-4 y Python
07:14 min

Aprendizaje y formación

17
Uso de Chatbots para Aprender Estadística y Ciencia de Datos
03:44 min

Tomar examen

Resumen

Escribir consultas SQL eficientes es una tarea fundamental en ingeniería de datos, análisis y ciencia de datos. Herramientas como GitHub Copilot y ChatGPT permiten acelerar este proceso, pero solo si se les proporciona el contexto adecuado. Aquí se explora cómo aprovechar estos modelos de lenguaje para generar queries SQL funcionales a partir de la estructura de una base de datos real.

¿Por qué el contexto del modelo de datos es esencial para los LLM?

Un modelo de lenguaje grande (LLM) no conoce las tablas, columnas ni relaciones de tu base de datos. Por eso, antes de pedirle cualquier consulta, es necesario cargar la estructura DDL (Data Definition Language) dentro del contexto que le proporcionas [0:55]. Esto incluye sentencias CREATE TABLE con nombres de tablas, columnas y referencias entre ellas.

Sin este paso, el modelo genera consultas genéricas que probablemente fallarán. La clave está en que el LLM pueda "ver" la definición de tablas como orders, order_details, products o regions para construir joins y filtros correctos.

¿Cómo generar queries con GitHub Copilot en Visual Studio Code?

Desde Visual Studio Code, con el plugin de Copilot y una extensión de Postgres instalados, se puede escribir un comentario descriptivo directamente en el archivo SQL [1:40]. Por ejemplo:

sql -- Crea una consulta para los cinco productos más vendidos por región, -- tomando en cuenta las tablas DDL de arriba.

Copilot interpreta ese comentario y sugiere código SQL. Sin embargo, la primera sugerencia no siempre es precisa. En el ejemplo, Copilot devolvió un simple LIMIT 5 global en lugar de un top cinco por cada región [3:10]. Aquí entra la experticia del profesional de datos: reconocer que la consulta necesita funciones de ventana.

¿Qué hacer cuando la sugerencia inicial es incorrecta?

Cuando el resultado no cumple el objetivo, se pueden tomar dos caminos:

Agregar instrucciones más específicas. Se le indicó a Copilot que usara ROW_NUMBER() y PARTITION BY para obtener el ranking por región [3:50].
Explorar múltiples soluciones. Con Ctrl + Enter en VS Code, Copilot presenta varias alternativas que el usuario puede evaluar.

Al seleccionar una de las opciones, la consulta resultante usaba ROW_NUMBER() particionado por región y ordenado por cantidad. Aun así presentó un error: la columna region_id era ambigua porque existía en más de una tabla del join [4:55]. Bastó con cualificarla como r.region_id para resolverlo.

sql SELECT r.region_id, region_description, product_name, total_quantity, rn FROM ( SELECT r.region_id, ..., ROW_NUMBER() OVER (PARTITION BY r.region_id ORDER BY SUM(quantity) DESC) as rn ... ) sub WHERE rn <= 5;

El resultado final mostró el top cinco de productos por región, con nombre del producto y cantidad vendida [5:30].

¿Cómo se compara ChatGPT para redactar consultas SQL?

ChatGPT funciona de forma similar, pero requiere que le envíes el modelo de datos en el prompt inicial [6:50]. Un enfoque efectivo es establecer un rol:

"Eres un experto en Postgres y SQL. Te daré un modelo de datos para que me ayudes a redactar distintas consultas."

Después se pega la estructura DDL y se formulan peticiones concretas. Por ejemplo, se le pidió una consulta que mostrara empleado, orden, customer, producto y fechas, filtrando pedidos enviados después de la fecha requerida [7:20].

ChatGPT generó una query con múltiples JOIN y una cláusula WHERE comparando shipped_date > required_date. Al copiarla y ejecutarla en Visual Studio Code, funcionó sin errores [8:15].

Otras herramientas como Bard o Bing también sirven para este propósito, siempre que reciban el contexto del modelo de datos.

¿Cuáles son las mejores prácticas al usar IA para SQL?

Siempre incluir el DDL de las tablas relevantes en el contexto.
Ser específico con funciones y técnicas deseadas: ROW_NUMBER, PARTITION BY, UPPER, concatenaciones.
Iterar sobre las soluciones. Los errores suelen ser menores: columnas ambiguas, alias faltantes o límites mal aplicados.
Validar cada resultado. La IA no reemplaza el conocimiento del equipo de datos; es un asistente que acelera la escritura de código [9:00].

Estas herramientas escriben código, proponen lógicas y ahorran tiempo, pero la responsabilidad de entender cuál es la mejor forma de construir una consulta sigue siendo del profesional. ¿Has probado generar queries complejas con alguna de estas herramientas? Comparte tu experiencia.

Daniel Alfredo García Serna

student•

📚 Generador de código SQL DML

🎯 Idea principal

La inteligencia artificial puede generar automáticamente consultas SQL para manipular datos (DML) a partir de instrucciones en lenguaje natural. Esto permite acelerar tareas comunes como insertar, actualizar o consultar datos en una base de datos, reduciendo el tiempo de escritura manual de consultas y aumentando la productividad del equipo de datos.

🔑 Puntos clave

• DML (Data Manipulation Language) es el conjunto de comandos SQL que permiten trabajar con los datos dentro de una base de datos.

• Los comandos principales de DML son:

INSERT → agregar nuevos registros
UPDATE → modificar datos existentes
DELETE → eliminar registros
SELECT → consultar información almacenada.

• Las herramientas de IA pueden generar consultas DML si se describe:

la tabla
los datos
la operación que se quiere realizar.

• Ejemplo de uso con IA: “Genera una consulta SQL para insertar un nuevo cliente con nombre, email y fecha de registro”.

• Aunque la IA puede escribir las consultas, el profesional debe validar la lógica y evitar errores en la manipulación de datos.

🧠 Conceptos importantes

DML (Data Manipulation Language) Lenguaje SQL utilizado para insertar, modificar, eliminar y consultar datos dentro de las tablas de una base de datos.

Consulta SQL Instrucción escrita en SQL que permite interactuar con la base de datos para obtener o modificar información.

Manipulación de datos Proceso de trabajar directamente con los registros almacenados en una base de datos, como agregar, editar o eliminar información.

🚀 Acciones inmediatas

• Practicar describiendo operaciones de datos en lenguaje natural y pedir a la IA que genere las consultas SQL.

• Validar siempre:

condiciones WHERE
tipos de datos
registros que se verán afectados.

• Probar las consultas primero con SELECT antes de ejecutar UPDATE o DELETE.

• Usar IA para generar consultas complejas y luego optimizarlas manualmente.

🔥 Hacks para la comunidad

• Antes de ejecutar un DELETE o UPDATE, pide a la IA que genere la consulta SELECT equivalente para verificar qué registros se verán afectados.

• Usa prompts específicos como:

“Genera un INSERT con estos campos…”
“Crea un UPDATE que modifique solo este registro…”

• Error común: ejecutar un DELETE o UPDATE sin condición WHERE, lo que puede afectar todos los registros de una tabla.

• Cuando trabajes con IA, pídele también datos de prueba para validar las consultas.

📝 Reflexión estratégica

La IA puede escribir consultas SQL rápidamente, pero no entiende completamente el impacto en los datos del negocio.

El verdadero valor del profesional está en comprender cómo se relacionan los datos y qué operaciones son seguras ejecutar.

La combinación ideal es: IA para velocidad + criterio humano para control y precisión.

Andres Sanchez

Juan R. Vergara M.

Julián Cárdenas

Carlos Andres Arango Morales

Antonio Demarco Bonino

Nicolas Rosales

Leidy Johana Alarcon Moya

Jhozzep Jesus Bautista Anchayhua

Johanna Barragan

Juan Alvaro Diaz Trujillo

Diego Jurado

Fernando Sánchez Mejía

Brayan Raul Kari

ROMMEL DUAREZ SAENZ

Marco Ramos

José Arturo Cuadra

Néstor Manuel Ibarra Nateras

Nestor Colmenarez

Arístides Pérez Hernández

Alejandro José Hugo Escalante Santos

Farid Sayago Villamizar

Francisco Alejandro Franco Rivera

Queries SQL complejas con Copilot y ChatGPT

IA en equipos de data

Clasificación de imágenes con GitHub Copilot

Manejo de bases de datos

SQL con GitHub Copilot desde cero