Generar datasets con GPT-4 y Python

Clase 16 de 17 • Curso de Herramientas de Inteligencia Artificial para Equipos de Datos

Contenido del curso

IA en equipos de data

1
Clasificación de imágenes con GitHub Copilot
05:05 min

Manejo de bases de datos

Procesamiento de datos

Visualización y análisis

Generación de datos

16
Generar datasets con GPT-4 y Python
Viendo ahora

Aprendizaje y formación

17
Uso de Chatbots para Aprender Estadística y Ciencia de Datos
03:44 min

Tomar examen

Resumen

Crear datos sintéticos de calidad es una necesidad constante en proyectos de inteligencia artificial, analítica y desarrollo de software. Aprovechar modelos de lenguaje como GPT-4 para generar datasets personalizados abre posibilidades enormes: desde poblar bases de datos con información realista hasta entrenar otros modelos con instrucciones generadas automáticamente. A continuación se explica paso a paso cómo lograrlo usando Python y la API de OpenAI.

¿Por qué usar inteligencia artificial para generar datos?

La generación de datos es uno de los procesos más relevantes al entrenar modelos de IA o al necesitar datos dummy para ingesta y analítica [0:06]. Un caso real y notable es Alpaca de Stanford, un modelo que utilizó GPT-3.5 para generar instrucciones de forma continua y luego reutilizarlas como dataset de entrenamiento [0:18]. Es decir, inteligencia artificial generando texto e instrucciones para reentrenar otros modelos de inteligencia artificial.

Esta misma técnica se puede aplicar para llenar tablas en SQL, crear datos dummy en Python, R o cualquier otro lenguaje que se necesite.

¿Cómo configurar el entorno y conectarse a la API de OpenAI?

El primer paso es importar la librería de OpenAI, que permite conectarse a través de la API para consumir modelos LLM (Large Language Models) [1:03]. La autenticación se realiza con una llave almacenada en una variable de entorno, lo cual es una buena práctica de seguridad.

python import openai import os

openai.api_key = os.getenv("OPENAI_API_KEY")

¿Cómo diseñar el prompt para obtener datos estructurados?

Se construye un prompt que le indica al modelo qué debe generar [1:17]. En este caso se le pide:

Una descripción breve de un producto.
Un nombre de compañía ficticio asociado a ese producto.
Que la salida sea en formato JSON.

Se incluye un ejemplo dentro del prompt, como el producto "auto" con la descripción "auto eléctrico de color rojo, amigable con el medio ambiente" y la compañía "EcoCar" [1:32]. Este enfoque se conoce como few-shot prompting: dar ejemplos concretos para que el modelo entienda el formato esperado.

¿Cómo crear la función generadora de datos?

Se define una función que recibe un producto como variable de entrada, lo envía al modelo GPT-4 junto con el prompt y retorna la respuesta en formato JSON [2:05].

python def generar_datos(producto): response = openai.ChatCompletion.create( model="gpt-4", messages=[{"role": "user", "content": f"{prompt}\nInput: {producto}"}] ) return response.choices[0].message.content

Al probar con el producto "silla", el modelo devuelve algo como: descripción "silla ergonómica, ajustable, de diseño moderno y cómodo", compañía "Comseat" [2:25]. La ventaja clave es que los textos no son exactamente iguales entre sí, gracias al motor de entendimiento del lenguaje que subyace.

¿Cómo escalar la generación a múltiples productos?

Primero se genera una lista de productos variados. En el ejemplo se crearon 10 elementos: silla, mesa, computadora, casa, cama, libro, cuaderno, pluma, entre otros [2:50].

Luego se itera sobre esa lista usando un bloque try/except para manejar excepciones si alguna petición falla [3:10]:

python descripciones = [] productos_ok = []

for producto in productos: try: resultado = generar_datos(producto) descripciones.append(resultado) productos_ok.append(producto) except: pass

¿Cómo convertir los resultados en un DataFrame de pandas?

Una vez generado el dataset completo, se valida la información y se transforma en un DataFrame con pd.DataFrame [4:08]. Inicialmente se tienen dos columnas: producto y descripción en formato JSON.

Para separar la descripción y la compañía en columnas independientes, se aplica una función que parsea el JSON de cada fila [4:38]:

python df["Descripcion"] = df["Descripciones"].apply(lambda x: json.loads(x)["descripcion"]) df["Compania"] = df["Descripciones"].apply(lambda x: json.loads(x)["compania"])

El resultado final es un DataFrame limpio con tres columnas: producto, descripción y compañía, todo generado por inteligencia artificial [4:50].

Lo más valioso de este enfoque es su flexibilidad: se puede modificar el prompt para obtener cualquier tipo de dato, en cualquier formato. Se usó JSON porque facilita la conversión a DataFrames o la conexión con APIs, pero podría generarse en CSV, en sentencias SQL para poblar bases de datos, o en cualquier estructura que se requiera.

¿Te animas a probarlo con un formato distinto? Genera un dataset en CSV o en estructura SQL y comparte tus resultados en los comentarios.

Comentarios

Andres Sanchez

student•

11. Generación de datasets con GPT-4

Prompts

Datasets en múltiples formatos y tamaños

prompt = '''Genera una pequeña descripcion de producto y un posible nonbre de compañia de acuerdo al input, la salida debe ser en un formato JSON
ejemplo:
###
Input: auto
output: 'Descripcion':'Auto electrico de color rojo, amigable con el medio ambiente'
 'compañia': 'EcoCar'
###

## Crea una lista de 10 productos de clases disintas

Fernando Sánchez Mejía

student•

Aradezco tu aporte

Juan R. Vergara M.

student•

No sabía que esto fuera posible, este curso me ha encantado 💯🥇📝

Fernando Sánchez Mejía

student•

La generación de datos es uno de los procesos más fundamentales en el entrenamiento de modelos de inteligencia artificial

Gabriel Obregón

student•

🧠 Generación de Datos con IA

📌 Concepto Clave

La generación automática de datos es fundamental para entrenar y usar modelos de IA. Permite:

Optimizar procesos.
Crear datasets personalizados.
Explorar nuevas posibilidades analíticas.

🔍 Ejemplo: Alpaca Stanford → reutiliza datos generados por GPT-3.5 para entrenarse.

🔗 Paso 1 — Conectar con OpenAI

Qué necesitas:

Instalar la librería openai.
Configurar tu llave de API como variable de entorno.
Usar un modelo avanzado (ej. GPT-4).

Código básico:

import openai

openai.api_key = 'tu_llave_de_API'

⚙️ Paso 2 — Crear la Función Generadora

Objetivo: enviar un producto y recibir

Nombre de compañía
Descripción breve

def generar_datos(producto):

respuesta = openai.Completion.create(

engine="gpt-4",

prompt=f"Producto: {producto}\nSalida: Genera una descripción y nombre de compañía",

max_tokens=50

)

return respuesta.json()

🔄 Paso 3 — Generar Datos para Varios Productos

Flujo:

Lista de productos.
Iterar y generar resultados.
Guardar nombres y descripciones.

productos = ["silla", "mesa", "computadora"]

descripciones, compañias = [], []

for producto in productos:

try:

r = generar_datos(producto)

descripciones.append(r['descripcion'])

compañias.append(r['compania'])

except Exception as e:

print("Error:", e)

📊 Paso 4 — Almacenar y Visualizar

Herramienta recomendada: pandas Formato sugerido: JSON → columnas en DataFrame.

import pandas as pd

df = pd.DataFrame(

zip(productos, descripciones, compañias),

columns=['Producto', 'Descripción', 'Compañía']

)

📂 Otros Formatos Útiles

CSV → para hojas de cálculo.
SQL → integración con bases de datos.

💡 La flexibilidad de los modelos de IA permite adaptar el formato de salida según tu proyecto.

Mario Alexander Vargas Celis

student•

Generar datasets con GPT-4 puede ser útil para una variedad de aplicaciones, como el entrenamiento de modelos, pruebas y validación de sistemas, o incluso para realizar investigaciones. Aquí te muestro cómo podrías hacerlo:

### 1. **Definir el Objetivo del Dataset**

Primero, define el objetivo del dataset:

- **Tipo de Datos:** ¿Qué tipo de datos necesitas? (textos, etiquetas, números, etc.)

- **Aplicación:** ¿Cómo se utilizarán estos datos? (entrenamiento de modelos, análisis, etc.)

- **Tamaño:** ¿Cuántos datos necesitas?

### 2. **Diseñar el Esquema del Dataset**

Define la estructura del dataset:

- **Columnas:** ¿Qué columnas o características necesitarás? (por ejemplo, "Texto", "Etiqueta", "Fecha", etc.)

- **Formato:** ¿En qué formato se guardará el dataset? (CSV, JSON, etc.)

### 3. **Generación de Datos con GPT-4**

Puedes usar GPT-4 para generar datos basados en las necesidades del esquema. Aquí hay algunas formas de hacerlo:

#### **A. Generación de Texto**

Si necesitas datos textuales, como descripciones o respuestas, puedes usar GPT-4 para crear ejemplos:

**Ejemplo de Solicitud:**


Genera 100 descripciones de productos electrónicos que incluyan características como el nombre del producto, su función principal, y un detalle clave.

#### **B. Generación de Datos Estructurados**

Para datos estructurados, puedes especificar el formato y el contenido:

**Ejemplo de Solicitud:**


Crea un conjunto de datos con 50 entradas. Cada entrada debe tener las siguientes características: Nombre del producto, Precio (en dólares), y Categoría (Electrónica, Ropa, Hogar). Proporciona los datos en formato CSV.

#### **C. Generación de Datos Etiquetados**

Si necesitas datos etiquetados para clasificación o detección, puedes pedirle a GPT-4 que genere ejemplos con etiquetas:

**Ejemplo de Solicitud:**


Genera 200 frases en inglés y etiqueta cada una con una categoría: "Positiva", "Negativa", o "Neutral". Proporciona los datos en formato JSON.

### 4. **Verificación y Refinamiento**

Revisa y ajusta los datos generados:

- **Calidad:** Verifica que los datos cumplan con los requisitos de calidad y precisión.

- **Consistencia:** Asegúrate de que los datos sean coherentes y estén bien estructurados.

- **Diversidad:** Comprueba que los datos sean diversos y representen adecuadamente el dominio de aplicación.

### 5. **Exportación y Uso**

Una vez que los datos estén listos, expórtalos en el formato deseado y úsalos en tus aplicaciones o modelos:

- **Exportación a CSV, JSON, o XML:** Usa librerías como pandas en Python para exportar los datos.

- **Integración:** Incorpora los datos en tu flujo de trabajo o sistema de análisis.

### Ejemplo Práctico

Aquí tienes un ejemplo en Python usando openai para generar datos y pandas para exportarlos a un archivo CSV:


import openai

import pandas as pd



\# Configura la clave de API

openai.api\_key = 'tu-clave-de-api'



def generate\_data(prompt, num\_samples):

&#x20;   data = \[]

&#x20;   for \_ in range(num\_samples):

&#x20;       response = openai.Completion.create(

&#x20;           engine="text-davinci-003",

&#x20;           prompt=prompt,

&#x20;           max\_tokens=100

&#x20;       )

&#x20;       data.append(response.choices\[0].text.strip())

&#x20;   return data



\# Define el prompt para generar datos

prompt = "Genera una descripción de un producto electrónico con nombre, función principal, y un detalle clave."



\# Genera los datos

data = generate\_data(prompt, 100)



\# Crea un DataFrame y exporta a CSV

df = pd.DataFrame(data, columns=\["Descripción"])

df.to\_csv("productos.csv", index=False)

Si tienes una idea específica de los datos que necesitas generar o alguna pregunta adicional, ¡no dudes en decírmelo!

Arístides Pérez Hernández

student•

¿Puedo usar esto para bases de datos SQL?

Absolutamente. Aunque el formato JSON es excelente para trabajar con DataFrames en Python, puedes adaptar el prompt para que el modelo genere directamente sentencias SQL listas para ser ejecutadas. En lugar de pedirle un diccionario, puedes instruir al LLM con algo como: "Genera sentencias INSERT válidas para PostgreSQL basadas en este producto". El modelo te devolverá líneas de código tipo INSERT INTO productos (nombre, descripcion, compania) VALUES ('silla', 'ergonómica', 'ConSit');. Esto es increíblemente poderoso para poblar entornos de desarrollo o bases de datos de prueba (dummy data) sin tener que escribir scripts de migración complejos. Una vez que el modelo te devuelve estas cadenas de texto, puedes utilizar librerías como SQLAlchemy o psycopg2 en Python para iterar sobre ellas y ejecutarlas directamente contra tu motor de base de datos. Solo asegúrate de sanitizar las salidas si vas a inyectarlas en un entorno de producción, aunque para entornos de testing, es la vía más rápida para tener datos realistas.

Arístides Pérez Hernández

student•

¿Por qué es mejor usar datos sintéticos?

Generar datos sintéticos con inteligencia artificial resuelve uno de los mayores cuellos de botella en la ciencia de datos: la escasez de información estructurada. En lugar de pasar semanas recolectando, limpiando y etiquetando información manual, puedes usar un LLM para crear miles de registros variados en minutos. Esto es especialmente útil cuando necesitas entrenar modelos de Machine Learning pero te enfrentas a restricciones de privacidad (como datos médicos o financieros) o simplemente no tienes suficiente volumen histórico. Al diseñar un buen prompt, el modelo no solo repite patrones, sino que utiliza su comprensión del lenguaje para inyectar variabilidad semántica. Esto significa que obtienes descripciones, nombres o escenarios únicos que enriquecen tu modelo y evitan el sobreajuste (overfitting). Además, te permite simular casos límite o escenarios inusuales que rara vez ocurren en la vida real, preparando a tus sistemas para reaccionar correctamente ante cualquier eventualidad.

Juan Diego

student•

Investigando cuales son las mejores herrmaientas para la generacion de datos tabulares de codigo abierto con Python aqui les resumo cuales son:

SDV (Synthetic Data Vault): Es el ecosistema más completo. Permite modelar bases de datos completas, no solo tablas sueltas. Si tienes una tabla de "Clientes" y otra de "Transacciones", SDV mantiene la coherencia entre ambas.
CTGAN (Conditional Tabular GAN): Un modelo de red neuronal específico para datos tabulares. Es excelente cuando tus datos no siguen una distribución normal (campana de Gauss) y tienen muchas variables categóricas (como "Categoría de Producto" o "País").
YData-synthetic: Muy enfocada en la calidad del dato y la facilidad de uso. Incluye herramientas de perfilado que te dicen qué tan parecidos son tus datos sintéticos a los reales.

Juan Diego

student•

Técnica de Self-Instruct: Le pides a la IA que genere 1,000 ejemplos de consultas de clientes o registros de errores de ingeniería basados en 5 ejemplos reales.

Daniel Alfredo García Serna

student•

🧠 Clase: Generar datasets con inteligencia artificial

🎯 Idea central La inteligencia artificial permite generar datasets automáticamente, lo que acelera el desarrollo de modelos, pruebas y análisis. En lugar de recolectar datos manualmente, puedes usar modelos como GPT para crear datos estructurados, etiquetados o sintéticos según tus necesidades.

📌 Puntos clave de la clase

• Generar datasets con IA permite crear grandes volúmenes de datos rápidamente.

• Estos datos pueden usarse para:

entrenar modelos de machine learning
probar sistemas
simular escenarios
realizar análisis exploratorio

• Un enfoque común es generar datos sintéticos usando prompts bien diseñados.

• Los modelos de lenguaje pueden producir datasets en diferentes formatos:

JSON
CSV
SQL
tablas para análisis con Python

Esto permite integrar fácilmente los datos en pipelines de análisis o ciencia de datos.

🧠 Concepto clave: datos sintéticos

Los datos sintéticos son datos generados artificialmente que imitan datos reales.

Ventajas:

• no requieren recopilación manual • evitan problemas de privacidad • permiten crear datasets grandes rápidamente • facilitan pruebas y experimentación

Por eso se usan mucho en:

machine learning
testing de software
simulaciones de negocio

⚙️ Flujo para generar datasets con IA

1️⃣ Definir el objetivo del dataset

Preguntas clave:

• ¿Para qué se usarán los datos? • ¿Qué variables necesitas? • ¿Cuántos registros necesitas?

Ejemplo:

Dataset de productos con:

nombre
descripción
categoría
precio

2️⃣ Diseñar el esquema del dataset

Define la estructura del dataset:

Ejemplo de columnas:

• producto • descripción • empresa • categoría • precio

Esto permite generar datos consistentes y utilizables.

3️⃣ Generar los datos con prompts

Ejemplo de prompt:

Genera un dataset con 50 productos tecnológicos. Cada registro debe tener:

nombre del producto
descripción corta
categoría
precio

Entrega el resultado en formato JSON.

Los modelos generarán automáticamente datos estructurados listos para usar.

4️⃣ Generar múltiples registros

Una estrategia común es:

• usar una lista de inputs • iterar sobre ellos • generar datos para cada uno

Ejemplo conceptual:

producto → descripción → empresa

De esta manera se puede construir un dataset completo automáticamente.

5️⃣ Guardar el dataset

Una vez generado se puede convertir a:

• DataFrame (pandas) • CSV • JSON • base de datos SQL

Esto permite analizar o entrenar modelos con esos datos.

🚀 Acciones inmediatas

Diseña un pequeño dataset que te gustaría tener.
Define sus columnas.
Pide a la IA que genere entre 20 y 100 registros.
Exporta el resultado a CSV o JSON.
Analízalo con Python o Pandas.

Este es un excelente ejercicio para aprender data engineering y análisis de datos.

🔥 Hacks para la comunidad

• Usa IA para generar datasets para practicar machine learning.

• Si estás aprendiendo SQL, genera datasets ficticios para practicar consultas.

• También puedes generar:

datasets de ventas
datasets de clientes
datasets de reviews de productos

Esto te permite practicar análisis sin depender de datos reales.

🧠 Insight importante

Uno de los mayores cuellos de botella en proyectos de IA no es el modelo, sino los datos.

La generación automática de datasets permite:

• acelerar experimentación • crear escenarios hipotéticos • probar pipelines de datos rápidamente

📌 Frase clave para recordar

“Si no tienes datos, créalos. La IA puede generar el dataset que necesitas.”

John Edwin Torres Martínez

student•

estoy ejecutando el Jupyter Notebook y me muestra este error al ejecutar la función "return_productos('silla')". El mensaje que me muestra es el siguiente:

APIRemovedInV1 Traceback (most recent call last) Cell In[11], line 1 ----> 1 return_productos('silla')

Cell In[5], line 2 1 def return_productos(product): ----> 2 completion = openai.ChatCompletion.create( 3 model="gpt-4", 4 messages=
[5 {"role": "user", "content": prompt.format(product)}, 6 ] 7 ) 8 return json.loads(completion.choices[0].message['content'])

File ...\AppData\Local\Programs\Python\Python311\Lib\site-packages\openai\lib\_old_api.py:39, in APIRemovedInV1Proxy.__call__(self, *_args, **_kwargs) 38 def __call__(self, *_args: Any, **_kwargs: Any) -> Any: ---> 39 raise APIRemovedInV1(symbol=self._symbol)

APIRemovedInV1:

You tried to access openai.ChatCompletion, but this is no longer supported in openai>=1.0.0 - see the README at for the API.

You can run openai migrate to automatically upgrade your codebase to use the 1.0.0 interface.

Alternatively, you can pin your installation to the old version, e.g. pip install openai==0.28

A detailed migration guide is available here:

Jesús David Guevara Munar

student•

Se presentan complicaciones por la versión del módulo openai instalado y además al intentar usar la API hay que considerar que no es gratuita.

Armando Cardenas

student•

Nota: Los suscriptores de ChatGPT Plus obtendrán acceso a GPT-4 en chat.openai.com con un límite de uso.[esto no proporcionará a los suscriptores acceso a la API]

Ajustaremos dinámicamente el límite de uso exacto según la demanda y el rendimiento del sistema en la práctica. A partir del 5 de enero de 2024, GPT-4 tiene un límite de 40 mensajes cada 3 horas.

Julián Cárdenas

student•

Las IAs simplemente son demasiado increíbles

Fernando Sánchez Mejía

student•

De esta manera podemos genera datos personalizados, para tus necediades.

Nicolas Rosales

student•

Excelente aplicación de GPT para la generación de datasets dummy

Saludos,

SERGIO ANDRES HERRERA VELASQUEZ

student•

También podrías utilizar en python la librería faker, que genera datos fake/dummy para probar

prompt = '''Genera una pequeña descripcion de producto y un posible nonbre de compañia de acuerdo al input, la salida debe ser en un formato JSON
ejemplo:
###
Input: auto
output: 'Descripcion':'Auto electrico de color rojo, amigable con el medio ambiente'
 'compañia': 'EcoCar'
###

## Crea una lista de 10 productos de clases disintas

Crea un conjunto de datos con 50 entradas. Cada entrada debe tener las siguientes características: Nombre del producto, Precio (en dólares), y Categoría (Electrónica, Ropa, Hogar). Proporciona los datos en formato CSV.

import openai

import pandas as pd

\# Configura la clave de API

openai.api\_key = 'tu-clave-de-api'

def generate\_data(prompt, num\_samples):

&#x20;   data = \[]

&#x20;   for \_ in range(num\_samples):

&#x20;       response = openai.Completion.create(

&#x20;           engine="text-davinci-003",

&#x20;           prompt=prompt,

&#x20;           max\_tokens=100

&#x20;       )

&#x20;       data.append(response.choices\[0].text.strip())

&#x20;   return data

\# Define el prompt para generar datos

prompt = "Genera una descripción de un producto electrónico con nombre, función principal, y un detalle clave."

\# Genera los datos

data = generate\_data(prompt, 100)

\# Crea un DataFrame y exporta a CSV

df = pd.DataFrame(data, columns=\["Descripción"])

df.to\_csv("productos.csv", index=False)

Generar datasets con GPT-4 y Python

IA en equipos de data

Clasificación de imágenes con GitHub Copilot

Manejo de bases de datos

SQL con GitHub Copilot desde cero

Queries SQL complejas con Copilot y ChatGPT

Corrige bugs SQL y Python con IA

Documenta código con IA y Notion

Procesamiento de datos

Web scraping con ChatGPT y Pandas

Limpieza de datos con GitHub Copilot

Tests unitarios con IA en segundos

Visualización y análisis

ChatGPT para análisis de datos sin código

ChatGPT para elegir y crear gráficos de datos

Analiza datos de Excel con ChatGPT

Análisis salarial y vacaciones con ChatGPT

Análisis de ventas en Excel con ChatGPT

Qué variables predicen el churn de clientes

Analiza gráficas de negocio con ChatGPT

Generación de datos

Generar datasets con GPT-4 y Python

Aprendizaje y formación

Uso de Chatbots para Aprender Estadística y Ciencia de Datos