Limpieza de datos con GitHub Copilot

Clase 7 de 17 • Curso de Herramientas de Inteligencia Artificial para Equipos de Datos

Contenido del curso

IA en equipos de data

1
Clasificación de imágenes con GitHub Copilot
05:05 min

Manejo de bases de datos

Procesamiento de datos

Visualización y análisis

Generación de datos

16
Generar datasets con GPT-4 y Python
07:14 min

Aprendizaje y formación

17
Uso de Chatbots para Aprender Estadística y Ciencia de Datos
03:44 min

Tomar examen

Resumen

Automatizar la limpieza de datos es una de las ventajas más prácticas que ofrecen los modelos de lenguaje aplicados a código. Usando herramientas como GitHub Copilot dentro de un IDE, es posible generar funciones de limpieza directamente sobre un data frame de pandas, ahorrando tiempo y reduciendo errores manuales en proyectos de ingeniería de datos o analítica.

¿Cómo se obtienen los datos para limpiar con web scraping?

El punto de partida es un script de web scraping aplicado a TechCrunch, un portal de noticias tecnológicas [0:22]. Este script extrae cinco campos y los organiza en un data frame:

Título de la noticia.
Link de la fuente original.
Fecha de publicación en formato de fecha y hora.
Autor del artículo.
Breve resumen del contenido.

Con los datos ya estructurados, el siguiente paso es aplicar transformaciones de limpieza usando inteligencia artificial como asistente de código.

¿Cómo separar fecha y hora en columnas distintas?

Una tarea frecuente es dividir una columna de datetime en dos columnas independientes. Basta con escribir una instrucción en lenguaje natural dentro del IDE: "escribe una función para separar la fecha de la hora en dos columnas diferentes de la columna date" [1:05]. GitHub Copilot genera automáticamente una función llamada split_date que produce una columna para la fecha y otra para la hora.

¿Cómo eliminar duplicados y valores nulos con una sola función?

Otro paso habitual es solicitar: "crea una función para eliminar duplicados y reemplazar los valores nulos por NA" [1:41]. La función resultante, clean_data, ejecuta drop_duplicates() y fillna() de pandas, dos métodos esenciales para garantizar la integridad del dataset antes de cualquier análisis.

¿Qué limpieza se puede hacer sobre datos de la API de Twitter?

En un segundo ejemplo se conecta la API de Twitter mediante llaves almacenadas en variables de entorno [2:17]. El data frame resultante contiene el texto del tweet, el usuario que lo publicó y un flag booleano que indica si es un retweet.

¿Cómo extraer el usuario original de un retweet?

Para identificar al autor original cuando is_retweet es True, se genera la función get_original_user [2:48]. Esta función toma el primer fragmento del texto separado por dos puntos y lo asigna a una nueva columna. Cuando el resultado inicial conserva caracteres no deseados como "RT", se crea una segunda función que elimina los espacios en blanco y las letras RT del campo original_user si el texto empieza con esa marca [3:32]. Este proceso iterativo demuestra que la IA no siempre genera código perfecto en el primer intento, pero permite corregir rápidamente con nuevas instrucciones.

¿Cómo eliminar emojis y caracteres no ASCII de un data frame?

Cuando la base de datos destino no soporta caracteres fuera del rango ASCII, es necesario limpiar emojis y símbolos especiales. La instrucción "crea una función para eliminar todos los emoji de la columna text" genera código que filtra caracteres no ASCII de cada registro [4:07]. El resultado es un texto limpio, listo para almacenarse o procesarse sin errores de codificación.

Este flujo de trabajo aplica no solo a data frames de pandas, sino también a estructuras de SQL o cualquier otro lenguaje de programación [4:35]. La clave está en describir con claridad la transformación deseada y revisar el código generado antes de ejecutarlo.

Ahora es un buen momento para probar este mismo ejercicio con otras herramientas basadas en IA, como ChatGPT o Bing Chat, y compartir en los comentarios qué resultados obtienes o qué herramienta prefieres para la limpieza de datos.

Comentarios

Andres Sanchez

student•

7. Limpieza de datos con Python y GitHub Copilot

Limpieza de datos

# escribe una funcion para separar la fecha de la hora en dos columnas diferentes, de la columna "date"
## Crea una funcion para eliminar duplicados y reemplazar los valores nulos por 'N/A' en el dataframe df
## escribe una funcion para crear una nueva columna con el usuario oroginal del tweet sin tener en cuenta las letras RT, en caso que is_retweet sea True
## crea una funcion que elimine los espacios en blanco y las letras RT de la columna original_user en caso que el texto empiece con RT
## Crea una fuuncion para eliminar todos los emoji de la columna text

Juan R. Vergara M.

student•

Excelente 💡

Fernando Sánchez Mejía

student•

Gracias por tu aporte.

Mario Alexander Vargas Celis

student•

Para la limpieza de datos en Python usando GitHub Copilot, puedes seguir una serie de pasos que incluyen la identificación y eliminación de valores faltantes, la corrección de tipos de datos, la eliminación de duplicados, y la normalización de datos. A continuación, te presento una guía paso a paso para realizar la limpieza de datos con ejemplos prácticos y cómo GitHub Copilot puede asistir en el proceso.

### Paso 1: Instalación de Bibliotecas Necesarias

Asegúrate de tener instaladas las siguientes bibliotecas:


pip install pandas numpy

### Paso 2: Cargar Datos

Primero, carga tus datos en un DataFrame de pandas. Aquí hay un ejemplo de cómo cargar datos desde un archivo CSV:


import pandas as pd



\# Cargar datos desde un archivo CSV

df = pd.read\_csv('datos.csv')

### Paso 3: Inspección Inicial

Realiza una inspección inicial para entender la estructura de tus datos:


\# Ver las primeras filas del DataFrame

print(df.head())



\# Obtener información sobre los tipos de datos y valores faltantes

print(df.info())



\# Estadísticas descriptivas de los datos

print(df.describe())

### Paso 4: Limpieza de Datos

#### 4.1. **Manejo de Valores Faltantes**

Puedes usar GitHub Copilot para ayudarte a completar o eliminar valores faltantes. Aquí hay ejemplos de cómo hacerlo:


\# Rellenar valores faltantes con la media (para columnas numéricas)

df.fillna(df.mean(), inplace=True)



\# Eliminar filas con valores faltantes

df.dropna(inplace=True)



\# Rellenar valores faltantes con un valor específico

df\['columna'].fillna('valor\_especifico', inplace=True)

#### 4.2. **Corrección de Tipos de Datos**

Asegúrate de que las columnas tienen el tipo de datos correcto:


\# Convertir una columna a tipo entero

df\['columna'] = df\['columna'].astype(int)



\# Convertir una columna a tipo fecha

df\['fecha'] = pd.to\_datetime(df\['fecha'])

#### 4.3. **Eliminación de Duplicados**

Elimina duplicados en el DataFrame:


\# Eliminar filas duplicadas

df.drop\_duplicates(inplace=True)

#### 4.4. **Normalización y Transformación de Datos**

Puedes normalizar y transformar datos para que estén en un formato consistente:


\# Normalizar una columna de texto (convertir a minúsculas)

df\['texto'] = df\['texto'].str.lower()



\# Reemplazar caracteres específicos en una columna de texto

df\['texto'] = df\['texto'].str.replace('caracter\_antiguo', 'caracter\_nuevo')

### Paso 5: Validación y Guardado

Después de limpiar los datos, realiza una validación para asegurarte de que todo está correcto y guarda el DataFrame limpio en un nuevo archivo CSV:


\# Verificar la limpieza

print(df.head())



\# Guardar el DataFrame limpio en un nuevo archivo CSV

df.to\_csv('datos\_limpios.csv', index=False)

### Uso de GitHub Copilot

GitHub Copilot puede asistir en la generación de código para la limpieza de datos. Aquí te explico cómo puedes aprovecharlo:

1. **Escribir Consultas**: Puedes empezar a escribir una consulta para limpiar datos y GitHub Copilot te sugerirá el código necesario.

Ejemplo:

```python

# Rellenar valores faltantes con la med

df.fillna(df.mean(), inplace=True)

```

Copilot puede sugerir el código completo para manejar valores faltantes o transformar datos.

2. **Completar Funciones**: Cuando escribas funciones para limpiar datos, Copilot puede ayudarte a completar el código basado en patrones comunes.

Ejemplo:

```python

def limpiar_datos(df):

# Completa con las sugerencias de Copilot

```

3. **Revisar y Ajustar Sugerencias**: Revisa las sugerencias de Copilot para asegurarte de que se ajustan a tus necesidades específicas y realiza ajustes según sea necesario.

### Ejemplo Completo

Aquí tienes un ejemplo completo que incluye los pasos anteriores:


import pandas as pd



\# Cargar datos

df = pd.read\_csv('datos.csv')



\# Inspección inicial

print(df.head())

print(df.info())

print(df.describe())



\# Limpieza de datos

df.fillna(df.mean(), inplace=True)  # Rellenar valores faltantes con la media

df\['columna'] = df\['columna'].astype(int)  # Corregir tipo de dato

df.drop\_duplicates(inplace=True)  # Eliminar duplicados

df\['texto'] = df\['texto'].str.lower()  # Normalizar texto



\# Guardar el DataFrame limpio

df.to\_csv('datos\_limpios.csv', index=False)

Juan Camilo Zárate Arévalo

student•

Yo lo utilizo con R, y funciona tambien muy bien. Muy útil.

Daniel Alfredo García Serna

student•

📚 Data Cleaning con inteligencia artificial

🎯 Idea principal

La limpieza de datos (data cleaning) es el proceso de preparar y corregir los datos para que puedan analizarse correctamente. La inteligencia artificial puede acelerar esta tarea generando funciones y scripts que eliminan duplicados, corrigen errores y transforman los datos en formatos más útiles para el análisis.

🔑 Puntos clave

• En proyectos de datos, una gran parte del tiempo se dedica a limpiar y preparar datasets antes del análisis.

• La IA puede ayudar a automatizar tareas comunes de limpieza como:

eliminar registros duplicados
rellenar valores faltantes
transformar formatos de datos
corregir inconsistencias.

• Herramientas como copilotos de código pueden generar funciones para limpiar datasets utilizando bibliotecas como Pandas en Python.

• Ejemplos comunes de limpieza de datos:

separar columnas que contienen múltiples valores (ej. fecha y hora)
reemplazar valores nulos
eliminar caracteres no soportados
estandarizar texto.

• En datasets provenientes de redes sociales o APIs, también es común limpiar:

retweets o duplicados
emojis o caracteres especiales
metadatos irrelevantes.

🧠 Conceptos importantes

Data Cleaning Proceso de detectar y corregir errores o inconsistencias en un dataset para mejorar su calidad.

Valores nulos (Missing values) Datos faltantes dentro de un dataset que deben ser eliminados o reemplazados para evitar errores en el análisis.

Datos duplicados Registros repetidos que pueden distorsionar resultados si no se eliminan.

Transformación de datos Proceso de cambiar el formato o estructura de los datos para que sean más fáciles de analizar.

🚀 Acciones inmediatas

• Revisar cualquier dataset antes de analizarlo para identificar:

valores nulos
duplicados
errores de formato.

• Usar IA para generar funciones que:

eliminen duplicados
limpien texto
transformen columnas.

• Separar columnas con múltiples datos (ej. fecha + hora).

• Guardar siempre una versión limpia del dataset antes de comenzar el análisis.

🔥 Hacks para la comunidad

• Prompt útil para limpieza de datos:

“Analiza este dataset y genera funciones en Python para limpiar duplicados, valores nulos y normalizar texto”.

• Pide a la IA que genere también:

estadísticas iniciales del dataset
detección de anomalías
sugerencias de transformación.

• Cuando trabajes con texto de redes sociales, pide a la IA que:

elimine emojis
normalice caracteres
limpie retweets o etiquetas.

• Error común: empezar el análisis sin limpiar los datos primero.

📝 Reflexión estratégica

En proyectos de datos, la calidad del análisis depende directamente de la calidad de los datos.

La inteligencia artificial puede acelerar la limpieza, pero el verdadero valor del profesional está en entender qué datos son relevantes y cómo prepararlos correctamente.

Un buen analista no solo analiza datos: sabe transformar datos imperfectos en información confiable.

Fernando Sánchez Mejía

student•

Para la limpieza de datos con el uso de IA con GitHub Copilot, podemos suar los siguientes promots.

Escribe una función para separar realizar lo que en especificos queremos hacer.
Crear una función para eliminar duplicados.
Crear una función para remplazar los valors nulos por [por lo que queremos remplazar. Recomendable N/A]

Podemos usars Copilot para crear funciones en especifico para lo que queremos.

Mario Alexander Vargas Celis

student•

### Paso 1: Instalación de Bibliotecas Necesarias

Asegúrate de tener instaladas las siguientes bibliotecas:


pip install pandas numpy

### Paso 2: Cargar Datos

Primero, carga tus datos en un DataFrame de pandas. Aquí hay un ejemplo de cómo cargar datos desde un archivo CSV:


import pandas as pd



\# Cargar datos desde un archivo CSV

df = pd.read\_csv('datos.csv')

### Paso 3: Inspección Inicial

Realiza una inspección inicial para entender la estructura de tus datos:


\# Ver las primeras filas del DataFrame

print(df.head())



\# Obtener información sobre los tipos de datos y valores faltantes

print(df.info())



\# Estadísticas descriptivas de los datos

print(df.describe())

### Paso 4: Limpieza de Datos

#### 4.1. **Manejo de Valores Faltantes**

Puedes usar GitHub Copilot para ayudarte a completar o eliminar valores faltantes. Aquí hay ejemplos de cómo hacerlo:


\# Rellenar valores faltantes con la media (para columnas numéricas)

df.fillna(df.mean(), inplace=True)



\# Eliminar filas con valores faltantes

df.dropna(inplace=True)



\# Rellenar valores faltantes con un valor específico

df\['columna'].fillna('valor\_especifico', inplace=True)

#### 4.2. **Corrección de Tipos de Datos**

Asegúrate de que las columnas tienen el tipo de datos correcto:


\# Convertir una columna a tipo entero

df\['columna'] = df\['columna'].astype(int)



\# Convertir una columna a tipo fecha

df\['fecha'] = pd.to\_datetime(df\['fecha'])

#### 4.3. **Eliminación de Duplicados**

Elimina duplicados en el DataFrame:


\# Eliminar filas duplicadas

df.drop\_duplicates(inplace=True)

#### 4.4. **Normalización y Transformación de Datos**

Puedes normalizar y transformar datos para que estén en un formato consistente:


\# Normalizar una columna de texto (convertir a minúsculas)

df\['texto'] = df\['texto'].str.lower()



\# Reemplazar caracteres específicos en una columna de texto

df\['texto'] = df\['texto'].str.replace('caracter\_antiguo', 'caracter\_nuevo')

### Paso 5: Validación y Guardado

Después de limpiar los datos, realiza una validación para asegurarte de que todo está correcto y guarda el DataFrame limpio en un nuevo archivo CSV:


\# Verificar la limpieza

print(df.head())



\# Guardar el DataFrame limpio en un nuevo archivo CSV

df.to\_csv('datos\_limpios.csv', index=False)

### Uso de GitHub Copilot

GitHub Copilot puede asistir en la generación de código para la limpieza de datos. Aquí te explico cómo puedes aprovecharlo:

1. **Escribir Consultas**: Puedes empezar a escribir una consulta para limpiar datos y GitHub Copilot te sugerirá el código necesario.

Ejemplo:

```python

# Rellenar valores faltantes con la med

df.fillna(df.mean(), inplace=True)

```

Copilot puede sugerir el código completo para manejar valores faltantes o transformar datos.

2. **Completar Funciones**: Cuando escribas funciones para limpiar datos, Copilot puede ayudarte a completar el código basado en patrones comunes.

Ejemplo:

```python

def limpiar_datos(df):

# Completa con las sugerencias de Copilot

```

3. **Revisar y Ajustar Sugerencias**: Revisa las sugerencias de Copilot para asegurarte de que se ajustan a tus necesidades específicas y realiza ajustes según sea necesario.

### Ejemplo Completo

Aquí tienes un ejemplo completo que incluye los pasos anteriores:


import pandas as pd



\# Cargar datos

df = pd.read\_csv('datos.csv')



\# Inspección inicial

print(df.head())

print(df.info())

print(df.describe())



\# Limpieza de datos

df.fillna(df.mean(), inplace=True)  # Rellenar valores faltantes con la media

df\['columna'] = df\['columna'].astype(int)  # Corregir tipo de dato

df.drop\_duplicates(inplace=True)  # Eliminar duplicados

df\['texto'] = df\['texto'].str.lower()  # Normalizar texto



\# Guardar el DataFrame limpio

df.to\_csv('datos\_limpios.csv', index=False)

Con estos pasos y el apoyo de GitHub Copilot, podrás realizar una limpieza de datos eficiente y efectiva. Si tienes preguntas específicas o necesitas ayuda con un aspecto particular, ¡no dudes en preguntar!

Sebastian Gaviria

student•

Estoy comentando esto sin saber si más adelante nos van a explicar, pero a hoy, 10 de septiembre de 2023, los tokens para el código de Twitter ya están desactualizados. Estuve tratando de investigar cómo se obtienen nuevos tokens pero es un poco difícil, sería bueno que se le dedicara un poco a explicar mejor lo que hay detrás de la creación del código que me pareció sumamente interesante.

Adriana VP

student•

Utilice un SQL generado por AI Bing del reto anterior y le pedi que agregue time a order date y luego que separe datatime que los habia unido en el codigo anterior. Para separar la fecha y la hora en la tabla Order, puedes crear dos columnas separadas: una para la fecha (OrderDate) y otra para la hora (OrderTime). Aquí está tu código SQL modificado:

CREATE TABLE Customer (
    CustomerID int NOT NULL,
    FirstName varchar(255),
    LastName varchar(255),
    Email varchar(255),
    PRIMARY KEY (CustomerID)
);

CREATE TABLE Product (
    ProductID int NOT NULL,
    ProductName varchar(255),
    Price decimal,
    PRIMARY KEY (ProductID)
);

CREATE TABLE Order (
    OrderID int NOT NULL,
    CustomerID int,
    OrderDate date,  -- Cambiado de 'datetime' a 'date'
    OrderTime time,  -- Nueva columna para la hora
    PRIMARY KEY (OrderID),
    FOREIGN KEY (CustomerID) REFERENCES Customer(CustomerID)
);

CREATE TABLE OrderDetails (
    OrderDetailID int NOT NULL,
    OrderID int,
    ProductID int,
    Quantity int,
    PRIMARY KEY (OrderDetailID),
    FOREIGN KEY (OrderID) REFERENCES Order(OrderID),
    FOREIGN KEY (ProductID) REFERENCES Product(ProductID)
);

Ahora, la tabla Order tiene dos columnas separadas para la fecha y la hora en que se realizaron los pedidos. Recuerda que el formato de date es 'AAAA-MM-DD' y el de time es 'HH:MI:SS'. Por ejemplo, '2023-09-16' y '23:09:06'.

Fernando Sánchez Mejía

student•

La inteligencia artificial, en particular los modelos de lenguaje natural que comprenden código, resultan sumamente beneficiosos en el proceso de limpieza de datos.

Hugo Montoya Diaz

student•

Una magnifica aportacion Carlos ya que en ciencia de datos la limpieza se le invierte bastante tiempo. Super protips aqui

Juan R. Vergara M.

student•

Alrededor del 60% de tiempo se va en la limpieza.

Julián Cárdenas

student•

Demasiado

Fernando Sánchez Mejía

student•

"La limpieza de datos está completamente condicionada por las exigencias específicas de nuestro proyecto."

Arístides Pérez Hernández

student•

¿Qué pasa si la IA comete errores?

Si el código generado por la IA no limpia los datos correctamente o deja residuos (como no eliminar por completo un prefijo "RT" en un tweet), simplemente debes iterar sobre el prompt. La IA no es infalible y a veces asume patrones incorrectos. En estos casos, el enfoque correcto es escribir una nueva instrucción más específica que corrija el error anterior, por ejemplo: "Modifica la función anterior para que también elimine los espacios en blanco al inicio del texto". Trata a la IA como un asistente junior: revisa siempre una muestra de los datos transformados usando métodos como df.head() o df.sample() para validar que la lógica aplicada realmente resolvió el problema sin alterar información valiosa.

Arístides Pérez Hernández

student•

¿Cuándo debo eliminar emojis de un dataset?

Debes eliminarlos cuando el sistema de destino, como una base de datos relacional antigua o un modelo de Machine Learning específico, no soporta caracteres no-ASCII. Los emojis pueden causar errores de codificación (como el temido UnicodeDecodeError) o introducir ruido innecesario si estás realizando un análisis de sentimiento tradicional que solo evalúa texto plano. Para hacerlo, puedes pedirle a tu asistente de IA que genere una función utilizando la librería re (expresiones regulares) para filtrar cualquier carácter que salga del rango alfanumérico estándar. Sin embargo, si tu objetivo es analizar el comportamiento en redes sociales, a veces es mejor traducir esos emojis a texto en lugar de borrarlos, ya que contienen un alto valor emocional.

Arístides Pérez Hernández

student•

¿Cómo separar fechas y horas usando IA?

Para lograr esto rápidamente, puedes usar herramientas como GitHub Copilot o ChatGPT escribiendo un prompt directo en tu código. En lugar de buscar la sintaxis exacta en la documentación de Pandas, simplemente escribe un comentario como: // Crea una función para separar la columna Date en Fecha y Hora. La inteligencia artificial interpretará el contexto de tu DataFrame y generará el código necesario, generalmente utilizando métodos como pd.to_datetime() y extrayendo los atributos .dt.date y .dt.time. Esto no solo te ahorra tiempo de búsqueda, sino que estandariza el formato de tus datos para análisis temporales más precisos. Recuerda siempre verificar que el formato de salida coincida con el estándar que requiere tu base de datos o modelo analítico.

Gabriel Obregón

student•

🧹 IA y Limpieza de Datos – Ficha de Estudio

💡 Concepto Clave

La IA (especialmente los LLM que comprenden código) puede acelerar y automatizar la limpieza de datos, mejorando la calidad de los datasets y optimizando tiempo y recursos.

⚙️ Herramienta Destacada: GitHub Copilot

Aplicaciones prácticas con Python + Pandas:

📅 Separar fecha y hora

def splitDate(df):

df['Fecha'], df['Hora'] = df['Date'].str.split(' ', 1).str

return df

🗑️ Eliminar duplicados y rellenar nulos

def cleanData(df):

df.drop_duplicates(inplace=True)

df.fillna("N/A", inplace=True)

return df

🐦 Limpieza de Datos de Twitter con API

Obtener tweets sobre un tema:

def getTweets(keyword):

# Conexión y extracción desde la API de Twitter

pass

Detectar usuario original (en retweets con "RT"):

def getOriginalUser(df):

df['OriginalUser'] = df.apply(

lambda x: x['User'].split(':')[0] if x['isRetweet'] else x['User'],

axis=1

)

return df

Eliminar emojis y caracteres no ASCII:

def removeEmojis(df):

df['Text'] = df['Text'].str.encode('ascii', 'ignore').str.decode('ascii')

return df

🛠️ Otras Herramientas Útiles

Bing Chat – Genera ideas y alternativas de limpieza.
ChatGPT – Sugiere código y optimizaciones para tu flujo de datos.

📌 Recordatorio Final

Experimenta con diferentes herramientas.
Evalúa cómo mejoran tus análisis.
Sigue explorando y aprendiendo.

Cristian Eduardo Carreño Martínez

student•

Con R es muy bueno

Juan Elias Palomino Márquez

student•

Excelente.

JULIO ALEXANDER JAIMES SOCHA

student•

¿Qué buenas prácticas recomienda aplicar al utilizar modelos de lenguaje como ChatGPT o GitHub Copilot para la limpieza de datos, especialmente cuando se trabaja con información sensible o proveniente de APIs como Twitter?

Julian A. Soto Henao

student•

Excelente ejercicio....

Mauricio Escobar

student•

fun fact: podemos preguntar por alguna parte del código y copilot nos contesta ahí mismo:

def get_extract_original_user(df):
    if df['is_retweet'] == True:
        return df['text'].split()[1] #  porqué '[1]'? porque el primer elemento es 'RT' y el segundo es el nombre de usuario
        # para qué es '.split()'? para dividir el texto del tweet en palabras   


def clean_text(df):
    df['text'] = df['text'].str.replace(r'^RT[\s]+', '') # Remove 'RT' from the beginning of the text
    return df# en "r'^RT[\s]+''" para qué es "^" ? para que el texto empiece con 'RT'
```Pensando en que podría contestarme cualquier cosa le dije -  "hola, como estás?" y lo convirtió en una lista de strings :(

# escribe una funcion para separar la fecha de la hora en dos columnas diferentes, de la columna "date"
## Crea una funcion para eliminar duplicados y reemplazar los valores nulos por 'N/A' en el dataframe df
## escribe una funcion para crear una nueva columna con el usuario oroginal del tweet sin tener en cuenta las letras RT, en caso que is_retweet sea True
## crea una funcion que elimine los espacios en blanco y las letras RT de la columna original_user en caso que el texto empiece con RT
## Crea una fuuncion para eliminar todos los emoji de la columna text

\# Ver las primeras filas del DataFrame

print(df.head())

\# Obtener información sobre los tipos de datos y valores faltantes

print(df.info())

\# Estadísticas descriptivas de los datos

print(df.describe())

\# Rellenar valores faltantes con la media (para columnas numéricas)

df.fillna(df.mean(), inplace=True)

\# Eliminar filas con valores faltantes

df.dropna(inplace=True)

\# Rellenar valores faltantes con un valor específico

df\['columna'].fillna('valor\_especifico', inplace=True)

\# Normalizar una columna de texto (convertir a minúsculas)

df\['texto'] = df\['texto'].str.lower()

\# Reemplazar caracteres específicos en una columna de texto

df\['texto'] = df\['texto'].str.replace('caracter\_antiguo', 'caracter\_nuevo')

import pandas as pd

\# Cargar datos

df = pd.read\_csv('datos.csv')

\# Inspección inicial

print(df.head())

print(df.info())

print(df.describe())

\# Limpieza de datos

df.fillna(df.mean(), inplace=True)  # Rellenar valores faltantes con la media

df\['columna'] = df\['columna'].astype(int)  # Corregir tipo de dato

df.drop\_duplicates(inplace=True)  # Eliminar duplicados

df\['texto'] = df\['texto'].str.lower()  # Normalizar texto

\# Guardar el DataFrame limpio

df.to\_csv('datos\_limpios.csv', index=False)

\# Ver las primeras filas del DataFrame

print(df.head())

\# Obtener información sobre los tipos de datos y valores faltantes

print(df.info())

\# Estadísticas descriptivas de los datos

print(df.describe())

\# Rellenar valores faltantes con la media (para columnas numéricas)

df.fillna(df.mean(), inplace=True)

\# Eliminar filas con valores faltantes

df.dropna(inplace=True)

\# Rellenar valores faltantes con un valor específico

df\['columna'].fillna('valor\_especifico', inplace=True)

\# Normalizar una columna de texto (convertir a minúsculas)

df\['texto'] = df\['texto'].str.lower()

\# Reemplazar caracteres específicos en una columna de texto

df\['texto'] = df\['texto'].str.replace('caracter\_antiguo', 'caracter\_nuevo')

import pandas as pd

\# Cargar datos

df = pd.read\_csv('datos.csv')

\# Inspección inicial

print(df.head())

print(df.info())

print(df.describe())

\# Limpieza de datos

df.fillna(df.mean(), inplace=True)  # Rellenar valores faltantes con la media

df\['columna'] = df\['columna'].astype(int)  # Corregir tipo de dato

df.drop\_duplicates(inplace=True)  # Eliminar duplicados

df\['texto'] = df\['texto'].str.lower()  # Normalizar texto

\# Guardar el DataFrame limpio

df.to\_csv('datos\_limpios.csv', index=False)

CREATE TABLE Customer (
    CustomerID int NOT NULL,
    FirstName varchar(255),
    LastName varchar(255),
    Email varchar(255),
    PRIMARY KEY (CustomerID)
);

CREATE TABLE Product (
    ProductID int NOT NULL,
    ProductName varchar(255),
    Price decimal,
    PRIMARY KEY (ProductID)
);

CREATE TABLE Order (
    OrderID int NOT NULL,
    CustomerID int,
    OrderDate date,  -- Cambiado de 'datetime' a 'date'
    OrderTime time,  -- Nueva columna para la hora
    PRIMARY KEY (OrderID),
    FOREIGN KEY (CustomerID) REFERENCES Customer(CustomerID)
);

CREATE TABLE OrderDetails (
    OrderDetailID int NOT NULL,
    OrderID int,
    ProductID int,
    Quantity int,
    PRIMARY KEY (OrderDetailID),
    FOREIGN KEY (OrderID) REFERENCES Order(OrderID),
    FOREIGN KEY (ProductID) REFERENCES Product(ProductID)
);

def get_extract_original_user(df):
    if df['is_retweet'] == True:
        return df['text'].split()[1] #  porqué '[1]'? porque el primer elemento es 'RT' y el segundo es el nombre de usuario
        # para qué es '.split()'? para dividir el texto del tweet en palabras   


def clean_text(df):
    df['text'] = df['text'].str.replace(r'^RT[\s]+', '') # Remove 'RT' from the beginning of the text
    return df# en "r'^RT[\s]+''" para qué es "^" ? para que el texto empiece con 'RT'
```Pensando en que podría contestarme cualquier cosa le dije -  "hola, como estás?" y lo convirtió en una lista de strings :(

Limpieza de datos con GitHub Copilot

IA en equipos de data

Clasificación de imágenes con GitHub Copilot

Manejo de bases de datos

SQL con GitHub Copilot desde cero

Queries SQL complejas con Copilot y ChatGPT

Corrige bugs SQL y Python con IA

Documenta código con IA y Notion

Procesamiento de datos

Web scraping con ChatGPT y Pandas