Limpieza de datos CSV con Pandas

Curso de Fundamentos de Machine Learning

Contenido del curso

No sé dónde empezar

Fundamentos de Machine Learning y Contexto Deportivo

Preparación y Exploración de Datos

Ingeniería de Características

Modelado Predictivo Supervisado

Aprendizaje No Supervisado

Limpieza de datos CSV con Pandas

Resumen

Antes de predecir resultados deportivos o de negocio, necesitas datos limpios. Aquí aprenderás cómo limpiar datos en Python con Pandas usando un caso real: el historial de partidos del Cebollitas FC en formato CSV, donde aplicarás funciones clave para preparar el dataset antes de cualquier modelo de machine learning.

Este recorrido es para ti si estás dando tus primeros pasos en análisis de datos, ciencia de datos o ingeniería de machine learning y quieres entender el flujo real de preparación de un dataset.

Por qué importa limpiar los datos antes de modelar

Modelar sin limpiar los datos es como entrenar con la cancha embarrada: no se avanza. La fase de limpieza no es glamorosa, pero define si tu modelo aprende bien o aprende ruido.

En el caso del Cebollitas FC, el archivo partido_cebollitas.csv contiene equipos, fechas, goles, estadios y más. La meta es transformar esa información cruda en una base sólida para predecir el futuro del club [01:00].

¿Qué es un archivo CSV? Es un formato de texto donde los valores se separan por comas (comma separated values). Sirve para almacenar tablas de forma simple y portable entre herramientas.

Cómo cargar un dataset CSV con Pandas

El primer paso es importar la librería que hace todo el trabajo pesado de manipulación de datos: Pandas. Se instala con pip install pandas y se importa con el alias estándar pd [01:25].

Para leer el archivo y ver una vista previa usas dos funciones esenciales:

read_csv: accede al archivo y carga los datos en memoria.
.head(): muestra las primeras cinco filas, como mirar el primer tiempo de un partido antes de analizarlo todo.

python import pandas as pd

datos_cebollitas = pd.read_csv("partido_cebollitas.csv") datos_cebollitas.head()

Con esto ya tienes una tabla ordenada con columnas como equipo local, visitante, goles y estadio [02:30].

Cómo revisar la estructura general con .info

La función .info() es como leer la ficha médica del dataset. Te dice cuántas columnas tienes, qué tipo de dato hay en cada una (integer, object, etc.), si existen nulos y cuánta memoria ocupa la tabla [03:15].

En este caso, el dataset inicial tiene 10 columnas, numeradas del 0 al 9.

Cómo manejar datos faltantes en Pandas

Los datos del mundo real casi nunca llegan completos. En vez de eliminar partidos con goles faltantes, conviene rellenar con el promedio para mantener al jugador en cancha sin inventar jugadas.

Las funciones clave aquí son isnull() y sum(), que combinadas te muestran cuántos valores nulos hay por columna [04:00].

python datos_cebollitas["goles_local"].fillna( datos_cebollitas["goles_local"].mean(), inplace=True ) print(datos_cebollitas.isnull().sum())

Después de imputar, todas las columnas deben mostrar cero nulos. Si es así, vas por buen camino.

¿Qué es la imputación de datos? Es rellenar valores faltantes con una estimación, como el promedio o la mediana, en lugar de borrar registros incompletos.

Cómo convertir variables categóricas con one-hot encoding

Los modelos no entienden texto como "Cebollitas Juniors" o "Real Patacón". Necesitan ceros y unos. Para eso existe el one-hot encoding, que convierte cada categoría en una columna binaria: 1 si está presente, 0 si no [05:00].

En Pandas se hace con get_dummies:

python datos_preparados = pd.get_dummies( datos_cebollitas, columns=["equipo_local", "equipo_visitante"] )

Es simple, matemático y deja el dataset listo para que un algoritmo lo procese.

Cómo eliminar duplicados con drop_duplicates

Dos partidos idénticos no duplican el aprendizaje del modelo, lo confunden. Con drop_duplicates() borras filas repetidas y aseguras que cada registro aporte información única [06:00].

python print("Filas antes:", len(datos_preparados)) datos_preparados = datos_preparados.drop_duplicates() print("Filas después:", len(datos_preparados))

En el caso del Cebollitas, las 100 filas iniciales se mantuvieron en 100, lo que confirma que no había duplicados. Aun así, ejecutar este paso es buena práctica en cualquier proyecto serio.

Cómo dar formato a fechas con to_datetime

Las fechas en CSV suelen llegar como texto. Para analizar estacionalidad, rachas o temporadas, necesitas convertirlas a tipo fecha real con la función to_datetime [07:10].

Lo interesante es el parámetro errors="coerce": si una fecha es inválida, la marca como NaN en lugar de romper el proceso. No escondes errores, los manejas.

python datos_preparados["fecha"] = pd.to_datetime( datos_preparados["fecha"], errors="coerce" )

Esto te permite preguntarte después si el equipo juega mejor en marzo que en agosto, o si hay temporadas buenas y malas.

Cómo verificar el dataset final antes de modelar

Una vez aplicada toda la limpieza, conviene revisar tres cosas:

Ejecutar datos_preparados.info() para confirmar tipos de datos y memoria.
Revisar nulos restantes con datos_preparados.isnull().sum().
Comprobar la forma final con datos_preparados.shape.

En este ejemplo, el dataset terminó con 100 filas y 18 columnas, varias de ellas booleanas resultantes del one-hot encoding [09:00].

Ahora tienes goles de local, goles de visitante, posesión y más variables listas para entrenar un modelo. El entrenador preguntó si ya podíamos predecir el próximo partido y la respuesta honesta es no: hoy limpiamos la cancha. La siguiente fase será buscar patrones con análisis exploratorio y estadística visual.

¿En qué proyecto vas a aplicar primero estas funciones de Pandas? Cuéntalo en los comentarios.

Comentarios59

Robert Cardona

Estudiante

En coding-box donde se aplica la eliminacion de duplicados se hace print al mismo trozo de codigo, podria estar equivocado pero creeria que se debe hacer con el antes y despues de la eliminacion de los duplicados para darse cuenta si realmente cambio

Lo he dejado de la siguiente manera para ver si hay un cambio entrea dataset anterior y el que se aca de actualizar con la eliminacion de duplicados

Jesús Alberto Romero Hernández

Estudiante

Al igual que Roca_777, pienso que hay un error en la parte del análisis de filas duplicadas. Ampliando un poco el código:

el código:

Bryan Castano

Estudiante

Sipp, es cierto, el dataFrame de 'Cebollitas' estaba limpio desde el comienzo , de igual forma muy bien por la clase, el profesor es muy didactico y recursivo.

Jokaira Santos Santamaría

Estudiante

Para serles sincera, esta lección tiene bastantes puntos de mejora que he identificado desde mi perspectiva:

Tomaría datos que ya no estén procesados o que al menos muestren el 50% de las imperfecciones que se intentan corregir. El hecho de que todo salga correcto y no haya ningún error ni fila duplicada, quiere decir que los datos ya están procesados por lo que no se ve el resultado después de aplicar todos esos bloques de código y no se logra visualizar adecuadamente la importancia y el sentido de aplicar estos bloques.
Si vas a explicar como limpiar y preparar los datos, en vez de mostrar bloques de código ya preparados y ejecutados, hazlo en vivo y explica cualquier cosa que pueda surgir si no se toma en cuenta.
Se pueden visualizar en algunos bloques que el orden de ejecución de las líneas de código no tiene coherencia. Por ejemplo, en el bloque para eliminar las filas duplicadas, estás primero eliminado las filas, luego quieres imprimir el total de filas antes de la eliminación (lo cual no tiene sentido ya que las habías eliminado anteriormente), luego eliminas las filas duplicadas nuevamente (duplicando la operación), y luego quieres mostrar el total de filas antes de eliminar los duplicados.

Solo espero que las demás lecciones sean más coherentes y más practicas.

Catalina Cortes

Estudiante

Coincido en los tres puntos.

Saludos.

Juan Osorio

Profesor

Muchas gracias Jokaira! lo tendre en cuenta para proximas lecciones!

Me ayuda a mejorar cada comentario.

Mario Alexander Vargas Celis

Estudiante

🧼 ¿Qué es la limpieza de datos?

La limpieza de datos incluye:

Cargar datos correctamente.
Identificar y tratar valores nulos.
Corregir tipos de datos.
Eliminar duplicados o errores.
Renombrar columnas y estandarizar nombres.
Filtrar registros no válidos o inconsistentes.
Crear columnas útiles (goles por minuto, etc.).

🏟️ Supongamos que tienes este dataset (CSV)

jugador, goles, minutos_jugados, equipo, fecha Messi, 3, 90, Inter Miami, 2023-09-12 Mbappe, , 85, PSG, 2023-09-12 Messi, 3, 90, Inter Miami, 2023-09-12 Lewandowski, 1, 78, FC Barcelona, 2023-09-12 Falcao, 0, , Rayo Vallecano, 2023-09-12

🐼 Paso a paso con Pandas

import pandas as pd

# Cargar el archivo CSV df = pd.read_csv('estadisticas.csv')

# Mostrar las primeras filas print(df.head())

🔍 1. Verificar valores nulos

print(df.isnull().sum()) # ¿Dónde hay valores faltantes?

➡️ Solución:

df['goles'].fillna(0, inplace=True) # Rellenar con 0 df['minutos_jugados'].fillna(df['minutos_jugados'].mean(), inplace=True) # Promedio

📋 2. Eliminar duplicados

df = df.drop_duplicates()

🔢 3. Corregir tipos de datos

df['goles'] = df['goles'].astype(int) df['minutos_jugados'] = df['minutos_jugados'].astype(int) df['fecha'] = pd.to_datetime(df['fecha'])

✏️ 4. Renombrar columnas (opcional)

df.rename(columns={'minutos_jugados': 'min_jugados'}, inplace=True)

➗ 5. Crear columnas nuevas (ej. eficiencia)

df['goles_por_minuto'] = df['goles'] / df['min_jugados']

🧹 6. Filtrar registros no válidos

df = df[df['min_jugados'] > 0] # Eliminar jugadores sin minutos jugados

📊 Resultado limpio

print(df)

🧠 Consejos extra

TareaFunción útil de PandasVer resumen generaldf.info()Estadísticas básicasdf.describe()Ver valores únicos por campodf['equipo'].unique()Filtrar por condicióndf[df['equipo'] == 'PSG']Exportar CSV limpiodf.to_csv('limpio.csv', index=False)

Alfredo Luis Racero Blanco

Estudiante

Saludos, esta mal "df['goles'].fillna(0, inplace=True) # Rellenar con 0" dado que asumes mal que el dato faltante significa que no hubo goles, pero el dato se desconoce, inducirías a un sesgo mayor que guiarte por el promedio de goles del equipo.

Gabriel Eduardo Huck

Estudiante

Que pena que eligieron esta temática para dar un curso tan importante.

rc rc

Estudiante

Pienso igual, deberia ser un tema mas enfocado a un sector laboral.. o un proyecto un poco mejor elaborado en base a alguna demanda.

Alfredo Luis Racero Blanco

Estudiante

Además se esta tratando de enseñar el proceso de limpieza de datos importados desde un csv, pero en el ejercicio del video los datos ya vienen bastante limpios desde el csv. Es decir, lo ideal es poder mostrar lo que se enseña.

Gilbert Morales

Estudiante

Al principio no entendi y al finalizar tampoco, me encantan los retos, xd

Victor Hugo Rondon Cordero

Estudiante

Si no entiendes nada es por que debes estudiar python un poco y fundamentos de programación

Nicolás Melgarejo

Estudiante

No sé si yo soy muy ciego, pero agrandar el tamaño de letra del editor solo beneficiaría toda la comunidad.

Alejandra Alvarado

Estudiante

concuerdo

Catalina Cortes

Estudiante

Completamente de acuerdo.

Iván Ignacio Alvarado Diaz

Estudiante

Hubiera sido más útil, que nos proporcionaras los datos antes de limpiar, y que fueras codeando y limpiando con forme vaya siendo necesario, así vamos de la mano aprendiendo, para leer las instrucciones está el link de abajo y te ahorrabas 11 minutos de video diciendo, lean ésto, igual no lo vamos a hacer.

Catalina Cortes

Estudiante

Ja ja ja, completamente de acuerdo.

Cuando vi la base de datos me dije "acá ya está todo hecho" ahora ¿Cómo se que mi práctica si funciona?

Saludos.

joshua lattke

Estudiante

Yo recomiendo el uso de Google Colab. Solamente subiendo el archivo ipynb, te permite programar en python.

Neinnys melissa Mora rincón

Estudiante

De acuerdo!... en mi caso es mas practico Google Colab

Edward Martinez

Estudiante

•

a mi esta clase me dio duro por que no explican nada del entorno lo hice yo mismo reinstalando python pues tenia la versión 3.14 pero e generaba error con Jupyter, reinstale la versión 3.12, aquí les dejo un minitutorial para que no inviertan todo el tiempo que invertí yo:

MINITUTORIAL

Paso a paso: instalar Python, Jupyter y pandas solo usando PowerShell

Este es el flujo completo que seguí para instalar Python 3.12, JupyterLab y pandas, y luego visualizar un archivo .csv en un notebook de Jupyter, haciendo todo desde la terminal de PowerShell.

1. Abrir PowerShell

Presionar Win y escribir PowerShell.
Abrir Windows PowerShell (puede ser como administrador o normal).

Opcionalmente, comprobar la versión de PowerShell:

$PSVersionTable.PSVersion

2. Instalar Python 3.12 con winget

En PowerShell, buscar las versiones disponibles de Python:

winget search Python.Python

Instalar específicamente Python 3.12:

winget install -e --id Python.Python.3.12 --scope machine

-e indica que use el Id exacto.
--scope machine lo instala para todos los usuarios.

Cuando termine la instalación, cerrar PowerShell y volver a abrirlo.
Comprobar que Python quedó instalado:

py --version

El resultado debe ser algo parecido a:

Python 3.12.10

3. Asegurar y actualizar pip para Python 3.12

Para evitar conflictos con versiones viejas, uso siempre py -3.12 -m.

Asegurar que pip está instalado para Python 3.12:

py -3.12 -m ensurepip --upgrade

Actualizar pip a la última versión:

py -3.12 -m pip install --upgrade pip

Verificar la versión de pip asociada a Python 3.12:

py -3.12 -m pip --version

Debe mostrar algo como:

pip 25.x.x from ... (python 3.12)

4. Instalar JupyterLab, Notebook y pandas

Con pip ya funcionando en Python 3.12, instalo las herramientas necesarias para el curso:

py -3.12 -m pip install jupyterlab notebook pandas

jupyterlab: entorno moderno de Jupyter.
notebook: interfaz clásica de Jupyter (por si el curso la usa).
pandas: librería de análisis de datos.

Esta instrucción se ejecuta solo una vez. Puede tardar algunos minutos porque descarga varias dependencias.

5. Crear la carpeta de trabajo para Machine Learning

Elijo una ruta donde guardaré mis notebooks y archivos .csv. En mi caso:

cd "C:\Users\user\Documents\EDWARD\DESARROLLO\PYTHON"
mkdir machinelearning
cd .\machinelearning

cd cambia a la carpeta indicada.
mkdir crea la carpeta machinelearning.

En esta carpeta guardo el archivo partidos_cebollitas.csv que usaré en el curso.

6. Iniciar JupyterLab desde PowerShell

Estando dentro de la carpeta de trabajo (machinelearning), inicio JupyterLab con Python 3.12:

py -3.12 -m jupyter lab

Esto:

Levanta un servidor local de Jupyter.
Abre el navegador automáticamente en una dirección tipo: http://localhost:8888/lab.
Es importante no cerrar la ventana de PowerShell mientras esté usando Jupyter.

7. Crear un notebook y probar que pandas funciona

En la interfaz de JupyterLab (en el navegador):

Hacer clic en "Python 3 (ipykernel)" en la sección Notebook para crear un nuevo notebook.
En la primera celda del notebook escribir:

import pandas as pd
print("Versión de pandas:", pd.__version__)

Ejecutar la celda con Shift + Enter.

Si la celda se ejecuta sin errores y muestra una versión de pandas, la instalación es correcta.

8. Cargar y visualizar el archivo CSV en Jupyter

Con el archivo partidos_cebollitas.csv guardado en la misma carpeta donde está el notebook, puedo cargarlo y verlo así:

import pandas as pd

# Cargar el archivo CSV
datos_cebollitas = pd.read_csv("partidos_cebollitas.csv")

# Ver las primeras filas de la tabla
datos_cebollitas.head()

También puedo revisar información general del DataFrame:

datos_cebollitas.info()

Con estos pasos, usando únicamente PowerShell para instalar y lanzar todo, termino con:

Python 3.12 instalado.
pip actualizado.
JupyterLab y pandas funcionando.
Y los datos del archivo CSV visibles dentro de un notebook en Jupyter.

Espero les sea de ayuda.

Edward Martinez

Estudiante

Adicional en el ejercicio el Sr juan hizo la visualización desde la terminal de VSC yo ejecute los comandos directamente en PowerShell y posterior para ver la date en Jupyter y la información salió tal cual, aclaro no soy estudiante platzi estoy aprendiendo de forma autónoma y aprovechando estos días gratis hasta navidad.

Edward Martinez

Estudiante

les dejo aquí una imagen del resultado de la instalación y la visualización desde Jupyter

Javier Emanuel González Andrade

Estudiante

Para comenzar con la exploración y el tratamiento de los datos podemos utilizar la librería de python ydata_profiling

Cuando le pasamos un DataFrame, genera un reporte HTML interactivo que incluye:

Resumen estadístico de cada columna.
Detección de valores faltantes.
Distribución de variables.
Detección de duplicados.
Correlaciones entre variables.
Alertas sobre datos raros o problemas potenciales.

Les comparto el link de mi Colab de como se vería el reporte que entrega para el dataset de CebollitasFC ⚽

Para usarlo solo deben instarlo en su entorno con:

pip install ydata-profiling

YOHAN DANIEL RAMIREZ MEJIA

Estudiante

•

Seria mejor mostrar la instalación del entorno y lo que se hizo con el dataset, no todo ya hecho.

Juan Osorio

Profesor

Hola Yohan!

Tienes razon. Dime con que paso especifico necesitas ayuda. el ambiente de desarrollo o la creación de los datos?

Jeni Cartagena

Estudiante

Holaa, estoy tomando este curso por los cursos de navidad, pero no se nada de python, entonces no se ni a que se refiere con panda, ni como instalarlo, vi algo de powershell y no se como instalarlo o usarlo, si alguien pudieran guiarme por donde empezar, porque cree mi archivo e instale jupyter en visual studio code, pero lo demás no entiendo y no se como empezar

JOB RAMIREZ MARTINEZ

Estudiante

Hola, deberias considerar empezar con los cursos de Python, comandos, preparacion de entornos virtuales, matematicas. Pandas es una libreria de Python.

Farid Sayago Villamizar

Estudiante

Hola jeni. opino lo mismo que el compañero. hay un curso de fundamentos de la computacion por si no tienes mucha idea de computadores. te recomiendo es bueno para profundizar un poco mas si quieres empezar con codigo. Concretamente te recomiendo estos 3 cursos

Estan al inicio de la ruta de fundamentos para data science e IA link: https://platzi.com/ruta/fundamentos-de-data-science-y-ai/

Jonathan Rafael Núñez Gálvez

Estudiante

¡Vamos con todo en este curso!

Listos para aprender mucho en este RETO DE NAVIDAD DE PLATZI; con un curso cada 24 horas.

Jonathan Mauricio Meza Bastidas

Estudiante

"Modelar sin limpiar los datos es como entrenar con la cancha embarrada "

👍👍👍

DAVID ARROYAVE GIRALDO

Estudiante

Es comprensible que el inicio en el aprendizaje de programación y herramientas como Python y Pandas pueda parecer abrumador. En la clase, se asume un conocimiento básico para concentrarse en los conceptos de Machine Learning. Para descargar Python, puedes visitar y seguir las instrucciones de instalación. Para las librerías como Pandas, NumPy y scikit-learn, puedes instalarlas usando el comando pip install nombre_de_la_librería en la terminal. Te animo a consultar la documentación oficial de cada librería, donde se explican sus funcionalidades y uso.

Elena Fernandez López

Estudiante

Tengan en cuenta que el dataset que pone el profesor ya está limpio.

Con respecto a df.get_dummies() el dataset ya ha sido procesado. Las columnas que se mencionan, como 'equipo_local_Atlético Python' y 'equipo_visitante_Real Pandas', son el resultado de aplicar esta función a las columnas originales 'equipo_local' y 'equipo_visitante'.

La función pd.get_dummies() toma una columna categórica (como 'equipo_local') y crea una nueva columna binaria (con valores de 0 y 1) para cada categoría única que existía en la columna original. Es lo que también se llama Hot encoding. Por ejemplo, si 'equipo_local' contenía los valores "Atlético Python", "Cebollitas FC", etc., pd.get_dummies() crearía una columna para cada uno de ellos. El valor de la columna será 1 si esa categoría estaba presente en la fila original y 0 si no lo estaba.

Es probable que el profesor en tu curso te esté mostrando el código que se usó para llegar a la versión del dataset que estás viendo ahora. Las columnas originales 'equipo_local' y 'equipo_visitante' ya no existen porque la función pd.get_dummies() por defecto las elimina y las reemplaza con las nuevas columnas "dummies".

Es un sistema tradicional en la creación de vectores a la hora de preparar objetos que después puedan ser usados en forma de matriz en ML.

Rodrigo Tejada

Estudiante

Rellenar con el promedio es el "primer paso" de cualquier estudiante, pero en proyectos reales tiene problemas severos que debes conocer:

Destrucción de la varianza: Si tienes muchos datos nulos (por ejemplo, el 20% de la columna) y a todos les pones exactamente el mismo promedio, vas a crear un "pico" artificial en la distribución de tus datos. Esto altera la varianza y puede confundir a modelos como la Regresión Lineal, haciéndoles creer que ese valor promedio es más común e importante de lo que realmente es.
Cuidado con los Outliers (Valores atípicos): El promedio es muy sensible a los valores extremos. Si los "Cebollitas" usualmente meten 1 o 2 goles, pero un día jugaron contra un equipo muy débil y ganaron 12-0, ese 12 va a inflar el promedio artificialmente (por ejemplo, a 3.5 goles). Rellenar los nulos con 3.5 no reflejará la realidad del equipo.
- Tip de oro: Cuando tengas datos con valores extremos, es mucho mejor usar la Mediana (.median()) en lugar del promedio (.mean()), ya que la mediana no se ve afectada por los números atípicos.
Imputación por Vecinos Cercanos (KNN Imputer): En la industria avanzada no usamos el promedio general. Usamos algoritmos para rellenar nulos. Por ejemplo, si falta el dato de goles de un partido de local, en lugar de usar el promedio de todo el año, un KNNImputer buscará 3 partidos que hayan sido muy similares (mismo rival, clima similar, misma alineación) y promediará los goles de esos partidos específicos para rellenar el nulo. Esto es mucho más preciso.

Farid Sayago Villamizar

Estudiante

Estaba viendo el curso y explorando un poco la data minentras. me causa curiosidad que en el minuto 4:20. el profesor rellena los Nas con la media. Se salta antes un paso importante que es: como sabes que columnas tienen Na. lo hice en el colab y no hay columnas con Nas. es decir que ese paso se podria saltar. ya que se reemplaza en la columna de 'goles_local' pero esta columna (almenos en el csv adjunto) no tiene valores faltantes. pequeña observacion innecesaria pero me causaba curiosidad (autismo).

Jose Alberto Mendoza Leon

Estudiante

Les recomiendo a los que estan empezando que usen GPT para absolver sus dudas, yo no uso GPT plus pero me corre genial y me explica todo lo que necesito.

Limpieza de datos CSV con Pandas

Fundamentos de Machine Learning y Contexto Deportivo

Supervisado, no supervisado o refuerzo: cuál elegir

Modelos supervisados para predecir partidos

Clustering y PCA sin etiquetas en datos

Configuración de Python y Jupyter para análisis deportivo

Preparación y Exploración de Datos