Creando tu receta de limpieza de datos

Curso de Ingeniería de Datos con Python

Contenido del curso

Introducción

Web scraping

Pandas

Intro a Sistemas de Datos

Contenido Bonus

38
¿Por qué usar la nube?
04:05 min

Tomar examen

Creando tu receta de limpieza de datos

Resumen

Un flujo de limpieza confiable marca la diferencia entre datos ruidosos y resultados útiles. Aquí se construye una receta de limpieza de datos orientada a automatización: eliminar duplicados por título, borrar filas con valores faltantes y guardar un CSV limpio con un prefijo claro. Todo se orquesta desde la función main y se valida en consola con mensajes del logger.

¿Qué objetivos cubre la receta de limpieza de datos?

La receta parte de una base existente con soluciones de Tokenize Column y suma pasos para robustecer el proceso. Aunque el ejemplo usa datos de El Universal, el guion está pensado para cualquier dataset con las mismas características del scraper.

¿Qué hace remove duplicate entries con el título?

Elimina entradas duplicadas tomando el título como referencia.
Usa drop duplicates con subset igual al nombre de la columna.
Conserva el primer registro con first y modifica in place.
Registra con logger lo que sucede en cada paso.

¿Para qué sirve drop rows with missing values?

Borra filas que no tienen valores con drop NA.
Fortalece la automatización, aunque en el dataset de ejemplo no afecte.
Informa al usuario qué filas se eliminan.

¿Cómo se integra todo en la función main?

Se añaden las nuevas funciones a main en el orden correcto.
Se asegura que los argumentos se pasen bien entre llamadas.
Se prepara el cierre del flujo con el guardado en disco.

¿Cómo se implementan las funciones clave paso a paso?

La implementación se escribe después de la última función existente y se documenta con logger para claridad. Se aprovecha que trabajar con un DataFrame permite operaciones vectorizadas simples y legibles.

¿Cómo se aplica drop duplicates con subset y first?

Se define la función: recibe el DataFrame y el nombre de la columna.
Se ejecuta drop duplicates con subset igual a esa columna.
Se mantiene el primer registro con first.
Se aplica in place para modificar el objeto original.

¿Cómo funciona drop NA para filas sin valores?

Se define una función para eliminar filas incompletas.
Se usa drop NA sobre el DataFrame.
Se registra el proceso con logger para trazabilidad.

¿Cómo se guarda el CSV con save data y to CSV?

Se crea la función save data con parámetros: DataFrame y file name.
Se genera un prefijo: se construye un clean file name con "clean_" + nombre original.
Se guarda con to CSV usando el clean file name.
Se informa al usuario la ruta final del archivo.

¿Cómo se depura y valida la receta en consola?

La validación en consola confirma que cada paso se ejecuta y revela errores comunes de nombres y parámetros. Corregirlos al vuelo fortalece la confiabilidad del script.

¿Qué errores comunes se corrigieron al ejecutar?

Nombre de función inconsistente: drop rows with missing values vs. drop rows with missing data. Se unifica el nombre correcto.
Llamada a save data sin pasar el DataFrame. Se agrega el primer parámetro.
Falta el nombre de archivo en save data. Se añade como segundo parámetro para que sepa dónde guardar.

¿Cómo verificar el archivo limpio en el sistema de archivos?

Ejecutar el script desde la consola y observar el logger.
Comprobar que aparece un nuevo CSV con el prefijo "clean_".
Validar que los pasos de la receta se reflejan en el archivo final.
Probar con otro dataset compatible, como el del país, para confirmar portabilidad.

¿Te gustaría compartir cómo nombras tus funciones o qué prefijo usas para archivos limpios? Cuéntalo en los comentarios y enriquezcamos la receta entre todos.

Creando tu receta de limpieza de datos

Introducción

Pipelines automatizados con Python para ingeniería de datos

Archivos del curso y Slides

¿Qué es la ciencia de datos?

Por qué fallan los equipos de ciencia de datos

Configuración del ambiente

Jupyter Notebooks

Tipos de datos en ciencia de datos

Tipos de datos

Fuentes de datos

ETL: extract, transform y load explicado

Web scraping

Web scraping para data engineers: HTML y metadatos

Cómo hacer solicitudes HTTP con Python Requests

¿Cómo trabajar con un documento HTML?

Analizando un sitio web para encontrar las directivas a utilizar al hacer un web scrapping

Page Object Pattern para web scrapers

Implementando nuestro web scrapper: Configuración

Page Objects para extraer vínculos de noticias

Implementando nuestro web scrapper: Obteniendo artículos

Obtención de datos del Artículo

Persistiendo la información "scrapeada"

Pandas

Series vs DataFrame en Pandas

Qué es Series en Pandas y cómo crearlas

Estructura de datos: DataFrames

Índices y selección

Data wrangling con Pandas

Creación de la receta: preparando la automatización

Cómo rellenar datos faltantes en Pandas con regex

Pandas .loc y regex para títulos faltantes

Limpiando detalles adicionales

Generar UUIDs con MD5 en pandas

Enriquecimiento de los datos

Eliminación de duplicados con drop_duplicates en Pandas