- 1

Proyectos prácticos en ciencia de datos: del aprendizaje a la aplicación
04:23 - 2

Proyectos de Ciencia de Datos: Del Teórico al Práctico Realista
07:35 - 3

Cuándo iniciar un nuevo proyecto de ciencia de datos
04:36 - 4

Herramientas de Comunicación para Proyectos de Ciencia de Datos
05:41 - 5

Compartir Proyectos de Ciencia de Datos: Estrategias y Recursos
06:19 - 6

Comunicación Efectiva en Proyectos de Ciencia de Datos
07:46 Quiz crear proyectos ciencia datos 1
Limpieza de Datos con Python y Pandas para Proyectos de Transparencia
Clase 11 de 31 • Curso para Crear tus Proyectos de Ciencia de Datos
Contenido del curso
- 7

Construcción de Proyectos en Ciencia de Datos: Planteamiento de Preguntas
02:54 - 8

Búsqueda y Selección de Conjuntos de Datos Eficientes
02:20 - 9

Análisis de Datos Abiertos para Detectar Anomalías en Compras Públicas
05:29 - 10

Limpieza de Datos: Técnicas y Buenas Prácticas
04:25 - 11

Limpieza de Datos con Python y Pandas para Proyectos de Transparencia
12:58 - 12

Exploración de Datos: Análisis Unidimensional y Bidimensional
02:56 - 13

Análisis y Exploración de Datos con Pandas y Matplotlib
11:05 - 14

Análisis Multidimensional y Visualización de Datos en Python
17:14 - 15

Enriquecimiento de Datos en Ciencia de Datos
03:51 - 16

Enriquecimiento de Datos para Modelos de Machine Learning
14:00 - 17

Modelos de Machine Learning: Supervisado y No Supervisado
04:37 - 18

Modelación de Datos con Aprendizaje Supervisado y No Supervisado
09:45 - 19

Clustering y Detección de Anomalías en Datos de Negocios
09:58 - 20

Detección de Anomalías en Datos Financieros con Modelos Gaussianos
08:38 - 21

Organización y Versionado de Proyectos con Git y Github
03:36 - 22

Publicación de Proyectos en GitHub: Limpieza y Conclusiones
05:23 Quiz crear proyectos ciencia datos 2
- 23

Cómo Compartir Proyectos de Ciencia de Datos Efectivamente
01:57 - 24

Cómo Escribir un Block Post Técnico Efectivo
03:15 - 25

Presentaciones Efectivas en Comunidades Tecnológicas
05:56 - 26

Optimización de Repositorios en GitHub para Impacto Profesional
04:50 - 27

APIs Restful: Construcción y Despliegue Eficiente
03:59 - 28

Creación de Productos de Datos con Python y Herramientas Visuales
04:49 Quiz crear proyectos ciencia datos 3
¿Cómo limpiar datos de un proyecto de transparencia pública?
Enfrentar la limpieza de datos es un paso inevitable y esencial para cualquier profesional de Data Science. Es un desafío constante con el que te cruzarás a lo largo de tu carrera, así que ¡mejor disfrutarlo! En este artículo, trabajaremos con datos provenientes del municipio de Monterrey y utilizaremos herramientas como Python, Pandas y Jupyter Notebook para llevar a cabo este proceso.
¿Cómo comenzamos con la preparación del entorno?
Lo primero es contar con el entorno adecuado para el procesamiento de datos. Aquí tienes algunas opciones:
- Jupyter Notebook: Ideal si estás usando Anaconda o una instalación estándar de Python.
- Google Colab: Una excelente alternativa si prefieres trabajar en la nube sin configurar un entorno local.
Después de seleccionar tu entorno, crea una carpeta llamada notebooks y dentro de ella inicia un archivo de texto para registrar las librerías necesarias, facilitando la replicación del proyecto en el futuro.
¿Por qué organizar la información en Pandas?
La organización es clave para mantener un flujo de trabajo ordenado. Iniciamos importando las librerías necesarias:
import pandas as pd
import os
Con Pandas, cargaremos las hojas de cálculo que contienen los datos necesarios. Para ello, utilizamos la función read_excel, especificando las hojas requeridas como “gastos varios”, “servicios profesionales”, “comunicación” y “servicios personales”.
Cada hoja se carga en un DataFrame separado, permitiendo un manejo más controlado de la información:
df_gastos_varios = pd.read_excel('ruta_del_archivo.xlsx', sheet_name='Gastos Varios', skiprows=5)
df_serv_prof = pd.read_excel('ruta_del_archivo.xlsx', sheet_name='Servicios Profesionales', skiprows=5)
¿Cómo simplificar el manejo repetitivo de datos?
Si notas acciones repetitivas durante la carga y el procesamiento de datos, valdría la pena crear funciones para simplificar y automatizar el proceso, aunque inicialmente optamos por manejar cada hoja manualmente por la baja cantidad de observaciones.
¿Cómo concatenamos los datos en un solo lugar?
Una vez que hemos cargado todas las hojas necesarias, es momento de unificarlas en un solo DataFrame:
df_completo = pd.concat([df_gastos_varios, df_serv_prof, df_comunicacion, df_personales], ignore_index=True)
¿Cómo limpiamos datos sucios o innecesarios?
Uno de los principales retos durante la limpieza de datos es identificar las filas innecesarias, como aquellos totales que suelen encontrarse en ciertas hojas de cálculo. Usamos dropna() de Pandas para eliminar filas que contengan datos faltantes:
df_completo = df_completo.dropna(how='any')
Esto reduce el conjunto de datos a las entradas realmente válidas.
¿Cómo verificamos la limpieza de datos y tipos de información?
Verificar que los datos estén con el tipo apropiado es crucial para evitar errores en el análisis:
print(df_completo.dtypes)
Verifica también que los meses correspondan al periodo de estudio para confirmar la calidad de los datos. En este caso, confirmamos que todos los registros pertenecen al mes de diciembre.
¿Cómo almacenamos el conjunto de datos limpio?
Guardamos el conjunto de datos procesado y limpio en un formato legible y común como CSV:
df_completo.to_csv('data_clean_compras.csv', index=False)
Ahora, tu conjunto de datos está listo para análisis futuros. Continúa explorando y modelando la información, abordando cualquier reto que se presente, y comparte tus experiencias con otros aprendices de Data Science. ¡El descubrimiento de conocimientos está a un paso más cerca!