Justificación y contexto de tu proyecto

1

Proyectos prácticos en ciencia de datos: del aprendizaje a la aplicación

2

Proyectos de Ciencia de Datos: Del Teórico al Práctico Realista

3

Cuándo iniciar un nuevo proyecto de ciencia de datos

4

Herramientas de Comunicación para Proyectos de Ciencia de Datos

5

Compartir Proyectos de Ciencia de Datos: Estrategias y Recursos

6

Comunicación Efectiva en Proyectos de Ciencia de Datos

Quiz: Justificación y contexto de tu proyecto

Ejecutando un proyecto de ciencia de datos

7

Construcción de Proyectos en Ciencia de Datos: Planteamiento de Preguntas

8

Búsqueda y Selección de Conjuntos de Datos Eficientes

9

Análisis de Datos Abiertos para Detectar Anomalías en Compras Públicas

10

Limpieza de Datos: Técnicas y Buenas Prácticas

11

Limpieza de Datos con Python y Pandas para Proyectos de Transparencia

12

Exploración de Datos: Análisis Unidimensional y Bidimensional

13

Análisis y Exploración de Datos con Pandas y Matplotlib

14

Análisis Multidimensional y Visualización de Datos en Python

15

Enriquecimiento de Datos en Ciencia de Datos

16

Enriquecimiento de Datos para Modelos de Machine Learning

17

Modelos de Machine Learning: Supervisado y No Supervisado

18

Modelación de Datos con Aprendizaje Supervisado y No Supervisado

19

Clustering y Detección de Anomalías en Datos de Negocios

20

Detección de Anomalías en Datos Financieros con Modelos Gaussianos

21

Organización y Versionado de Proyectos con Git y Github

22

Publicación de Proyectos en GitHub: Limpieza y Conclusiones

Quiz: Ejecutando un proyecto de ciencia de datos

Comunicando los resultados

23

Cómo Compartir Proyectos de Ciencia de Datos Efectivamente

24

Cómo Escribir un Block Post Técnico Efectivo

25

Presentaciones Efectivas en Comunidades Tecnológicas

26

Optimización de Repositorios en GitHub para Impacto Profesional

27

APIs Restful: Construcción y Despliegue Eficiente

28

Creación de Productos de Datos con Python y Herramientas Visuales

Quiz: Comunicando los resultados

Últimos pasos

29

Cómo y Cuándo Dar Cierre a Proyectos de Ciencia de Datos

30

Recomendaciones para Compartir Proyectos de Datos

31

Presentación y Compartición de Proyectos de Ciencia de Datos

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Limpieza de Datos: Técnicas y Buenas Prácticas

10/31
Recursos

¿Cómo comenzamos con la limpieza de datos en proyectos de ciencia de datos?

La limpieza de datos es un paso crucial e inevitable en cualquier proyecto de ciencia de datos. No solo es un proceso aleatorio; más bien, representa una exploración detallada de los datos que tenemos a nuestra disposición. Es en esta fase donde comenzamos a identificar la calidad de la información, los valores que faltan, las inconsistencias y otros desafíos. ¿Por qué es tan importante? Porque, al limpiarlos, podemos enriquecerlos y optimizarlos para un análisis verdaderamente robusto. Si te has apoyado en plataformas como Kaggle, recuerda que allí los datos normalmente ya han sido preprocesados por otros, por lo tanto, podría no reflejar los retos del mundo real.

¿Qué aspectos considerar al limpiar datos?

Cuando limpiamos datos, hay varios elementos que debemos considerar para obtener un conjunto óptimo y utilizable:

  • Representación óptima de variables: Evalúa si las variables se presentan de la manera más adecuada. Por ejemplo, fechas que puedan desglosarse en día, mes y año para un análisis más detallado.

  • Ergonomía en texto: Los datos escritos por humanos pueden contener errores o inconsistencias que requieren corrección.

  • Enriquecimiento de variables: Asegúrate de que las variables sean lo más valiosas posible. Esto podría incluir cruces con otros conjuntos de datos.

La exploración durante este proceso te proporciona una comprensión más profunda no solo de lo que tienes, sino también de lo que podrías esperar lograr con tus datos.

¿Cómo superar los retos en la limpieza de datos?

La limpieza de datos no está exenta de desafíos. La regla principal es no enfrentarlos solo. Si encuentras un obstáculo, aquí te dejamos algunas recomendaciones:

  1. Paciencia y disfrute: Aborda el proceso de limpieza como un reto enriquecedor. Pon música, toma un refresco y disfruta del desafío.

  2. Uso de tutoriales y referencias: Busca cómo otros han resuelto desafíos similares. Esta ayuda no solo enriquecerá tus datos, sino también tu enfoque y técnicas.

  3. Regla de Google Brain: Dedica media hora a resolver el problema. Si no lo consigues, plantea preguntas específicas sobre el reto y busca ayuda. Esto podría incluir pedir ayuda a colegas o buscar soluciones en línea.

  4. Cambiar de contexto: Si un problema persiste, aléjate un momento, cambia de entorno y vuelve con una mente fresca.

¿Dónde encontrar más recursos para la limpieza de datos?

La limpieza eficiente de datos requiere más que solo tiempo y paciencia; también se apoya en una base sólida de conocimientos técnicos:

  • Pandas: Es una biblioteca esencial en Python que facilita la manipulación y análisis de datos, proporcionando estructuras y operaciones de alto rendimiento y facilidad de uso.

  • Ingeniería de datos: Profundizar en cursos de ingeniería de datos puede proporcionar herramientas y metodologías avanzadas para manejar grandes volúmenes de datos.

Platzi ofrece cursos especializados en estas áreas, los cuales son recursos valiosos para quienes buscan fortalecer sus habilidades en limpieza y manejo de datos. Así que ¡Manos a la obra! No temas en apoyarte en estos cursos para avanzar en tu carrera y llegar a ser un experto en ciencia de datos.

Aportes 11

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Hice este pequeño proyecto de extraer datos de necesidades de compras de entidades públicas para analizar el texto usando NLTK, y Selenium para escraper. Viendo tu curso me has motivado a generar proyectos mas desafiantes. Les comparto el video posteado en youtube https://www.youtube.com/watch?v=nIOYAj4bS8g&ab_channel=BeatData

Poner musica es indispensable para poder disfrutarlo jaja

Jeje voy ya un par de días limpiando 6 datasets. En el camino descubrí muchas cosas que no sabía de Pandas y prácticas comunes cada que se inicia con la limpieza (por ejemplo se puede ver los tipos de datos, si hay nulos o no, el nombre de las columnas y la cantidad de registros en un solo paso con .info())

Limpiar la información es un paso inevitable en la ciencia de datos: la data inevitablemente tiene con que mejorarse.
La forma que está representada una variable no es la óptima, hay que enriquecer una variable texto, transformar una variable fecha en día, mes y año.
La limpieza nos permite conocer el conjunto de datos y saber que le falta o sobra. Es un paso de exploración muy natural. Tomate tu tiempo. Ve tutoriales.
¿Cuándo se acaba esta etapa? Cuando eres capaz de analizarla y si la respuesta que necesitas se percibe completa.
Si te atoras por más de media hora: pide ayuda o toma un descanso.

Verifico la Calidad de los Datos:

Revise la consistencia de los datos.

  • Me asegúrese de que no haya entradas duplicadas o valores inconsistentes en las columnas.
    Busque valores atípicos o nulos que puedan afectar la integridad del análisis.

Realizo la manipulación de Valores Numéricos:

  • Confirmo que los valores numéricos, especialmente aquellos que representan porcentajes, están en el formato adecuado (pueden haber sido multiplicados por 100, según la nota proporcionada).
    Realice conversiones si es necesario para que los porcentajes se expresen correctamente.

Normalización de Nombres de Columnas:

  • Verificar la coherencia y claridad de los nombres de las columnas. Asegurandome de que sean descriptivos y fáciles de entender para facilitar su análisis.

Asegurar la Consistencia Temporal:

  • Me aseguro de que los datos siguen una secuencia temporal lógica. Ordena los datos por fecha o año, si es aplicable, para un análisis más claro de las tendencias a lo largo del tiempo.

Revisión de Clave de Variables:

  • Identifico las variables clave para su análisis, como las tasas de cobertura bruta y neta, y asegúrese de que estén en el formato correcto y tengan la precisión adecuada.

Relaciónar de Datos entre Conjuntos:

  • Si se tiene otro conjunto de datos relacionados, como el de matrícula en educación preescolar, básica y media, considere la posibilidad de integrarlos para obtener una visión más completa.

Manipulación de Fechas y Proyecciones:

  • Para las tasas de cobertura bruta y neta de 2019 y 2018 con proyecciones de población, verifica que se reflejen adecuadamente en relación con los datos.

Limpieza de Datos Preliminares de 2020:

  • Para los datos preliminares de 2020, me asegúre de que se distingan claramente como preliminares y considere su exclusión si no refleja la precisión requerida para su análisis.

Ya empiezo a limpiar los datos. Es una tarea apasionante.

Debería haber un curso para hacer web scrapping

Apliqué Web Scraping (Usé Web Scraper) para extraer la información de una página de alquiler y venta de bienes raíces, me estoy enfocando en el sector residencial, por lo que decidí comenzar con mi ciudad Cali, enfocándome en apartamentos y casas por el momento. La idea inicial es involucrar las variables: valor por metro cuadrado construido, indicadores de seguridad, densidad de instituciones educativas y la densidad de la red de transporte público. Lo anterior con el fin de detectar los sectores donde podría ser más conveniente delimitar una zona donde resulte beneficiosa la compra de bienes raíces.

Que bueno el profe invitado a disfrutar el paseo de la limpieza de los datos

El reto que encontré es el siguiente: se tiene un listado de aproximadamente 100 diferentes indicadores, sobre una ciudad, por ejemplo. Estos indicadores se encuentran en 100 fuentes distintas y con distintas estructuras, algunas en excel, otras en pdf, otras en dashboards, etc. El reto es mostrar cada indicador en un solo informe, que contenga la data procesada que viene de estos 100 indicadores. En este caso la unica forma que veo, es tomar indicador por indicador, y aplicar el Analisis y limpieza de la fuente para cada una de los 100 indicadores. que otra forma podria haber?

hay alguna comunidad en discord o telegram, donde personas de habla hispana puedan compartir proyectos