Justificación y contexto de tu proyecto

1

Cómo crear tu proyecto de ciencia de datos

2

Crea proyectos para afianzar tus conocimientos en ciencia de datos

3

Cada cuánto hacer un proyecto de datos

4

Dónde sacar ideas para proyectos de ciencia de datos

5

Generar y comunicar un proyecto de datos

6

Casos: personas que ya pasaron por este camino

Quiz: Justificación y contexto de tu proyecto

Ejecutando un proyecto de ciencia de datos

7

Plantea una pregunta interesante

8

Obteniendo los datos para tu proyecto

9

Ejecutando: obteniendo los datos

10

Limpieza de la información

11

Ejecutando: limpia tu conjunto de datos

12

Explora y encuentra patrones en la información

13

Ejecutando: exploración de la información

14

Ejecutando: completando la exploración de la información

15

Enriquecimiento de los datos para análisis profundo

16

Ejecutando: enriquecimiento de los datos

17

Aplicando un modelo de machine learning

18

Ejecutando: aplicando un modelo supervisado de machine learning

19

Ejecutando: aplicando un modelo no supervisado de machine learning

20

Ejecutando: aplicando un modelo no supervisado de anomalías

21

Prepara tu trabajo para comunicarlo con el mundo

22

Ejecutando: prepara tu trabajo para comunicarlo con el mundo

Quiz: Ejecutando un proyecto de ciencia de datos

Comunicando los resultados

23

Por qué es importante comunicar los resultados

24

Escribiendo tu primer blogpost técnico

25

Compartiendo en comunidad con tu primera presentación

26

Cómo mejorar tu repositorio en GitHub para ciencia de datos

27

Haciendo deploy de tus modelos

28

Construyendo una aplicación full stack que consuma tu proyecto

Quiz: Comunicando los resultados

Últimos pasos

29

Elige terminar: es mejor terminado que perfecto

30

Recuerda los objetivos del proyecto: practicar y carta de presentación

31

Comparte tu proyecto

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Limpieza de la información

10/31
Recursos

Aportes 11

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Hice este pequeño proyecto de extraer datos de necesidades de compras de entidades públicas para analizar el texto usando NLTK, y Selenium para escraper. Viendo tu curso me has motivado a generar proyectos mas desafiantes. Les comparto el video posteado en youtube https://www.youtube.com/watch?v=nIOYAj4bS8g&ab_channel=BeatData

Poner musica es indispensable para poder disfrutarlo jaja

Jeje voy ya un par de días limpiando 6 datasets. En el camino descubrí muchas cosas que no sabía de Pandas y prácticas comunes cada que se inicia con la limpieza (por ejemplo se puede ver los tipos de datos, si hay nulos o no, el nombre de las columnas y la cantidad de registros en un solo paso con .info())

Limpiar la información es un paso inevitable en la ciencia de datos: la data inevitablemente tiene con que mejorarse.
La forma que está representada una variable no es la óptima, hay que enriquecer una variable texto, transformar una variable fecha en día, mes y año.
La limpieza nos permite conocer el conjunto de datos y saber que le falta o sobra. Es un paso de exploración muy natural. Tomate tu tiempo. Ve tutoriales.
¿Cuándo se acaba esta etapa? Cuando eres capaz de analizarla y si la respuesta que necesitas se percibe completa.
Si te atoras por más de media hora: pide ayuda o toma un descanso.

Ya empiezo a limpiar los datos. Es una tarea apasionante.

Apliqué Web Scraping (Usé Web Scraper) para extraer la información de una página de alquiler y venta de bienes raíces, me estoy enfocando en el sector residencial, por lo que decidí comenzar con mi ciudad Cali, enfocándome en apartamentos y casas por el momento. La idea inicial es involucrar las variables: valor por metro cuadrado construido, indicadores de seguridad, densidad de instituciones educativas y la densidad de la red de transporte público. Lo anterior con el fin de detectar los sectores donde podría ser más conveniente delimitar una zona donde resulte beneficiosa la compra de bienes raíces.

Verifico la Calidad de los Datos:

Revise la consistencia de los datos.

  • Me asegúrese de que no haya entradas duplicadas o valores inconsistentes en las columnas.
    Busque valores atípicos o nulos que puedan afectar la integridad del análisis.

Realizo la manipulación de Valores Numéricos:

  • Confirmo que los valores numéricos, especialmente aquellos que representan porcentajes, están en el formato adecuado (pueden haber sido multiplicados por 100, según la nota proporcionada).
    Realice conversiones si es necesario para que los porcentajes se expresen correctamente.

Normalización de Nombres de Columnas:

  • Verificar la coherencia y claridad de los nombres de las columnas. Asegurandome de que sean descriptivos y fáciles de entender para facilitar su análisis.

Asegurar la Consistencia Temporal:

  • Me aseguro de que los datos siguen una secuencia temporal lógica. Ordena los datos por fecha o año, si es aplicable, para un análisis más claro de las tendencias a lo largo del tiempo.

Revisión de Clave de Variables:

  • Identifico las variables clave para su análisis, como las tasas de cobertura bruta y neta, y asegúrese de que estén en el formato correcto y tengan la precisión adecuada.

Relaciónar de Datos entre Conjuntos:

  • Si se tiene otro conjunto de datos relacionados, como el de matrícula en educación preescolar, básica y media, considere la posibilidad de integrarlos para obtener una visión más completa.

Manipulación de Fechas y Proyecciones:

  • Para las tasas de cobertura bruta y neta de 2019 y 2018 con proyecciones de población, verifica que se reflejen adecuadamente en relación con los datos.

Limpieza de Datos Preliminares de 2020:

  • Para los datos preliminares de 2020, me asegúre de que se distingan claramente como preliminares y considere su exclusión si no refleja la precisión requerida para su análisis.

Que bueno el profe invitado a disfrutar el paseo de la limpieza de los datos

El reto que encontré es el siguiente: se tiene un listado de aproximadamente 100 diferentes indicadores, sobre una ciudad, por ejemplo. Estos indicadores se encuentran en 100 fuentes distintas y con distintas estructuras, algunas en excel, otras en pdf, otras en dashboards, etc. El reto es mostrar cada indicador en un solo informe, que contenga la data procesada que viene de estos 100 indicadores. En este caso la unica forma que veo, es tomar indicador por indicador, y aplicar el Analisis y limpieza de la fuente para cada una de los 100 indicadores. que otra forma podria haber?

Debería haber un curso para hacer web scrapping

hay alguna comunidad en discord o telegram, donde personas de habla hispana puedan compartir proyectos