Justificación y contexto de tu proyecto

1

Proyectos prácticos en ciencia de datos: del aprendizaje a la aplicación

2

Proyectos de Ciencia de Datos: Del Teórico al Práctico Realista

3

Cuándo iniciar un nuevo proyecto de ciencia de datos

4

Herramientas de Comunicación para Proyectos de Ciencia de Datos

5

Compartir Proyectos de Ciencia de Datos: Estrategias y Recursos

6

Comunicación Efectiva en Proyectos de Ciencia de Datos

Quiz: Justificación y contexto de tu proyecto

Ejecutando un proyecto de ciencia de datos

7

Construcción de Proyectos en Ciencia de Datos: Planteamiento de Preguntas

8

Búsqueda y Selección de Conjuntos de Datos Eficientes

9

Análisis de Datos Abiertos para Detectar Anomalías en Compras Públicas

10

Limpieza de Datos: Técnicas y Buenas Prácticas

11

Limpieza de Datos con Python y Pandas para Proyectos de Transparencia

12

Exploración de Datos: Análisis Unidimensional y Bidimensional

13

Análisis y Exploración de Datos con Pandas y Matplotlib

14

Análisis Multidimensional y Visualización de Datos en Python

15

Enriquecimiento de Datos en Ciencia de Datos

16

Enriquecimiento de Datos para Modelos de Machine Learning

17

Modelos de Machine Learning: Supervisado y No Supervisado

18

Modelación de Datos con Aprendizaje Supervisado y No Supervisado

19

Clustering y Detección de Anomalías en Datos de Negocios

20

Detección de Anomalías en Datos Financieros con Modelos Gaussianos

21

Organización y Versionado de Proyectos con Git y Github

22

Publicación de Proyectos en GitHub: Limpieza y Conclusiones

Quiz: Ejecutando un proyecto de ciencia de datos

Comunicando los resultados

23

Cómo Compartir Proyectos de Ciencia de Datos Efectivamente

24

Cómo Escribir un Block Post Técnico Efectivo

25

Presentaciones Efectivas en Comunidades Tecnológicas

26

Optimización de Repositorios en GitHub para Impacto Profesional

27

APIs Restful: Construcción y Despliegue Eficiente

28

Creación de Productos de Datos con Python y Herramientas Visuales

Quiz: Comunicando los resultados

Últimos pasos

29

Cómo y Cuándo Dar Cierre a Proyectos de Ciencia de Datos

30

Recomendaciones para Compartir Proyectos de Datos

31

Presentación y Compartición de Proyectos de Ciencia de Datos

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Enriquecimiento de Datos en Ciencia de Datos

15/31
Recursos

¿Qué es el enriquecimiento de datos en la ciencia de datos?

El enriquecimiento de datos es una etapa fundamental en la ciencia de datos que busca mejorar y completar la información disponible para obtener soluciones más cercanas y precisas a los problemas planteados. No se trata simplemente de añadir datos aleatoriamente, sino de integrar información que agregue valor y contexto al conjunto de datos existente. Antes de enriquecer, es esencial garantizar que los datos estén limpios y sin errores para evitar complicaciones futuras.

¿Cuándo es necesario el enriquecimiento de datos?

  • Estado del conjunto de datos: El enriquecimiento puede no ser necesario si el conjunto de datos está limpio, completo y ya responde a las preguntas planteadas.
  • Contexto del problema: Es crucial entender el contexto del problema para dirigir el enriquecimiento hacia aspectos que realmente aporten a la solución buscada.
  • Calidad de los datos: No tiene sentido agregar más datos a un conjunto que ya contiene errores. Primero, asegura que los datos existentes estén correctamente estandarizados y sin errores ortográficos.

¿Cómo enriquecer un dataset efectivamente?

Existen varias formas de enriquecer un conjunto de datos:

  1. Proyección de variables numéricas a categóricas:
  • Por ejemplo, convertir el tiempo promedio de producción de tortillas en una nueva variable que describa categorías de producción.

    Ejemplo de creación de una variable categórica a partir de tiempo de producción

    df['categoria_produccion'] = pd.cut(df['tiempo_produccion'], bins=[0, 10, 20, 30], labels=['bajo', 'medio', 'alto'])

  1. Incorporación de aspectos geográficos:
  • Si los datos incluyen áreas geográficas como municipios o países, es posible enriquecer con información contextual relevante a esos lugares, como el estado de la salud pública o datos económicos.
  1. Inclusión de escenarios y actores:
  • Identificar y describir a los actores involucrados en el fenómeno estudiado permite integrarlos en el dataset, haciendo el modelo resultado más robusto y entendible.

¿Cómo seguir aprendiendo sobre el enriquecimiento de datos?

Para dominar las técnicas de enriquecimiento y modelización, los cursos de machine learning e ingeniería de datos son esenciales. Platzi ofrece cursos que enseñan desde la limpieza de datos hasta la modelación, preparando los datasets para que sean lo más útiles posibles en modelos avanzados. Siempre se debe buscar aprender más técnicas y mantener actualizado el conocimiento en estas áreas.

¡Manos a la obra! Implementa un enriquecimiento inteligente y observa cómo tus modelos adquieren un nuevo nivel de profundidad y precisión.

Aportes 5

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Resumen:

  • Esta etapa puede o no existir.
  • Enfócate en el problema. El tema debe estar en el centro junto a su contexto.
  • Limpia y luego enriquece. Si no, puedes terminar ensuciando más tu dataset.
  • Decide terminar. A veces esta etapa puede ser infinita.
  • Puedes comenzar proyectado variables numéricas a categóricas.
  • Complementa la definición de los elementos descritos.

Mientras trabajamos nos vamos dando cuenta que la nuestra información puede estar mejor explicada para acercarnos a tener la respuesta a nuestro problema.
El proceso de enriquecimiento de datos es una parte del proceso de ciencia de datos. Pero puede no existir si la data es suficiente .
El contexto del problema es lo que nos empuja a enriquecer los datos que tenemos.
Primero se limpia , luego se enriquece.
Hay que enfocarse en la pregunta a responder para definir hasta donde llegamos con el enriquecimiento, pues puede ser infinito el proceso.
Como enriquecer:

  • Estadísticos de una variable numérica agrupada en una categórica. Promedio de cada tipo.
  • Estadísticos por zonas o lugares geográficas
  • Describir el contexto. Escenario y actores. Lograr poder proyectarlos en los datos.

A ti que miras este mi comentario, quiero decirte que estas a mitad de camino de este gran curso y te felicito. Te comparto que no será la primera vez q lo vea y espero que lo disfrutes tanto como yo lo hago.

El enriquecimiento de los datos puede ser fundamental para un análisis más profundo y significativo

Agregar Datos Externos:

Datos Geoespaciales:
Si tu conjunto de datos contiene información geográfica, puedes agregar coordenadas o datos geoespaciales para visualizaciones o análisis basados ​​en la ubicación.


Datos Demográficos:
Incorporar datos demográficos como población, ingresos por área, densidad, etc., que pueden proporcionar contexto a tus análisis.


Datos del Gobierno o Instituciones:
A menudo, los gobiernos y otras instituciones tienen datos disponibles, como estadísticas económicas, de salud, educación, etc.

Crear nuevas características:

Ingeniería de Características:
Crea nuevas características a partir de las existentes que podrían ser más informativas para tu análisis.


Análisis de Series Temporales:
Si tienes datos temporales, podrías agregar características derivadas como medios móviles, tendencias, estacionalidad, etc.

Normalización y Limpieza Adicionales:

Normalización de texto:
Si hay datos de texto, normalízalos para realizar análisis de texto.
Limpieza de Datos Faltantes:
Trata de llenar o manejar los valores faltantes de manera más precisa.

Codificación de Variables Categóricas:

Si tienes variables categóricas, considera codificarlas adecuadamente para el análisis.
Análisis de Sentimiento o Contextualización:

Análisis de sentimiento:

Si hay datos de texto, podrías realizar un análisis de sentimiento para extraer información adicional.

Contextualización de Eventos:

Si tus datos están relacionados con eventos específicos, podrías enriquecerlos con información contextual sobre esos eventos.

Integración de Conjuntos de Datos Adicionales:

Unir con Otros Datasets:
Busca otros conjuntos de datos relevantes que puedan enriquecer o complementar la información de tu dataset actual.


Fuentes Externas de Datos Abiertos:
Explora fuentes de datos abiertos que podrían aportar información valiosa a tu análisis.