Enriquecimiento de Datos en Ciencia de Datos

Clase 15 de 31Curso para Crear tus Proyectos de Ciencia de Datos

Resumen

¿Qué es el enriquecimiento de datos en la ciencia de datos?

El enriquecimiento de datos es una etapa fundamental en la ciencia de datos que busca mejorar y completar la información disponible para obtener soluciones más cercanas y precisas a los problemas planteados. No se trata simplemente de añadir datos aleatoriamente, sino de integrar información que agregue valor y contexto al conjunto de datos existente. Antes de enriquecer, es esencial garantizar que los datos estén limpios y sin errores para evitar complicaciones futuras.

¿Cuándo es necesario el enriquecimiento de datos?

  • Estado del conjunto de datos: El enriquecimiento puede no ser necesario si el conjunto de datos está limpio, completo y ya responde a las preguntas planteadas.
  • Contexto del problema: Es crucial entender el contexto del problema para dirigir el enriquecimiento hacia aspectos que realmente aporten a la solución buscada.
  • Calidad de los datos: No tiene sentido agregar más datos a un conjunto que ya contiene errores. Primero, asegura que los datos existentes estén correctamente estandarizados y sin errores ortográficos.

¿Cómo enriquecer un dataset efectivamente?

Existen varias formas de enriquecer un conjunto de datos:

  1. Proyección de variables numéricas a categóricas:
  • Por ejemplo, convertir el tiempo promedio de producción de tortillas en una nueva variable que describa categorías de producción.

    Ejemplo de creación de una variable categórica a partir de tiempo de producción

    df['categoria_produccion'] = pd.cut(df['tiempo_produccion'], bins=[0, 10, 20, 30], labels=['bajo', 'medio', 'alto'])

  1. Incorporación de aspectos geográficos:
  • Si los datos incluyen áreas geográficas como municipios o países, es posible enriquecer con información contextual relevante a esos lugares, como el estado de la salud pública o datos económicos.
  1. Inclusión de escenarios y actores:
  • Identificar y describir a los actores involucrados en el fenómeno estudiado permite integrarlos en el dataset, haciendo el modelo resultado más robusto y entendible.

¿Cómo seguir aprendiendo sobre el enriquecimiento de datos?

Para dominar las técnicas de enriquecimiento y modelización, los cursos de machine learning e ingeniería de datos son esenciales. Platzi ofrece cursos que enseñan desde la limpieza de datos hasta la modelación, preparando los datasets para que sean lo más útiles posibles en modelos avanzados. Siempre se debe buscar aprender más técnicas y mantener actualizado el conocimiento en estas áreas.

¡Manos a la obra! Implementa un enriquecimiento inteligente y observa cómo tus modelos adquieren un nuevo nivel de profundidad y precisión.