- 1

Proyectos prácticos en ciencia de datos: del aprendizaje a la aplicación
04:23 - 2

Proyectos de Ciencia de Datos: Del Teórico al Práctico Realista
07:35 - 3

Cuándo iniciar un nuevo proyecto de ciencia de datos
04:36 - 4

Herramientas de Comunicación para Proyectos de Ciencia de Datos
05:41 - 5

Compartir Proyectos de Ciencia de Datos: Estrategias y Recursos
06:19 - 6

Comunicación Efectiva en Proyectos de Ciencia de Datos
07:46 Quiz crear proyectos ciencia datos 1
Enriquecimiento de Datos en Ciencia de Datos
Clase 15 de 31 • Curso para Crear tus Proyectos de Ciencia de Datos
Contenido del curso
- 7

Construcción de Proyectos en Ciencia de Datos: Planteamiento de Preguntas
02:54 - 8

Búsqueda y Selección de Conjuntos de Datos Eficientes
02:20 - 9

Análisis de Datos Abiertos para Detectar Anomalías en Compras Públicas
05:29 - 10

Limpieza de Datos: Técnicas y Buenas Prácticas
04:25 - 11

Limpieza de Datos con Python y Pandas para Proyectos de Transparencia
12:58 - 12

Exploración de Datos: Análisis Unidimensional y Bidimensional
02:56 - 13

Análisis y Exploración de Datos con Pandas y Matplotlib
11:05 - 14

Análisis Multidimensional y Visualización de Datos en Python
17:14 - 15

Enriquecimiento de Datos en Ciencia de Datos
03:51 - 16

Enriquecimiento de Datos para Modelos de Machine Learning
14:00 - 17

Modelos de Machine Learning: Supervisado y No Supervisado
04:37 - 18

Modelación de Datos con Aprendizaje Supervisado y No Supervisado
09:45 - 19

Clustering y Detección de Anomalías en Datos de Negocios
09:58 - 20

Detección de Anomalías en Datos Financieros con Modelos Gaussianos
08:38 - 21

Organización y Versionado de Proyectos con Git y Github
03:36 - 22

Publicación de Proyectos en GitHub: Limpieza y Conclusiones
05:23 Quiz crear proyectos ciencia datos 2
- 23

Cómo Compartir Proyectos de Ciencia de Datos Efectivamente
01:57 - 24

Cómo Escribir un Block Post Técnico Efectivo
03:15 - 25

Presentaciones Efectivas en Comunidades Tecnológicas
05:56 - 26

Optimización de Repositorios en GitHub para Impacto Profesional
04:50 - 27

APIs Restful: Construcción y Despliegue Eficiente
03:59 - 28

Creación de Productos de Datos con Python y Herramientas Visuales
04:49 Quiz crear proyectos ciencia datos 3
¿Qué es el enriquecimiento de datos en la ciencia de datos?
El enriquecimiento de datos es una etapa fundamental en la ciencia de datos que busca mejorar y completar la información disponible para obtener soluciones más cercanas y precisas a los problemas planteados. No se trata simplemente de añadir datos aleatoriamente, sino de integrar información que agregue valor y contexto al conjunto de datos existente. Antes de enriquecer, es esencial garantizar que los datos estén limpios y sin errores para evitar complicaciones futuras.
¿Cuándo es necesario el enriquecimiento de datos?
- Estado del conjunto de datos: El enriquecimiento puede no ser necesario si el conjunto de datos está limpio, completo y ya responde a las preguntas planteadas.
- Contexto del problema: Es crucial entender el contexto del problema para dirigir el enriquecimiento hacia aspectos que realmente aporten a la solución buscada.
- Calidad de los datos: No tiene sentido agregar más datos a un conjunto que ya contiene errores. Primero, asegura que los datos existentes estén correctamente estandarizados y sin errores ortográficos.
¿Cómo enriquecer un dataset efectivamente?
Existen varias formas de enriquecer un conjunto de datos:
- Proyección de variables numéricas a categóricas:
-
Por ejemplo, convertir el tiempo promedio de producción de tortillas en una nueva variable que describa categorías de producción.
Ejemplo de creación de una variable categórica a partir de tiempo de producción
df['categoria_produccion'] = pd.cut(df['tiempo_produccion'], bins=[0, 10, 20, 30], labels=['bajo', 'medio', 'alto'])
- Incorporación de aspectos geográficos:
- Si los datos incluyen áreas geográficas como municipios o países, es posible enriquecer con información contextual relevante a esos lugares, como el estado de la salud pública o datos económicos.
- Inclusión de escenarios y actores:
- Identificar y describir a los actores involucrados en el fenómeno estudiado permite integrarlos en el dataset, haciendo el modelo resultado más robusto y entendible.
¿Cómo seguir aprendiendo sobre el enriquecimiento de datos?
Para dominar las técnicas de enriquecimiento y modelización, los cursos de machine learning e ingeniería de datos son esenciales. Platzi ofrece cursos que enseñan desde la limpieza de datos hasta la modelación, preparando los datasets para que sean lo más útiles posibles en modelos avanzados. Siempre se debe buscar aprender más técnicas y mantener actualizado el conocimiento en estas áreas.
¡Manos a la obra! Implementa un enriquecimiento inteligente y observa cómo tus modelos adquieren un nuevo nivel de profundidad y precisión.