¿Qué es lo que hace a este curso de estadística descriptiva único?
La estadística descriptiva es una parte esencial de las matemáticas que ofrece múltiples aplicaciones en la ciencia de datos. Aunque existe gran cantidad de material sobre este tema, este curso es diferente. Aquí, se contextualiza el uso de la estadística descriptiva dentro de la ciencia de datos, explorando no solo las fórmulas matemáticas detrás de los estadísticos descriptivos, sino también cómo identificar la cara correcta de las estadísticas, según el contexto. Inspirado en el libro "The Naked Statistics", este curso busca profundizar en lo realmente importante para aplicar efectivamente esta rama de las matemáticas.
¿Cómo se estructura el curso?
El curso se divide en dos grandes bloques, cada uno enfocado en diferentes aspectos de la estadística descriptiva aplicada a la ciencia de datos.
Bloque 1: Ingesta de datos y validación
En este bloque se abordan dos elementos fundamentales:
-
Identificación de tipos de datos: Es crucial en data science reconocer si estamos ante variables numéricas, cadenas de texto, datos estructurados o no estructurados. Este proceso inicial es esencial para trabajar con cualquier conjunto de datos.
-
Definición del pipeline o flujo de procesamiento: Aquí se decide qué se necesita hacer con los datos para que sean útiles. Esto puede incluir transformaciones como normalización y escalamiento, aspectos comunes en la ciencia de datos que tienen bases estadísticas subyacentes.
El objetivo de este bloque es que los estudiantes reconozcan que muchos elementos de la estadística descriptiva se han estado utilizando sin ser conscientes de ello.
Bloque 2: Preparación de datos y análisis exploratorio
Este bloque se enfoca en la preparación final de los datos y en el análisis exploratorio, aspectos cruciales antes de entrenar un modelo de machine learning. Se analizan elementos como:
- Análisis exploratorio de datos (EDA): Herramienta esencial en data science. Implica identificar correlaciones y reducir conjuntos de datos cuando sea necesario, siempre con una base estadística sólida.
Este bloque busca que los estudiantes comprendan la importancia de la estadística descriptiva en la exploración y análisis de datos, para extraer insights valiosos o construir modelos efectivos.
¿Qué no cubre este curso?
Este curso se centra en la estadística descriptiva aplicada a ciencia de datos y no cubrirá temas de estadística inferencial, como teoría de probabilidad, inferencia o tests de hipótesis, los cuales forman parte de la estadística inferencial.
¿Qué se aprenderá en las clases posteriores?
A lo largo del curso, se abordarán diferentes componentes y prácticas esenciales en estadística descriptiva, comenzando en la próxima clase por los tipos de datos y comenzando a trabajar con código en Python. Este enfoque práctico permitirá a los alumnos aplicar inmediatamente lo aprendido y reforzar las lecturas teóricas con ejercicios interactivos y dinámicos, mejorando así su comprensión y habilidades en el área de la ciencia de datos.
En resumen, este curso se enfoca en dos filosofías fundamentales: usar la estadística para la ingesta y procesamiento de datos, y para la necesaria analítica y exploración. Prepárate para embarcarte en este emocionante viaje hacia el dominio de la estadística descriptiva en ciencias de datos.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?