Contenido del curso

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística aplicada a ciencia de datos
Viendo ahora

Estadística aplicada a ciencia de datos

Resumen

Terminar un curso de estadística aplicada a ciencia de datos es más que cruzar una meta: es cerrar el ciclo en el que aprendiste a leer datos, validar hipótesis y tomar decisiones con respaldo numérico. Aquí repasamos lo aprendido y por qué te sirve si trabajas con datos o entrenas modelos de machine learning.

¿Qué aprendiste sobre estadística aplicada a datos?

A lo largo de las clases construiste una caja de herramientas para describir, inferir y validar. Cada concepto tiene un rol específico cuando te enfrentas a un dataset real.

¿Cuáles son los estadísticos básicos que debes dominar?

Los estadísticos descriptivos te permiten resumir un conjunto de datos en pocos números. Aprendiste a diferenciar tres medidas que suelen confundirse:

Media: el promedio aritmético, sensible a valores extremos.
Mediana: el valor central, útil cuando hay outliers.
Varianza: cuánto se dispersan los datos respecto a la media.

¿Cuál es la diferencia entre media y mediana? La media suma todos los valores y los divide entre el total; la mediana es el valor que queda justo en el medio cuando ordenas los datos. Si tienes valores extremos, la mediana describe mejor el centro real.

¿Por qué importa diferenciar población y muestra?

La población es el universo completo que quieres estudiar y la muestra es el subconjunto con el que trabajas. En ciencia de datos casi nunca tienes la población entera, así que sacar una buena muestra es lo que separa una conclusión válida de un sesgo costoso.

Aprendiste técnicas de muestreo para evitar sesgos y representar bien al grupo original. Ese paso es la base para que cualquier modelo o reporte posterior sea confiable.

¿Cómo validar hipótesis y resultados sin equivocarte?

Gran parte del trabajo analítico consiste en formular una idea y demostrar si los datos la respaldan. Para eso revisaste pruebas de hipótesis, intervalos de confianza y los errores típicos que se cometen en el camino.

¿Qué son los errores tipo I y tipo II en validación?

Cuando pruebas una hipótesis, puedes equivocarte de dos formas: rechazar algo que era cierto o aceptar algo que era falso. Identificar estos errores te obliga a definir niveles de confianza antes de ejecutar la prueba, no después.

¿Qué es un intervalo de confianza? Es un rango de valores donde, con cierta probabilidad (normalmente 95%), se encuentra el parámetro real de la población. Te dice qué tan seguro puedes estar de tu estimación.

¿Cómo se conecta esto con machine learning?

Validar un modelo de machine learning es, en el fondo, validar una hipótesis: estás afirmando que tu modelo predice mejor que el azar o mejor que una línea base. Las herramientas estadísticas que viste te dan el lenguaje para demostrarlo con números, no con intuición.

Extraer muestras representativas, calcular intervalos de confianza sobre métricas y revisar si tus resultados son significativos es lo que separa un modelo presentable de uno publicable.

¿Qué hacer ahora que terminaste?

El aprendizaje real llega cuando aplicas lo visto a problemas propios. Algunas acciones concretas para consolidar:

Resolver de nuevo los retos del curso con datasets distintos.
Terminar el examen final para medir tu comprensión.
Dejar tu reseña con cinco estrellas si el contenido te aportó.
Continuar con cursos de ciencia de datos e inteligencia artificial para profundizar.

Cuéntame en los comentarios qué tema quieres ver con más detalle en el próximo curso.

Comentarios

Axel Yaguana

Team Platzi•

Felicidades por llegar hasta aquí :D

Has dado un gran paso en tu carrera como data scientist. Debes sentir orgullo por ello. 💪

Escribí un artículo para complementar lo que aprendimos en este curso. Estadística inferencial con Python: intervalos de confianza y prueba de hipótesis te hará explorar un par de ejemplos prácticos. Te invito a leerlo y a que me cuentes qué te ha parecido.

¡Nunca pares de aprender! 💚

Adolfo Sebastián Jara Gavilanes

student•

Excelente!!

Robert Rondon

student•

muchas gracias

Matías Collado

student•

Este curso estuvo muy flojo, la pedagogía también y ha tenido muchos errores que la propia comunidad por suerte a señalado y corregido con lujo de detalle.

Maria Fernanda Manrique

student•

¡Increíble curso!

Fui tomando los apuntes del curso en Deepnote, aquí se los comparto: Notas del curso de Estadística inferencial

Javier Luis Ricaurte Peña

student•

¡Gracias, Maria!

Christopher Brian Guzmán Martínez

student•

y yo haciendo mis notas en word jeje Excelentes notas!

Hugo Montoya Diaz

student•

Muchas gracias Sílvia Ariza Sentís eres una genial Teacher

Yonaikel M. Delgado N.

student•

Hola seria muy bueno algun curso de Ciencia de Datos aplicado a los deportes, para trabajar como cientifico de datos en algun equipo profesional de algun deporte.

Saludos.

Carlos Mazzaroli

student•

https://www.youtube.com/watch?v=bGfvcLskmCs https://www.youtube.com/watch?v=C3jx_6zwQs4

Antonio Demarco Bonino

student•

Enamorado de la estadística.

Patricia Carolina Perez Felibert

student•

Los cursos de Silvia son lo máximo!

Ikal Esteban Fernández Galván

student•

Soy la única persona que piensa que la voz de Sílvia parece hecha con IA?

Marlon Marin

student•

Platzi es una plataforma realmente buena y he aprendido mucho, pero este curso deja mucho que desear, a duras penas te da un vistazo somero y flojo en los conceptos estadisticos y un manejo de codigo casi ininteligible para el que no sabe.

Mauricio Combariza

student•

Muy buen curso, ojala se haga uno de diseño de experimentos, con taguchi

Ada Nicol Lloret Rey

student•

Buen curso! Aunque esperaba más, creo que es una buena base para después con más cursos profundizar! Gracias

Yesner Alexander Tellez Salgado

student•

Muchas gracias, he disfrutado mucho el curso.

Erik gonzalez

student•

Muy bueno el curso

jose gregorio medina salas

student•

Muy buen curso, por mas cursos como este <3

Alejandro José Hugo Escalante Santos

student•

Excelente curso.

Santiago Romero Estrada

student•

Excelente curso, muy buena profesora, esperemos seguir viendo mas clases con ella.

Gabriel Obregón

student•

📘Estadística y Ciencia de Datos

🔹 Lo aprendido en el curso

✨ Fundamentos clave:

📊 Media, mediana y varianza.
👥 Diferencia entre población y muestra.
🎯 Selección adecuada de muestras (evitar sesgos).
❌ Errores comunes en validación de hipótesis.
✅ Métodos para validar modelos estadísticos.
📏 Cálculo de intervalos de confianza.

👉 Resultado: interpretar datos con precisión + conclusiones confiables.

🔹 Importancia de una muestra adecuada

📌 Razón: representa a la población sin estudiar a todos.

🔑 Beneficios:

🌍 Generalizar resultados.
⚡ Hacer análisis más rápidos.
💰 Reducir costos y tiempo.
🎯 Modelos más precisos y fiables.

🔹 Aplicación en Machine Learning

🧠 Los conceptos estadísticos son la base de modelos efectivos.

Permiten:

🔍 Interpretar datos correctamente.
📏 Establecer intervalos de confianza.
🧪 Validar hipótesis antes de aplicar modelos.

✅ Garantías:

📚 El modelo aprende bien.
🎯 Predicciones confiables y precisas.
🛡️ Se evitan errores graves en el rendimiento.

Mario Alexander Vargas Celis

student•

¡Perfecto! La estadística es una de las bases fundamentales para la Ciencia de Datos y el Machine Learning, ya que permite entender los datos, hacer inferencias y construir modelos predictivos sólidos.

📊 ¿Qué áreas de la estadística son clave para Ciencia de Datos y ML?

1. Estadística Descriptiva

Resume y describe datos.
Conceptos:
- Media, mediana, moda
- Varianza y desviación estándar
- Distribución de frecuencias, cuartiles, percentiles
- Histogramas, boxplots

2. Probabilidad

Base para entender la incertidumbre y el comportamiento de los modelos.
Conceptos:
- Espacio muestral, eventos
- Probabilidad condicional y Teorema de Bayes
- Variables aleatorias, funciones de probabilidad y densidad

3. Distribuciones de Probabilidad

Importantes para modelar fenómenos.
Ejemplos:
- Distribución normal (gaussiana)
- Binomial, Poisson, uniforme, exponencial
- Distribución t (usada en inferencia y pruebas de hipótesis)

4. Inferencia Estadística

Hacer generalizaciones sobre una población a partir de una muestra.
Conceptos:
- Estimaciones puntuales y por intervalo (intervalos de confianza)
- Pruebas de hipótesis (p-valor, errores tipo I y II)
- Correlación y regresión

5. Muestreo

Técnicas para seleccionar subconjuntos representativos:
- Aleatorio simple
- Sistemático
- Estratificado
- Por conglomerados

6. Análisis de Correlación y Regresión

Para examinar relaciones entre variables:
- Correlación de Pearson/Spearman
- Regresión lineal simple y múltiple

7. Validación de Modelos (Estadística en ML)

Validación cruzada
Overfitting/underfitting
Métricas: precisión, recall, F1, AUC, etc.

8. Técnicas de Remuestreo

Bootstrapping
Jackknife
Usadas cuando los datos son escasos o no se pueden asumir distribuciones normales

📌 Aplicaciones directas en Machine Learning

Preprocesamiento: detectar outliers, normalizar datos, manejar valores faltantes
Selección de características: con análisis de varianza o correlación
Evaluación de modelos: con pruebas estadísticas y métricas
Interpretabilidad: entender la importancia y el efecto de las variables

Javier Ladino

student•

Gran curso.. solo queda aplicar y practicar a diferentes datasets.

Mario Enrique Bejarano G

student•

Sílvia, me pareció un buen curso por lo teórico y lo practico, felicitaciones y muchas gracias

Fundamentos de estadística inferencial

Estadística descriptiva vs inferencial en datos

Componentes principales de la estadística

Qué es la distribución normal y por qué importa

Muestreo aleatorio, sistemático y teorema central

Muestreo aleatorio y sistemático en Python

Muestreo estratificado con Python y pandas

Estadísticos y cálculos

Media muestral explicada con ejemplos reales

Varianza poblacional vs muestral en estadística

Varianza y desviación estándar en Python

Qué son los intervalos de confianza

Cálculo de intervalos de confianza con tabla Z

Intervalos de confianza en Python con SciPy

Pruebas de hipótesis y validación

Qué son las pruebas de hipótesis

Pruebas de hipótesis: Student, Pearson y ANOVA

Errores tipo I y II en pruebas de hipótesis

Prueba t de Student en Python con SciPy

ANOVA y Pearson en Python con iris

Bootstrapping para muestras pequeñas en Python

Bootstrapping en Python para evitar overfitting

Qué es la validación cruzada en ML

Validación cruzada KFold con scikit-learn

Cierre del curso

Estadística aplicada a ciencia de datos

Estadística aplicada a ciencia de datos