Estadística para Ciencia de Datos y Machine Learning

Clase 22 de 22 • Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Contenido del curso

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística para Ciencia de Datos y Machine Learning
Viendo ahora

Tomar examen

Resumen

Comprender cómo funcionan los estadísticos fundamentales y su aplicación directa en ciencia de datos y machine learning es una habilidad imprescindible para cualquier profesional que trabaje con datos. Desde la extracción de muestras representativas hasta la validación de hipótesis, cada concepto forma parte de un flujo de trabajo que permite tomar decisiones basadas en evidencia sólida.

¿Qué diferencia hay entre los estadísticos de población y muestra?

Uno de los pilares de la estadística es distinguir entre los valores que describen a toda una población y los que se obtienen a partir de una muestra. La media y la mediana permiten identificar los valores más representativos de un conjunto de datos, mientras que la varianza mide qué tan dispersos están esos datos respecto al centro.

La media de la población considera todos los elementos; la de la muestra solo un subconjunto.
La mediana es útil cuando existen valores extremos que distorsionan el promedio.
La varianza muestral aplica una corrección (dividir entre n-1) para evitar subestimar la dispersión real.

Saber cómo extraer una muestra de forma adecuada es clave para que los resultados reflejen el comportamiento de la población general. Una muestra mal diseñada introduce sesgos que invalidan cualquier análisis posterior.

¿Cómo se validan hipótesis y se evitan errores?

La validación de hipótesis es el proceso mediante el cual se plantea una afirmación sobre los datos y se comprueba si la evidencia la respalda o la rechaza. Este procedimiento está sujeto a dos tipos de errores habituales:

Error tipo I: rechazar una hipótesis que en realidad es verdadera (falso positivo).
Error tipo II: aceptar una hipótesis que en realidad es falsa (falso negativo).

Evitar estos errores requiere establecer intervalos de confianza a diferentes niveles. Un intervalo de confianza del 95 %, por ejemplo, indica que existe un 95 % de probabilidad de que el valor real de la población se encuentre dentro de ese rango. Cuanto mayor sea el nivel de confianza, más amplio será el intervalo.

¿Por qué importa la confianza en los modelos de machine learning?

Todo lo anterior se traduce directamente en la forma en que se construyen y evalúan modelos de machine learning. Lo que se hace en la práctica es extraer una muestra de datos, entrenar un modelo con ella y luego verificar que las conclusiones obtenidas no estén sesgadas ni contengan errores sistemáticos.

Se interpretan los valores más habituales para entender patrones.
Se aplican niveles de confianza para medir la fiabilidad de las predicciones.
Se valida el modelo comprobando que los resultados sean correctos y reproducibles.

Dominar estos conceptos estadísticos no es opcional: es la base que sostiene cualquier proyecto serio de ciencia de datos e inteligencia artificial. Si quieres afianzar lo aprendido, la mejor estrategia es resolver los ejercicios prácticos y enfrentarte a los retos planteados. Comparte tu experiencia y opinión para que otros también puedan beneficiarse.

Comentarios

Axel Yaguana

Team Platzi•

Felicidades por llegar hasta aquí :D

Has dado un gran paso en tu carrera como data scientist. Debes sentir orgullo por ello. 💪

Escribí un artículo para complementar lo que aprendimos en este curso. Estadística inferencial con Python: intervalos de confianza y prueba de hipótesis te hará explorar un par de ejemplos prácticos. Te invito a leerlo y a que me cuentes qué te ha parecido.

¡Nunca pares de aprender! 💚

Adolfo Sebastián Jara Gavilanes

student•

Excelente!!

Robert Rondon

student•

muchas gracias

Matías Collado

student•

Este curso estuvo muy flojo, la pedagogía también y ha tenido muchos errores que la propia comunidad por suerte a señalado y corregido con lujo de detalle.

Maria Fernanda Manrique

student•

¡Increíble curso!

Fui tomando los apuntes del curso en Deepnote, aquí se los comparto: Notas del curso de Estadística inferencial

Javier Luis Ricaurte Peña

student•

¡Gracias, Maria!

Christopher Brian Guzmán Martínez

student•

y yo haciendo mis notas en word jeje Excelentes notas!

Hugo Montoya Diaz

student•

Muchas gracias Sílvia Ariza Sentís eres una genial Teacher

Yonaikel M. Delgado N.

student•

Hola seria muy bueno algun curso de Ciencia de Datos aplicado a los deportes, para trabajar como cientifico de datos en algun equipo profesional de algun deporte.

Saludos.

Carlos Mazzaroli

student•

https://www.youtube.com/watch?v=bGfvcLskmCs https://www.youtube.com/watch?v=C3jx_6zwQs4

Antonio Demarco Bonino

student•

Enamorado de la estadística.

Patricia Carolina Perez Felibert

student•

Los cursos de Silvia son lo máximo!

Ikal Esteban Fernández Galván

student•

Soy la única persona que piensa que la voz de Sílvia parece hecha con IA?

Marlon Marin

student•

Platzi es una plataforma realmente buena y he aprendido mucho, pero este curso deja mucho que desear, a duras penas te da un vistazo somero y flojo en los conceptos estadisticos y un manejo de codigo casi ininteligible para el que no sabe.

Mauricio Combariza

student•

Muy buen curso, ojala se haga uno de diseño de experimentos, con taguchi

Ada Nicol Lloret Rey

student•

Buen curso! Aunque esperaba más, creo que es una buena base para después con más cursos profundizar! Gracias

Yesner Alexander Tellez Salgado

student•

Muchas gracias, he disfrutado mucho el curso.

Erik gonzalez

student•

Muy bueno el curso

jose gregorio medina salas

student•

Muy buen curso, por mas cursos como este <3

Santiago Romero Estrada

student•

Excelente curso, muy buena profesora, esperemos seguir viendo mas clases con ella.

Gabriel Obregón

student•

📘Estadística y Ciencia de Datos

🔹 Lo aprendido en el curso

✨ Fundamentos clave:

📊 Media, mediana y varianza.
👥 Diferencia entre población y muestra.
🎯 Selección adecuada de muestras (evitar sesgos).
❌ Errores comunes en validación de hipótesis.
✅ Métodos para validar modelos estadísticos.
📏 Cálculo de intervalos de confianza.

👉 Resultado: interpretar datos con precisión + conclusiones confiables.

🔹 Importancia de una muestra adecuada

📌 Razón: representa a la población sin estudiar a todos.

🔑 Beneficios:

🌍 Generalizar resultados.
⚡ Hacer análisis más rápidos.
💰 Reducir costos y tiempo.
🎯 Modelos más precisos y fiables.

🔹 Aplicación en Machine Learning

🧠 Los conceptos estadísticos son la base de modelos efectivos.

Permiten:

🔍 Interpretar datos correctamente.
📏 Establecer intervalos de confianza.
🧪 Validar hipótesis antes de aplicar modelos.

✅ Garantías:

📚 El modelo aprende bien.
🎯 Predicciones confiables y precisas.
🛡️ Se evitan errores graves en el rendimiento.

Mario Alexander Vargas Celis

student•

¡Perfecto! La estadística es una de las bases fundamentales para la Ciencia de Datos y el Machine Learning, ya que permite entender los datos, hacer inferencias y construir modelos predictivos sólidos.

📊 ¿Qué áreas de la estadística son clave para Ciencia de Datos y ML?

1. Estadística Descriptiva

Resume y describe datos.
Conceptos:
- Media, mediana, moda
- Varianza y desviación estándar
- Distribución de frecuencias, cuartiles, percentiles
- Histogramas, boxplots

2. Probabilidad

Base para entender la incertidumbre y el comportamiento de los modelos.
Conceptos:
- Espacio muestral, eventos
- Probabilidad condicional y Teorema de Bayes
- Variables aleatorias, funciones de probabilidad y densidad

3. Distribuciones de Probabilidad

Importantes para modelar fenómenos.
Ejemplos:
- Distribución normal (gaussiana)
- Binomial, Poisson, uniforme, exponencial
- Distribución t (usada en inferencia y pruebas de hipótesis)

4. Inferencia Estadística

Hacer generalizaciones sobre una población a partir de una muestra.
Conceptos:
- Estimaciones puntuales y por intervalo (intervalos de confianza)
- Pruebas de hipótesis (p-valor, errores tipo I y II)
- Correlación y regresión

5. Muestreo

Técnicas para seleccionar subconjuntos representativos:
- Aleatorio simple
- Sistemático
- Estratificado
- Por conglomerados

6. Análisis de Correlación y Regresión

Para examinar relaciones entre variables:
- Correlación de Pearson/Spearman
- Regresión lineal simple y múltiple

7. Validación de Modelos (Estadística en ML)

Validación cruzada
Overfitting/underfitting
Métricas: precisión, recall, F1, AUC, etc.

8. Técnicas de Remuestreo

Bootstrapping
Jackknife
Usadas cuando los datos son escasos o no se pueden asumir distribuciones normales

📌 Aplicaciones directas en Machine Learning

Preprocesamiento: detectar outliers, normalizar datos, manejar valores faltantes
Selección de características: con análisis de varianza o correlación
Evaluación de modelos: con pruebas estadísticas y métricas
Interpretabilidad: entender la importancia y el efecto de las variables

Javier Ladino

student•

Gran curso.. solo queda aplicar y practicar a diferentes datasets.

Mario Enrique Bejarano G

student•

Sílvia, me pareció un buen curso por lo teórico y lo practico, felicitaciones y muchas gracias

Andres Felipe Vargas Gonzalez

student•

Gracias Maestra Silvia, ojalá me hubiesen explicado en la universidad de esta manera. Amé este curso!

Estadística para Ciencia de Datos y Machine Learning

Fundamentos de estadística inferencial

Estadística Inferencial para Ciencia de Datos e IA

Componentes Básicos de la Estadística

Distribución Normal: Conceptos y Ejemplos Prácticos

Tipos de Muestreo y Teorema del Límite Central

Funciones de muestra en Python: aleatorio y sistemático

Muestreo Estratificado: Creación y Aplicación en Python

Estadísticos y cálculos

Cálculo de la Media Muestral y Conceptos de Estadística Básica

Diferencias entre varianza y desviación estándar muestral y poblacional

Varianza y Desviación Estándar Automatizadas en Python

Intervalos de Confianza en Estadística y Ciencia de Datos

Cálculo de Intervalos de Confianza paso a paso

Cálculo y visualización de intervalos de confianza en Python

Pruebas de hipótesis y validación

Pruebas de Hipótesis en Ciencia de Datos e Inteligencia Artificial

Pruebas de Hipótesis: Test-Student, Pearson y ANOVA

Errores Tipo I y II en Pruebas de Hipótesis

Pruebas de Hipótesis con Python: Distribución t de Student

Análisis de Correlación y ANOVA en Python

Técnica de Bootstrapping para Muestras Pequeñas

Bootstrapping y Remuestreo en Python: Automatización Práctica

Validación Cruzada en Modelos de Inteligencia Artificial

Automatización de Validación Cruzada en Python para Modelos Predictivos

Cierre del curso

Estadística para Ciencia de Datos y Machine Learning