Pruebas de Hipótesis en Ciencia de Datos e Inteligencia Artificial

Clase 13 de 22 • Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Contenido del curso

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística para Ciencia de Datos y Machine Learning
01:28 min

Tomar examen

Resumen

Tomar decisiones basadas en datos requiere más que intuición: necesitas un método que te permita validar o descartar una teoría con rigor estadístico. Las pruebas de hipótesis son exactamente esa herramienta, y comprenderlas es fundamental para cualquier persona que trabaje en ciencia de datos o inteligencia artificial.

Una prueba de hipótesis, también llamada prueba de significación, permite juzgar si existe una diferencia significativa entre lo observado en una muestra y el parámetro general de una población [0:12]. En otras palabras, se trata de contrastar una teoría contra la evidencia disponible.

¿Qué es la hipótesis nula y la hipótesis alternativa?

Cuando planteamos una prueba de hipótesis, siempre trabajamos con dos escenarios posibles:

Hipótesis nula (H0): representa el resultado más esperado, la situación "normal". Es lo que creemos que sucede cuando no hay ningún efecto especial. Por ejemplo, que la gente viva igual de tiempo en ciudades frías que en ciudades cálidas [0:35].
Hipótesis alternativa (H1): es el escenario contrario, el que indica que sí existe una diferencia. Si descubrimos que en ciudades frías la gente vive más, estaríamos rechazando la hipótesis nula y aceptando la alternativa [0:52].

Visualmente, la hipótesis nula corresponde a la concentración central de una distribución, mientras que la hipótesis alternativa se ubica en los extremos, tanto del lado izquierdo como del derecho [1:03].

¿Cómo se aplican las pruebas de hipótesis en negocios reales?

En ciencia de datos no se hacen estudios genéricos; el análisis se enfoca en un caso particular [1:13]. Imagina que trabajas en una empresa que comercializa cervezas. Tu hipótesis podría ser que en verano se vende más cerveza porque hace más calor [1:22].

Tu H0 sería: no hay diferencia en las ventas a lo largo del año.
Tu H1 sería: cuando hace más calor, las ventas de cerveza aumentan.

Si los datos confirman que efectivamente se vende más cerveza en temporada de calor, te irías por la hipótesis alternativa [1:35].

¿Cuáles son los pasos para realizar una prueba de hipótesis?

El proceso sigue una secuencia clara y ordenada [1:42]:

Establecer H0 y H1: definir qué es lo esperado y qué sería la diferencia que buscas comprobar.
Definir el nivel de significancia: decidir con qué porcentaje de certeza quieres detectar diferencias: ochenta, noventa o noventa y nueve por ciento [1:50].
Seleccionar el estadístico de prueba: elegir la herramienta matemática adecuada para contrastar las distribuciones [2:00].
Crear una regla de decisión: por ejemplo, solo actuar si la diferencia es significativa al noventa y nueve por ciento de confianza. Si la diferencia aparece apenas al sesenta y ocho por ciento, quizá no justifica tomar acción [2:05].
Tomar una decisión: validar si la diferencia existe y actuar en consecuencia [2:20].

¿Por qué importa el nivel de significancia en la toma de decisiones?

El nivel de significancia determina cuánta certidumbre necesitas antes de cambiar una estrategia. No es lo mismo detectar un patrón con un sesenta y ocho por ciento de confianza que con un noventa y nueve por ciento. Las empresas definen este umbral como parte de su regla de decisión, lo que evita actuar sobre diferencias que podrían ser simplemente ruido estadístico [2:10].

El objetivo final de todo este proceso es pasar de los datos a la acción. Si confirmas que las ventas de cerveza aumentan en época de calor, podrías anticiparte un mes y lanzar campañas publicitarias antes que la competencia [2:30]. Esa es la diferencia entre analizar datos por curiosidad y hacerlo con un propósito estratégico.

El análisis con pruebas de hipótesis aporta un nivel de confianza medible a cada decisión. ¿Has aplicado pruebas de hipótesis en algún proyecto? Comparte tu experiencia en los comentarios.

Comentarios

Axel Yaguana

Team Platzi•

Significancia estadística

Cuando hacemos una prueba de hipótesis, buscamos significancia estadística para aceptar o rechazar.

Un resultado tiene significancia estadística cuando este tiene poca probabilidad de haber ocurrido dada la hipótesis nula. Para esto usamos el p-value.

P-value

Es la probabilidad de obtener un valor que sea al menos tan extremo como el observado, considerando que la hipótesis nula sea verdadera.

Para que exista significancia, el p-value debe ser menor que 0.05, o en otros casos, menor que 0.01.

Juan R. Vergara M.

student•

Muy buen aporte extra 🥇

Axel Yaguana

Team Platzi•

¡Súper que te estén sirviendo los aportes, Juan Raúl! :D

Andres Gutiérrez Castillo

student•

pasos a seguir establecer una hipótesis nula H(0) y una hipótesis alternativa H(1). ejemplo: H(0) = la hipótesis más aceptada: las ventas de cerveza son las mismas en cualquier época del año. la gente vive lo mismo en todos los países. H(1): en verano se vende más cerveza. la gente vive más en países nórdicos. seleccionar el nivel de significancia. con qué certidumbre queremos encontrar estas diferencias entre las distribuciones. seleccionar el estadístico de prueba. tenemos: t de student(en poblaciones pequeñas, sin datos de distribución), coeficiente pearson(medir correlación) o ANOVA (comparar la varianza de las distribuciones) formular la regla de decisión. ejemplo: si para el 99% de seguridad tenemos una diferencia vamos a hacer un cambio en la empresa. interpretar los resultados y tomar una decisión. si H(1) es real entonces hay que incrementar nuestro marketing en verano.

Carlos Mazzaroli

student•

Muchas gracias por tu aporte! Me ayudo para entender el punto 3 que no comprendi :)

Jhon Freddy Tavera Blandon

student•

Las pruebas de hipótesis son una herramienta estadística utilizada para determinar si hay suficiente evidencia para aceptar o rechazar una sustentada o hipótesis sobre una población. Estas pruebas se basan en la comparación entre un parámetro poblacional (como la media, la proporción, etc.) y un valor esperado o una hipótesis nula. A través de la comparación de los datos de una muestra, se determina si hay suficiente evidencia para aceptar o rechazar la hipótesis nula.

Hay dos tipos de errores que se pueden cometer al realizar una prueba de hipótesis: el error tipo I y el error tipo II. El error tipo I es el rechazo de una hipótesis nula verdadera (falso positivo), mientras que el error tipo II es la aceptación de una hipótesis nula falsa (falso negativo).

Los pasos básicos en una prueba de hipótesis son los siguientes:

Formular una hipótesis nula y una hipótesis alternativa.
Seleccione un nivel de significancia (alfa) que determina el nivel de precisión deseado.
Calcular un estadístico de prueba a partir de los datos de la muestra.
Calcular el valor py compararlo con el nivel de significancia.
Tomar una decisión sobre la hipótesis nula.

++Significancia estadistica++

La significancia estadística es una medida de la fuerza de la evidencia contra una hipótesis nula. Se utiliza en las pruebas de hipótesis para determinar la probabilidad de obtener un resultado tan extremo o más extremo que el observado en los datos, si la hipótesis nula es cierta. Este valor se conoce como valor p.

En una prueba de hipótesis, se establece un nivel de significancia previamente (alfa). Si el valor p es menor que el nivel de significancia establecido, se rechaza la hipótesis nula y se considera que el resultado es estadísticamente significativo. Si el valor p es mayor o igual al nivel de significancia, no se tiene evidencia suficiente para rechazar la hipótesis nula y se considera que el resultado no es estadísticamente significativo.

Yonatan Efraín Jara Boza

student•

Recomiendo mucho esta serie de Estadística prueba de hipótesis que revise en youtube. Me ha ayudado bastante a entender mejor esta y las siguientes clases de este curso, obviaaamente tiene una duración mayor pero vale la pena si estas pérdido.

Fernando Jesús Núñez Valdez

student•

Este artículo me ayudo a entender mejor los niveles de significancia y los valores p.

Juan R. Vergara M.

student•

Gracias por el aporte compañero.

Juan José Mamani Tarqui

student•

QUE SON LAS PRUEBAS DE HIPOTESIS ?

En estadística, una prueba de hipótesis es un procedimiento para evaluar si una afirmación sobre una población es compatible con la evidencia proporcionada por una muestra de datos. Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la hipótesis nula y la hipótesis alternativa.

Hipótesis nula (H0): Es la hipótesis que se probará. Por lo general, la hipótesis nula es un enunciado de que "no hay efecto" o "no hay diferencia".

Hipótesis alternativa (H1): Es la hipótesis que se desea poder concluir que es verdadera de acuerdo con la evidencia proporcionada por los datos de la muestra.

El objetivo de una prueba de hipótesis es determinar si existe suficiente evidencia para rechazar la hipótesis nula. Si se rechaza la hipótesis nula, se concluye que la hipótesis alternativa es verdadera.

Pasos para realizar una prueba de hipótesis

Fórmulacion de hipótesis: Se formulan las hipótesis nula y alternativa.
Selección del nivel de significancia: Se selecciona el nivel de significancia, que es la probabilidad de rechazar la hipótesis nula cuando es verdadera. El nivel de significancia se suele establecer en 0,05 o 0,01.
Cálculo del estadístico de prueba: Se calcula un estadístico de prueba, que es una medida de la discrepancia entre los datos observados y la hipótesis nula.
Compara el valor del estadístico de prueba con el valor crítico: Se compara el valor del estadístico de prueba con el valor crítico, que es el valor del estadístico de prueba que se esperaría observar con probabilidad α si la hipótesis nula fuera verdadera.
Toma de una decisión: Si el valor del estadístico de prueba es mayor que el valor crítico, se rechaza la hipótesis nula. Si el valor del estadístico de prueba es menor o igual que el valor crítico, no se rechaza la hipótesis nula.

Tipos de pruebas de hipótesis

Existen diferentes tipos de pruebas de hipótesis, que se clasifican según la naturaleza de los datos y la distribución de la población. Algunos de los tipos más comunes de pruebas de hipótesis son:

Pruebas paramétricas: Se utilizan cuando los datos provienen de una población que sigue una distribución conocida.
Pruebas no paramétricas: Se utilizan cuando los datos no provienen de una población que sigue una distribución conocida.
Pruebas de comparación de medias: Se utilizan para comparar las medias de dos o más poblaciones.
Pruebas de comparación de proporciones: Se utilizan para comparar las proporciones de dos o más poblaciones.

Importancia de las pruebas de hipótesis

Las pruebas de hipótesis son una herramienta importante en la estadística inferencial. Se utilizan para tomar decisiones sobre la base de la evidencia proporcionada por los datos. Las pruebas de hipótesis se utilizan en una amplia gama de campos, incluyendo la ciencia, la ingeniería, la medicina y los negocios

Neicer Vásquez

student•

Aporto algo importante y que en el párrafo 4 indicas lo siguiente:

"El objetivo de una prueba de hipótesis es determinar si existe suficiente evidencia para rechazar la hipótesis nula. Si se rechaza la hipótesis nula, se concluye que la hipótesis alternativa es verdadera."

Pero en realidad esa información no es del todo correcta, ya que al rechazar la hipótesis nula no significa que la hipótesis alternativa sea verdadera, simplemente nos dice que la evidencia está más acorde con la hipótesis alternativa.

Carlos Mazzaroli

student•

Qué es la regla de decisión, para qué sirve y cómo se construye

Daniel Andres Rojas Paredes

student•

La hipótesis nula (H0) es una afirmación estadística que se establece como una suposición inicial para ser probada o rechazada mediante una prueba estadística. La hipótesis nula es una declaración de "no efecto" o "no diferencia" entre dos o más grupos o variables.

La hipótesis nula se utiliza como un punto de partida para la prueba estadística, y se rechaza o no se rechaza en función de los resultados de la prueba. Si la prueba estadística muestra que los datos son inconsistentes con la hipótesis nula, se rechaza la hipótesis nula y se acepta la hipótesis alternativa (H1).

Ejemplos de hipótesis nula

"No hay diferencia en la media de altura entre hombres y mujeres."
"El nuevo medicamento no tiene efecto sobre la presión arterial."
"La variable X no está relacionada con la variable Y."

Características de la hipótesis nula

Debe ser clara y precisa.
Debe ser falsable, es decir, debe ser posible probarla o refutarla mediante una prueba estadística.
Debe ser una declaración de "no efecto" o "no diferencia".

Importancia de la hipótesis nula

La hipótesis nula es fundamental para la prueba estadística, ya que proporciona un punto de partida para la prueba.
La hipótesis nula ayuda a evitar la confirmación de sesgos, ya que se establece como una suposición inicial que debe ser probada o rechazada.
La hipótesis nula es esencial para la toma de decisiones informadas en diversos campos, como la medicina, la psicología, la economía, entre otros.

Gabriel Obregón

student•

📌PRUEBAS DE HIPÓTESIS

🔍 ¿QUÉ SON?

Método estadístico para comparar una muestra con un parámetro general.
Sirven para validar teorías → lo esperado vs lo observado.
Ejemplo: ¿Se vive más en ciudades frías que en cálidas?

🎯 HIPÓTESIS

✨ Hipótesis Nula (H0)

Representa la situación normal, sin efecto.
Ejemplo: las ventas de cerveza no cambian según la estación.

⚡ Hipótesis Alternativa (H1)

Contradice a H0, propone un cambio o efecto.
Ejemplo: el calor aumenta las ventas de cerveza en verano.

📏 NIVEL DE SIGNIFICANCIA

Indica qué tan seguro debemos estar para rechazar H0.
🔒 99% → Evidencia MUY fuerte.
⚠️ 68% → Evidencia débil, no concluyente. 👉 Mide la fuerza de la evidencia contra H0.

🧮 ESTADÍSTICO + 📜 REGLA DE DECISIÓN

1️⃣ Elegir un estadístico → depende del tipo de datos y su distribución.

2️⃣ Definir una regla de decisión → acción a tomar si hay diferencia significativa.

Ejemplo: ✔️ Con 99% de certeza de que el clima influye → la empresa cambia estrategia de ventas en verano.

🚀 ACCIONES AL VALIDAR

📊 En análisis de datos: guía decisiones estratégicas.
💼 En negocios: → Si se confirma que las ventas suben en verano → invertir más en publicidad antes de la temporada.

Iván Alexis Nocua Benitez

student•

¿Entonces cuando rechazamos nuestra hipotesis nula (H0) quiere decir que aceptamos nuestro hipotesis alternativa(H1)?

JULIO ALEXANDER JAIMES SOCHA

student•

cómo podemos saber si debemos usar una prueba de una cola o de dos colas al plantear nuestra hipótesis, y qué impacto tiene esta elección en la interpretación de los resultados?

JULIO ALEXANDER JAIMES SOCHA

student•

Hoy exploramos un tema central en estadística: las pruebas de hipótesis, una herramienta esencial para tomar decisiones basadas en evidencia. Me pareció especialmente útil entender cómo se estructura este proceso desde el planteamiento de la hipótesis hasta la toma de decisiones estratégicas.

🔍 Puntos clave que destaco:

La hipótesis nula (H₀) representa la normalidad, mientras que la hipótesis alternativa (H₁) plantea un cambio o diferencia. Este enfoque nos obliga a analizar los datos con objetividad.
El nivel de significancia (α) es nuestra guía para decidir si los resultados son suficientemente sólidos como para rechazar H₀. Por ejemplo, un α del 0.01 indica que solo aceptaremos un 1% de margen de error.
La importancia de elegir un estadístico adecuado y definir una regla de decisión clara nos ayuda a transformar el análisis en acciones concretas.

📈 Reflexión personal: Las pruebas de hipótesis no solo son útiles en investigaciones científicas, sino también en el mundo real: desde evaluar si una campaña publicitaria fue efectiva hasta decidir si se debe lanzar un nuevo producto. Lo más valioso es que nos enseñan a no tomar decisiones por intuición, sino por evidencia estadística.

➡️ Recomendación: Practicar con ejemplos reales y experimentar con diferentes niveles de significancia ayuda mucho a comprender el impacto que tiene cada decisión dentro del análisis.

Mario Alexander Vargas Celis

student•

📊 Pruebas de Hipótesis en Ciencia de Datos e Inteligencia Artificial

Las pruebas de hipótesis son fundamentales en ciencia de datos e inteligencia artificial (IA) porque permiten tomar decisiones informadas a partir de datos. Se utilizan para determinar si una observación es estadísticamente significativa o si podría haber ocurrido por azar.

🧠 ¿Qué es una prueba de hipótesis?

Una prueba de hipótesis es un procedimiento estadístico para evaluar una afirmación (hipótesis) sobre una población utilizando datos muestrales.

🧪 Componentes clave

Hipótesis nula (H₀): Afirmación que se pone a prueba. Generalmente representa el “estado natural” o la ausencia de efecto.> Ejemplo: "No hay diferencia entre los modelos A y B."
Hipótesis alternativa (H₁ o Hₐ): Lo que queremos demostrar. Indica un cambio o efecto.> Ejemplo: "El modelo A tiene mejor precisión que el B."
Nivel de significancia (α): Probabilidad de rechazar la hipótesis nula cuando es verdadera. Comúnmente se usa 0.05 (5%).
Valor p (p-value): Probabilidad de obtener un resultado tan extremo como el observado, asumiendo que H₀ es verdadera.
Decisión:
- Si p < α, se rechaza H₀ → el resultado es estadísticamente significativo.
- Si p ≥ α, no se rechaza H₀.

🧠 Ejemplos de uso en Ciencia de Datos e IA

SituaciónHipótesisAplicaciónEvaluación de un modeloH₀: Modelo nuevo no mejora la precisión. H₁: Modelo nuevo mejora la precisión.A/B Testing de modelos de ML.Validación de featuresH₀: La nueva variable no afecta el target. H₁: La variable sí afecta el target.Selección de características.Experimentos de usuariosH₀: No hay cambio en la tasa de conversión. H₁: Sí hay cambio.Experimentos en apps o sitios web.

🛠 Herramientas en Python

from scipy import stats

# Prueba t de dos muestras independientes stats.ttest_ind(grupo_A, grupo_B)

# Prueba de proporciones stats.binom_test(successes, n=total, p=0.5)

🚨 Importancia en IA

Validación de hipótesis sobre datos: ¿Es útil esta variable? ¿Influye esta técnica?
Evaluación de modelos: ¿Un nuevo algoritmo es mejor?
Evitar falsos descubrimientos: Controlar el error tipo I (falsos positivos).

Gonzalo Ceron Denetro

student•

Hipótesis: Es una afirmación acerca de un parámetro poblacional y que esta sujeta a una verificación.

Prueba de hipótesis: Es un procedimiento, basado en evidencia de la muestra y teoría de probabilidades, para determinar si nuestra hipótesis es una afirmación razonable.

Para realizar una prueba de hipótesis debemos establecer una hipótesis nula y una alternativa.

Hipótesis Nula H0: Es cualquier hipótesis que sea desea probar

Hipótesis alternativa H1: Es la hipótesis se acepta cuando la hipótesis nula es rechazada.

La hipótesis nula se rechaza si y solo si los datos ofrecen evidencia suficiente para no considerarla verdadera.

Para saber que tenemos suficiente evidencia utilizamos un nivel de significancia.

Nivel de significancia: Es la probabilidad de rechazar la hipótesis nula cuando es verdadera. Se denota como α

No queremos tener una probabilidad de rechazar la hipótesis nula cuando es verdadera demasiada alta, entonces normalmente el nivel de significancia esta entre 1% y 5%.

Como estamos trabajando con datos de una muestra, es posible cometer dos tipos de errores:

Error tipo I: Cuando se rechaza una hipótesis que es correcta, La probabilidad de cometer este error se denota como α

Error tipo II: Cuando se acepta una hipótesis que es incorrecta. La probabilidad de cometer este error se denota como β.

Debemos de establecer un estadístico de prueba para comparalo con un valor crítico, es decir, el valor determinado por el nivel de significancia

Los pasos que se realizan para una prueba de hipótesis son:

1.- Formular una hipótesis

2.- Establecemos una hipótesis nula y alternativa

3.- Seleccionamos un nivel de significancia

4.- Calculo de estadístico de la prueba

5.- Comparar el valor crítico con el valor estadístico

6.- Tomar una decisión

JAKSON VELASQUEZ MUÑOZ

student•

https://youtu.be/5ZvKgnRVSjI

Pruebas de Hipótesis en Ciencia de Datos e Inteligencia Artificial

Fundamentos de estadística inferencial

Estadística Inferencial para Ciencia de Datos e IA

Componentes Básicos de la Estadística

Distribución Normal: Conceptos y Ejemplos Prácticos

Tipos de Muestreo y Teorema del Límite Central

Funciones de muestra en Python: aleatorio y sistemático

Muestreo Estratificado: Creación y Aplicación en Python

Estadísticos y cálculos

Cálculo de la Media Muestral y Conceptos de Estadística Básica

Diferencias entre varianza y desviación estándar muestral y poblacional

Varianza y Desviación Estándar Automatizadas en Python

Intervalos de Confianza en Estadística y Ciencia de Datos

Cálculo de Intervalos de Confianza paso a paso

Cálculo y visualización de intervalos de confianza en Python

Pruebas de hipótesis y validación

Pruebas de Hipótesis en Ciencia de Datos e Inteligencia Artificial

Pruebas de Hipótesis: Test-Student, Pearson y ANOVA

Errores Tipo I y II en Pruebas de Hipótesis

Pruebas de Hipótesis con Python: Distribución t de Student

Análisis de Correlación y ANOVA en Python

Técnica de Bootstrapping para Muestras Pequeñas

Bootstrapping y Remuestreo en Python: Automatización Práctica

Validación Cruzada en Modelos de Inteligencia Artificial

Automatización de Validación Cruzada en Python para Modelos Predictivos

Cierre del curso

Estadística para Ciencia de Datos y Machine Learning