Pruebas de Hipótesis en Ciencia de Datos e Inteligencia Artificial

Clase 13 de 22Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Contenido del curso

Pruebas de hipótesis y validación

Resumen

Tomar decisiones basadas en datos requiere más que intuición: necesitas un método que te permita validar o descartar una teoría con rigor estadístico. Las pruebas de hipótesis son exactamente esa herramienta, y comprenderlas es fundamental para cualquier persona que trabaje en ciencia de datos o inteligencia artificial.

Una prueba de hipótesis, también llamada prueba de significación, permite juzgar si existe una diferencia significativa entre lo observado en una muestra y el parámetro general de una población [0:12]. En otras palabras, se trata de contrastar una teoría contra la evidencia disponible.

¿Qué es la hipótesis nula y la hipótesis alternativa?

Cuando planteamos una prueba de hipótesis, siempre trabajamos con dos escenarios posibles:

  • Hipótesis nula (H0): representa el resultado más esperado, la situación "normal". Es lo que creemos que sucede cuando no hay ningún efecto especial. Por ejemplo, que la gente viva igual de tiempo en ciudades frías que en ciudades cálidas [0:35].
  • Hipótesis alternativa (H1): es el escenario contrario, el que indica que sí existe una diferencia. Si descubrimos que en ciudades frías la gente vive más, estaríamos rechazando la hipótesis nula y aceptando la alternativa [0:52].

Visualmente, la hipótesis nula corresponde a la concentración central de una distribución, mientras que la hipótesis alternativa se ubica en los extremos, tanto del lado izquierdo como del derecho [1:03].

¿Cómo se aplican las pruebas de hipótesis en negocios reales?

En ciencia de datos no se hacen estudios genéricos; el análisis se enfoca en un caso particular [1:13]. Imagina que trabajas en una empresa que comercializa cervezas. Tu hipótesis podría ser que en verano se vende más cerveza porque hace más calor [1:22].

  • Tu H0 sería: no hay diferencia en las ventas a lo largo del año.
  • Tu H1 sería: cuando hace más calor, las ventas de cerveza aumentan.

Si los datos confirman que efectivamente se vende más cerveza en temporada de calor, te irías por la hipótesis alternativa [1:35].

¿Cuáles son los pasos para realizar una prueba de hipótesis?

El proceso sigue una secuencia clara y ordenada [1:42]:

  • Establecer H0 y H1: definir qué es lo esperado y qué sería la diferencia que buscas comprobar.
  • Definir el nivel de significancia: decidir con qué porcentaje de certeza quieres detectar diferencias: ochenta, noventa o noventa y nueve por ciento [1:50].
  • Seleccionar el estadístico de prueba: elegir la herramienta matemática adecuada para contrastar las distribuciones [2:00].
  • Crear una regla de decisión: por ejemplo, solo actuar si la diferencia es significativa al noventa y nueve por ciento de confianza. Si la diferencia aparece apenas al sesenta y ocho por ciento, quizá no justifica tomar acción [2:05].
  • Tomar una decisión: validar si la diferencia existe y actuar en consecuencia [2:20].

¿Por qué importa el nivel de significancia en la toma de decisiones?

El nivel de significancia determina cuánta certidumbre necesitas antes de cambiar una estrategia. No es lo mismo detectar un patrón con un sesenta y ocho por ciento de confianza que con un noventa y nueve por ciento. Las empresas definen este umbral como parte de su regla de decisión, lo que evita actuar sobre diferencias que podrían ser simplemente ruido estadístico [2:10].

El objetivo final de todo este proceso es pasar de los datos a la acción. Si confirmas que las ventas de cerveza aumentan en época de calor, podrías anticiparte un mes y lanzar campañas publicitarias antes que la competencia [2:30]. Esa es la diferencia entre analizar datos por curiosidad y hacerlo con un propósito estratégico.

El análisis con pruebas de hipótesis aporta un nivel de confianza medible a cada decisión. ¿Has aplicado pruebas de hipótesis en algún proyecto? Comparte tu experiencia en los comentarios.

      Pruebas de Hipótesis en Ciencia de Datos e Inteligencia Artificial