Pruebas de Hipótesis: Conceptos y Aplicaciones Estadísticas

Clase 17 de 37Curso de Estadística Inferencial con R

Una prueba de hipótesis o también denominada prueba de significación tiene como objetivo principal evaluar y justificar suposiciones o afirmaciones acerca de los valores estadísticos de la población (parámetros). De modo que resulta muy importante para la toma de decisiones estadísticas frente a la caracterización del estudio, no sin antes plantear las posibles características de la población. En otras palabras, una prueba de hipótesis permite establecer la veracidad de planteamientos hipotéticos en una población a partir de información de una muestra aleatoria.

Este tema debes haberlo visto antes de este curso. Sin embargo, nunca es un mal momento para revisarlo.

Historia breve

Inicialmente la historia de las pruebas de hipótesis no ha estado exenta de controversias y desacuerdos desde su origen, factor que ha conducido a diversas dificultades para su aplicación e interpretación. De todas formas los artículos que plasman los elementos lógicos se dieron a principios del siglo XX, entre las décadas de 1920 y 1930 como resultado de dos fuentes de pensamiento en donde por un lado está Ronald Fischer (1890-1962) y por el otro está Jerzy Neyman (1894-1981) en compañía de Egon Pearson (1895-1980).

De acuerdo al enfoque de Fischer, la prueba de hipótesis se caracteriza únicamente por una hipótesis conocida como hipótesis nula y con base al estadístico de prueba se estima la probabilidad de una muestra de datos para decidir sobre el rechazo o no del supuesto o hipótesis. Los datos solo permiten rechazar la hipótesis pero no puede ser confirmada. Sin embargo, para Neyman-Pearson y el enfoque propuesto se adiciona una hipótesis alternativa que se contrapone a la hipótesis nula y orienta a la definición de regiones (de rechazo y no rechazo). Otro anexo son los errores asociados a la hipótesis nula, tales como los errores tipo I y tipo II. Posteriormente la integración de los dos modelos por parte de estadísticos, investigadores y autores de libros de texto se hizo práctica común desde 1935.

Objetivo de una prueba de hipótesis

Como se mencionó, el objetivo de una prueba de hipótesis es establecer la veracidad de planteamientos hipotéticos en una población a partir de información de una muestra aleatoria. Para esto es necesario recorrer un camino que convertirá nuestra hipótesis en verdadera. Este camino está compuesto por varios personajes, que son:

  • La hipótesis nula

  • La hipótesis alterna

  • El estadístico de prueba

  • La región de rechazo

  • El p-valor

  • El error tipo I

  • El error tipo II

  • La significancia alpha

  • La potencia 1 - beta

Sistema de hipótesis

El sistema de hipótesis está conformado por una hipótesis nula y una hipótesis alterna denotadas por H0 y Ha respectivamente. Cada hipótesis es una afirmación que puede ser falsa o verdadera. Más específicamente estas afirmaciones se refieren a la pertenencia del parámetro a un conjunto específico. En general un sistema de hipótesis debe lucir así:

H0 : θ ∈ Ω0

Ha : θ ∈ Ωa

Siendo θ el parámetro y el conjunto nulo Ω0 un subconjunto del espacio de parámetros disjunto del conjunto alterno Ωa.

Entonces, una prueba de hipótesis se trata de determinar cuál de las dos hipótesis mostradas es verdadera tomando en consideración la información proveniente de la muestra.

Es posible tomar como ejemplo el sistema de hipótesis de igualdad de medias. Nos damos cuenta allí que la hipótesis nula utiliza el subconjunto Ω0 = {μ0} mientras la hipótesis alterna hace uso de su complemento.

H0 : μ = μ0

Ha : μ ≠ μ1

Sin embargo esta no es la única configuración admisible. La hipótesis alterna puede ser distinta:

Ha : μ > μ0

Ha : μ < μ0

Tomando distintos conjuntos alternos Ωa. Sin embargo, no es posible tomar distintas hipótesis nulas.

Esto sucede porque cada prueba de hipótesis tiene un estadístico denominado el estadístico de la prueba, de manera que cuando la hipótesis nula es verdadera, la distribución del estadístico de la prueba es conocida. Al cambiar la hipótesis nula, este conocimiento se pierde, es decir, el funcionamiento del estadístico de la prueba no es el mismo.

Errores tipo I y II

El error tipo I ocurre al rechazar H0 dado que H0 es cierta, y su probabilidad se representa por α, que se conoce como nivel de significancia. El error tipo II ocurre al no rechazar H0 dado que H0 es falsa, y su probabilidad se representa por β cuya transformación 1 - β se conoce como la potencia de la prueba.

H0 VerdaderaH0 Falsa
Rechazo H0Error Tipo I = αDecisión correcta
No Rechazo H0Decisión correctaError Tipo II = β

Estadístico de la prueba y región crítica

Como se mencionó, cada prueba de hipótesis tiene un estadístico T denominado el estadístico de la prueba cuya distribución (distribución nula) es conocida cuando la hipótesis nula es verdadera F0. Sin embargo, cuando la hipótesis nula es falsa la distribución de este estadístico resulta desconocida, solo sabemos que es lejana de la distribución nula.

El procedimiento consiste en calcular el valor de este estadístico T a partir de la muestra y compararlo con la distribución nula F0. Para realizar esta comparación los estadísticos solían utilizar un concepto denominado región crítica.

La región crítica es un intervalo definido con una probabilidad α sobre la distribución nula F0. De manera que si el estadístico de la prueba T pertenece a esta región, entonces es muy probable (1 - α) que la hipótesis nula H0 sea falsa. Y en este caso la decisión a tomar sea rechazarla.

Estas regiones críticas cambian dependiendo del conjunto alterno Ωa. Cuando existe la posibilidad de que haya valores de mayor, menor o igual, el estadístico de prueba se comporta de manera distinta y por ende las regiones críticas también. Para el ejemplo de la prueba de hipótesis sobre la media puede verse así:

image26.png

Región crítica para cola izquierda, cuando la hipótesis alterna es Ha : μ < μ0

image27.png

Región crítica para cola derecha, cuando la hipótesis alterna es Ha : μ > μ0

image25.png

Región crítica para dos colas, cuando la hipótesis alterna es Ha : μ ≠ μ0

No obstante, estos conceptos han caído en desuso debido a la estandarización de las pruebas de hipótesis con el uso de los valores p.

p-valores

La definición de los p-valores es más compleja. Un p-valor tiene distintas definiciones dependiendo del caso que contempla el sistema de hipótesis, así:

  • Para el caso de cola izquierda un p-valor se calcula como el área bajo la curva menor al estadístico de la prueba. En este caso, p = F0(T).

  • Para el caso de cola derecha un p-valor se calcula como el área bajo la curva mayor al estadístico de la prueba. En este caso, p = 1 - F0(T).

  • Para el caso de dos colas un p-valor se calcula como dos veces el mínimo entre las áreas bajo la curva menor y mayor al estadístico de la prueba. En este caso p = 2 * min(F0(T), 1 - F0(T)).

De aquí se deduce que, al ser una función de una variable aleatoria, el p-valor es una variable aleatoria. La distribución de esta variable aleatoria es uniforme cuando la hipótesis nula es cierta.

Significancia α y potencia 1 - β

La probabilidad de error tipo I se denomina α o nivel de significancia. Dado que la distribución del estadístico de la prueba es conocida es posible determinar de antemano la probabilidad de error tipo I que vamos a asumir. Entonces, el nivel de significancia α se fija previo a la prueba.

Hay que tener en consideración que cuando la probabilidad de error tipo I disminuye, la probabilidad de error tipo II aumenta. Al especificar un α igual a cero esperaríamos que la probabilidad de error tipo I fuera nula, permitiendo un análisis óptimo sin este error. Sin embargo, lo que sucede en realidad con un α igual a cero es que nunca se rechaza la hipótesis nula H0. En este escenario las posibilidades son únicamente decisión correcta o error tipo II, aumentando aumenta la probabilidad de error tipo II. Esto lo puedes ver mejor en la tabla de arriba.

En el abordaje tradicional permite a su vez delimitar las regiones de rechazo y no rechazo de la hipótesis nula. Un α grande presenta regiones de rechazo mayores que un α cercano a cero.

Sin embargo, estos conceptos se simplifican al introducir el uso de p-valores. Puesto que al ser un p-valor una variable aleatoria uniforme bajo H0 es posible ver dos cosas:

  • La probabilidad de que siendo cierta H0 el valor p sea menor que α es α (error tipo I).

  • Siendo cierta Ha la probabilidad de que el valor p sea menor que α es alta (aunque no se tiene un valor, pues depende del tamaño de la muestra y de los parámetros) y se denomina potencia 1 - β.

La potencia de una prueba de hipótesis, entonces, es la probabilidad de que una prueba rechace correctamente la hipótesis nula cuando esta es falsa, es decir 1 - β. La potencia de una prueba de hipótesis es distinta según el problema que se aborda, depende además del tamaño de la muestra, los parámetros y el nivel de significancia establecida.

Una forma de medir la potencia de una prueba es ejecutarla varias veces sobre conjuntos de datos simulados a partir de un modelo donde la hipótesis nula es falsa y analizar la proporción de rechazos.

Conclusión

Las pruebas de hipótesis son herramientas estadísticas para conocer la población a partir de la información de la muestra, es importante que tengan resultados significativos pues de lo contrario la hipótesis no es poblacional sino solo muestral y no hay inferencia. Casi todas las preguntas que podemos hacerle a unos datos tienen una prueba de hipótesis asociada. Diferencia de medias entre dos, tres o más grupos, correlación, normalidad, homocedasticidad y muchas otras.