Qué son los intervalos de confianza

Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Contenido del curso

No sé dónde empezar

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística inferencial aplicada al machine learning
01:28 min

Tomar examen

Qué son los intervalos de confianza

Resumen

Los intervalos de confianza son una de las herramientas más usadas en estadística, ciencia de datos e inteligencia artificial para estimar dónde se concentra un valor desconocido de una población. Si trabajas con datos o estás aprendiendo análisis estadístico, entender este concepto te ayuda a tomar decisiones con mayor certeza sobre poblaciones que no puedes medir por completo.

Qué es un intervalo de confianza en estadística

Un intervalo de confianza es un par —o varios pares— de números entre los que se estima que se encuentra un valor desconocido de un parámetro poblacional, con un nivel de confianza determinado [0:18]. Dicho de forma simple: defines un límite inferior y uno superior, y dentro de ese rango se concentra el valor que buscas con cierta probabilidad.

Imagina una distribución con tu valor central, que corresponde a la media poblacional. A partir de ahí, encuentras desviaciones hacia la izquierda y hacia la derecha que te permiten construir distintos rangos posibles [0:55].

¿Qué mide un intervalo de confianza? Mide el rango de valores donde probablemente se encuentra un parámetro poblacional, junto con la probabilidad de que efectivamente esté ahí.

Por qué el nivel de confianza cambia el ancho del intervalo

El nivel de confianza define qué tan estricto eres al estimar. No es lo mismo pedir 99% de certeza que 68%: cada elección modifica directamente el ancho del rango.

Estos son los tres valores más usados en la práctica:

99%: muy estricto, el intervalo se vuelve más angosto y la exigencia de certeza es alta.
95%: punto intermedio, el más común en publicaciones científicas y modelos predictivos.
68%: más permisivo, el intervalo se ensancha porque aceptas más variabilidad.

La lógica detrás del ancho es directa: si exiges más certeza, necesitas considerar un rango más amplio de la distribución. Y aquí viene lo interesante, los intervalos siempre se comportan de forma simétrica respecto al eje central, que es la media [1:35].

Cuándo usar 99%, 95% o 68%

La elección depende del tipo de estudio que estés haciendo. En un estudio médico orientado a salvar vidas, optas por niveles muy estrictos como 99% porque el costo de equivocarte es altísimo. En cambio, si tu análisis es exploratorio o experimental, puedes trabajar con 68% o 95% sin comprometer el objetivo [1:50].

Qué es el nivel de significancia y cómo se relaciona con la hipótesis nula

El nivel de significancia indica el valor alpha con el que decides si un resultado es estadísticamente significativo o no [2:25]. Es el umbral que separa rechazar o no rechazar tu hipótesis nula.

Cuando el valor obtenido es menor que el nivel de significancia, aceptas que el resultado es estadísticamente significativo. En una distribución, el área central representa no rechazar la hipótesis nula, es decir, asumir que no hay anomalía o diferencia entre las distribuciones que comparas [2:45].

En los extremos —tanto a la izquierda como a la derecha, de forma simétrica— se ubica la probabilidad de rechazo, que indica que las dos distribuciones o parámetros son distintos [3:05].

¿Qué significa rechazar la hipótesis nula? Significa que los datos muestran evidencia suficiente de que existe una diferencia real entre los grupos comparados, más allá del azar.

Cómo se interpreta un intervalo de confianza con un ejemplo

Supón que mides la estatura de personas que esquían con un intervalo de confianza del 95%. Lo que afirmas es que, con 95% de certeza, las estaturas caen entre 1.60 y 1.65 metros. Ese 5% restante representa la probabilidad de que el valor real quede fuera del rango, ya sea por debajo o por encima [3:35].

Si subes la exigencia a un 99% de confianza, solo te queda 1% de incertidumbre, que se reparte simétricamente: 0.5% en el extremo inferior y 0.5% en el extremo superior [3:55].

Cómo se aplica en ciencia de datos e inteligencia artificial

En ciencia de datos y machine learning, los intervalos de confianza te ayudan a comparar distribuciones entre grupos. Piensa en un análisis de estudiantes:

Estudiantes que estudian 20 horas: esperas calificaciones entre 8 y 10, con un intervalo angosto.
Estudiantes que estudian 5 horas: esperas calificaciones entre 5 y 10, con un intervalo más amplio.

¿La razón? Quien estudia más tiende a comportarse de forma más predecible, así que el rango de resultados se concentra. Quien estudia menos tiene mayor variabilidad, y eso ensancha el intervalo [4:30].

Esta lógica la aplicas constantemente cuando comparas modelos, segmentas usuarios o evalúas experimentos A/B. Cuéntame en los comentarios qué nivel de confianza usas con más frecuencia en tus análisis y por qué.

Tomas Pucutay

Estudiante

Creo que el tema es de los más importantes y sería mejor explicarlo con mayor detalle.

El intervalo de confianza es una consecuencia de bootstrapping como punto de partida. Bootstrapping es agarrar una muestra y como yo no se si esa muestra tiene los parámetros estadísticos de la población, entonces genero muchas grupos aleatorios de la misma muestra, cada una se calcula la media y todas esas medias que se pudieron generar muchas veces (ej. 100000), se hace un histograma. El resultado de ese histograma es una estimación más certera, si a ese histograma se calcula el 95% de los datos alrededor centrados. Ese es el intervalo de confianza al 95%. Entonces a mayor intervalo de confianza, ej 99% el intervalo es más abierto. A menor intervalo de confianza 68% el intervalo es más cerrado. Eso es lo opuesto a lo explicado en 1:35

Sobre la hipótesis nula, cuidado con el juego de palabras, en realidad es lo opuesto a lo explicado. La hipótesis nula siempre asume que no hay una diferencia estadística significativa. Es decir que todo es similar. Cuando aceptas la hipótesis nula, le das la razón que todo es similar. cuando rechazas la hipótesis nula, por el contrario aceptas que hay diferencias. En 2:54 menciona "no rechazar la hipótesis nula, es decir no rechazar que nuestras distribuciones sean diferentes", ese texto indica que la hipótesis nula es la hipótesis de que hay diferencias, y esa es la definición de la hipótesis alternativa

Jeinfferson Bernal G

Estudiante

Al ver esa parte de la clase, me causo mucha confusion ya que hasta la distribucion indicaba un rango mas abierto para el 99%. con tu comentario queda todo mucho claro. Gracias 👍🏻

Javier Orlando Herrera Rodríguez

Carlos Almeida

Luis Valle

David Carrillo Castillo

Matías Collado

Nestor Ramirez

Jefferson Cortés Gutiérrez

Patricio Sánchez Fernández

Joaquín Alejandro Domínguez Lozano

Jonathan Smith Llanos Mejia

Fernando Burgos

Leonardo Martínez

Dionicio Perez

Jorge Briceño

Nicolas Acosta

Jesús Junior Alvarado Peña

Christopher Brian Guzmán Martínez

Juan Antonio Oneto Pellizzoni

jhon velasque

Jhon Freddy Tavera Blandon

Qué son los intervalos de confianza

Fundamentos de estadística inferencial

Estadística inferencial vs descriptiva en IA

Componentes principales de la estadística

Qué es la distribución normal y sus ejemplos

Tipos de muestreo y teorema del límite central

Muestreo aleatorio y sistemático en Python

Muestreo estratificado con pandas en Python

Estadísticos y cálculos

Media muestral vs media poblacional

Varianza poblacional vs muestral en estadística

Varianza y desviación estándar en Python