Cálculo y visualización de intervalos de confianza en Python

Clase 12 de 22 • Curso de Estadística Inferencial para Data Science e Inteligencia Artificial

Contenido del curso

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística para Ciencia de Datos y Machine Learning
01:28 min

Tomar examen

Resumen

¿Cómo calcular intervalos de confianza en Python?

En el mundo de la estadística y el análisis de datos, los intervalos de confianza son una herramienta fundamental. Estos intervalos nos permiten estimar el rango dentro del cual se encuentra un parámetro poblacional con un determinado nivel de confianza. A continuación, aprenderás cómo calcular y visualizar intervalos de confianza en Python, utilizando poderosas librerías como NumPy y Seaborn.

¿Qué librerías necesito para empezar?

Para calcular intervalos de confianza en Python, es esencial contar con ciertos paquetes que faciliten la manipulación de datos y la visualización gráfica. En este caso, utilizaremos las siguientes librerías:

Pandas: Ideal para la manipulación y análisis de datos.
NumPy: Útil para la creación de arrays y operaciones matemáticas sobre ellos.
Seaborn: Proporciona una interfaz para crear atractivas visualizaciones estadísticas.
Seapy.stats: Una librería que nos permite realizar cálculos estadísticos avanzados.

Para empezar, importa las librerías necesarias:

import pandas as pd
import numpy as np
import seaborn as sns
from scipy import stats

¿Cómo puedo crear datos simulados para el análisis?

En un primer paso, crearemos los datos que vamos a analizar. No es necesario importar un dataset, ya que aprenderemos a generarlo utilizando NumPy. Estos datos simularán días de vacaciones y dinero gastado:

np.random.seed(20)  # Fijamos una semilla para reproducibilidad
dias_vacaciones = np.random.randint(0, 10, 10)  # Números aleatorios del 0 al 10
dinero_gastado = dias_vacaciones + np.random.rand(10)  # Suma de números aleatorios continuos

¿Cómo visualizo los datos y los intervalos de confianza?

Podemos visualizar la relación entre las variables dias_vacaciones y dinero_gastado usando Seaborn, y al mismo tiempo mostrar un intervalo de confianza del 80%.

sns.regplot(x=dias_vacaciones, y=dinero_gastado, ci=80)  # Visualización con intervalo de confianza del 80%

¿Cómo unimos las variables en un DataFrame?

Una vez generadas las variables, el siguiente paso es combinarlas en un DataFrame para facilitar su manejo y análisis posterior:

datos = list(zip(dias_vacaciones, dinero_gastado))  # Unir con un zip
tabla = pd.DataFrame(datos, columns=['Días de Vacaciones', 'Dinero Gastado'])  # Crear DataFrame
print(tabla)

¿Cómo calculo intervalos de confianza al 95%?

Finalmente, calcularemos los intervalos de confianza utilizando stats.norm.interval. Esto es especialmente útil si deseas determinar el rango en el cual se encuentra el promedio de días de vacaciones y el porcentaje de dinero gastado:

media_vacaciones = np.mean(dias_vacaciones)
desviacion_vacaciones = np.std(dias_vacaciones, ddof=1)
confianza_vacaciones = stats.norm.interval(0.95, loc=media_vacaciones, scale=desviacion_vacaciones/np.sqrt(len(dias_vacaciones)))

media_gasto = np.mean(dinero_gastado)
desviacion_gasto = np.std(dinero_gastado, ddof=1)
confianza_gasto = stats.norm.interval(0.95, loc=media_gasto, scale=desviacion_gasto/np.sqrt(len(dinero_gastado)))

print(f"Intervalo de confianza para Días de Vacaciones: {confianza_vacaciones}")
print(f"Intervalo de confianza para Dinero Gastado: {confianza_gasto}")

Este procedimiento no solo fortalece tu comprensión de los intervalos de confianza, sino que también te permite interpretar cómo estos intervalos se manifiestan en tus datos. ¡Te animamos a que practiques con diferentes conjuntos de datos y distintos niveles de significancia para consolidar tus habilidades analíticas!

Comentarios

Mauricio Gonzalo Aliendre Pérez

student•

Tambien se puede usar la funcion st.norm.interval para cuando se tiene una cantidad de muestras (n) mayor o igual a 30, esto debido a que con esta cantidad de muestras se puede asumir que los datos están normalmente distribuidos (teorema del limite central)

En resumen:

Si n<30 usamos st.t.interval
Si n>=30 usamos st.norm.interval

Fuente: https://www.statology.org/confidence-intervals-python/ | |

Ciro Villafraz

student•

Justo eso iba a comentar. En la clase anterior se habla de calcular el intervalo de confianza usando una tabla z (se usa para n >= 30), que sería equivalente a usar st.norm.interval Pero en esta clase se calcula usando st.t.interval, sin explicar que esto es equivalente a usar una tabla "t" https://www.tdistributiontable.com/

Alfonso Andres Zapata Guzman

student•

import plotly.express as px
import plotly.graph_objects as go
import plotly.offline as pyo

pyo.init_notebook_mode()

fig = px.scatter(x=pd.Series(var1), y=pd.Series(var2), color=var2, trendline="ols")

fig.update_layout(title = 'Relacion de viajados con respecto al dinero gastado',
                 font = dict(family = 'verdana', size = 16, color = 'white'),
                 template = 'plotly_dark',
                 height = 400,
                 width = 900)

fig.update_yaxes(ticksuffix = 'Dinero gastado')
fig.update_xaxes(ticksuffix = 'Dias de vacaciones')

fig.show()

# x = var1 = Dias de vacaciones
# y = var2 = Dinero gastado

def intervalo_de_confianza(tabla, alpha):
    resultado = st.norm.interval(alpha = alpha, loc=np.mean(tabla), scale=st.sem(tabla))
    print(f'Intervalo de confianza de datos con alpha {alpha}: {resultado}')
    

intervalo_de_confianza(tabla, 0.95)
intervalo_de_confianza(tabla, 0.99)

JOSE MANRIQUE

student•

Si en caso tuvieron un problema en ejecutar este comando: sns.regplot(var1, var2, ci=80) se puede corregir así:

<grafico = sns.regplot(x = var1, y = var2, ci=80)>

Carol Raquel Torrez Santander

student•

gracias, justo el problema que tuve... me lo resolviste

Davis Álvarez

student•

Gracias por el aporte, me ha ayudado.

Angel Rodriguez

student•

No esta muy bien explicado, por parte de ella incluso no hay una coherencia este ejemplo con lo que hemos visto, hasta ahora, y por eso, crean confusiones. En primer lugar como es random, nos va a dar diferentes intervalos a cada uno.

En segundo lugar, la ultima linea de código, tiene en cuenta la distribución t- student que no se había visto durante el curso y esto se debe a que nuestras muestras son inferiores a 30, por lo que la distribución normal z, no se puede usar. Y esto lo vemos st.t, luego el intervalo que es la parte st.t.interval, va a calcular los intervalos de cada una de las columnas de nuestro dataframe, pero tampoco esta bien explicado los atributos.

alpha = intervalo de confianza df = Grados de libertad, necesarios calcularlos en una tabla t-student y este concepto no se ha visto, pero rápidamente se podría resumir, en las veces que puede iterar un conjunto sin tener la certeza de cual puede seguir, y se calcula como n-1

loc= contiene la media scale = es la escala, es el calculo de la desviación estándar

Joaly Canul Interian

student•

Hola! Con la función

np.random.seed(20)

Siembras una semilla en el enterno de Python para que los números generados de manera aleatoria sean los mismos cada vez que ejecutes el código.

Yonatan Efraín Jara Boza

student•

Gracias Angel. Me fui a la documentación para tratar de comprender y aun no me habia sido suficiente pero con tu comentario ahora estoy más en contexto

Andres Gutiérrez Castillo

student•

esta clase da muchos temas por vistos, en que momento se explico cuando usar una t-student ? o el error estandar?. en varias clases me ha salvado la comunidad y en otros he tenido que investigar, pero en este caso si se me hace injusto que dejen lagunas en los temas. hago esta critica de forma constructiva para que el team platzi pueda solucionar estas pequeñas fallas.

Juan Esteban

student•

Esta clase contiene varias fallas tanto conceptuales como en la interpretación de los resultados. Uno de ellos es que en la celda final donde se imprimen los intervalos de confianza de las variables de la tabla, el resultado es en realidad presentado en la forma de dos arrays: el primero contiene los límites inferiores de los intervalos de las dos variables, y el segundo contiene los límites superiores de los intervalos. Así, en realidad el intervalo de confianza de la variable en la primera columna (días de vacaciones) al nivel de confianza del 95% es [3.004, 6.995] y no [2.8476, 3.004] como dice Silvia. Segundo, si examinan bien el funcionamiento de la función st.t.interval, estos intervalos devueltos son para una prueba A DOS COLAS, por lo que en realidad se está acumulando el 2.5% de la probabilidad a la derecha y el otro 2.5% a la izquierda; en toda la explicación de esta clase y la anterior, Silvia venía trabajando con la probabilidad del 95% a la izquierda! Cuidado con esos detalles!

Si quieren profundizar en este tema que es MUY IMPORTANTE, los invito a consultar el capítulo 7 del libro Probabilidad y Estadística para ingeniería y ciencias de Jay L. Devore.

Yonatan Efraín Jara Boza

student•

Amigo tiene mucho sentido lo que explicas. Gracias por la recomendación

Germán Burguener

student•

Claro, esos intervalos de confianza tan estrechos no tenían ningún sentido. Simplemente examinando la tabla visualmente se puede ver que no es posible.

Karen Tatiana Rodríguez Vanegas

student•

Sinceros agradecimientos a la comunidad por los aportes para aclarar dos puntos que en el vídeo se usan y no se explican:

Al usar st.t.interval no se está usando la distribución normal sino la T dado que los datos son menos de 30
El parámetro df son los grados de libertad (degrees of freedom), para el caso de la distribución t son n-1 por eso usa la longitud del data frame - 1

Camilo Granda Gómez

student•

Hay muchas ideas equivocadas alrededor de los intervalos de confianza (C.I.) Uno de ellos es pensar que "el 95% de mis datos están entre el límite inferior y el superior de mi C.I.", lo cual es falso. El C.I. no está basado en los datos brutos, sino en nuestra confianza de que futuros experimentos (muestras repetidas) tendrán el mismo C.I. y de que el parámetro poblacional desconocido (la media, por ejemplo) estará en ese rango de valores. Por lo tanto, el C.I. nos permite, con un determinado nivel de probabilidad o confianza (95%, 99%, etc.), decir o inferir que la verdadera media poblacional está dentro del rango de valores calculado.
PD: En el ejemplo de la clase, el resultado nos retorna 2 arrays: el primero con los límites inferiores para ambas variables y el segundo con los límites superiores. Podemos entonces inferir, con un 95% de confianza, que la media poblacional de cada variable, está en su rango de valores calculado correspondiente. También se puede interpretar así: "El 95% de intervalos de confianza en muestras repetidas contendrán la verdadera media poblacional". Links para profundizar en este concepto:
https://www.statology.org/confidence-intervals-python/
https://openstax.org/books/introducci%C3%B3n-estad%C3%ADstica-empresarial/pages/8-1-un-intervalo-de-confianza-para-una-desviacion-tipica-de-la-poblacion-con-un-tamano-de-muestra-conocido-o-grande

Jeinfferson Bernal G

student•

Muy interesantes recursos. Me ayudo a entender mejor el ejercicio. Gracias 👍🏻

FELIX DAVID CORDOVA GARCIA

student•

En la parte final la interpretación está mal hecha, los intervalos están entre 3 y 6.99 & 2.84 y 6.86, háganlo para cada uno independientemente y me creerán

Jimena Santos

student•

Puede ser porque en el código puso df=len(tabla)-1 por lo que está tomando sólo los 9 valores de la tabla? Habría que poner df=len(tabla). Y tomaría todos los valores.

Felipe Sebastián Zepeda González

student•

Iba a reportar lo mismo, Felix ;).

PD: para Jimena Santos: No, los grados de libertad (df en el código) es un asunto totalmente independiente y que tiene que ver con la distribución T Student y el set de datos. La función st.interval entrega por definición una tupla de dos elementos: El primero es un vector con la cota inferior de los parametros, y el segundo, también un vector, con la cota superior de los parametros (Notar que en este ejemplo los parametros son las medias de días y costos).

Christian Rangel

student•

No quedé satisfecho con la clase N# 12 sobre el cálculo de intervalo confianza en Python. Menos mal que Platzi cuenta con una excelente comunidad que me aclaró las dudas, con los aportes de los demás compañeros estudiantes.

Andres Felipe Vargas Gonzalez

student•

creo que hubo una actualización en la funcion de intervalo, donde en vez de solicitar un alpha nos pide el argumento confidence:

Wilson Lancheros

student•

Muchas gracias! duré un buen tiempo sufriendo por eso

Freddy Cardozo

student•

jaja seee cambie alpha por confidence por intuicion y funciono ajaja

Rubén Cuello

student•

Reto completado con otras variables: cantidad de materias y horas de estudio. Se espera que a mayor cantidad de materias también las horas de estudio necesarias aumenten.

Tabla

Resultados

Augusto Mas

student•

Silvia/Comunidad, No me queda claro la interpretación del final, sobretodo cuando pasa a porcentaje. Al multiplicar 6.99 * 100 me da 699% mientras que en el video menciona 69.9%. Agradecería que lo re-expliquen nuevamente. Gracias

Rafael Rivera

student•

Estoy de acuerdo, esta clase no es para nada clara, la explicación de la creación de var2 dice que 0 no gasto y 1 si gasto todo, pero el contenido en la variable van datos hasta 10, hay ya me perdí. Y lo que dices, los valores no cuadran con respecto al porcentaje en el último punto.

Jeinfferson Bernal G

student•

Lo mismo pense. Parece que interpreta mal los resultados en cuanto al dinero gastado. Si alguien lo puede explicar mejor, lo agradeceria mucho 😉

Juan Pablo Lagos Idrobo

student•

No sé porque cuando intenté realizar el grafico como la profesora me salió un error, incluso usando el archivo colab de la profesora.

Pero lo solucioné simplemente asignando las variables a x y

sns.regplot(x=var1, y=var2, ci=80)

Sergio Andrés Gnecco Dávila

student•

Gracias, me pasó lo mismo

Robert Rondon

student•

muchas gracias a mi tambien me paso lo mismo

VICTOR HERNANDEZ

student•

Me parece que la clase es confusa y tiene errores conceptuales graves. un IC del 95% de confianza no significa que los datos estén con un 95% de probabilidad en intervalo. la interpretación correcta es que el IC contiene al parametro de la población que se quiere estimar (la media poblacional) en un 95%, es decir, que hay altas posibilidades que ese intervalo contenga dicha media, pues de cada 100 intervalos hay 95 que contiene a la media poblacional. Otra observación es que en la clase anterior se hace una explicación del IC con base a la distribución normal estandar y en esta clase se usa la distribución t student la cuál nunca se mencionó (al menos se debe mencionar). Por último, me parece grave que la prof. no se le haga extraño que un intervalo el lim inf sea mayor que el lim sup (Esto se debe a la mala lectura del resultado obtenido).

Patricia Carolina Perez Felibert

student•

Estoy intentando hacer el mismo cálculo con la tabla Z y me arroja resultados distintos a los de este video. ¿Alguien sabe por qué?

Fernando Jesús Núñez Valdez

student•

Porque para una muestra menor a 30 samples se usa la tabla T, ya que la distribución no se considera normal. En los aportes ya discutieron esta misma duda pero igualmente te dejo los links que proporcionaron y me ayudaron a entender mejor el tema.

https://www.statology.org/confidence-intervals-python/

https://www.tdistributiontable.com/

Miguelangel Dominguez Gonzalez

student•

¿Como se calcula el nivel de significancia?

Andres Salazar

student•

significancia = 1 - confianza

Matías Collado

student•

Y acá dejo el curso. Malas explicaciones, conceptos dados por hecho, falta de claridad. Por favor avisen cuando arreglen esto.

PD: No tengo nada contra la profe. Éxitos para ella!

Marlon Marin

student•

Una clase muy regular, nada clara.

Jhon Freddy Tavera Blandon

student•

Sí, es posible calcular un intervalo de confianza en Python utilizando diferentes librerías y métodos. Algunas de las formas de calcular un intervalo de confianza en Python incluyen:

Utilizando la función t.interval() del módulo scipy.stats.t, como se mencionó anteriormente. Esta función toma como argumentos la media muestral, la desviación estándar muestral, el tamaño de la muestra y el nivel de confianza, y devuelve los límites inferior y superior del intervalo de confianza.

Utilizando la función norm.interval() del módulo scipy.stats.norm si se asume una distribución normal. Esta función toma como argumentos la media muestral, la desviación estándar muestral y el nivel de confianza, y devuelve los límites inferior y superior del intervalo de confianza.
Utilizando la función proportion_confint() del módulo statsmodels.stats.proportion para calcular un intervalo de confianza para una proporción. Esta función toma como argumentos el número de éxitos (número de veces que ocurre un evento) y el número de intentos (número de veces que se realiza un experimento) y el nivel de confianza.

import numpy as np

media_muestral = 5
desviacion_estandar_muestral = 2
n = 10
alpha = 0.05

z_critical = norm.ppf(1 - alpha/2)
intervalo_inferior = media_muestral - z_critical * (desviacion_estandar_muestral / np.sqrt(n))
intervalo_superior = media_muestral + z_critical * (desviacion_estandar_muestral / np.sqrt(n))

print(f'Intervalo de confianza: [{intervalo_inferior}, {intervalo_superior}]')

Sebastian Lopez Acero

student•

Para los que le da error de tipo

TypeError: rv_generic.interval() missing 1 required positional argument: 'confidence'

La solución es cambiar alpha por cofidence

import plotly.express as px
import plotly.graph_objects as go
import plotly.offline as pyo

pyo.init_notebook_mode()

fig = px.scatter(x=pd.Series(var1), y=pd.Series(var2), color=var2, trendline="ols")

fig.update_layout(title = 'Relacion de viajados con respecto al dinero gastado',
                 font = dict(family = 'verdana', size = 16, color = 'white'),
                 template = 'plotly_dark',
                 height = 400,
                 width = 900)

fig.update_yaxes(ticksuffix = 'Dinero gastado')
fig.update_xaxes(ticksuffix = 'Dias de vacaciones')

fig.show()

# x = var1 = Dias de vacaciones
# y = var2 = Dinero gastado

def intervalo_de_confianza(tabla, alpha):
    resultado = st.norm.interval(alpha = alpha, loc=np.mean(tabla), scale=st.sem(tabla))
    print(f'Intervalo de confianza de datos con alpha {alpha}: {resultado}')
    

intervalo_de_confianza(tabla, 0.95)
intervalo_de_confianza(tabla, 0.99)

import numpy as np

media_muestral = 5
desviacion_estandar_muestral = 2
n = 10
alpha = 0.05

z_critical = norm.ppf(1 - alpha/2)
intervalo_inferior = media_muestral - z_critical * (desviacion_estandar_muestral / np.sqrt(n))
intervalo_superior = media_muestral + z_critical * (desviacion_estandar_muestral / np.sqrt(n))

print(f'Intervalo de confianza: [{intervalo_inferior}, {intervalo_superior}]')

Cálculo y visualización de intervalos de confianza en Python

Fundamentos de estadística inferencial

Estadística Inferencial para Ciencia de Datos e IA

Componentes Básicos de la Estadística

Distribución Normal: Conceptos y Ejemplos Prácticos

Tipos de Muestreo y Teorema del Límite Central

Funciones de muestra en Python: aleatorio y sistemático

Muestreo Estratificado: Creación y Aplicación en Python

Estadísticos y cálculos

Cálculo de la Media Muestral y Conceptos de Estadística Básica

Diferencias entre varianza y desviación estándar muestral y poblacional

Varianza y Desviación Estándar Automatizadas en Python

Intervalos de Confianza en Estadística y Ciencia de Datos

Cálculo de Intervalos de Confianza paso a paso