Contenido del curso

Fundamentos de estadística inferencial

Estadísticos y cálculos

Pruebas de hipótesis y validación

Cierre del curso

22
Estadística aplicada a ciencia de datos
01:28 min

Prueba t de Student en Python con SciPy

Resumen

La prueba t de Student te permite comparar dos distribuciones numéricas y decidir si son estadísticamente diferentes. Aquí aprendes a programarla en Python usando pandas, NumPy y SciPy, con el dataset Iris como ejemplo práctico para validar hipótesis de manera automatizada.

Esta guía es para ti si estás empezando en estadística aplicada con Python y quieres entender cómo se traducen las fórmulas matemáticas a código reproducible en un notebook.

¿Qué librerías necesitas para automatizar pruebas de hipótesis en Python?

Antes de tocar cualquier fórmula, conviene preparar el entorno. La automatización empieza por importar las herramientas correctas para que el cálculo sea limpio y replicable.

Las librerías base que se usan en el notebook son:

pandas como pd para manejar la tabla de datos.
NumPy como np para operaciones matemáticas como raíz cuadrada.
seaborn como sns por si quieres visualizar.
scipy.stats como stats para estadística general.
Los módulos específicos f_oneway y ttest_ind desde SciPy, que son los que harán el trabajo pesado en pruebas de hipótesis [02:00].

Después cargas el dataset Iris desde su URL pública, le asignas nombres a las columnas (sepal length, sepal width, petal length, petal width y class) y lo lees con pd.read_csv [03:00].

¿Para qué sirve ttest_ind en SciPy? Es la función que ejecuta una prueba t para muestras independientes. Devuelve el estadístico t y el p-value para decidir si dos grupos tienen medias significativamente distintas.

¿Cómo se calcula el error estándar paso a paso?

La prueba t de Student se construye en bloques. El primero es el error estándar (SE), que mide cuánta variabilidad hay en cada variable respecto a su media [04:30].

La fórmula divide la desviación estándar entre la raíz cuadrada del tamaño de muestra. En código se ve así, aplicado a las dos variables del sépalo:

python SE_length = iris['sepal_length'].std() / np.sqrt(10) SE_width = iris['sepal_width'].std() / np.sqrt(10)

Aquí usas .std() de pandas para la desviación estándar y np.sqrt() de NumPy para la raíz cuadrada. La muestra elegida fue 10, pero ese valor depende de tu diseño experimental.

El segundo bloque es el standard error deviation (SED), que combina los dos errores anteriores en un solo valor:

python SED = np.sqrt(SE_length2 + SE_width2)

No recalculas nada, simplemente reutilizas lo que ya tienes. Y aquí viene lo interesante: este SED es el denominador que vas a usar para obtener el valor t.

¿Cómo interpretas el valor t y el p-value en la prueba de hipótesis?

Con SED listo, calculas el estadístico t. La fórmula es la diferencia de medias entre las dos variables dividida por SED [08:00].

python t_stat = (iris['sepal_length'].mean() - iris['sepal_width'].mean()) / SED

El resultado en el ejercicio fue 9.43. Te conviene hacer el cálculo en pasos separados en lugar de una sola línea: así detectas errores y entiendes qué está pasando en cada operación.

Luego usas la función importada para obtener el p-value automáticamente:

python stat, p_value = ttest_ind(iris['sepal_length'], iris['sepal_width'])

El p-value obtenido fue de 3.98e-112, un número extremadamente pequeño [10:30].

¿Qué significa rechazar la hipótesis nula? Significa que los datos muestran una diferencia estadísticamente significativa. La teoría inicial de que ambas distribuciones eran iguales se descarta, y aceptas la hipótesis alternativa.

¿Cuándo aceptar y cuándo rechazar la hipótesis nula?

La regla práctica es comparar el valor absoluto de t contra el valor crítico asociado al p-value:

Si |t| es mayor que el valor crítico, rechazas la hipótesis nula. Las distribuciones son diferentes.
Si |t| es menor, aceptas la hipótesis nula. Las distribuciones son similares.

En el caso del Iris, 9.43 es muchísimo mayor que el umbral, así que la conclusión es clara: la distribución de sepal length es muy distinta a la de sepal width [11:30].

¿Por qué dividir el cálculo en SE, SED y t por separado?

Fragmentar te da control. Cada variable intermedia (SE_length, SE_width, SED, t_stat) es revisable y depurable. Si te equivocas escribiendo mean en lugar de min, lo detectas rápido sin tener que reescribir toda la fórmula compuesta.

Esta lógica modular es la misma que vas a aplicar cuando pases a ANOVA y a la correlación de Pearson, los otros dos métodos de validación de hipótesis que vienen en la siguiente práctica. ¿Ya intentaste correr este código con tus propios datos? Cuéntame en los comentarios qué dataset usaste y qué resultado obtuviste.

Comentarios

Rubén Cuello

student•

La fórmula de SED que aparece en 5:51 no está bien. Aparece 2 veces sigma sub-1, lo que hace a uno pensar que son el mismo valor, y no es así, ya que corresponden a los valores de sepal-length y sepal-witdh respectivamente. Atentos a ese detalle.

Juan R. Vergara M.

student•

Buena observación.

Santiago Caldevila

student•

arreglado como buenamente se pudo jsjsjs

Fernando Jesús Núñez Valdez

student•

Este video me ayudo a comprender mejor muchos conceptos que no entendia bien:

t-value
t-test
p values

Básicamente esta clase de Platzi me ayudó a entender como realizar el t-test utilizando Python y la librería de scipy, pero no entendí que significaba o como interpretar cada concepto.

Christian Rangel

student•

Exactamente, no se entiende que está haciendo porque no se ha tocado esos temas previamente en el curso y tampoco tiene clases sugeridas de otros cursos donde expliquen los conceptos de los tipos de errores. Yo no entendí esta clase.

Benjamín Cortés

student•

Excelente video, gracias por el aporte me sirvio

Camilo Granda Gómez

student•

Aclaraciones respecto a los resultados de los ejemplos:

El valor t calculado de manera manual (vía fórmula) se hace para un N = 10, el cual nos da como resultado 9.4:

Al calcularlo con un N igual a la longitud total del conjunto de datos (len(iris)) el resultado es el mismo que el valor t calculado con scipy.stats (df = degreees of freedom):

El valor del t-test no se compara con el p-value. Entonces, ¿Cómo se interpreta este número? El valor esperado de t bajo la hipótesis nula es 0, es decir, si el resultado del t-test es 0 (o cercano), no hay diferencias significativas entre las medias de las muestras comparadas. Por otro lado, un valor t grande en magnitud (ignorando si hay signo negativo) indicaría que sí hay una diferencia.
El p-value se compara con un límite de significancia alfa (0.05, 0.01). Si el p-value es menor a este alfa, rechazamos la hipótesis nula y podemos concluir que sí existe una diferencia significativa entre las medias. En este caso el p-value = 7.02e^-112, por lo que es un valor muy inferior a un alfa de, por ejemplo, 0.05.
En conclusión, con un valor del t-test grande y un p-value inferior a un alfa de 0.05, podemos rechazar la hipótesis nula y decir que si existe una diferencia significativa entre las variables.

Jeinfferson Bernal G

student•

Es la explicacion que le faltaba a la clases. Gracias Camilo

Jesús Enrique García

student•

Me confunde un poco la sintaxis que usa la profe, desconocía que

 iris.mean()['sepal-length']

Podía ser lo mismo que

 iris['sepal-length'].mean()

lo use de las dos maneras y da lo mismo, pero aun así prefiero la segunda forma, que me parece, es la más intuitiva

Willy Samuel Paz Colque

student•

iris.mean()['sepal-length'] calcula la media de todas las columnas y luego recuperas la columna especificada "sepal-length"

iris['sepal-length'].mean() estas seleccionando primero la columna y luego calculas la media únicamente para esa columna, esta sería mas eficiente ya que solo estas calculando los datos que vas a utilizar.

Jeinfferson Bernal G

student•

Tambien se podria usar de la siguiente forma

iris.sepal-length.mean()

Juan Santiago Gutierrez Estrada

student•

Para quienes quieran tener las fórmulas no con imágenes sino como código en Latex dentro del Markdown.

$$
SE = \frac{\sigma}{\sqrt{N}}
$$

SED

$$
SED = \sqrt{\frac{\sigma_1^2}{N_1}+\frac{\sigma_2^2}{N_2}}
$$

t de Student

$$
t = \frac{\bar{x_1}-\bar{x_2}}{SED}=\frac{x_1-x_2}{\sqrt{\frac{(s_1)^2}{n_1}+\frac{(s_2)^2}{n_2}}}
$$

Christian Rangel

student•

Quiero aprender a escribir ecuaciones con Markdown

Samit Arias

student•

En este video explican un poco mejor la prueba de hipótesis T Student https://youtu.be/RA9mPkbrZqU

Alexander Pino

student•

Buen aporte, gracias.

Jesus Daniel Quiroga Saldaña

student•

gracias por el aporte

Jhon Freddy Tavera Blandon

student•

La prueba t de Student es una prueba estadística utilizada para comparar dos medias de muestras independientes para determinar si existe una diferencia significativa entre ellas. En Python, se puede realizar una prueba t de Student utilizando la función "ttest_ind" del paquete

"scipy.stats".

Ejemplo:

Copy code

from scipy.stats import ttest_ind

datos de muestra 1

sample1 = [1, 2, 3, 4, 5]

datos de muestra 2

sample2 = [5, 6, 7, 8, 9]

realizar la prueba t de Student

t_stat, p_value = ttest_ind(sample1, sample2)

# imprimir el valor t y el valor p
print("t-statistic:", t_stat)
print("p-value:", p_value)

En el ejemplo, la variable "t_stat" contiene el valor t calculado y la variable "p_value" contiene el valor p obtenido de la prueba. Si el valor p es menor que un nivel de significancia establecido (generalmente 0,05), se rechaza la hipótesis nula (que las dos medias son iguales) y se concluye que existe una diferencia significativa entre las dos muestras.
Nota: Es importante recordar que, al igual que en cualquier prueba estadística, es necesario cumplir con ciertos supuestos antes de realizar una prueba t de Student, como normalidad y varianza homogenea en las muestras.

Francisco Jesus Malasquez Quispe

student•

Exacto, tienes la razon acerca de los supuestos, estuve aplicando el ejercicio en python y me percate que 'ttest_ind' asume por defecto varianzas iguales y para cambiar ello se agregaria el parametro 'equal_var= False' en el caso de que no sean varianzaas iguales

Christopher Brian Guzmán Martínez

student•

En que momento se planteó la Ho???

nicolas garzon

student•

No se si me perdí, pero ella al sacar el estadístico t debió buscar el valor de t al nivel de significancia no? Por que comparo el estadístico t con el p-value? No son diferentes uno es una estadística el otro una probablidad

Thomas Gonzalez Rodrigues

student•

El P-value me dice cual es la probabilidad de que el valor del t-test sea de puro chance, lo que se compara en la tabla es el valor del t-test correspondiente al p-value de 0.05 (usualmente el que se usa).

También como se ve en la función del final se puede obtener el p-value directamente, que me diría la probabilidad de que se produzca por chance en este caso solo habría que preocuparse por que este me de mayor a 0.05.

Edwin Uldarico Hernandez Osorio

student•

Distribución t de student

N -> muestra de 10 --- porque fue escogida de esa forma

no debería de calcularse el tamaño de la muestra ? esta parte parece algo arbitraria

Lo otro que genera confusion es que se definió a N como la población y a n como la muestra, pueden aclarar por favor los conceptos

Thomas Gonzalez Rodrigues

student•

si tienes toda la razón de echo si lo haces de ese modo el resultado te da igual que la función

la parte que dice statistic se refiere al t-value

ANDRES EDUARDO MEDINA FERNANDEZ

student•

En este caso t_stat es nuestro valor critico y p nos da dos valores el t calculado (36.54) y el alpha ( 3.987 e -112), Si el valor absoluto del valor t calculado es mayor que el valor crítico, usted rechaza la hipótesis nula. Si el valor absoluto del valor t es menor que el valor crítico, usted no puede rechazar la hipótesis nula. (Cuanso se usa el igual en la prueba de hipotesis siempre nos referimos a una prueba t de dos colas). HIPOTESIS NULA : Las dos muestras provienen de la misma poblacion o tienen la misma distribución H0=H1

Otra forma de comprobar esto es mirando el valor alpha el cual es menor que el nivel de significancia este alpha esta dentro de la zona de rechazo de la hipoesis nula ya que es menor que nuestro alpha de 0.5

Harold Baigorria

student•

Un aporte, en mi caso me salia un error al momento de calcular las formulas porque estaba tomando strings

lo corregi de la siguiente manera solo en caso les ayude.

Ada Nicol Lloret Rey

student•

Para aquellos que tienen errores por culpa de la columna 'class' es porque Pandas ahora cuando usamos el método .mean() intenta calcular el promedio de todas las columnas incluso antes de que lea la parte en la que especificamos la columna de la que queremos obtener el promedio. Es por eso que aparece un error diciendo que no se pueden hacer operaciones matemáticas para una columna categórica, ese error lo podemos arreglar así: iris.drop('class', axis=1).mean().

El código completo sería:

t_stat = (iris.drop('class', axis=1).mean()['sepal-length'] - iris.drop('class'), axis=1).mean()['sepal-width']) / sed

Thomas Gonzalez Rodrigues

student•

la profe se equivoco en el minute -6:14 hay que poner el tamaño de la muestra con el tamaño real no con 10

se_length = df['sepal-length'].std()/np.sqrt(len(df)) #standar error
se_width = df['sepal-width'].std()/np.sqrt(len(df)) #standar error

osea así

de esta forma si te da lo mismo que la function final

Christian Rangel

student•

NO me queda claro, ¿si usas el valor de N = a Todos los elementos del conjunto, te da igual que a la profesora que usó N =10 entonces?

Anabel Chavez Berumen

student•

tu mismo lo dijiste el "Tamaño de la muestra" y es eso 10 es una muestra, para T student ocupas una muestra no la población, y regularmente es menor al 10% en este caso 10 , y obvio el resultado no podría ser igual por que por lógica la anchura y el largo de los sépalos no son iguales.

Felipe Sebastián Zepeda González

student•

Es necesario aclarar algo: El estadistico “t _obs” NO se debe comparar con el p-value, pero sí están relacionados. Para el testing con T-Student:

p-value= Prob( |T | > | t_obs | ), donde T es una variable aleatoria que sigue una distribución T Student con grados de libertad df=N-1, y t _obs es el valor del estadistico observado. El p-value es por definición valor más bajo de alpha sobre el cual se rechazaría la hipótesis nula. Si p-value < alpha, donde alpha es el nivel de significancia deseado (normalmente se usa el 5% o alpha=0.05), entonces se rechaza la hipótesis nula.

Igualmente podemos tomar la decicisón del testeo sin necesidad de tomar el p-value. Rechazaremos la hipotesis nula si |t_obs| > t_{df , alpha/2}= F^-1 (1-alpha/2). Donde F^-1 es la inversa de la CDF de la distribución T-Student. También es posible obtener F^-1 (1-alpha/2) a partir de una tabla, similar a como se hace con la distribución Normal.

Felipe Sebastián Zepeda González

student•

Quisiera hacer una corrección sobre mi post: Los grados de libertad en este problema de dos poblaciones NO es df= N-1, sino df= 2 N - 2. Con eso el cálculo de p-value computacional queda como:

p_manual= 2*st.t.cdf(-np.abs(t_stat),df=2*len(iris)-2)

que nos entrega el mismo p-value del ttest_ind. Warning: Este método asume implicitamente que las varianzas de ambas poblaciones son iguales, lo cuál no es claro de buenas a primeras. Tal vez sería bueno hacer una exploración visual sobre esa suposición.

Una alternativa sería no suponer que las varianzas de las poblaciones no son iguales, lo cual se puede hacer incluyendo el parametro "equal_var=False" al método ttest_ind

p_clase=ttest_ind(df['sepal-length'], df['sepal-width'], equal_var=False)

Referencia:

MIGUEL GEOVANNY ARIAS RODAS

student•

Comparto otra manera de importar dicha librería desde sns.

También una sintaxis ligeramente diferente y la forma de escribirlo con Markdown en un chunk de texto de colab.

Julián Esteban Olejua Pinto

student•

Encuentro algunos errores en la aplicación del concepto de la prueba t. Inicialmente, se está realizando una comparación de poblaciones (variable class) utilizando variables que agrupan poblaciones diferentes. En este caso, lo ideal sería efectuar el análisis entre dos poblaciones claramente diferenciadas. Otra consideración importante es la necesidad de aplicar pruebas de normalidad a las variables de estudio, ya que la normalidad es uno de los supuestos de este tipo de pruebas estadísticas. Adicionalmente, se debe implementar la prueba de Levene con el fin de identificar si las varianzas de las dos poblaciones son homogéneas.

Jeisson David Chavarro Torres

student•

por que compara el t-value con el pvalue?, mejor dicho que significa cada uno de esos numeros... me perdí un poco en esta clase

Yonatan Efraín Jara Boza

student•

No debió, te invito a leer los aportes ahi ayudaron con esta duda

Christian Rangel

student•

Siento que a esta clase le faltó una clase previa! para ahondar más sobre los tipos de errores

Roger Christian Cansaya Olazabal

student•

Porque N = 10?, Osea puede ser cualquier dato? Deberia tener alguna explicacion ese detalle.

Christian Rangel

student•

Por lo que entiendo la profe toma ese número de elementos (N=10) de forma arbitraria

Yonatan Efraín Jara Boza

student•

No se justificó, entiendelo como si hubiese dicho 'supongamos que tomo una muestra de 10 para estudiarlos'. Le doy sentido en que las distribuciones de t son para muestras pequeñas, menores de 30.

Fundamentos de estadística inferencial

Estadística descriptiva vs inferencial en datos

Componentes principales de la estadística

Qué es la distribución normal y por qué importa

Muestreo aleatorio, sistemático y teorema central

Muestreo aleatorio y sistemático en Python

Muestreo estratificado con Python y pandas

Estadísticos y cálculos

Media muestral explicada con ejemplos reales

Varianza poblacional vs muestral en estadística

Varianza y desviación estándar en Python

Qué son los intervalos de confianza

Cálculo de intervalos de confianza con tabla Z

Intervalos de confianza en Python con SciPy

Pruebas de hipótesis y validación

Qué son las pruebas de hipótesis

Pruebas de hipótesis: Student, Pearson y ANOVA

Errores tipo I y II en pruebas de hipótesis