Cálculo de Media, Varianza y Desviación Estándar

Clase 14 de 26 • Curso de Estadística y Probabilidad

Contenido del curso

¿Qué es la estadística y con qué se come?

Una imagen vale más que mil datos

Estadística descriptiva

Representación de datos

Muestra y error

¿Y la probabilidad?

Correlación y causalidad

Conclusiones

26
Estadística y Probabilidad: Aplicaciones Prácticas en Diversos Campos
01:17 min

Tomar examen

Resumen

Comprender cómo se distribuyen los datos y qué tan dispersos están respecto a su centro es una de las bases más sólidas del análisis estadístico. En esta sesión se profundiza en tres métricas fundamentales —media, varianza y desviación estándar— y se establece una distinción crucial: cuándo estamos trabajando con toda una población y cuándo con una muestra representativa de ella.

¿Cuál es la diferencia entre población y muestra?

Antes de aplicar cualquier fórmula, es necesario entender dos conceptos que determinan qué ecuación utilizar. La población es el conjunto completo de datos que nos interesa estudiar. La muestra es un subconjunto seleccionado de esa población [1:30].

Un ejemplo claro: la Ciudad de México tiene alrededor de veintidós millones de personas. Analizar a cada habitante sería prácticamente imposible. En su lugar, seleccionamos una muestra representativa y a partir de ella hacemos inferencias sobre toda la población.

Cuando calculamos un valor que describe a la población completa, lo llamamos parámetro.
Cuando ese valor describe a la muestra, lo llamamos estadístico.

Esta distinción marca pequeñas pero importantes diferencias en las fórmulas que se aplican.

¿Cómo se calcula la media poblacional y muestral?

La media es el promedio aritmético: la suma de todos los valores dividida entre el total de elementos [3:07]. Representa el valor central que se distribuye de forma equitativa en el conjunto.

Parámetro (μ, Miu): suma de todos los elementos dividida entre N mayúscula, que es el tamaño total de la población.
Estadístico (X̄, X barra): suma de todos los elementos dividida entre n minúscula, el tamaño de la muestra.

Las fórmulas son idénticas en estructura; lo que cambia es el universo de datos que alimenta cada una. En el ejercicio práctico con un catálogo de películas, el parámetro poblacional de la media resultó en aproximadamente 99.5 minutos de duración [7:40].

¿Por qué la media muestral puede diferir de la poblacional?

Al trabajar con una muestra, es natural que el promedio no coincida exactamente con el de la población. Esa diferencia nos indica si nuestra muestra es representativa o si existe una varianza significativa entre ambos conjuntos.

¿Qué mide la varianza y por qué se ajusta en muestras?

La varianza cuantifica la distancia de cada valor respecto a la media [4:21]. Se calcula restando la media a cada elemento, elevando esa diferencia al cuadrado, sumando todos esos cuadrados y dividiendo entre el total.

Parámetro (σ², sigma cuadrada): la suma de las diferencias al cuadrado dividida entre N.
Estadístico (S²): la suma de las diferencias al cuadrado dividida entre n menos uno [5:30].

¿Por qué se divide entre n menos uno?

Cuando tomamos una muestra, introducimos cierto sesgo. Si dividiéramos simplemente entre n, la varianza quedaría subestimada. Al restar un elemento del denominador, se obtiene una varianza no sesgada que refleja con mayor precisión la dispersión real de los datos [5:10]. Este ajuste se conoce como corrección de Bessel.

En la práctica con Google Sheets, el proceso a mano consiste en:

Crear una columna con la diferencia de cada valor menos la media.
Elevar cada diferencia al cuadrado.
Sumar todos los cuadrados.
Dividir entre N (población) o entre n - 1 (muestra) [9:20].

También existen funciones integradas: la función de varianza poblacional y la función de varianza de una muestra, que arrojan el mismo resultado de forma inmediata [11:05].

¿Qué nos dice la desviación estándar sobre nuestros datos?

La desviación estándar es simplemente la raíz cuadrada de la varianza [6:10]. Mientras la varianza expresa la dispersión en unidades cuadradas, la desviación estándar la devuelve a las unidades originales, haciéndola más interpretable.

Si la desviación estándar es grande, los valores están muy alejados del promedio.
Si es pequeña, los datos se concentran cerca de la media.
Si fuera cero, todos los valores serían idénticos [6:30].

Para obtenerla:

Parámetro (σ): raíz cuadrada de σ².
Estadístico (S): raíz cuadrada de S².

En el ejercicio del catálogo de películas, las desviaciones estándar de la población y la muestra resultaron muy cercanas entre sí, lo que sugiere que la muestra seleccionada era razonablemente representativa [12:30].

Dominar estas tres métricas permite hacer aseveraciones concretas sobre cualquier conjunto de datos con solo unos valores. Como reto, intenta calcular la media, varianza y desviación estándar para el año de estreno del catálogo usando las columnas que se dejaron preparadas en la hoja de cálculo. Comparte tus resultados y dudas en los comentarios.

Nicolás Mellado

student•

No se asusten si no entienden a la primera. Está medio complejo a mi parecer. Pero les dejo mis apuntes respecto a población, muestra y varianza muestral y poblacional. Quizás les ayude:

Población y muestra

Cuando queremos hacer un análisis estadístico de un conjunto de datos en su completitud, se denomina un análisis de población.

Pero generalmente este tipo de análisis puede ser impráctico por una cuestión de recursos (tiempo, dinero, etc.) por lo que se recurre a un análisis de muestra.

Por ejemplo, un análisis de población puede ser un análisis de todos los ingenieros graduados en la ORT en el año 2019. Pero un análisis de muestra sería tomar un 30% de esa info.

Media

La media poblacional se define con la µ (miu). La media muestral se define con X̅ (promedio aritmético).

La fórmula que indica la profe para ambas es la misma. Es la suma del conjunto de datos dividido la cantidad de datos. La diferencia es que N mayúscula representa a todo el conjunto de datos, y la n minúscula representa a la muestra.

Varianza Es la distancia de cada uno de los valores en relación a la media.

Por ejemplo: Supongamos que lanzas la pelota varias veces y anotas cuán lejos cae cada vez de tu objetivo. La varianza sería cuan lejos o cuan cerca cayó la pelota del objetivo.

Hay dos tipos de varianza: ++varianza poblacional y muestral++.

Tal y como vemos en las fórmulas de la clase, el cálculo sería el siguiente:

Varianza muestral Explicación de la fórmula

++Resta cada número al promedio++: Primero, tomas cada número en la muestra y le restas el promedio. Esto te dice cuánto se aleja cada número del promedio.

++Eleva eso al cuadrado++: Luego, tomas cada uno de esos resultados y los multiplicas por sí mismos (los elevas al cuadrado). Eso es para asegurarte de que todos los números sean positivos.

++Suma todo eso++: Después de hacer eso para cada número, sumas todos los resultados.

++Divide entre n - 1++: Por último, divides esa suma por un número especial llamado "n menos 1." "n" es la cantidad de números en tu muestra.

La fórmula te dice cuán "saltarines" son los números en la muestra alrededor del promedio. Si los números están muy cerca del promedio, la varianza será pequeña. Si están muy separados, la varianza será más grande.

Varianza poblacional Calculas la varianza poblacional de manera similar a la varianza muestral, pero en lugar de dividir entre n - 1, divides entre N (donde N es el tamaño total de la población) y se utiliza µ (miu) como media poblacional en vez de X̅ (promedio aritmético).

Cindy Milena Fontalvo Jiménez

student•

Muchas gracias compañero Nicolas. Genial!!

Cindy Milena Fontalvo Jiménez

student•

Agradezco el tiempo que te tomaste. :)

Alisson Pineda

Sebastian Silva Canizalez

Sergio Lezama

Mauricio Mejia

Vanessa Carvajal

Ilse Zubieta

teacher•

Alejandra Gonzalez Sosa

Piero Blanco

Leandro Tenjo

Pablo Alejandro Figueroa

Oscar Ortega Cabello

Ricardo de Jesus Zapata Cruz

Dave Sanchfor

Andres Sanchez

Daniel Achury

Diana Puerta Gómez

Gustavo Alonso Aguilar Acuña

Robert Cardona

John Perez

Jefferson Vilca

Javier Guerrero

Javier Esteban Rodríguez Cárdenas

Jhins Ledys Cárdenas Pardo

Nery Alberto Cano Ortigoza

Jeisson Eduardo Beltran Porras

DANIEL ALBERTO GIRALDO TOBON

Cálculo de Media, Varianza y Desviación Estándar

¿Qué es la estadística y con qué se come?

Fundamentos de Estadística y Probabilidad Aplicada

Clasificación y Tipos de Variables en Estadística

Herramientas de Análisis y Estadística: Software Popular en la Industria

Workbook de Ejercicios de Estadística y Probabilidad

Una imagen vale más que mil datos

Diferencias entre Tablas Unidimensionales y Bidimensionales

Tablas de Frecuencia y Frecuencia Relativa en Google Sheets

Visualizaciones estadísticas: Diagramas y gráficos básicos en Excel

Estadística descriptiva

Distribuciones Conjuntas, Marginales y Condicionales en Estadística

Medidas de Tendencia Central: Media, Mediana y Moda

Cálculo de Medidas de Tendencia Central en Hojas de Cálculo

Medidas de dispersión: Rango e Índice Intercuartílico

Desplazamiento y Escalado de Datos Estadísticos

Construcción de Boxplot para Análisis de Distribuciones

Representación de datos