Cálculo de Media, Varianza y Desviación Estándar

Clase 14 de 26Curso de Estadística y Probabilidad

Resumen

¿Qué es la representación de datos y por qué es importante?

En el mundo del análisis de datos, comprender cómo representar la información es clave para interpretar y comunicar resultados de manera efectiva. Nos enfocamos en cómo las distribuciones se comportan y cómo, a través de pocos valores, podemos hacer aseveraciones concretas sobre un conjunto de datos. Este módulo se centra en conceptos generales como las medidas de tendencia central y dispersión. Mientras que las primeras nos describen de manera resumida dónde se ubican los datos, las segundas resaltan cómo se distribuyen alrededor de este punto central.

Debemos entender la diferencia entre población y muestra para analizar datos de manera eficiente. Por ejemplo, si quisiéramos estudiar la población de la Ciudad de México, no sería viable analizar cada individuo. En cambio, seleccionaríamos una muestra representativa para inferir generalidades aplicables a toda la población.

¿Cómo se diferencian las fórmulas para población y muestra?

Al trabajar con datos, es vital diferenciar entre los parámetros poblacionales y los estadísticos muestrales.

  • Media: La media es el promedio de los valores y sirve como el punto central de un conjunto de datos:

    • Parámetro poblacional (( \mu )): Suma de todos los elementos dividido por el tamaño total de la población.
    • Estadístico muestral (( \bar{x} )): Suma de todos los elementos dividido por el tamaño de la muestra.
  • Varianza: Mide qué tan alejados están los datos en relación a la media:

    • Parámetro poblacional (( \sigma^2 )): Suma de las diferencias al cuadrado entre cada valor y la media, dividido entre el tamaño de la población.
    • Estadístico muestral (S²): Similar al método poblacional pero dividido entre n-1 para ajustar el sesgo.
  • Desviación estándar: Indica la extensión media de las desviaciones respecto a la media:

    • Derivada de la raíz cuadrada de la varianza.
Para calcular la media poblacional (\( \mu \)):  
\( \mu = \frac{\sum_{i=1}^{N}x_{i}}{N} \)

Para la varianza poblacional (\( \sigma^2 \)):  
\( \sigma^2 = \frac{\sum_{i=1}^{N}(x_{i} - \mu)^2}{N} \)

Para calcular la media muestral (\( \bar{x} \)):  
\( \bar{x} = \frac{\sum_{i=1}^{n}x_{i}}{n} \)

Para la varianza de muestra (S²):
\( S^2 = \frac{\sum_{i=1}^{n}(x_{i} - \bar{x})^2}{n-1} \)

¿Cómo aplicar estas fórmulas en herramientas como Excel o Sheets?

Usar herramientas como Excel o Google Sheets facilita la tarea de calcular estos estadísticos, gracias a sus fórmulas preconfiguradas. Exploraremos cómo realizar estos cálculos tanto de manera manual como mediante el uso de fórmulas automatizadas:

  1. Cálculo de la media:

    • Manual: Sumar todos los valores (ej. duración de películas) y dividir por el total de estos.
    • Automatizado: Usar la función PROMEDIO (Excel) o AVERAGE (Sheets).
  2. Varianza:

    • Manual: Calcular la diferencia entre cada elemento y la media, elevar al cuadrado, y dividir según su contexto (población o muestra).
    • Automatizado: Usar VAR.P (para población) o VAR.S (para muestra) en las herramientas.
  3. Desviación estándar:

    • Automatizado: Usar las funciones DESVPROM.P o DESVPROM.S.

¿Cómo implementar estas fórmulas paso a paso en la práctica?

Visualizar el proceso refuerza el aprendizaje, aquí algunos pasos específicos con Excel y Sheets:

Cálculo de Media

  1. Abrir hoja de cálculo.
  2. Seleccionar datos: Columna de interés (ej. duración de las películas).
  3. Calcular manualmente:
    • Ingresar fórmula como suma de valores dividida por su cantidad.
  4. Usar fórmula predefinida:
    • En Excel: =PROMEDIO(rango)
    • En Sheets: =AVERAGE(rango)

Cálculo de Varianza

  1. Crear nueva columna para diferencias al cuadrado.
  2. Formula manual:
    • Calcular cada diferencia respecto a la media.
    • Elevar cada diferencia al cuadrado.
    • Sumar y dividir según propiedad (n o n-1).
  3. Fórmula:
    • Poblacional =VAR.P(rango)
    • Muestral =VAR.S(rango)

Cálculo de Desviación Estándar

  1. Utilizar fórmula de raíz cuadrada de la varianza calculada.
  2. Directamente mediante función:
    • Poblacional: =DESVPROM.P(rango)
    • Muestral: =DESVPROM.S(rango)

Tu reto es practicar con diferentes conjuntos de datos y comprobar qué tan representativa es tu muestra respecto a la población. No olvides discutir tus resultados y desarrollos en los comentarios si necesitas más ayuda. ¡El aprendizaje no tiene límites!