Simulación de Intervalos de Confianza para Poblaciones Normales

Curso de Estadística Inferencial con R

Contenido del curso

Teoría

Simulación

Proyecto

Conclusiones

37
Programación Dinámica y Estocástica en Simulación
00:35 min

Tomar examen

Simulación de Intervalos de Confianza para Poblaciones Normales

Resumen

¿Cómo simular procesos de estimación por intervalo?

La simulación de procesos de estimación por intervalo es una herramienta poderosa en estadística para diferenciar y comparar poblaciones. Supongamos que tenemos dos poblaciones distribuidas normalmente con medias diferentes. Al aplicarle un intervalo de confianza a cada una, podemos observar si estos intervalos se traslapan o no. Esta técnica permite determinar si las diferencias observadas en la muestra reflejan diferencias reales en la población.

¿Qué se necesita para configurar la simulación?

Antes de realizar la simulación, es necesario definir ciertos parámetros:

Tamaño muestral: Elegir el volumen de cada muestra. Por ejemplo, 35 observaciones.
Número de iteraciones: Cantidad de veces que se repetirá la simulación, como 100 iteraciones.
Medias poblacionales: Establecer la media para cada población, por ejemplo, 5 para la población A y 3 para la población B.
Desviación estándar: Un valor para ambas poblaciones, que podría ser 2 en este caso.

¿Cómo se lleva a cabo la simulación gráfica?

La simulación es un proceso iterativo que se representa gráficamente, donde cada paso agrega un rectángulo en la gráfica para visualizar los intervalos de confianza de cada muestra.

Creación del gráfico base: Iniciamos con un gráfico donde posicionamos las medias poblacionales de A y B.
Generación de muestras: Utilizamos la función rnorm para generar muestras con las medias y desviación estándar predefinidas.
Calcular los intervalos de confianza:
- Para la población A, se emplea el test T de Student: t.test(), que proporciona el intervalo de confianza.
- El intervalo se divide en el límite inferior y superior usando min y max.
Replicación para la población B: Repetimos el mismo procedimiento con la población B ajustando las medias correspondientes.
Dibujo de rectángulos: Cada rectángulo representa una simulación de la relación entre los intervalos de A y B:
- Límites inferiores y superiores de A y B forman las coordenadas del rectángulo.

¿Cómo determinar la significancia de los intervalos?

Para evaluar si los intervalos realmente indican diferencias significativas:

Trazado de la línea de referencia: Se añade una línea abline igual a y = x para visualizar las intersecciones.
Ajustar el tamaño muestral: Observando cómo los intervalos se cruzan con la línea, podemos modificar el tamaño muestral. Un tamaño muestral mayor podría reducir los cruces indicando una mayor significancia estadística.

Al finalizar todo este proceso, se deduce que con tamaños muestrales adecuados y una correcta visualización gráfica, es más fácil identificar diferencias entre poblaciones basadas en sus intervalos de confianza. Este método es especialmente útil en análisis donde se requiere inferir sobre la estructura de una población basándose en muestras aleatorias.

Este enfoque no solo facilita la visualización de diferencias poblacionales, sino que también motiva a continuar explorando la estadística como una forma de descubrir y validar insights de datos.

Martin DAVILA

Estudiante

# En el espacio de parámetros podemos ver los parámetros y los int --------

# intervalos de confianza de la media -------------------------------------

tamano_muestral <- 35
iteraciones <- 100
media_poblacional_A <- 5
media_poblacional_B <- 3
desv_est_poblacional <- 3
min_gr_A <- media_poblacional_A - 10*desv_est_poblacional/sqrt(tamano_muestral)
max_gr_A <- media_poblacional_A + 10*desv_est_poblacional/sqrt(tamano_muestral)
min_gr_B <- media_poblacional_B - 10*desv_est_poblacional/sqrt(tamano_muestral)
max_gr_B <- media_poblacional_B + 10*desv_est_poblacional/sqrt(tamano_muestral)

plot(media_poblacional_A, media_poblacional_B, xlim = c(min_gr_A, max_gr_A), ylim = c(min_gr_B, max_gr_B), col = 4, pch = 20)

for(i in seq_len(iteraciones)){
  muestra_A <- rnorm(tamano_muestral, media_poblacional_A, desv_est_poblacional)
  t_test_A <- t.test(muestra_A)
  intervalo_A <- t_test_A$conf.int
  LI_A <- min(intervalo_A)
  LS_A <- max(intervalo_A)

  muestra_B <- rnorm(tamano_muestral, media_poblacional_B, desv_est_poblacional)
  t_test_B <- t.test(muestra_B)
  intervalo_B <- t_test_B$conf.int
  LI_B <- min(intervalo_B)
  LS_B <- max(intervalo_B)

  rect(LI_A, LI_B, LS_A, LS_B)
  
}

abline(1,1, col = 2)
points(media_poblacional_A, media_poblacional_B, col = 4, pch = 20, cex = 3)


# Tidy approach -----------------------------------------------------------


# Paquetes ----------------------------------------------------------------


library("dplyr")
library("LaCroixColoR")
library("purrr")
library("magrittr")
library("ggplot2")

colores <- lacroix_palette("Pamplemousse")
colores_platzi <- c("#78D92A", "#002E4E", "#058ECD", "#ED2B05", "#F4F7F4")

tibble(
  muestra_A = replicate(iteraciones, rnorm(tamano_muestral, media_poblacional_A, desv_est_poblacional), simplify = FALSE),
  t_test_A = map(muestra_A, t.test),
  intervalo_A = map(t_test_A, extract2, "conf.int"),
  LI_A = map_dbl(intervalo_A, min),
  LS_A = map_dbl(intervalo_A, max),
  muestra_B = replicate(iteraciones, rnorm(tamano_muestral, media_poblacional_B, desv_est_poblacional), simplify = FALSE),
  t_test_B = map(muestra_B, t.test),
  intervalo_B = map(t_test_B, extract2, "conf.int"),
  LI_B = map_dbl(intervalo_B, min),
  LS_B = map_dbl(intervalo_B, max)
) -> simulaciones


simulaciones %>% 
  ggplot +
  geom_rect(aes(xmin = LI_A, xmax = LS_A, ymin = LI_B, ymax = LS_B), alpha = 0.2, fill = colores[6]) +
  annotate("point", media_poblacional_A, media_poblacional_B, colour = colores[1], size = 5) +
  geom_abline(intercept = 0, slope = 1, colour = colores[4], size = 1) +
  xlim(-2, 8) +
  ylim(-2, 8) +
  theme_minimal()

Simulación de Intervalos de Confianza para Poblaciones Normales

Teoría

Inferencia Estadística: Fundamentos y Aplicaciones con Simulación en R

Valor Esperado Condicional en Ciencia de Datos

Poblaciones y Muestras: Conceptos y Generalización Estadística

Muestreo Probabilístico y No Probabilístico: Métodos y Aplicaciones

Estimadores y Parámetros en Ciencia de Datos

Estimación Paramétrica y No Paramétrica en Ciencia de Datos

Gráficos y Espacio de Parámetros en Modelos Estadísticos

Estimadores Puntuales y su Comportamiento Aleatorio

Intervalos de Confianza: Cálculo y Significado en Estadística

Tamaño Muestral y su Impacto en la Precisión Estadística

Sesgo y Varianza en Ciencia de Datos: Precisión y Exactitud

Teoría No Paramétrica: Estimación y Modelos Aplicados

Estimación Funcional: Kernel y Funciones de Densidad Acumulada

Estimación Funcional del Valor Esperado Condicional

Inferencia Estadística con Bootstrapping para Modelos Paramétricos

Validación Cruzada y Generalización de Modelos Estadísticos

Pruebas de Hipótesis: Conceptos y Aplicaciones Estadísticas

Pruebas de Hipótesis: P Valor y Significancia Estadística

Simulación

Simulación de Datos con R: Teoría a la Práctica

Instalación de R y RStudio en Windows, macOS y Ubuntu

Simulación de Datos en R: Distribuciones y Modelos Lineales

Simulación de Estimación de Parámetros usando R