Simulación de Estimación de Parámetros usando R

Clase 22 de 37 • Curso de Estadística Inferencial con R

Resumen

¿Cómo estimar parámetros utilizando datos simulados?

La estimación de parámetros con datos simulados es una herramienta invaluable en ciencia de datos. Simular datos nos permite evaluar el comportamiento de nuestras estimaciones en escenarios controlados, donde conocemos los parámetros reales. Esta práctica resulta útil porque, en el mundo real, los verdaderos valores de esos parámetros son desconocidos. Al simular, podemos validar y mejorar nuestras técnicas de estimación.

¿Cómo iniciar el proceso de simulación?

Para comenzar, es necesario definir ciertos elementos claves:

Tamaño muestral: determina cuántos datos se utilizarán en cada iteración. En este caso, se inicia con un tamaño de 35.
Número de iteraciones: define cuántas veces repetiremos el proceso para tomar una muestra y estimar los parámetros. Aquí utilizamos 100 iteraciones.

Inicializaremos vectores para guardar las estimaciones de medias y desviaciones estándar. Además, establecemos parámetros poblacionales conocidos para la simulación:

Media poblacional: establecida en 3.
Desviación estándar poblacional: fijada en 5.

Con estos datos, procedemos a simular el proceso usando un bucle for.

tamaño_muestral <- 35
iteraciones <- 100
medias <- numeric(iteraciones)
desviaciones_estandar <- numeric(iteraciones)
media_poblacional <- 3
desviacion_estandar_poblacional <- 5

for (i in 1:iteraciones) {
  muestra <- rnorm(tamaño_muestral, media_poblacional, desviacion_estandar_poblacional)
  medias[i] <- mean(muestra)
  desviaciones_estandar[i] <- sd(muestra)
}

¿Cómo visualizar los resultados de la simulación?

Una vez obtenidas las estimaciones de medias y desviaciones estándar, se puede utilizar un gráfico para visualizar cómo estas estimaciones rodean al parámetro real. Se destacan puntos en el gráfico para representar los parámetros poblacionales.

plot(medias, desviaciones_estandar, main="Estimaciones de medias y desviaciones",
     xlab="Media estimada", ylab="Desviación estándar estimada")
points(media_poblacional, desviacion_estandar_poblacional, col=2, pch=20, cex=2)

¿Cómo afecta el tamaño muestral a las estimaciones?

Aumentar el tamaño muestral mejora la precisión de las estimaciones, haciendo que estén más cercanas a los valores reales de los parámetros. Por ejemplo, al aumentar el tamaño muestral de 35 a 350, y repetir el proceso, se observa que las estimaciones convergen más al valor del parámetro.

tamaño_muestral <- 350
# correr nuevamente el mismo código de simulación

¿Cómo implementar una simulación para la regresión lineal?

Para una regresión lineal, se establece un modelo con parámetros beta0 y beta1. Nuevamente, se fijan vectores para las estimaciones de estos parámetros y se simula el conjunto de datos para cada iteración.

Beta0: con valor 1.
Beta1: con valor -0.3.

Se utiliza una función para generar la variable dependiente y a partir de x en el modelo, incluyendo un error aleatorio.

tamaño_muestral <- 35
iteraciones <- 100
beta0 <- 1
beta1 <- -0.3
beta0_estimado <- numeric(iteraciones)
beta1_estimado <- numeric(iteraciones)

generar_y <- function(x, beta0, beta1) {
  y <- beta0 + beta1 * x + rnorm(length(x), 0, 0.5)
  return(y)
}

for (i in 1:iteraciones) {
  x <- seq(-3, 3, length.out=tamaño_muestral)
  y <- generar_y(x, beta0, beta1)
  modelo <- lm(y ~ x)
  coeficientes <- coef(modelo)
  beta0_estimado[i] <- coeficientes[1]
  beta1_estimado[i] <- coeficientes[2]
}

Visualizamos los resultados de la regresión para observar cómo los estimadores se distribuyen alrededor de los parámetros verdaderos.

plot(beta0_estimado, beta1_estimado, main="Estimaciones de β0 y β1",
     xlab="β0 estimado", ylab="β1 estimado")
points(beta0, beta1, col=2, pch=20, cex=2)

Este ejercicio de simulación proporciona una comprensión clara de cómo los estimadores se comportan y convergen hacia los parámetros reales, lo cual es esencial para el éxito en el mundo de la ciencia de datos. ¡Anímate a realizar estas pruebas y experimenta cómo los cambios en los parámetros alteran los resultados!