Simulación de Estimación de Parámetros usando R

Clase 22 de 37 • Curso de Estadística Inferencial con R

Resumen

¿Cómo estimar parámetros utilizando datos simulados?

La estimación de parámetros con datos simulados es una herramienta invaluable en ciencia de datos. Simular datos nos permite evaluar el comportamiento de nuestras estimaciones en escenarios controlados, donde conocemos los parámetros reales. Esta práctica resulta útil porque, en el mundo real, los verdaderos valores de esos parámetros son desconocidos. Al simular, podemos validar y mejorar nuestras técnicas de estimación.

¿Cómo iniciar el proceso de simulación?

Para comenzar, es necesario definir ciertos elementos claves:

Tamaño muestral: determina cuántos datos se utilizarán en cada iteración. En este caso, se inicia con un tamaño de 35.
Número de iteraciones: define cuántas veces repetiremos el proceso para tomar una muestra y estimar los parámetros. Aquí utilizamos 100 iteraciones.

Inicializaremos vectores para guardar las estimaciones de medias y desviaciones estándar. Además, establecemos parámetros poblacionales conocidos para la simulación:

Media poblacional: establecida en 3.
Desviación estándar poblacional: fijada en 5.

Con estos datos, procedemos a simular el proceso usando un bucle for.

tamaño_muestral <- 35
iteraciones <- 100
medias <- numeric(iteraciones)
desviaciones_estandar <- numeric(iteraciones)
media_poblacional <- 3
desviacion_estandar_poblacional <- 5

for (i in 1:iteraciones) {
  muestra <- rnorm(tamaño_muestral, media_poblacional, desviacion_estandar_poblacional)
  medias[i] <- mean(muestra)
  desviaciones_estandar[i] <- sd(muestra)
}

¿Cómo visualizar los resultados de la simulación?

Una vez obtenidas las estimaciones de medias y desviaciones estándar, se puede utilizar un gráfico para visualizar cómo estas estimaciones rodean al parámetro real. Se destacan puntos en el gráfico para representar los parámetros poblacionales.

plot(medias, desviaciones_estandar, main="Estimaciones de medias y desviaciones",
     xlab="Media estimada", ylab="Desviación estándar estimada")
points(media_poblacional, desviacion_estandar_poblacional, col=2, pch=20, cex=2)

¿Cómo afecta el tamaño muestral a las estimaciones?

Aumentar el tamaño muestral mejora la precisión de las estimaciones, haciendo que estén más cercanas a los valores reales de los parámetros. Por ejemplo, al aumentar el tamaño muestral de 35 a 350, y repetir el proceso, se observa que las estimaciones convergen más al valor del parámetro.

tamaño_muestral <- 350
# correr nuevamente el mismo código de simulación

¿Cómo implementar una simulación para la regresión lineal?

Para una regresión lineal, se establece un modelo con parámetros beta0 y beta1. Nuevamente, se fijan vectores para las estimaciones de estos parámetros y se simula el conjunto de datos para cada iteración.

Beta0: con valor 1.
Beta1: con valor -0.3.

Se utiliza una función para generar la variable dependiente y a partir de x en el modelo, incluyendo un error aleatorio.

tamaño_muestral <- 35
iteraciones <- 100
beta0 <- 1
beta1 <- -0.3
beta0_estimado <- numeric(iteraciones)
beta1_estimado <- numeric(iteraciones)

generar_y <- function(x, beta0, beta1) {
  y <- beta0 + beta1 * x + rnorm(length(x), 0, 0.5)
  return(y)
}

for (i in 1:iteraciones) {
  x <- seq(-3, 3, length.out=tamaño_muestral)
  y <- generar_y(x, beta0, beta1)
  modelo <- lm(y ~ x)
  coeficientes <- coef(modelo)
  beta0_estimado[i] <- coeficientes[1]
  beta1_estimado[i] <- coeficientes[2]
}

Visualizamos los resultados de la regresión para observar cómo los estimadores se distribuyen alrededor de los parámetros verdaderos.

plot(beta0_estimado, beta1_estimado, main="Estimaciones de β0 y β1",
     xlab="β0 estimado", ylab="β1 estimado")
points(beta0, beta1, col=2, pch=20, cex=2)

Este ejercicio de simulación proporciona una comprensión clara de cómo los estimadores se comportan y convergen hacia los parámetros reales, lo cual es esencial para el éxito en el mundo de la ciencia de datos. ¡Anímate a realizar estas pruebas y experimenta cómo los cambios en los parámetros alteran los resultados!

Juan Luis Villanueva Canales

student•

mucha teoria :( -Podrian hacer un curso de Esatadistica Descriptiva y Estadistica Iferencial en RStudio, con supuestos por favor, gracias

José Alberto Ortiz Vargas

student•

Seria genial.

Miguel Angel Velazquez Romero

student•

¿Cómo?, ¿No entiendo por qué la queja de "mucha teoría"? Todo la teoría la vimos en clases pasadas, esto es totalmente practico.

JAVIER SANTIAGO SALGADO

student•




# Distribucion normal

tamano_muestral <- 35
iteraciones <- 100

medias <- vector()
desv_est <- vector()

media_poblacional <- 3
desv_est_poblacional <- 5

for(i in seq_len(iteraciones)){
  muestra <- rnorm(tamano_muestral, media_poblacional, desv_est_poblacional)
  medias[i] <- mean(muestra)
  desv_est[i] <- sd(muestra)
}

plot(medias, desv_est)
points(media_poblacional, desv_est_poblacional, col = 2, cex = 3, pch = 20)


#regresion lineal

tamano_muestral <- 35
iteraciones <- 100

beta_0 <- 1
beta_1 <- 0.3

beta_0_estimado <- vector()
beta_1_estimado <- vector()

genera_y <- function(x, beta0, beta_1){
  beta_1 * x + beta_0 + rnorm(length(x), 0, 0.5)
}

for (i in seq_len(iteraciones)){
  X <- seq(-3, 3, length.out = tamano_muestral)
  Y <- genera_y(X, beta_0, beta_1)
  betas_estimados <- coef(lm(Y ~ X))
  beta_0_estimado[i] <- betas_estimados[1]
  beta_1_estimado[i] <- betas_estimados[2]
}

plot(beta_0_estimado, beta_1_estimado)
points(beta_0, beta_1, col = 2, cex = 3, pch = 20)

JAVIER SANTIAGO SALGADO

student•

Quería aportar un poco mas:


tamano_muestral <- c(10,100,1000,10000)
iteraciones <- 100
media_poblacional <- 3
desv_est_poblacional <- 5
simulacion <- data.frame()

for (i in seq_len(length(tamano_muestral))){
  tibble(
    muestras = replicate(iteraciones, rnorm(tamano_muestral[i], media_poblacional, desv_est_poblacional), simplify = FALSE),
    medias = map_dbl(muestras, mean),
    desv_est = map_dbl(muestras, sd),
    nombre = tamano_muestral[i]
  ) -> simulaciones
  simulacion <- rbind(simulacion, simulaciones)
  
}

qplot(medias, desv_est, data = simulacion) + 
  annotate("point", media_poblacional, desv_est_poblacional, colour = colores_platzi[3], size = 5) +
  theme_minimal() + facet_grid(nombre ~.)

JAVIER SANTIAGO SALGADO

student•

Uniforme:

Regresión Lineal:

Cesar Augusto Morales Godoy

student•

Buenas Compañeros dejo mi notebook de la clase: https://colab.research.google.com/drive/1s6HYGiIo1X8dVTJmEsxmhliGXYn46Oej?usp=sharing 😀👍🏼

Diana Marcela Amezquita Ospina

student•

Que Platzi maneje más cursos con R

Carlos Felipe Saldarriaga Bejarano

student•

R es completamente nuevo para mi y me ha gustado bastante como hemos podido llevarlo en el curso. 😁 Les comparto mis variaciones de los estimadores puntuales.
Distribución Normal tamano_muestral <- 3500 iteraciones <- 500 media_poblacional <- 10 desv_est_poblacional <- 2

Regresión Lineal tamano_muestral <- 3500 iteraciones <- 300 beta_0 <- 1 beta_1 <- 0.4

Jhon Freddy Tavera Blandon

student•


#@title Distribución normal -----------------------------------------------------

media_poblacional <- 3
desv_est_poblacional <- 5

tibble(
  muestras = replicate(iteraciones, rnorm(tamano_muestral, media_poblacional, desv_est_poblacional), simplify = FALSE),
  medias = map_dbl(muestras, mean),
  desv_est = map_dbl(muestras, sd)
) -> simulaciones

qplot(medias, desv_est, data = simulaciones) +
  annotate("point", media_poblacional, desv_est_poblacional, colour = colores_platzi[3], size = 5) +
  theme_minimal()