- 1

Inferencia Estadística: Fundamentos y Aplicaciones con Simulación en R
02:59 - 2

Valor Esperado Condicional en Ciencia de Datos
07:53 - 3

Poblaciones y Muestras: Conceptos y Generalización Estadística
03:51 - 4
Muestreo Probabilístico y No Probabilístico: Métodos y Aplicaciones
05:40 - 5

Estimadores y Parámetros en Ciencia de Datos
04:49 - 6

Estimación Paramétrica y No Paramétrica en Ciencia de Datos
04:16 - 7

Gráficos y Espacio de Parámetros en Modelos Estadísticos
04:35 - 8

Estimadores Puntuales y su Comportamiento Aleatorio
04:56 - 9

Intervalos de Confianza: Cálculo y Significado en Estadística
05:36 - 10

Tamaño Muestral y su Impacto en la Precisión Estadística
08:44 - 11

Sesgo y Varianza en Ciencia de Datos: Precisión y Exactitud
07:52 - 12

Teoría No Paramétrica: Estimación y Modelos Aplicados
04:48 - 13

Estimación Funcional: Kernel y Funciones de Densidad Acumulada
05:34 - 14

Estimación Funcional del Valor Esperado Condicional
03:21 - 15

Inferencia Estadística con Bootstrapping para Modelos Paramétricos
04:48 - 16

Validación Cruzada y Generalización de Modelos Estadísticos
04:50 - 17
Pruebas de Hipótesis: Conceptos y Aplicaciones Estadísticas
07:07 - 18

Pruebas de Hipótesis: P Valor y Significancia Estadística
02:43
Boostrapping en R para Regresión Lineal: Implementación y Análisis
Clase 28 de 37 • Curso de Estadística Inferencial con R
Contenido del curso
- 19

Simulación de Datos con R: Teoría a la Práctica
05:30 - 20
Instalación de R y RStudio en Windows, macOS y Ubuntu
01:47 - 21

Simulación de Datos en R: Distribuciones y Modelos Lineales
12:18 - 22

Simulación de Estimación de Parámetros usando R
11:21 - 23

Simulación de Intervalos de Confianza para Poblaciones Normales
08:07 - 24

Simulación de Convergencia de Estimadores con Diferentes Tamaños Muestrales
10:41 - 25

Estimación Kernel y Distribución Acumulada Empírica
11:37 - 26

Estimación Condicional con Redes Neuronales en R
10:10 - 27

Estimación Kernel: Aplicación en Distribución Uniforme y Normal
07:34 - 28

Boostrapping en R para Regresión Lineal: Implementación y Análisis
19:25 - 29

Validación cruzada en redes neuronales usando R
16:32 - 30

Simulación de Potencia en Pruebas de Hipótesis con R
13:59
- 31

Análisis Estadístico del Examen Saber Once con R
08:02 - 32

Estimación de Intervalos de Confianza para Comparar Poblaciones con y sin Internet
16:22 - 33

Pronóstico de Puntaje en Matemáticas con Redes Neuronales
09:59 - 34

Generalización de Redes Neuronales a Poblaciones Completas
10:06 - 35

Análisis de Tamaño Muestral Óptimo para Redes Neuronales
09:16 - 36

Interpretación de Redes Neuronales en Predicción Educativa
09:46
¿Qué es el bootstrapping y cómo se implementa en R?
El bootstrapping es una técnica de remuestreo que permite estimar la distribución de un estadístico mediante la creación de múltiples subconjuntos de los datos originales. En una muestra aleatoria, el proceso se repite varias veces con reemplazo, lo que significa que algunos elementos pueden seleccionarse más de una vez.
En R, el bootstrapping comúnmente se utiliza en la estadística inferencial para estimar intervalos de confianza, especialmente en situaciones donde no se pueden aplicar fórmulas teóricas debido a la estructura compleja de los datos.
¿Cómo se prepara el entorno de trabajo?
Para comenzar a implementar bootstrapping en R, se establece primero el tamaño de la muestra. En el ejemplo se utiliza un tamaño muy pequeño de muestra, solo 23, pero se enfatiza el uso de un gran número de iteraciones para mejorar la precisión de los resultados.
n <- 23 # Tamaño muestral pequeño
iteraciones <- 1000 # Número de iteraciones
# Valores para beta0 y beta1
beta0 <- 1
beta1 <- -0.3
# Desviación estándar del error
desviacion_error <- 0.5
¿Cómo se generan las variables independientes y dependientes?
Para la generación de datos, se definen funciones que simulan la variable independiente X y la dependiente Y, basadas en la relación lineal preestablecida. La función generaX produce valores X entre -3 y 3, mientras que generaY crea Y usando los valores predeterminados de los betas y sumando un error aleatorio.
generaX <- function(n) {
seq(-3, 3, length.out = n)
}
generaY <- function(x, beta0, beta1, desviacion) {
y <- beta1 * x + beta0 + rnorm(length(x), mean = 0, sd = desviacion)
return(y)
}
# Generación de datos
datosX <- generaX(n)
datosY <- generaY(datosX, beta0, beta1, desviacion_error)
¿Cómo se realiza la regresión lineal y el cálculo de los coeficientes?
La regresión lineal en R se lleva a cabo utilizando el modelo LM. Los coeficientes resultantes del modelo se extraen para su análisis.
modelo <- lm(datosY ~ datosX)
coeficientes_muestrales <- coef(modelo)
¿Qué pasos se siguen para el remuestreo en bootstrapping?
Para realizar el remuestreo, se ejecuta un ciclo for para iterar sobre el número de veces deseadas. En cada iteración, se toma una nueva muestra con reemplazo, se ejecuta la regresión sobre esta muestra y se almacenan los coeficientes. Este proceso se repite densas veces, lo que da como resultado una comparación robusta de los intervalos de confianza.
beta0_est <- numeric(iteraciones)
beta1_est <- numeric(iteraciones)
for (i in 1:iteraciones) {
muestra_indices <- sample(1:n, n, replace = TRUE)
muestraX <- datosX[muestra_indices]
muestraY <- datosY[muestra_indices]
modelo_muestra <- lm(muestraY ~ muestraX)
coef_muestra <- coef(modelo_muestra)
beta0_est[i] <- coef_muestra[1]
beta1_est[i] <- coef_muestra[2]
}
# Cálculo de los intervalos de confianza con bootstrapping
intervalo_beta0 <- quantile(beta0_est, c(0.025, 0.975))
intervalo_beta1 <- quantile(beta1_est, c(0.025, 0.975))
¿Cómo se visualizan los resultados del bootstrapping?
Finalmente, se realiza un gráfico utilizando las funciones de plot y points, mostrando los diferentes estimadores obtenidos mediante bootstrapping y destacando los intervalos de confianza.
plot(beta0_est, beta1_est, xlab = "Beta 0", ylab = "Beta 1", main = "Distribución de Betas via Bootstrap")
abline(v = intervalo_beta0, col = "blue", lty = 2)
abline(h = intervalo_beta1, col = "red", lty = 2)
El bootstrapping, como se ha descrito, ofrece flexibilidad ante la falta de supuestos teóricos al proporcionar una forma empírica de estimar la dispersión estadística y confiar en los resultados, permitiéndonos abordar modelos estadísticos complejos sin depender de criterios normales. ¡Es una herramienta poderosa para tus proyectos de análisis de datos!