Estimación Kernel: Aplicación en Distribución Uniforme y Normal

Clase 27 de 37 • Curso de Estadística Inferencial con R

Resumen

¿Cómo estimar distribuciones utilizando el método kernel?

La estimación de distribuciones es un tema crucial para quienes trabajan con estadísticas y análisis de datos. Este proceso ayuda a modelar y entender mejor los datos reales y simulados. Uno de los métodos más robustos y usados para este propósito es la estimación kernel. En este contexto, vamos a explorar su aplicación en distribuciones uniformes y normales, así como las diferencias clave en términos de sesgo y varianza.

¿Qué es el estimador kernel?

El estimador kernel es una técnica no paramétrica utilizada para estimar la función de densidad de probabilidad de una variable aleatoria. A diferencia de métodos paramétricos, este no hace suposiciones sobre la forma de la distribución, siendo flexible al adaptarse a diferentes tipos de datos.

En una muestra grande, el estimador kernel se aproxima muy bien a la distribución teórica, mostrando una "caja" ajustada a esta. Sin embargo, con muestras más pequeñas, la aproximación puede no ser tan precisa, lo que introduce sesgo en la estimación.

¿Cómo se aplica a una distribución uniforme?

Para implementar una estimación kernel en una distribución uniforme, necesitas definir ciertos parámetros:

Tamaño muestral
Parámetros específicos de la distribución, como los límites inferior (a) y superior (b)
Número de iteraciones para mejorar la simulación

El procedimiento básico incluye:

Generar los datos de muestra y aplicar la estimación kernel.
Dibujar la densidad teórica y comparar con las densidades estimadas.

Aquí tienes un ejemplo de código en R para ilustrar este proceso:

# Código inicial para distribución uniforme
x <- runif(n, min = a, max = b)
y <- rnorm(length(x))

# Estimación kernel
density_est <- density(y)

# Gráfico de la estimación
plot(density_est)
lines(density(x))

¿Cómo utilizar el kernel en distribuciones normales?

El proceso es similar al anterior, pero en vez de los parámetros a y b de la distribución uniforme, necesitas la media y la desviación estándar para una distribución normal.

Los pasos son:

Cambiar la generación de datos para que sigan una distribución normal.
Ajustar los parámetros de media y desviación estándar.
Aplicar el estimador kernel, similar como se hace para una distribución uniforme.

Ejemplo de código en R:

# Código para distribución normal
x <- rnorm(n, mean = media, sd = desviacion_estandar)
y <- rnorm(length(x))

# Estimación kernel
density_est <- density(y)

# Gráfico de la estimación
plot(density_est)
lines(density(x))

¿Qué papel juegan el sesgo y la varianza?

El sesgo y la varianza son elementos cruciales en la estimación de funciones de densidad:

Sesgo: Ocurre cuando el parámetro verdadero de la distribución no se localiza dentro de la "nube" de estimadores. Aunque la precisión puede ser alta, el valor estimado puede ser incorrecto.
Varianza: Indica cómo de dispersa está la nube de estimadores alrededor del valor verdadero. Si la varianza es alta, puede incluir el parámetro verdadero pero pierde precisión en estimaciones individuales.

Por ejemplo, una muestra grande reducirá la varianza, mejorando la precisión de la estimación. Sin embargo, al disminuir el tamaño muestral, la varianza aumenta, y puede generar estimaciones sesgadas y menos exactas.

¿Cómo se aplica todo esto a casos reales?

Este conocimiento es fundamental para aquellos que trabajan en análisis predictivo y modelado estadístico. Comprender el balance entre sesgo y varianza te permitirá elegir adecuadamente el tamaño muestral y el método de estimación idóneo para tus datos.

Las lecciones aprendidas aquí se aplicarán en la práctica con técnicas avanzadas como el boost tracking, lo cual potencia las capacidades analíticas para situaciones del mundo real. ¡Te animo a continuar explorando y expandiendo tu conocimiento en este campo apasionante!

JAVIER SANTIAGO SALGADO

student•


# Distribucion normal ---------------------------------------------------

tamano_muestral <- 70
media <- 5.5
desv_est <- 2
iteraciones <- 100

x <- seq(2, 9, length.out = 100)

Y <- rnorm(tamano_muestral, media, desv_est)

estimador_kernel <- density(Y)

plot(estimador_kernel)
lines(X, dnorm(X, media, desv_est), col = 2, lwd = 2)

plot(estimador_kernel)

for (i in seq_len(iteraciones)){
  Y <- rnorm(tamano_muestral, media, desv_est)
  estimador_kernel <- density(Y)
  lines(estimador_kernel)
  
}
lines(X, dnorm(X, media, desv_est), col = 2, lwd = 2)

Miguel Angel Velazquez Romero

student•

¿Cómo afectan nuestros features a los modelos de Machine Learning?

¿Qué son los features? Son los atributos de nuestro modelo que usamos para realizar una interferencia o predicción. Son las variables de entrada.

Más features simpre es mejor, ¿verdad?

La respuesta corta es: NO. En realidad si tenemos variables que son irrelevantes pasarán estas cosas:

Se le abrirá el paso al ruido.
Aumentará el costo computacional.
Si introducimos demasiados features y estos tienen valores faltantes, se harán sesgos muy significativos y vamos a perder esa capacidad de predicción.

Nota: Hacer una buena selección de nuestro features, hará que nuestros algoritmos corran de una manera mas eficiente.

Una de las formas de saber que nuestros features han sido bien seleccionados es con el sesgo y la varianza.

Una mala selección de nuestro features nos puede llevar a alguno de esos dos escenarios indeseados.
Una mala selección de nuestro features nos puede llevar a alguno de esos dos escenarios indeseados.

Martin DAVILA

student•


# Veamos el funcionamiento del sesgo y la varianza a nivel funcion --------


# Kernel ------------------------------------------------------------------


# Distribución normal -----------------------------------------------------

tamano_muestral <- 100
media <- 5
desv <- 3
iteraciones <- 75

x <- seq(-5, 15, length.out = 100)

Y <- rnorm(tamano_muestral, media, desv)

estimador_kernel <- density(Y)

plot(estimador_kernel)
lines(x = x, y = dnorm(x, media, desv), col = 2, lwd = 2)



plot(estimador_kernel)
for(i in seq_len(iteraciones)){
  Y <- rnorm(tamano_muestral, media, desv)
  
  estimador_kernel <- density(Y)
  
  lines(estimador_kernel)
  
}
lines(x = x, y = dnorm(x, media, desv), col = 2, lwd = 2)




# Distribución uniforme ---------------------------------------------------


tamano_muestral <- 100
a <- 3
b <- 8
iteraciones <- 75

x <- seq(2, 9, length.out = 100)

Y <- runif(tamano_muestral, a, b)

estimador_kernel <- density(Y)

plot(estimador_kernel)
lines(x = x, y = dunif(x, a, b), col = 2, lwd = 2)



plot(estimador_kernel)
for(i in seq_len(iteraciones)){
  Y <- runif(tamano_muestral, a, b)
  
  estimador_kernel <- density(Y)
  
  lines(estimador_kernel)
  
}
lines(x = x, y = dunif(x, a, b), col = 2, lwd = 2)



# ECDF --------------------------------------------------------------------

# distribución normal -----------------------------------------------------


tamano_muestral <- 100
media <- 5
desv <- 3
iteraciones <- 75

x <- seq(-5, 15, length.out = 100)

Y <- rnorm(tamano_muestral, media, desv)

estimador_ecdf <- ecdf(Y)

plot(estimador_ecdf, pch = "", verticals = TRUE)
lines(x = x, y = pnorm(x, media, desv), col = 2, lwd = 2)



plot(estimador_ecdf, pch = "", verticals = TRUE)
for(i in seq_len(iteraciones)){
  Y <- rnorm(tamano_muestral, media, desv)
  
  estimador_ecdf <- ecdf(Y)
  
  lines(estimador_ecdf, pch = "", verticals = TRUE)
  
}
lines(x = x, y = pnorm(x, media, desv), col = 2, lwd = 2)



# Distribución uniforme ---------------------------------------------------

tamano_muestral <- 80
a <- 2
b <- 8
iteraciones <- 75

x <- seq(-5, 15, length.out = 100)

Y <- runif(tamano_muestral, a, b)

estimador_ecdf <- ecdf(Y)

plot(estimador_ecdf, pch = "", verticals = TRUE)
lines(x = x, y = punif(x, a, b), col = 2, lwd = 2)



plot(estimador_ecdf, pch = "", verticals = TRUE)
for(i in seq_len(iteraciones)){
  Y <- runif(tamano_muestral, a, b)
  
  estimador_ecdf <- ecdf(Y)
  
  lines(estimador_ecdf, pch = "", verticals = TRUE)
  
}
lines(x = x, y = punif(x, a, b), col = 2, lwd = 2)



# Regresión lineal --------------------------------------------------------


iteraciones <- 100
tamano_muestral <- 30
beta_0 <- 1
beta_1 <- -0.3


x <- seq(-3, 3, length.out = tamano_muestral)

genera_y <- function(x, beta_0, beta_1){
  beta_1*x + beta_0 + rnorm(length(x), 0, 0.5)
}

y <- genera_y(x, beta_0, beta_1)

modelo_lineal <- lm(y~x)

plot(x, y)
lines(x, modelo_lineal$fitted.values, type = "l")


plot(x, modelo_lineal$fitted.values, type = "l")

for(i in seq_len(iteraciones)){
  y <- genera_y(x, beta_0, beta_1)
  
  modelo_lineal <- lm(y~x)
  
  lines(x, modelo_lineal$fitted.values)
  
}
abline(beta_0, beta_1, col = 2, lwd = 2)



# Red neuronal ------------------------------------------------------------

library("nnet")

iteraciones <- 100
tamano_muestral <- 30


genera_y <- function(x, beta_0, beta_1){
  cos(x) + rnorm(length(x), 0, 0.5)
  # beta_1*x + beta_0 + rnorm(length(x), 0, 0.5)
}


X <- seq(0, 3*pi, length.out = tamano_muestral)
Y <- genera_y(X)

plot(Y~X)
lines(cos(X) ~ X, col = 2, lwd = 2)


red_neuronal <- nnet(X, Y, size = 8, linout = TRUE, trace = FALSE)

YY <- predict(red_neuronal)
lines(YY ~ X, col = 4)

for(i in seq_len(iteraciones)){
  
  Y <- genera_y(X)
  red_neuronal <- nnet(X, Y, size = 8, linout = TRUE, trace = FALSE)
  YY <- predict(red_neuronal)
  lines(YY ~ X, col = 4)
  
}

lines(cos(X) ~ X, col = 2, lwd = 2)

Jhon Freddy Tavera Blandon

student•

Resultados esperados:

El modelo simple tendrá un error alto (no captura la relación no lineal, sesgo alto).

El modelo intermedio equilibrará sesgo y varianza, logrando un buen desempeño.

El modelo complejo tendrá bajo error en entrenamiento, pero alto error en prueba (sobreajuste, varianza alta).

Cesar Augusto Morales Godoy

student•

Notebook de la clase: https://colab.research.google.com/drive/1u3iIYOGsQ53rR1z1Wy8BiBYoG_Gx5S-B?usp=sharing

Estimación Kernel: Aplicación en Distribución Uniforme y Normal

Teoría

Inferencia Estadística: Fundamentos y Aplicaciones con Simulación en R

Valor Esperado Condicional en Ciencia de Datos

Poblaciones y Muestras: Conceptos y Generalización Estadística

Muestreo Probabilístico y No Probabilístico: Métodos y Aplicaciones

Estimadores y Parámetros en Ciencia de Datos

Estimación Paramétrica y No Paramétrica en Ciencia de Datos

Gráficos y Espacio de Parámetros en Modelos Estadísticos

Estimadores Puntuales y su Comportamiento Aleatorio

Intervalos de Confianza: Cálculo y Significado en Estadística

Tamaño Muestral y su Impacto en la Precisión Estadística

Sesgo y Varianza en Ciencia de Datos: Precisión y Exactitud

Teoría No Paramétrica: Estimación y Modelos Aplicados

Estimación Funcional: Kernel y Funciones de Densidad Acumulada

Estimación Funcional del Valor Esperado Condicional

Inferencia Estadística con Bootstrapping para Modelos Paramétricos

Validación Cruzada y Generalización de Modelos Estadísticos

Pruebas de Hipótesis: Conceptos y Aplicaciones Estadísticas

Pruebas de Hipótesis: P Valor y Significancia Estadística

Simulación

Simulación de Datos con R: Teoría a la Práctica

Instalación de R y RStudio en Windows, macOS y Ubuntu

Simulación de Datos en R: Distribuciones y Modelos Lineales

Simulación de Estimación de Parámetros usando R

Simulación de Intervalos de Confianza para Poblaciones Normales

Simulación de Convergencia de Estimadores con Diferentes Tamaños Muestrales

Estimación Kernel y Distribución Acumulada Empírica

Estimación Condicional con Redes Neuronales en R

Estimación Kernel: Aplicación en Distribución Uniforme y Normal

Boostrapping en R para Regresión Lineal: Implementación y Análisis

Validación cruzada en redes neuronales usando R

Simulación de Potencia en Pruebas de Hipótesis con R

Proyecto

Análisis Estadístico del Examen Saber Once con R

Estimación de Intervalos de Confianza para Comparar Poblaciones con y sin Internet

Pronóstico de Puntaje en Matemáticas con Redes Neuronales

Generalización de Redes Neuronales a Poblaciones Completas

Análisis de Tamaño Muestral Óptimo para Redes Neuronales

Interpretación de Redes Neuronales en Predicción Educativa

Conclusiones

Programación Dinámica y Estocástica en Simulación