Simulación de Datos en R: Distribuciones y Modelos Lineales

Clase 21 de 37 • Curso de Estadística Inferencial con R

Resumen

¿Cómo simular datos en R?

Simular datos es esencial para estadísticas, machine learning y análisis avanzados. Con R, puedes hacerlo eficientemente, gracias a su robusta base de funciones. Aprenderemos a simular datos de distribuciones normales, uniformes y modelos (lineales y no lineales), utilizando solo las funciones básicas de R.

¿Cómo generar datos con distribución normal y uniforme?

Simular datos a partir de distribuciones conocidas nos permite modelar situaciones reales y comprender mejor el comportamiento de diferentes variables.

Distribución normal

Para simular datos de una distribución normal estándar, R ofrece la función rnorm. A continuación, un ejemplo que genera 100 valores de una distribución normal con media cero y desviación estándar uno:

valores_normales <- rnorm(100)

Para observar la distribución, puedes usar una gráfica básica del paquete base de R:

plot(density(valores_normales), main = "Densidad de la distribución normal")

Si deseas modificar los parámetros, puedes especificar una media diferente y una desviación estándar distinta:

valores_normales_modificados <- rnorm(100, mean = 5, sd = 3)

Distribución uniforme

Simular datos de una distribución uniforme es igualmente sencillo con la función runif. Por ejemplo, para generar 100 observaciones entre cero y uno:

valores_uniformes <- runif(100)
plot(density(valores_uniformes), main = "Densidad de la distribución uniforme")

Para establecer un rango diferente, simplemente ajusta los parámetros de mínimo y máximo:

valores_uniformes_modificados <- runif(100, min = 3, max = 8)

¿Cómo crear y visualizar tablas de datos simulados?

Para simular datos más complejos en un contexto específico, consideremos un ejemplo con diferentes grupos (escuela, preparatoria, universidad) y sus respectivas edades:

# Simulación de datos para diferentes grupos
escuela <- data.frame(edad = rnorm(50, mean = 10, sd = 1.2), lugar = "escuela")
prepa <- data.frame(edad = rnorm(45, mean = 15, sd = 1.9), lugar = "preparatoria")
universidad <- data.frame(edad = rnorm(80, mean = 21, sd = 2.5), lugar = "universidad")

# Combinar tablas en una sola
edad_lugar <- rbind(escuela, prepa, universidad)

# Visualización con boxplot
boxplot(edad_lugar$edad ~ edad_lugar$lugar, main = "Distribución de edades por lugar")

¿Cómo simular modelos lineales y no lineales?

Crear modelos simulados permite analizar cómo varían las variables y predecir resultados potenciales.

Modelo lineal

Un ejemplo de modelo lineal puede estructurarse como sigue:

x <- seq(0, 3*pi, length.out = 100)
z <- -0.3*x + 1
y <- z + rnorm(100, mean = 0, sd = 0.5)

datos_lineal <- data.frame(x, y)

plot(y ~ x, data = datos_lineal, main = "Modelo lineal")
lines(z ~ x, data = datos_lineal, col = 2, lwd = 2)

Modelo no lineal

La práctica para un modelo no lineal es similar, excepto que la relación entre variables cambia:

z_nl <- cos(x)
y_nl <- z_nl + rnorm(100, mean = 0, sd = 0.5)

datos_nolineal <- data.frame(x, y_nl)

plot(y_nl ~ x, data = datos_nolineal, main = "Modelo no lineal")
lines(z_nl ~ x, data = datos_nolineal, col = 2, lwd = 2)

Esto solo es el principio del potencial de simulación con R, y te permite analizar diversas situaciones hipotéticas de manera ordenada y eficiente. ¡Sigue explorando y perfeccionando tus habilidades en R! En la próxima clase, profundizaremos más en cómo estimar parámetros efectivos usando R. ¡Nos vemos allí!

Alonso Melgar Lopez

student•

con el shortcut

alt + -

pueden obtener

<-

Bryan

student•

Yo que vengo de Python uso =, se me hace mas comodo

rusbel bermúdez rivera

student•

El script de la clase

# Vamos a jugar con datos simulados. Escojan sus

# Distribucion normal estandar
y <- rnorm(100)
plot(density(y))

# Distribucion normal de media cinco y desviacion estandar 3
y <- rnorm(100,5,3)
plot(density(y))

# Distribucion uniforme 0,1
y <- runif(100)
plot(density(y))

# Distribucion uniforme a=3, b=8
y <- runif(100,3,8)
plot(density(y))

# Ejemplo de la edad y el lugar

data.frame(
  Edad = rnorm(50, 10, 1.2),
  Lugar = "Escuela"
) -> escuela

data.frame(
  Edad = rnorm(45, 15, 1.9),
  Lugar = "Preparatoria"
) -> prepa

data.frame(
  Edad = rnorm(80, 21, 2.5),
  Lugar = "Universidad"
) -> universidad

rbind(escuela, prepa, universidad) -> edad_lugar

boxplot(Edad ~ Lugar, data = edad_lugar)


# Modelo lineal

X <-seq(0, 3*pi, length.out = 100)
Y <- -0.3*X + 1 + rnorm(100,0,0.5)
Z <- -0.3*X + 1

data.frame(X,Y,Z) -> datos_lineal
plot(Y ~ X, data = datos_lineal )
lines(Z ~ X, data = datos_lineal, col = 2, lwd = 2)

# Modelo no lineal
X <-seq(0, 3*pi, length.out = 100)
Y <- cos(x) + rnorm(100,0,0.5)
Z <- cos(x)

data.frame(X,Y,Z) -> datos_no_lineal
plot(Y ~ X, data = datos_no_lineal )
lines(Z ~ X, data = datos_no_lineal, col = 2, lwd = 2)```

Sergio Alejandro Martínez

student•

Comandos útiles en R para tener a la mano link:https://sites.calvin.edu/scofield/courses/m143/materials/RcmdsFromClass.pdf

Henry Mendiburu Díaz

student•

Cualquiera de estas opciones funciona para asignar un valor a una variable:

100 -> var
var <- 100
var = 100

JAVIER SANTIAGO SALGADO

student•

Lo hice para ver como afecta aumentar la desviacion en la data perturbada

# Modelo lineal -----------------------------------------------------------
library("dplyr")
library("ggplot2")
library("magrittr")
library("purrr")
desviaciones <- c(0.5, 1.5, 3)
simulacion <- data.frame()

for (i in seq_len(length(desviaciones))){
  tibble(
    X = seq(0, 10, length.out = 100),
    Y = 1*X + 1 + rnorm(100, 0, desviaciones[i]),
    Z = 1*X + 1,
    W = desviaciones[i]
  ) -> datos_lineal
  simulacion <- rbind(simulacion, datos_lineal)
}

qplot(X, Y, data = simulacion) +facet_grid(W ~.) +
  geom_path(aes(X, Z), colour = colour_setup[1], size = 1) +
  # geom_smooth(aes(X, Y), colour = colour_setup[2], method = "lm", size = 1, se = FALSE) +
  theme_minimal()

Caso Lineal

Caso NoLineal

JAVIER SANTIAGO SALGADO

student•

# Distribución normal estandar

Y <- rnorm(100)
plot(density(Y))


# Distribucion normal de media cino y desviacion 3

Y <- rnorm(100, 5, 3)
plot(density(Y))

#Distribucion uniforme 0 , 1

Y <- runif(100)
plot(density(Y))

#Distribucion uniforme 3 a 8

Y <- runif(100, 3, 8)
plot(density(Y))


# Ejemplo de la edad y el lugar

data.frame(
  Edad = rnorm(50, 10, 1.2),
  Lugar = 'Escuela'
) -> escuela

data.frame(
  Edad = rnorm(45, 15, 1.9),
  Lugar = 'Preparatoria'
) -> prepa

data.frame(
  Edad = rnorm(83, 21, 2.5),
  Lugar = 'Universidad'
) -> universidad

rbind(escuela, prepa, universidad) -> edad_lugar

boxplot(Edad ~ Lugar, edad_lugar)

# Modelo Lineal

X <- seq(0, 3* pi, length.out = 100)
Y <- -0.3*X + 1 + rnorm(100,0, 0.5)
Z <- -0.3*X +1

rbind(X, Y, Z) -> datos_lineal
plot(Y ~ X, datos_lineal)
lines(Z ~ X, datos_lineal, col = 2, lwd =2)

# Modelo  No Lineal

X <- seq(0, 3* pi, length.out = 100)
Y <- cos(X) + rnorm(100,0, 0.5)
Z <- cos(X)

rbind(X, Y, Z) -> datos_Nolineal
plot(Y ~ X, datos_Nolineal)
lines(Z ~ X, datos_Nolineal, col = 2, lwd =2)

Percy Armando Márquez Delgado

student•

Para los que quieran tener la interfaz como la del profesor, la pueden editar haciendo click en Tools y luego en Global options. Les dejo el enlace para que descarguen Temas de RStudio .
Para poner títulos en el Source ( # Explorando datos simulados -----------------------), solo tienen que presionar CRTL + SHIFT + R, les saldrá una ventana, ingresan el titulo que deseen y quedará tal como en el ejemplo.

Cesar Augusto Morales Godoy

student•

Chicos y chicas dejo el notebook de la clase para el que lo quiera revisar: https://colab.research.google.com/drive/14Q-1yPCkW9yRfkYrsCLT5FtVNVMuOCKY?usp=sharing 😀👍🏼

Jesús Andrés Miranda Roa

student•

En la parte final del video el profesor no cambio las variables de datos_lineal pero de igual manera esta bien la grafica, ya que antes de cambiarla, el ejecuto esa linea y los datos de los dos dataframe son los mismo, pero para ejecutarlo todo seguido, debes cambiar el nombre.

Claudio Piña

student•

El código que está en "archivos y enlaces" ya tiene eso solucionado. lo descargué solo para mirar eso xD

Jhon Freddy Tavera Blandon

student•

La exploración de datos simulados es un paso esencial en la ciencia de datos, ya que permite entender mejor el comportamiento de las variables y evaluar modelos sin depender de conjuntos de datos reales, lo que es especialmente útil cuando se están aprendiendo conceptos o se prueban enfoques experimentales.

JAVIERTH LISNERTH ENRIQUE ARAUCO

student•

En caso de querer simular una No normalidad de tendencia logaritmica.

x = seq(0, 300, length = 600) y = log(x) + 1 + rnorm(600, 0 , 0.1) z = log(x) + 1 plot(y ~ x) lines(z ~ x, col = 10 , lwd = 2)

JAVIERTH LISNERTH ENRIQUE ARAUCO

student•

Codigo con el paquete ggplot2:

ggplot() + geom_boxplot(data=edad_lugar,aes(x=Lugar,y=Edad , fill = Lugar), alpha = 0.4) + labs(x="Lugares de procedencia", y="Edad de lops estudiantes",title = " Grafica de cajas según edad") + theme( panel.background = element_blank())

Gerardo Mayel Fernández Alamilla

student•

Es algo muy simple pero para poner la tilde ~ en MacOs usen option + Ñ,

Eduardo Enrique Morales Martínez

student•

Si queremos las mismas graficas , debemos usar un valor semilla, no ? set.seed(123)

Alonso Melgar Lopez

student•

Sí, justo así se puede controlar la parte aleatoria

# Vamos a jugar con datos simulados. Escojan sus

# Distribucion normal estandar
y <- rnorm(100)
plot(density(y))

# Distribucion normal de media cinco y desviacion estandar 3
y <- rnorm(100,5,3)
plot(density(y))

# Distribucion uniforme 0,1
y <- runif(100)
plot(density(y))

# Distribucion uniforme a=3, b=8
y <- runif(100,3,8)
plot(density(y))

# Ejemplo de la edad y el lugar

data.frame(
  Edad = rnorm(50, 10, 1.2),
  Lugar = "Escuela"
) -> escuela

data.frame(
  Edad = rnorm(45, 15, 1.9),
  Lugar = "Preparatoria"
) -> prepa

data.frame(
  Edad = rnorm(80, 21, 2.5),
  Lugar = "Universidad"
) -> universidad

rbind(escuela, prepa, universidad) -> edad_lugar

boxplot(Edad ~ Lugar, data = edad_lugar)


# Modelo lineal

X <-seq(0, 3*pi, length.out = 100)
Y <- -0.3*X + 1 + rnorm(100,0,0.5)
Z <- -0.3*X + 1

data.frame(X,Y,Z) -> datos_lineal
plot(Y ~ X, data = datos_lineal )
lines(Z ~ X, data = datos_lineal, col = 2, lwd = 2)

# Modelo no lineal
X <-seq(0, 3*pi, length.out = 100)
Y <- cos(x) + rnorm(100,0,0.5)
Z <- cos(x)

data.frame(X,Y,Z) -> datos_no_lineal
plot(Y ~ X, data = datos_no_lineal )
lines(Z ~ X, data = datos_no_lineal, col = 2, lwd = 2)```

# Modelo lineal -----------------------------------------------------------
library("dplyr")
library("ggplot2")
library("magrittr")
library("purrr")
desviaciones <- c(0.5, 1.5, 3)
simulacion <- data.frame()

for (i in seq_len(length(desviaciones))){
  tibble(
    X = seq(0, 10, length.out = 100),
    Y = 1*X + 1 + rnorm(100, 0, desviaciones[i]),
    Z = 1*X + 1,
    W = desviaciones[i]
  ) -> datos_lineal
  simulacion <- rbind(simulacion, datos_lineal)
}

qplot(X, Y, data = simulacion) +facet_grid(W ~.) +
  geom_path(aes(X, Z), colour = colour_setup[1], size = 1) +
  # geom_smooth(aes(X, Y), colour = colour_setup[2], method = "lm", size = 1, se = FALSE) +
  theme_minimal()

# Distribución normal estandar

Y <- rnorm(100)
plot(density(Y))


# Distribucion normal de media cino y desviacion 3

Y <- rnorm(100, 5, 3)
plot(density(Y))

#Distribucion uniforme 0 , 1

Y <- runif(100)
plot(density(Y))

#Distribucion uniforme 3 a 8

Y <- runif(100, 3, 8)
plot(density(Y))


# Ejemplo de la edad y el lugar

data.frame(
  Edad = rnorm(50, 10, 1.2),
  Lugar = 'Escuela'
) -> escuela

data.frame(
  Edad = rnorm(45, 15, 1.9),
  Lugar = 'Preparatoria'
) -> prepa

data.frame(
  Edad = rnorm(83, 21, 2.5),
  Lugar = 'Universidad'
) -> universidad

rbind(escuela, prepa, universidad) -> edad_lugar

boxplot(Edad ~ Lugar, edad_lugar)

# Modelo Lineal

X <- seq(0, 3* pi, length.out = 100)
Y <- -0.3*X + 1 + rnorm(100,0, 0.5)
Z <- -0.3*X +1

rbind(X, Y, Z) -> datos_lineal
plot(Y ~ X, datos_lineal)
lines(Z ~ X, datos_lineal, col = 2, lwd =2)

# Modelo  No Lineal

X <- seq(0, 3* pi, length.out = 100)
Y <- cos(X) + rnorm(100,0, 0.5)
Z <- cos(X)

rbind(X, Y, Z) -> datos_Nolineal
plot(Y ~ X, datos_Nolineal)
lines(Z ~ X, datos_Nolineal, col = 2, lwd =2)

Simulación de Datos en R: Distribuciones y Modelos Lineales

Teoría

Inferencia Estadística: Fundamentos y Aplicaciones con Simulación en R

Valor Esperado Condicional en Ciencia de Datos

Poblaciones y Muestras: Conceptos y Generalización Estadística

Muestreo Probabilístico y No Probabilístico: Métodos y Aplicaciones

Estimadores y Parámetros en Ciencia de Datos

Estimación Paramétrica y No Paramétrica en Ciencia de Datos

Gráficos y Espacio de Parámetros en Modelos Estadísticos

Estimadores Puntuales y su Comportamiento Aleatorio

Intervalos de Confianza: Cálculo y Significado en Estadística

Tamaño Muestral y su Impacto en la Precisión Estadística

Sesgo y Varianza en Ciencia de Datos: Precisión y Exactitud

Teoría No Paramétrica: Estimación y Modelos Aplicados

Estimación Funcional: Kernel y Funciones de Densidad Acumulada

Estimación Funcional del Valor Esperado Condicional

Inferencia Estadística con Bootstrapping para Modelos Paramétricos

Validación Cruzada y Generalización de Modelos Estadísticos

Pruebas de Hipótesis: Conceptos y Aplicaciones Estadísticas

Pruebas de Hipótesis: P Valor y Significancia Estadística

Simulación

Simulación de Datos con R: Teoría a la Práctica

Instalación de R y RStudio en Windows, macOS y Ubuntu

Simulación de Datos en R: Distribuciones y Modelos Lineales

Simulación de Estimación de Parámetros usando R

Simulación de Intervalos de Confianza para Poblaciones Normales

Simulación de Convergencia de Estimadores con Diferentes Tamaños Muestrales

Estimación Kernel y Distribución Acumulada Empírica

Estimación Condicional con Redes Neuronales en R

Estimación Kernel: Aplicación en Distribución Uniforme y Normal

Boostrapping en R para Regresión Lineal: Implementación y Análisis

Validación cruzada en redes neuronales usando R

Simulación de Potencia en Pruebas de Hipótesis con R

Proyecto

Análisis Estadístico del Examen Saber Once con R

Estimación de Intervalos de Confianza para Comparar Poblaciones con y sin Internet

Pronóstico de Puntaje en Matemáticas con Redes Neuronales

Generalización de Redes Neuronales a Poblaciones Completas

Análisis de Tamaño Muestral Óptimo para Redes Neuronales

Interpretación de Redes Neuronales en Predicción Educativa

Conclusiones

Programación Dinámica y Estocástica en Simulación