Bienvenida e introducci贸n

1

Todo lo que aprender谩s sobre el lenguaje R

2

Programaci贸n y Data Science

3

R y proyecto econom铆a naranja.

4

Instalando nuestras herramientas

Variables, tipos de datos y estructuras

5

Los primeros c谩lculos con R y variables

6

Tipos de datos

7

Estructura del dataset del proyecto

8

Vectores

9

Matrices

10

Ejercicios con matrices

11

Operadores para comparar y ubicar datos

12

Factores, listas y echar un vistazo al dataset

EDA: Exploratory data analysis

13

Qu茅 es EDA: Exploratory Data Analysis

14

Gr谩ficas de dispersi贸n e histogramas.

15

Box Plot y su interpretaci贸n

16

EDA con dataset proyecto - Gr谩ficas de dispersi贸n.

17

EDA con histogramas.

18

EDA con dataset proyecto - histogramas - ggplot2

19

EDA con box plot- ggplot2

20

EDA con dataset proyecto - box plot- ggplot2 - dplyr

21

EDA con gr谩ficas de dispersi贸n con m谩s de dos variables - ggplot2

22

EDA con dataset proyecto usando gr谩ficas de dispersi贸n con m谩s de dos variables - ggplot2 - plotly

La estad铆stica de los datos

23

Buscando correlaciones con pairs

24

Confirmando correlaciones con la funci贸n cor

25

Buscando correlaciones con pairs en dataset proyecto

26

Confirmando correlaciones con la funci贸n cor en dataset proyecto.

27

Protegi茅ndonos de los peligros del promedio.

28

Eliminando los NA's para hacer los c谩lculos.

29

Estad铆stica y visualizaci贸n aplicada a an谩lisis de datos de mercadeo.

Ajustando los datos

30

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 1

31

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 2

Mejorando la visualizaci贸n

32

Viendo m谩s informaci贸n con facet wrap - Parte 1

33

Viendo m谩s informaci贸n con facet wrap - Parte 2

Organizar visualizaciones y c贸digo con R Markdown

34

Conociendo R Markdown y organizando los hallazgos del an谩lisis en un documento PDF.

Conclusiones Finales

35

Invitaci贸n a continuar recorriendo el mundo del data science.

A煤n no tienes acceso a esta clase

Crea una cuenta y contin煤a viendo este curso

EDA con dataset proyecto - box plot- ggplot2 - dplyr

20/35
Recursos

Aportes 19

Preguntas 11

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesi贸n.

C L A S E 2 0 馃弳
EDA con dataset proyecto - box plot- ggplot2 - dplyr
.
驴Que se ha hecho en el primer ggplot? 馃懇鈥嶐煆
Se ha graficado un boxplot de aporte a la economia naranja en pib paises latam con alto y bajo pib per capita
.
驴Tengo que instalar algun paquete? 馃
Si, tienes que tener dplyr y ggplot2. Los haces con install.package(" ")
library()
.
.
Son tres pasos para graficar este boxplot, asi que presta atenci贸n 馃憖
.
PASO 1
DECLARAS LA VARIABLE N脵MERICA

.
La declaracion es para pautar cual es la variable numerica del boxplot
.
En este caso es GDP.PC 馃捀 que se declara como economy
.

.
El n霉mero que resulta se interpreta ($) como el promedio de PIB per capita para cada habitante al a帽o entre los paises del dataset orangeec
.
.
PASO 2
CREAS UNA NUEVA VARIABLE CATEGORICA

.
Esta variable se crea usando la variable numerica declarada en el PASO 1
.
%>%, mutate, ifelse
.
%>% significa 鈥渧a a pasar a鈥
.
mutate viene porque ese dataset va a cambiar, se va agrandar, va a mutar 馃
.
ifelse significa que la nueva variable sera si otra variable del dataset es > menor a la declarada en el PASO 1
.

.
Pasamos ** %>%** el dataset (orangeec) a mutate para que se cree una nueva variable (Strong_economy) en una nueva columna dentro del dataset (orangeec) y la definicion de esa nueva variable (Strong_economy) depende ifelse si es mayor < o menor > que la condicion descrita (鈥減or debajo promedio pib p猫rcapita鈥, 鈥渟obre-arriba promedio pib p猫rcapita鈥)
.
.
驴En que punto del proceso estamos? 馃攲
Se ha creado una nueva variable con un factor (etiqueta) para cruzar con la variable numerica y hacer boxplot. Porque recuerda que: el boxplot se grafica cruzando una variable numerica con una categorica
.
.
PASO 3
GRAFICAR BOXPLOT
馃懇鈥嶐煉
.
Seran dos boxplot uno sera la caja de los paises que estan "Sobre promedio pib p猫rcapita"
y otra sera de los paises 鈥淧or debajo promedio pib p猫rcapita鈥
.

.
.
TEN SIEMPRE EN CUENTA 馃挕
.
El boxplot se grafica con una variable numerica y una categorica

Instalando el paquete Tidyverse, no hay que instalar dplyr y ggplot cada uno por separado. Este tiene estos dos paquetes, adem谩s de otros requeridos para hacer Data Science.

Esta clase me cay贸 del cielo para un proyecto de visualizaci贸n de covid que estaba haciendo 鈥xcelente Profe Sonia!

    #
    economy <- mean(orangeec$GDP.PC)
    economy

    orangec <-orangeec %>%
    mutate(Strong_economy = ifelse(GDP.PC < economy,
                                    "Por debajo promedio pib per capita",
                                    "Sobre-Arriba promedio pib per capita"))
    ggplot(orangec, aes(x=Strong_economy, y=Creat.Ind...GDP,
                        fill=Strong_economy))+
    geom_boxplot(alpha=0.4)+
    labs(c="Tipo de pais", y="Aporte economia naranja al pib",
        title="Aporte economia naranja en pib paises latam con
        alto y bajo pib per capita")+
    theme(legend.position = "none")+
    theme(panel.background = element_blank(),
            panel.grid.major = element_blank(),
            panel.grid.minor = element_blank())


    ggplot(orangec, aes(x=Strong_economy, y=Internet.penetration...population,
                        fill=Strong_economy))+
    geom_boxplot(alpha=0.4)+
    labs(c="Tipo de pais", y="Penetracion de internet (%)",
        title="Penetracion de internet latam con alto y bajo pib per capita")+
    theme(legend.position = "none")+
    theme(panel.background = element_blank(),
            panel.grid.major = element_blank(),
            panel.grid.minor = element_blank()) ```
#######ahora vamos a analizar los datos de orangeec
  
  ###instalamos el programa
  install.packages("dplyr")
  library(dplyr)
  
  ####
  economy<-mean(orangeec$`GDP PC`)
  
  ##
  orangeec<-orangeec%>%
    mutate(Strong_economy=ifelse(`GDP PC`<economy,
                                 "Por debajo de promedio pib per c谩pica",
                                 "sobre arriva promedio pib per capita"))
  
  ##
  ggplot(orangeec, aes(x=Strong_economy, y=`Creat Ind % GDP`,
                       fill=Strong_economy))+
    geom_boxplot(alpha=0.4)+
    labs(x="Tipo de pais", y="Aporte economia naranjaal pib",
         title = "Aporte economia naranja en pib paises latamcon alto y bajo pib per capita")+
    
    theme(legend.position = "none")+
    theme(panel.background = element_blank(),panel.grid.major=element_blank(),
          panel.grid.minor=element_blank())
  
  ##
  ggplot(orangeec, aes(x=Strong_economy, y=`Internet penetration % population`,
                       fill=Strong_economy))+
    geom_boxplot(alpha=0.4)+
    labs(x="Tipo de pais", y="Penetracion de internet(%)",
         title = "Penetracion de internet en paises Latam con 
         alto y bajo pib per capita")+
    
    theme(legend.position = "none")+
    theme(panel.background = element_blank(),panel.grid.major=element_blank(),
          panel.grid.minor=element_blank())```

AvgInflation <- mean(orangeec$Inflation)
AvgInflation

orangeec <- orangeec %>%
  mutate(InflationGroup = ifelse(orangeec$Inflation >= AvgInflation, "Arriba de AVG", "Abajo de AVG"))

ggplot(orangeec, aes(x=as.factor(InflationGroup), y=Education.invest...GDP, fill=InflationGroup)) + 
  geom_boxplot(alpha=0.6) + labs(x="Grupo de inflaci贸n", y="Inversi贸n en educaci贸n", title="Paises con alta y baja inflacion vs Inversi贸n en educaci贸n")

Me sale el siguiente error: Error: mapping must be created by aes()
Cuando ejecuto: ggplot(orangeec, aes(x=Strong_economy, y=Creat.Ind...GDP, fill=Strong_economy))+ geom_boxplot(alpha=0,4)+ labs(x="Tipo de pa铆s", y="Aporte economia naranja al PIB", title="Aporte economia naranja en PIB paises latam con alto y bajo PIB per c谩pita")+ theme(legend.position = "none")+ theme(panel.background = element_blank(), panel.grid.major = element_blank(), panel.grid.minor = element_blank())

Hola, una pregunta, 驴hay alguna forma de hacer que los n煤meros de los cuartiles aparezcan junto con el boxplot usando ggplo2?

me esta saliendo el siguiente error cuando ejecuto la sentencia

<Error in orangeec %>% mutate(Strong_economy = ifelse(GDP.PC < economy,  : 
  could not find function "%>%">

Me parece un buen aporte, crear una variable categorica a partir de la diferencia entre media; de manera que se pueden agrupar en dos clases para generar el boxplot!

no se si les funcione pero yo sin instalar dplyr realice este codigo y si me funciono:

economy= mean(orangeec$GDP.PC)
economy
orangeec$strong = ifelse(orangeec$GDP.PC>economy,'Por encima del promedio','por debajo del promedio')


As铆 como utilizo el mutate para agregar una nueva columna con datos, puedo hacerlo para una fila con mutate (sin usar rbind) ?

Hola, creo que no me funciona la librer铆a dplyr con esta versi贸n de R

library(dplyr)
Error: package or namespace load failed for 鈥榙plyr鈥 in library.dynam(lib, package, package.lib):
DLL 鈥榞lue鈥 not found: maybe not installed for this architecture?
In addition: Warning message:
package 鈥榙plyr鈥 was built under R version 3.6.3

Probando configuraciones de boxplot:

ggplot(orangeec,aes(x=Strong_economy,y=Creat.Ind...GDP,
                    fill=Strong_economy))+ geom_boxplot(alpha=0.4)+
  labs(x="Tipo de pa铆s",y="Aporte econom铆a naranja al PIB",
       title = "Aporte econom铆a naranja en pib pa铆ses latam con alto y bajo PIb per c谩pita")+theme(legend.position="none")+
  theme(panel.background=element_rect(fill="white",colour="brown",size = 2,linetype = "solid"),
        panel.grid.major=element_line(size = 0.25, linetype = 'solid',colour = "red"), 
        panel.grid.minor = element_line(size = 0.25, linetype = 'solid',colour = "red"))```

Una buena explicaci贸n y ben forma de ver los datos

mtcars$am <- factor(mtcars$am, levels=c(1,0),
labels=c(鈥淢anual鈥, 鈥淎utomatico鈥))

La versi贸n de R que esta empleando la profesora Sonia esta desactualizada la ultima versi贸n es la 4. 0.3. yo tenia la versi贸n 3.41 la actualice y ahora no me corre el c贸digo que ella pone de ejemplo, seria posible actualizar el curso, seg煤n veo el curso ya tiene m谩s de 2 a帽os. El paquete ggplot2 no aparece en la nueva versi贸n.

# Boxplot

boxplot(mtcars$hp,
        ylab = 'caballos de fuerza',
        main = 'Caballos de fuerza en carros')

library(ggplot2)

ggplot(mtcars, aes(x=as.factor(cyl), y=hp, fill = cyl))+
  geom_boxplot(alpha = 0.6)+
  labs(x = 'cilindros',
       y = 'caballos de fuerza',
       title = 'Caballos de fuerza segun cilindros')+
  theme(legend.position = "none")+
  theme(panel.background = element_blank(),
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank())

ggplot(mtcars,aes(x=am,y=mpg, fill=am))+
  geom_boxplot()+
  labs(x='Tipo de caja',
       y='millas por galon',
       title = 'Millas por galon segun tipo de caja')+
  theme(legend.position = "none")+
  theme(panel.background = element_blank(),
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank())


mtcars$am <- factor(mtcars$am, levels = c(TRUE, FALSE),
                    labels = c('Manual', 'Automatico'))


#Orangeec

economy <- mean(orangeec$GDP.PC)
economy
library('dplyr')

orangeec <- orangeec %>%
  mutate(Strong_economy = ifelse(GDP.PC < economy,
                                 "Por debajo promedio PIB per c谩pita",
                                 "Sobre Arriba promedio PIB per c谩pita"))


ggplot(orangeec,aes(x=Strong_economy,y=Creat.Ind...GDP, fill=Strong_economy))+
  geom_boxplot(alpha = 0.4)+
  labs(x='Tipo de pa铆s',
       y='Aporte economia naranja al PIB',
       title = 'Aporte economia naranja al PIB paises latam con alto y bajo PIB per capita')+
  theme(legend.position = "none")+
  theme(panel.background = element_blank(),
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank())


ggplot(orangeec,aes(x=Strong_economy,y=Internet.penetration...population, fill=Strong_economy))+
  geom_boxplot(alpha = 0.4)+
  labs(x='Tipo de pa铆s',
       y='Penetracio de Internet PIB',
       title = 'Penetraci贸n Internet en  paises latam con alto y bajo PIB per capita')+
  theme(legend.position = "none")+
  theme(panel.background = element_blank(),
        panel.grid.major = element_blank(),
        panel.grid.minor = element_blank())