Has llegado al final de este curso, recuerda que la función de un data scientist va más allá de solamente hacer gráficas, debes conocer el contexto donde se encuentran los datos para encontrar oportunidades de mejoramiento.
Hay un largo camino por el cual seguir, por el momento recuerda tomar el examen para poner a prueba tus conocimientos.
Antes de hacer el exámen, asegurence de saber estás preguntas sobre los Datasets mtcars y orangec:
En mi caso tenía todas las respuestas desordenadas de los ejercicios y en lo que las búsque perdí tiempo, debería estar en una guía antes del exámen.
El exámen evalua conocimientos de los datasets más que del mismo lenguaje. Así que podríamos decir que más del 50% es sobre los DataSets
¿Cuál es el máximo PIB Percápita en los paises de latam (GDP.PC )?
¿Qué país o países aportan con su economía naranja más del 5% al PIB y además tienen una tasa de desempleo menor al 5%?
Al hacer un diagrama de dispersión con las variables Aporte de economía naranja al PIB (Creat.Ind…en eje X) y crecimiento del pib del país (GDP Growth en eje y), la forma de los datos…
Al hacer un histograma de los cilindros de los carros, con un binwith de 1, vemos que hay más carros de…
Al hacer un histograma del aporte de la economía naranja al pib (Creat.Ind) con binwith de 1, vemos que hay más países que con la economía naranja aportan…
Si hacemos dos box plot según el tipo de país (Strong_economy) para ver la penetración de internet en la población de sus países, veremos que…
En un scatter plot (gráfica de dispersión) en donde relacionamos los caballos de fuerza (hp) en el eje X y el tiempo en recorrer un cuarto de milla (qsec) en el eje Y, en el dataset mtcars, los puntos parecen…
En un scatter plot (gráfica de dispersión) en donde relacionamos la inversión en educación(Education.invest…GDP) en el eje X y el aporte de la economia naranja al pib (Creat.Ind…GDP) en el eje Y, en el dataset orangeec, coloreando los puntos según la variable Strong_economy, la cantidad de puntos rosados que aparecen son:
En el dataset mtcars, la correlación entre las variables cilindros (cyl) y caballos de fuerza (hp) es de:
En el dataset orangeec, al usar pairs, vemos que en la relación entre el aporte de los servicios al pib (Services…GDP) y el PIB per cápita (GDP.PC), los puntos:
En el dataset orangeec, la correlación entre el crecimiento del pib de un pais (GDP.Growth…) y el aporte de la economía naranja al pib del país (Creat.Ind…GDP) es de:
En la lectura vemos que cuando el tráfico al punto de venta aumenta,
Al hacer un scatter plot con el dataset orangeec usando facet_wrap cruzando dos variables (numéricas) , al escribir al final facet_wrap(~Crecimiento_GDP), lo que veremos será:
Gracias!
Hola, yo creo que esta apuntado a que durante el examen, puedas buscar las respuesta usando los conocimientos en R Studio con los Dataset. No que busques las respuestas en los ejercicios ya realizados o te aprendas los datos y resultados de memoria. Saludos y suerte a los que hagan el examen!
Excelente curso muchas gracias Profesora Sonia
Proyecto final del codigo en R
<# Para hacer graficas en scart plot
plot(mtcars$mpg ~ mtcars$cyl, xlab="Cilindros", ylab ="Millas", main="Relacion cilindros VS mILLAS")plot(orangeec$GDP.PC~ orangeec$Services...GDP, xlab="Inflacion", ylab ="Servicio", main="Inflacion VS Servicio")# Para hacer graficas en scart plot Histrogramaqplot(mtcars$hp, geom ="histogram", xlab ="Caballos de fuerza ", main="Caballos de fuerza de fuerza ")ggplot(mtcars ,aes(x=hp))+geom_histogram(binwidth =15)+labs(x="Caballos de fuerza ", y="Cantidad de carros", title ="Carros de fuerza")+theme(legend.position="mone")+theme(panel.background=element_blank(), panel.grid.major=element_blank())ggplot()+geom_histogram(data = mtcars ,aes(x=hp), fill="blue", color="red", binwidth =20)+labs(x="Caballos de fuerza", y="Cantidad de carros", title ="Caballos de fuerza en carros selecionados0")+xlim(c(80,280))+theme(panel.background=element_blank(), panel.grid.major=element_blank()+panel.grid.minor=element_blank())ggplot()+geom_histogram(data = orangeec,aes(x=Creat.Ind...GDP), fill="blue", color="red", binwidth =1)+labs(x="Texto", y="Texto", title ="Texto")+xlim(c(0,80))+theme(panel.background=element_blank(), panel.grid.major=element_blank()+panel.grid.minor=element_blank())a<-view(orangeec&Unempl)library("ggplot2")boxplot(mtcars$cyl , ylab="caballos de fuerza", main="Caballos de fuerza en carros mtcars")
#
ggplot(mtcars ,aes(x=as.factor(cyl ), y = hp, fill=cyl))+geom_boxplot(alpha=0.6)+labs(x="Cilindros ", y="Caballos de fuerza", title ="Caballos de fuerza de filindros")+theme(panel.background=element_blank(), panel.grid.major=element_blank())
#
?mtcars
ggplot(mtcars,aes(x=am , y=mpg, fill="red"))+geom_boxplot()+labs(x="Tipo de caja ", y="Millas de galon", title ="Millos por galon")economy <-mean(orangeec$GDP.PC)economy
install.packages("dplyr")library("dplyr")orangeec<- orangeec %>%mutate(Strong_economy=ifelse(GDP.PC< economy,"Por debajo del promedio pib per capital"," Sobra arriba promedio pib per capital"))library("ggplot2")ggplot(orangeec,aes(x=Strong_economy, y=Creat.Ind...GDP, fill=Strong_economy))+geom_boxplot(alpha=0.4)+labs(x="Tipo de pais", y="Aporte economia naranja al pib paises latam con alto y bajo per capital")+theme(panel.background=element_blank(), panel.grid.major=element_blank())ggplot(orangeec,aes(x=Strong_economy, y=Internet.penetration...population, fill=Strong_economy))+geom_boxplot(alpha=0.4)+labs(x="Tipo de pais", y="Penetracion de internet", title ="Internet de bajo internet")+theme(panel.background=element_blank(), panel.grid.major=element_blank())library("ggplot2")ggplot(mtcars,aes(wt,hp))+geom_point()+labs(x="Peso", y="Potencia", title="Relaciond peso vs potencia")+theme(panel.background=element_blank(), panel.grid.major=element_blank())ggplot(mtcars,aes(hp,qsec))+geom_point(aes(color="red", size=cyl))+labs(x="Caballos de fuerza ", y="Tiempo en 1/4 millas", title="Caballo velocidad segun cilindraje y tipo de caja")+theme(panel.background=element_blank(), panel.grid.major=element_blank())# EDA con dataset proyecto usando gráficas de dispersión con más de dos variables - ggplot2 - plotly
ggplot(orangeec,aes(Internet.penetration...population,Creat.Ind...GDP))+geom_point(aes(color=factor(Strong_economy), size=GDP.Growth..))+labs(x="Penetracion de internet ", y="Aporte de crecimiento", title="Caballo velocidad segun cilindraje y tipo de caja")+theme(panel.background=element_blank(), panel.grid.major=element_blank())install.packages("plotly")library("plotly")my_graph<-ggplot(orangeec,aes(Internet.penetration...population,Creat.Ind...GDP, label=row.names(orangeec)))+geom_point()+labs(x="Penetracion de internet", y="Aporte de economia narajan", title="Penetracion de internet y aporte de economia naranja")
my_graph
p=ggplotly(my_graph)p
#Buscando correlaciones con pairs
pairs(mtcars[,2:6])library("dplyr")data<-subset(mtcars, select=c(2,7:8,11,12))pairs(data)pairs(mtcars[,-c(1,3,2)])eficientes <-filter(mtcars, mpg>=30)eficientes
pairs(eficientes[,2:6])install.packages("stringr")library("stringr")merc <- mtcars %>%filter(str_detect(model,"Merc"))pairs(merc[,2:6])# Correlacioncor(merc[,2:6])cor(orangeec[,2:6])cor(orangeec[,2:6], use ="complete.obs")#Desviacion standar
desviacion<-sd(mtcars$mpg)promedio<-mean(mtcars$mpg)coeficiente<-(desviacion/promedio)*100desviacion<-sd(mean(orangeec$Creat.Ind...GDP, na.rm=TRUE))promedio<-mean(mean(orangeec$Creat.Ind...GDP, na.rm=TRUE))coeficiente<-(desviacion/promedio)*100coeficiente
#Organizar de mayor a menor
mtcars %>%arrange(desc(mpg))#Utilizar facet_wrap
mas_pesados <- mtcars %>%filter(model %in%c("Lincon Continental","Chrysler Imperial","Cadillac Fleete"))
mas_pesados
library("ggplot2")ggplot(mas_pesados,aes(x=hp, y=mpg))+geom_point()+facet_wrap(~model)# Install markdown
install.packages("markdown")library("markdown")install.packages("knitr")>
Proyecto final de marktdown
<---title:"Economy naranja"author:"Alejandro Gonzalez"date:"11 de febrero de 2019"output: html_document
---```{r}orangeec <- read.csv("C:/Users/Sem-6-INGENIERIAINDU/Downloads/orangeec.csv")data(orangeec)summary(orangeec)
Parece que existe correlacion de entre los dos
pairs(orangeec[,6:10])
library(dplyr)
economy<-mean(orangeec$GDP.PC)economy
muchas gracias buen hombre
Muy valioso!
Excelente curso, la profesora parece tiene una fascinación por la estadística, que hace de este curso uno de los mejores.!
si le gusta lo que hace tener pasión por lo que haces, nos alienta a buscar tu pasión y cuál es la tuya ??
Excelente curso excelente profesora !! 10K
Recomendaciones para seguir:
Escribir funciones
Limpiar datasets
Importar y leer dataset
Ampliar el análisis de correlación y pasar a regresión lineal
Hacer otro tipo de visualizaciones como mapas de calor
Hacer dashbords o tableros de control interactivos para presentar la información con Shiny
Cual es el curso avanzado de R?
Hola, @josefernandojaramilloboon. :D
Todavía no hay Curso Avanzado de R, pero existen algunos cursos donde puedes poner en práctica tus habilidades con R en aplicaciones de Ciencia de Datos y Finanzas:
Hola Compañeros, en el ultimo examen que presente, no vinieron las preguntas que comento el compañero Elias, pero me sirvió mucho el responderlas para practicar, les dejo mi hoja de ejercicios que sirvio para dar respuesta
str(orangeec)show(orangeec)?mtcars
#Obtener los maximos
summary(orangeec)#SubsetMas5PIB<-subset(orangeec,GDP.PC>5&Unemployment<5)Mas5PIB#Diagramas de dispersion
plot(orangeec$Creat.Ind...GDP~orangeec$GDP.Growth.., xlab="PIB", ylab="Crecimiento del PIB",main="Relacion del PIB y su crecimiento")plot(mtcars$hp~mtcars$qsec, xlab="Caballos de fuerza", ylab="Cuarto de milla",main="Relacion entre los caballos de fuerza y su tiempo en cuarto de milla")ggplot(orangeec,aes(x=as.factor(Education.invest...GDP), y=Creat.Ind...GDP))+geom_point(aes(color=Strong_economy))+labs(x="Inversión en educación", y="Aporte de la economia naranja al pib", title="Relacion entre los caballos de fuerza y su tiempo en cuarto de milla")+theme(legend.position="none")+theme(panel.background=element_blank(), panel.grid.major=element_blank(), panel.grid.minor=element_blank())#Histogramaggplot(mtcars,aes(x=cyl))+geom_histogram(binwidth =1)+labs(x="Clindros", y="Cantidad de carros", title="Cantidad de cilindros en los carros")+theme(legend.position="none")+theme(panel.background=element_blank(), panel.grid.major=element_blank(), panel.grid.minor=element_blank())ggplot(orangeec,aes(x=Creat.Ind...GDP))+geom_histogram(binwidth =1)+labs(x="Aporte a la economia naranja", y="Cantidad de paises", title="Relacion de los paises y su aporte a la economia naranja")+theme(legend.position="none")+theme(panel.background=element_blank(), panel.grid.major=element_blank(), panel.grid.minor=element_blank())#BoxPlotggplot(orangeec,aes(x=as.factor(Strong_economy), y=Internet.penetration...population))+geom_boxplot(alpha=0.8)+labs(x="Strong Economy", y="Internet penetration", title="Penetracion en internet segun su tipo de economia")+theme(legend.position="none")+theme(panel.background=element_blank(), panel.grid.major=element_blank(), panel.grid.minor=element_blank())#Pairspairs(orangeec[,2:5])#Correlacioncor(orangeec[,3:6],use="complete.obs")#Multiples graficos
ggplot(Mas_pesados,aes(x=hp,y=mpg))+geom_point()+facet_wrap(~model)
Si llegaste hasta acá, es necesario que realices las mutaciones al dataset orangeec tal cual como se muestra a lo largo del curso.
Por si no lo hiciste, te recomiendo repasar la clase 20 y 31.
Aunque te voy a dejar el código abajo, es importante que repases los videos para entender mejor el motivo de los cambios.
#Por si no lo tienen instalado: install.packages("dplyr")library(dplyr)orangeec <- orangeec %>% mutate(Crecimiento_GDP = ifelse(GDP.Growth.. >=2.5,"2.5% o más","Menos 2.5%"))orangeec <- orangeec %>% mutate(Anaranjados = ifelse(Creat.Ind...GDP >=2.5,"Más anaranjados","Menos anaranjados"))orangeec %>% arrange(desc(Creat.Ind...GDP))TopNaranjas <- orangeec %>% filter(Country %in% c("Mexico","Panama","Argentina","Colombia","Brazil"))TopNaranjas %>% arrange(desc(Creat.Ind...GDP))economy <- mean(orangeec$GDP.PC)orangeec <- orangeec %>% mutate(Strong_economy = ifelse(GDP.PC < economy,"Por debajo del promedio","Por arriba del promedio"))
¿Cómo es que se venden este tipo de proyectos? Por findings, por tiempo invertido, por cantidad de gráficas dadas?
Con cuánto se aprueba?
¿El examen? 🤔
Debes aprobar con un 9 de 10.
Si, esa era mi duda. Gracias!
Donde puedo encontrar el codigo que escribio la profesora durante los cursos. Al momento de tomar el examen las preguntas son sobre los datos y casi nada sobre R como tal. es demasiado tiempo volver a mirar los videos para obtener el codigo escrito y dar un examen sobre el data set que nos presenta.
Por eso hay que tomar apuntes :)
buen curso, l´stima que ya no responde Sonia :(
Excelente curso, gracias Sonia por compartir sus conocimientos.
No reproduce el video
A mí me funciona perfectamente a día de 26 de diciembre. Saludos!
Excelente! gracias por el curso!!
Muchas gracias por el curso y el tiempo dedicado. Tengo presente los 10km diarios.