Bienvenida e introducción

1

Todo lo que aprenderás sobre el lenguaje R

2

Programación y Data Science

3

R y proyecto economía naranja.

4

Instalando nuestras herramientas

Variables, tipos de datos y estructuras

5

Los primeros cálculos con R y variables

6

Tipos de datos

7

Estructura del dataset del proyecto

8

Vectores

9

Matrices

10

Ejercicios con matrices

11

Operadores para comparar y ubicar datos

12

Factores, listas y echar un vistazo al dataset

EDA: Exploratory data analysis

13

Qué es EDA: Exploratory Data Analysis

14

Gráficas de dispersión e histogramas.

15

Box Plot y su interpretación

16

EDA con dataset proyecto - Gráficas de dispersión.

17

EDA con histogramas.

18

EDA con dataset proyecto - histogramas - ggplot2

19

EDA con box plot- ggplot2

20

EDA con dataset proyecto - box plot- ggplot2 - dplyr

21

EDA con gráficas de dispersión con más de dos variables - ggplot2

22

EDA con dataset proyecto usando gráficas de dispersión con más de dos variables - ggplot2 - plotly

La estadística de los datos

23

Buscando correlaciones con pairs

24

Confirmando correlaciones con la función cor

25

Buscando correlaciones con pairs en dataset proyecto

26

Confirmando correlaciones con la función cor en dataset proyecto.

27

Protegiéndonos de los peligros del promedio.

28

Eliminando los NA's para hacer los cálculos.

29

Estadística y visualización aplicada a análisis de datos de mercadeo.

Ajustando los datos

30

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 1

31

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 2

Mejorando la visualización

32

Viendo más información con facet wrap - Parte 1

33

Viendo más información con facet wrap - Parte 2

Organizar visualizaciones y código con R Markdown

34

Conociendo R Markdown y organizando los hallazgos del análisis en un documento PDF.

Conclusiones Finales

35

Invitación a continuar recorriendo el mundo del data science.

Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

EDA con dataset proyecto - Gráficas de dispersión.

16/35
Recursos

Para realizar EDA con una gráfica de dispersión dentro de R debemos utilizar la función plot, los argumentos que debemos pasarle son:

  • la información en el eje X y Y.
  • xlab: título para el eje x.
  • ylab: título para el eje y.
  • main: título de la gráfica.

Aportes 31

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Yo estoy tomando el curso usando Python en JupyterNotebooks para VS Code
asi me quedo mi Scatter plot, me tomo mucho tiempo estudiar como usar matplotlib como todo un maestro, pero estoy orgulloso del resultado

import pandas as pd

mtcars = pd.read_csv('./mtcars.csv')
mtcars.info()
import matplotlib.pyplot as plt

plt.style.use('seaborn-whitegrid')
%matplotlib inline
plt.figure(clear=True, figsize=(20, 10))
transparencia = 0.3

x_4_cyl = mtcars[mtcars['cyl'] == 4]['hp']
y_4_cyl = mtcars[mtcars['cyl'] == 4]['mpg']
color_4_cyl = mtcars[mtcars['cyl'] == 4]['qsec']
size_4_cyl = mtcars[mtcars['cyl'] == 4]['wt']

x_6_cyl = mtcars[mtcars['cyl'] == 6]['hp']
y_6_cyl = mtcars[mtcars['cyl'] == 6]['mpg']
color_6_cyl = mtcars[mtcars['cyl'] == 6]['qsec']
size_6_cyl = mtcars[mtcars['cyl'] == 6]['wt']

x_8_cyl = mtcars[mtcars['cyl'] == 8]['hp']
y_8_cyl = mtcars[mtcars['cyl'] == 8]['mpg']
color_8_cyl = mtcars[mtcars['cyl'] == 8]['qsec']
size_8_cyl = mtcars[mtcars['cyl'] == 8]['wt']

plt.scatter(x = x_4_cyl, y = y_4_cyl, c = color_4_cyl, s = size_4_cyl*300,
            edgecolor = 'black', linewidth = 1, alpha = transparencia,
            cmap = 'Blues', marker = 'o', label='4 cilindros')
plt.colorbar().set_label('¼ Milla por seg.')
plt.legend()


plt.scatter(x = x_6_cyl, y = y_6_cyl, c = color_6_cyl, s = size_6_cyl*300,
            edgecolor = 'black', linewidth = 1, alpha = transparencia,
            cmap = 'Greens', marker = 'v', label='6 cilindros')
plt.colorbar()
plt.legend()

plt.scatter(x = x_8_cyl, y = y_8_cyl, c = color_8_cyl, s = size_8_cyl*300,
            edgecolor = 'black', linewidth = 1, alpha = transparencia,
            cmap = 'Oranges', marker = 's', label='8 cilindros')

plt.legend(labelspacing=1, markerscale=0.3, title='SIMBOLOGIA', 
           frameon=True, framealpha=0.5, facecolor='#CCCCCC', edgecolor='k')
plt.colorbar()

plt.title('Eficacia de Vehiculos')
plt.xlabel('Caballos de fuerza')
plt.ylabel('Millas por galon')
plt.savefig('mtcars.png')

Para poder realizar gráficas de dispersión debe existir cierta relación entre las variables, es decir, cómo influye una variable (x) en una variable (y), tiene que ver con la causalidad, si tomamos variables al azar obtendremos correlaciones negativas. Por ejemplo si quiero saber cuánto es el consumo de millas por galón no puedo hacerlo respecto a la temperatura, ya que no tienen nada que ver una variable con la otra.
Saludos.

Bien, ya aprendí a hacer gráficas de dispersión en R, estoy bastante motivado con este curso.

En MAC el signo ~ se coloca con Alt + Ñ

*correlación no implica causalidad

Jajaja a mi me estaba dando este error
Error in plot.new() : figure margins too large

Solo era de ampliar la pantalla donde sale la figura del plot 😅

Por si acaso a alguien mas le sucede ese sencillo error

C L A S E 👩‍💻
16
.
En los ejemplos se planteo relaciòn entre variables para ser vistas en el scatter plot 📉
.
Tener en cuenta:
xlab= etiqueta eje x
ylab= etiqueta eje y
main= titulo
~ virgulilla
correlaciòn no implica causalidad
.
EDA mtcars 🚗
.
RELACIÒN ENTRE CILINDROS Y MILLAS POR GALÒN

Los carros de 4 cilindros parecen lograr + mayor > distancia por galon
.
RELACIÒN ENTRE CABALLOS DE FUERZA Y MILLAS POR GALÒN

Parece una correlacion negativa o inversa en donde a + mas > caballos de fuerza - menos < millas por galon
.
EDA orangeec 🍊
.
RELACIÒN ENTRE INVERSIÒN EN EDUCACIÒN Y DESEMPLEO

Los datos estan dispersos🤦‍♀️. Hay paises que invierten en educaciòn mas del 7% de su PIB otros menos del 4%. Hay paises con un nivel de desempleo bajo del 4% y otros por encima del 8%
.
RELACIÒN ENTRE ECONOMÌA NARANJA Y PIB PER CÀPITA

Los datos tambien estan dispersos🤷. Hay un pais con alto PIB per capita cerca de 20.000$ pero con un aporte bajo a la economia naranja del 2%. Hay otro con alto PIB per capita cerca de 20.000 $ pero con un mejor aporte a la economia naranja por encima del 7% y asi

`# EDA scaterplot  mtcars

plot(mtcars$mpg ~ mtcars$cyl,
     xlab ='Cilindros',ylab ='millas por galon',
     main='Relacion cilindros y millas por galon')

plot(mtcars$mpg ~ mtcars$hp,
     xlab ='Caballos de fuerza',ylab ='millas por galon',
     main='Relacion Caballos de fuerza y millas por galon')

# EDA scaterplot  orangecc

plot(orangeec$Unemployment ~ orangeec$Education.invest...GDP,
     xlab ='Inversion Educacion (%PIB)',ylab ='Desempleo',
     main='Relacion entre Inversion  en educaion y desempleo')

plot(orangeec$GDP.PC ~ orangeec$Creat.Ind...GDP,
     xlab ='Aporte economia naranja al (%PIB)',ylab ='Pib percapita',
     main='Relacion econocia naranja y PIB per capita')````

plot →
plot(variable_ejeY ~ variable_ejeX , xlab=”etiqueta_ejeX” , ylab = “etiqueta_ejeY”, main=”Titulo”)

Es genial estas clases muy enfocadas con cada gráfico!

Me parece bastante interesante estas clases por alguna razon, estoy estudiando economia y me imagino lo util que peude ser esto.

Definitivamente la forma visual ayuda bastante a interpretar los datos e incluso genera nuevas preguntas sobre los datasets.

tambien se puede hacer
plot(df$var1,df$var2)
sin necesidad del simbolo “~”

El símbolo ´~en el teclado que tengo que está en inglés se ubica en la esquina superior izquierda, debajo del botónESC, pero hay que precionarSHIFT` para poder imprimirlo en pantalla. Cuando usas mucho la consola te acostumbras a esta ubicación ya que ese símbolo es usado con frecuencia.

Estoy ejecutando el siguiente comando

<plot(mtcars$mpg ~ mtcars$cyl, xlab="Cilindros", ylab = "Millas", main="Relacion cilindros VS mILLAS" )
>

Pero me sale el siguiente error

<> plot(mtcars$mpg ~ mtcars$cyl, xlab="Cilindros", ylab = "Millas", main="Relacion cilindros VS mILLAS" )
Error in RStudioGD() : 
  Shadow graphics device error: r error 4 (R code execution error)
In addition: Warning messages:
1: In grDevices:::png("C:/Users/wilso/AppData/Local/Temp/RtmpM7I2Uc/c2a5255100da4681b3c93f118734c6af.png",  :
  unable to open file 'C:/Users/wilso/AppData/Local/Temp/RtmpM7I2Uc/c2a5255100da4681b3c93f118734c6af.png' for writing
2: In grDevices:::png("C:/Users/wilso/AppData/Local/Temp/RtmpM7I2Uc/c2a5255100da4681b3c93f118734c6af.png",  :
  opening device failed>

Conocen cual seria la solución por favor

plot(mtcars$cyl, mtcars$mpg,xlab = “Cilindros”,ylab = “Millas”, main = “Rendimiento de Millas x Galon”)

hola alguien sabe como editar los números de los ejes de cada plot

Hola, tengo una duda, por qué se pone un “+” después de cada instrucción?

Gracias!! 😃

Hola, no se que estoy haciendo de manera incorrecta que así se visualiza mi gráfica

Que exista una correlación no implica causalidad , podria ser una casualidad

alt gr + 4 = ~

Algunas de las gráficas de dispersión para este caso. Más allá de ver las relaciones entre las variables, creo que para el caso de la economía naranja, nos muestran que posiblemente se puedan segmentar los datos y generar ciertos clusters(agrupaciones) donde posiblemente se encuentre un grupo para los paises con un mayor enfoque en este tipo de economías , mientras que en otro puede verse el caso de una inversión mucho menor.

#EDA Scatter plot mtcars

#relacion entre la cantidad de cilindros y la distancia recorridas en millas por cada galon
plot(mtcars$mpg ~ mtcars$cyl, 
     xlab = "cilindros", 
     ylab = "millas por galón", 
     main = "Relacion cilindros y millas por galon")

#relacion entre la fuerza del motor con el la distancia recorrida en millas por cada galon
plot(mtcars$mpg ~ mtcars$hp, 
     xlab = "Caballos de fuerza", 
     ylab = "millas por galón", 
     main = "Relacion de caballos de fuerza y millas por galon")

#orange economy

plot(orangeec$Unemployment ~ orangeec$Education.invest...GDP,
     ylab="Desempleo",
     xlab="Inversion en educacion",
     main="Relacion desempleo e inversion en eduacion")


plot(orangeec$GDP.PC ~ orangeec$Creat.Ind...GDP,
     ylab="PIB per capita",
     xlab="Economia naranja",
     main="Relacion del aporte de la economia naranja a el PIB per capita")


Me hace mucho sentido la correlacion negativa entre mas caballos de fuerza y menos millas recorridas por galon, ya que por lo general estos vehiculos son mas ‘torqueros’ mas dirigidos a un area de trabajo pesado, como tractores, trailers, excavadoras etc, donde no es necesaria su rapidez

#relacion entre la fuerza del motor con el la distancia recorrida en millas por cada galon
plot(mtcars$mpg ~ mtcars$hp, 
     xlab = "Caballos de fuerza", 
     ylab = "millas por galón", 
     main = "Relacion de caballos de fuerza y millas por galon")

plot(mtcars$mpg ~ mtcars$wt, xlab="Weight", ylab="Miles/Gallon", main="Relation between Weight and Miles/Gallon",
     col = "red",
     cex = 1
     )

Con “col” pueden modificar el color del borde, con “cex” el tamaño del símbolo.

Pueden ver más aquí: https://r-coder.com/plot-en-r/#:~:text=La función plot en R,gran parte de los ejemplos.

# EDA Scatter plot mtcars
plot(mtcars$mpg ~ mtcars$cyl, 
     xlab = "cilindros", 
     ylab = "millas por galón", 
     main = "Relacion cilindros y millas por galon")

plot(mtcars$mpg ~ mtcars$hp, 
     xlab = "caballos de fuerza", 
     ylab = "millas por galón", 
     main = "Relacion caballos de fuerza y millas por galon")

# EDA Scatter plot orangeec

plot(orangeec$Unemployment ~ orangeec$Education.invest...GDP, 
     xlab = "Inversión educacion (%PIB)", 
     ylab = "Desempleo", 
     main = "Relación inversión en educación y desempleo")

plot(orangeec$GDP.PC ~ orangeec$Creat.Ind...GDP, 
     xlab = "Aporte economia naranja al PIB (%) ", 
     ylab = "PIB per capita", 
     main = "Relación inversión en educación y desempleo")

Para tener todos los caracteres disponibles pueden configurar su teclado a solo 2 idiomas, inglés y español sea en mac o windows. Con eso ya pueden hacer el cambio de la siguiente manera:

En windows con (shift + windows + espacio ) cambian de inglés a español o viceversa.
En mac con (shift + control + espacio) cambian de inglés a español o viceversa.

De esta manera tienen todos los caracteres necesarios de manera rápida.