Bienvenida e introducci贸n

1

Todo lo que aprender谩s sobre el lenguaje R

2

Programaci贸n y Data Science

3

R y proyecto econom铆a naranja.

4

Instalando nuestras herramientas

Variables, tipos de datos y estructuras

5

Los primeros c谩lculos con R y variables

6

Tipos de datos

7

Estructura del dataset del proyecto

8

Vectores

9

Matrices

10

Ejercicios con matrices

11

Operadores para comparar y ubicar datos

12

Factores, listas y echar un vistazo al dataset

EDA: Exploratory data analysis

13

Qu茅 es EDA: Exploratory Data Analysis

14

Gr谩ficas de dispersi贸n e histogramas.

15

Box Plot y su interpretaci贸n

16

EDA con dataset proyecto - Gr谩ficas de dispersi贸n.

17

EDA con histogramas.

18

EDA con dataset proyecto - histogramas - ggplot2

19

EDA con box plot- ggplot2

20

EDA con dataset proyecto - box plot- ggplot2 - dplyr

21

EDA con gr谩ficas de dispersi贸n con m谩s de dos variables - ggplot2

22

EDA con dataset proyecto usando gr谩ficas de dispersi贸n con m谩s de dos variables - ggplot2 - plotly

La estad铆stica de los datos

23

Buscando correlaciones con pairs

24

Confirmando correlaciones con la funci贸n cor

25

Buscando correlaciones con pairs en dataset proyecto

26

Confirmando correlaciones con la funci贸n cor en dataset proyecto.

27

Protegi茅ndonos de los peligros del promedio.

28

Eliminando los NA's para hacer los c谩lculos.

29

Estad铆stica y visualizaci贸n aplicada a an谩lisis de datos de mercadeo.

Ajustando los datos

30

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 1

31

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 2

Mejorando la visualizaci贸n

32

Viendo m谩s informaci贸n con facet wrap - Parte 1

33

Viendo m谩s informaci贸n con facet wrap - Parte 2

Organizar visualizaciones y c贸digo con R Markdown

34

Conociendo R Markdown y organizando los hallazgos del an谩lisis en un documento PDF.

Conclusiones Finales

35

Invitaci贸n a continuar recorriendo el mundo del data science.

Tipos de datos

6/35
Recursos

Adem谩s de trabajar con el dataset de Orange Economy vamos a necesitar el dataset de mtcars.

Dentro de la consola de R Studio, la funci贸n install.packages nos va a ayudar a instalar paquetes, como su nombre lo indica, en este caso intentaremos instalar mtcars.

En caso de no estar disponible para tu versi贸n de R, puedes ir al Github de la profesora y descargarlo.

La funci贸n str nos va a mostrar la estructura que tiene el dataset que le pasemos.
Dentro de la consola podemos obtener m谩s informaci贸n sobre nuestro dataset anteponiendo el signo ? quedando ?mtcars

En el dataset mtcars podemos ver que hay datos de tipo int y num, la diferencia es que num son n煤meros con decimal mientras que int son enteros.

Podemos ver que las variables vs y am dentro de mtcars aunque est谩n marcadas con int su funci贸n es de tipo boolean, para convertir estos datos utilizaremos la funci贸n as.logical

Reto: Explora la estructura del dataset orangeec. Escribe en los comentarios el n煤mero de observaciones y variables que encuentres.

Aportes 277

Preguntas 22

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesi贸n.

17 obs. y 13 variables. Hay que tener cuidado a la hora de importar el Dataset porque viene con la opci贸n Header por defecto en No, y esto hace que los t铆tulos los tome como una observaci贸n m谩s, lo cual no es correcto. Hay que poner el Header en Yes para que tome los t铆tulos de las variables correctamente

Puedes hacer notas con #

#Informaci贸n sobre mtcars
?mtcars
#Clase de la variable vs
class(mtcars$vs)

#Convertir el tipo de la variable
mtcars$vs = as.logical(mtcars$vs)
mtcars$am = as.logical(mtcars$am)
class(mtcars$vs)
class(mtcars$am)

Para conocer la estructura de un dataset, utilizamos la funci贸n str() (que significa structure o estructura), pasandole como par谩metro el nombre del dataset en cuesti贸n.

En la informaci贸n arrojada podemos visualizar los tipos de datos:
(se recomienda comprender los fundamentos de la programaci贸n)
int: Enteros. N煤meros 鈥渞edondos鈥 como 1, 2, 3, 10, 100.
num: Num茅rico. N煤meros flotantes (o de coma flotante, decimales), como 1.5, 2.3, 3.2, 0.01.
logi: Booleanos. Valores de true o false

Vale la pena aclarar que en los datasets, los valores booleanos pueden estar representados con los enteros (int) 1 y 0, true o false respectivamente.
Para cambiar el tipo de dato, podemos llamar al dataset, situarnos en la variable, y utilizar el m茅todo as.logical().
dataset$var = as.logical(dataset$var)

Tambi茅n vimos la variable Factor, se usa para clasificar los datos seg煤n su grupo o categor铆a.

Hubo dos t茅rminos claves, observaciones y variables.
Observaciones: Filas.
Variables: Columnas.
Donde fila y columna tienen el mismo significado que tienen en una tabla convencional; fila y observaci贸n son sin贸nimos, y variables y columnas tambi茅n.

Otra forma de ver la descripci贸n del dataset es en el panel derecho en la secci贸n que dice Environment seleccionamos el dataset que importamos y desplegamos su informaci贸n:

Y para quienes les sali贸 18 observaciones de 13 variables, es porque al importar quitan los headings por eso es que les sale una observaci贸n de m谩s, para evitar esto habiliatamos la opci贸n.

Saludos

para poder cargar el dataset 鈥渕tcars.csv鈥:

mtcars <- read.csv("mtcars.csv", header=TRUE)
  • header: si el archivo 鈥渕tcars.csv鈥 tiene el nombre de las columnas en la primera linea.

Es cargar directamente desde el link de github el dataset _orangee.csv _utilizando el comando _read.csv _(con read.table tambi茅n es posible).

El ejemplo con read.table() ser铆a:

orangeec <- read.table("https://raw.githubusercontent.com/sap0408/Orange-Economy/master/orangeec.csv", header =  TRUE, sep = ",")

Mi an谩lisis del data set de la econom铆a naranja.
1.- Tiene 17 obs de 13 variables.
2.- La variable Contry es cualitativa y son las obs.
3.- Dentro de las 13 variables solo GDP.PC (El PIB per capita) es de tipo entero (int) y el resto son de tipo num con coma flotante.
4.- No existe variables de tipo logical (booleanos)
5.- La variable Creat Ind % GDP (El aporte de las industrias creativas) presenta datos vac铆os o restantes. (N/A)

17 Observaciones (Filas)
13 Variables (Columnas)

1 Columna Categorica
1 Columna Numero Entero
15 Columnas Numero Natural

17 Observaciones
13 Variables (12 variables datos n煤meros, 1 variable entero)

Tengo una pequenda duda: Por que la variable de trasmision es 0 y 1 se convierte a True o Flase? A mi parecer, eso no escalaria, supongamos que el dia de manana se inventa un tramision tipo 鈥渟mart鈥. Otra duda, en R existen las claves foraneas o todos son tipos duros?

cuando se importa el dataset orangeec, todas las variables aparecen tipo factor, esto ocurre ya que cuando se importa el dataset se debe colocar yes en la seccion que dice heading, o sino los coloca todos como tipo fact,
esto esta mejor explicado en la documentaci贸n

por lo tanto:

orangeec 17 obj y 13 variables
de las cuales 11 son tipo num, 1 int, 1 factor

Tambi茅n podemos cargarlo con la siguiente instrucci贸n en R:

mtcars <- read.csv("https://raw.githubusercontent.com/sap0408/mtcars/master/mtcars.csv", sep = ',')

Teniendo en cuenta al utilizar como fuente de los datos una direcci贸n URL, corremos el riesgo que esta pueda cambiar y si en un futuro ejecutamos de nuevo esta instrucci贸n podemos tener un error. Por tanto creo importante tener tanto esta instrucci贸n como opci贸n pero tambi茅n tener el archivo descargado.

Estar seguro de la estructura de datos para saber como trabajar con ellos, como transformarlo y que tipo de operaciones podemos hacer.

鈥榙ata.frame鈥: 17 obs. of 13 variables 馃槃

yo sigo sin poder ver el archivo de orangeec, le tengo metido en la misma carpeta donde guardo los scripts de R Studio y nada, siempre me detecta uno que se llama Orange, que no es este. En cambio este 煤ltimo archivo, el mtcars, lo veo perfectamente, si que me lo detecta el programa de R Studio

17 observaciones y 13 variables

para orangeec ser铆an 18 obs y 13 vars
Que pr谩ctica herramienta y muy interesante!

Esta docente explica muy bien, desde lo mas m铆nimo y eso es excelente

Para saber la el numero de observaciones y el numero de variables del dataset orangeec se implementa la funcion **STR **para mostrarnos la estructura:

Me salen 18 observaciones y 13 variables. Al ver los comentarios noto que a los dem谩s les sale 17 observaciones, es decir, el m铆o est谩 tomando el encabezado de la tabla como una observaci贸n, 驴Alguien sabe por qu茅 sucede esto ?

32 observaciones de 12 variables.

orangeec = 18 obs y 13 variables

32 obs y 12 variables

Data set compuesto por 17 observaciones y 13 variables

17 obs y 13 variables en country en esta version mas reciente me sale chr que significa 鈥渧ectores de caracteres o cadenas鈥

str(orangeec)

32 obs y 11 variables

17 observaciones y 13 variables para orangeec

Me sale 18 observaciones, pero como mencionan, es el header. As铆 que 17 y 13 variables.

El set Orangeec tiene 17 observaciones y 13 variables (:

En mi caso yo tengo:
17 Observaciones
13 Variables
1 variable con valores de tipo Chr
1 variable con valores de tipo Int
11 variable con valores de tipo Num

18 observaciones y variables

17 observaciones con 13 variables

Para conocer el tipo de datos del dataset tenemos dos formas de hacerlo:

  1. con la opci贸n str(nombre_dataset) en el R Script y el resultado sale en console
  2. En Enviroment oprimimos la flecha hacia abajo del dataset

Para responder la pregunta el dataset orangeec tiene 17 observaciones y 13 variables

En el data frame de Orangeec: obtengo 18 observaciones y 13 variables.
$ V1 : chr 鈥淐ountry鈥 鈥淎rgentina鈥 鈥淏elize鈥 鈥淏olivia鈥 鈥
$ V2 : chr 鈥淕DP PC鈥 鈥20900鈥 鈥8300鈥 鈥7500鈥 鈥
$ V3 : chr 鈥淕DP US bill鈥 鈥637.7鈥 鈥1854鈥 鈥37.1鈥 鈥
$ V4 : chr 鈥淕DP Growth %鈥 鈥2.9鈥 鈥0.8鈥 鈥4.2鈥 鈥
$ V5 : chr 鈥淪ervices % GDP鈥 鈥60.9鈥 鈥62.2鈥 鈥50鈥 鈥
$ V6 : chr 鈥淐reat Ind % GDP鈥 鈥3.8鈥 鈥溾 鈥溾 鈥
$ V7 : chr 鈥淚nflation鈥 鈥25.7鈥 鈥1.1鈥 鈥2.8鈥 鈥
$ V8 : chr 鈥淯nemployment鈥 鈥8.1鈥 鈥10.1鈥 鈥4鈥 鈥
$ V9 : chr 鈥% pop below poverty line鈥 鈥25.7鈥 鈥41鈥 鈥38.6鈥 鈥
$ V10: chr 鈥淚nternet penetration % population鈥 鈥93.1鈥 鈥52.3鈥 鈥78.6鈥 鈥
$ V11: chr 鈥淢edian age鈥 鈥31.7鈥 鈥22.7鈥 鈥24.3鈥 鈥
$ V12: chr 鈥% pop 25-54鈥 鈥39.38鈥 鈥36.62鈥 鈥37.48鈥 鈥
$ V13: chr 鈥淓ducation invest % GDP鈥 鈥5.9鈥 鈥7.4鈥 鈥7.3鈥 鈥

Las variables que solo pueden tomar dos valores se conocen como dicot贸micas o dummys.

鈥榙ata.frame鈥: 18 obs. of 13 variables:

32 obs. of 12 variables

Por si no lo notaron en la estructura del Data set tiene que ser 32 observaciones y 12 variables, si les sale diferente tienen que arreglar en la parte de Importar datos, cambiar en la opci贸n de Header.

El Dataset orangeec tiene 17 obs y 13 variables. Sin embargo, algunas de las variables como el desempleo o el crecimiento del PIB deben ser expresadas en t茅rminos porcentuales, por lo tanto, hay que transformar la estructura de las variables.

Orangeec contiene 17 obs y 13 variables.

Variables.
1 chr.
1 int.
11 num.

鈥榙ata.frame鈥:18 obs. of 13 variables 馃槂

En el dataset: orangeec hay 17 observaciones y 13 variables. Hay variables n煤mericas y enteras.

17 obs. of 13 variables.
Num茅ricos.
脥ntegros.
Caracter.

tambien lo probe con el as.logical

17 observaciones y 13 variables.

鈥 Country = col_character(),
GDP PC = col_double(),
GDP US bill = col_double(),
GDP Growth % = col_double(),
Services % GDP = col_double(),
Creat Ind % GDP = col_double(),
鈥 Inflation = col_double(),
鈥 Unemployment = col_double(),
% pop below poverty line = col_double(),
Internet penetration % population = col_double(),
Median age = col_double(),
% pop 25-54 = col_double(),
Education invest % GDP = col_double()

dataset:Economia naranja contiene 17 observaciones y 13 variables

Siento que a este curso de fundamentos no tiene nada.
La docente va demasiado r谩pido en cosas que son elementales y en cosas triviales pierde mucho tiempo. Adem谩s no muestra el proceso completo de como hace algunos pasos y tampoco contesta las preguntas que dejan los estudiantes,
Mejor me voy a hacer otro curso.

En el ejercicio me salio esto
data.frame鈥: 17 obs. of 13 variables:

str(orangeec)
鈥榙ata.frame鈥: 17 obs. of 13 variables:

11 variables "numeric"
1 variable "integer"
1 variable 鈥渃haracter鈥

Orangeec: 17 Observaciones de 13 Variables.
La mayor铆a son valores num茅ricos, enteros y un factor. 馃槉
Pregunta ? Los tipos Factor, son b谩sicamente cadenas de texto ?

Facinante este curso

17 observaciones y 13 variables 馃槂

str(orangeec)
鈥榙ata.frame鈥: 17 obs. of 13 variables:

17 observaciones y 12 variables. Alguien sabe porque me aparece Error in str(orangeec) : objeto 鈥榦rangeec鈥 no encontrado ? str(mtcars) lo tom贸 sin problemas, pero tuve que pone str(orangeec.csv) para que me tome ese dataset

Instalando Data set mtcars

鈥榙ata.frame鈥: 17 obs. of 13 variables:

Es un data.frame con 17 observaciones y 13 atributos

Despu茅s de correr el comando:
17 obs. of 13 variables

鈥榙ata.frame鈥: 17 obs. of 13 variables:

17 obs. of 13 variables, Pero no pude ver la informacion detallada de Economia naranja.

18 observaciones
13 variables

13 variables y 17 observaciones

An谩lisis del dataset de Economia naranja
17 observaciones de 12 variables.

Me sale el siguiente error cuando ejecuto el proceso <Installing package into 鈥楥:/Users/wilso/Documents/R/win-library/3.5鈥 (as 鈥榣ib鈥 is unspecified) Warning in install.packages : package 鈥榤tcars鈥 is not available (for R version 3.5.2)>

Puedo acceder a las sesiones 1,2,3,4,5

Pero no puedo acceder a la sesi贸n 6, ya reporte,
Trate de acceder en 3 diferentes navegadores,

Tambi茅n puedo ver la sesi贸n 7, la seis no.

data frame: con 18 obs y 13 variables

Encontramos 17 etiquetas las cuales corresponden a nombres de paises. El dataset ademas incluye 13 variables de las cuales 12 contiene variables num (Numeros decimales) y solo 1 int (Numeros enteros).

Dataset: Orangeec
17 obs. of 13 variables

Cambiar una variable num茅rica a l贸gica. Booleano = variable vs y am toman dos valores 0 y 1

17 observaciones y 13 variables

17 Observaciones
13 Variables

17 Observaciones
13 Variables

Si a ustedes, como a mi, les aparece que el tipo de variable es 鈥渘umerical鈥 en lugar de 鈥渋nteger鈥 en el resto de las variables, no se preocupen, esto no afecta en practicamente nada porque R lo maneja por detr谩s.

Si quieren saber m谩s: https://stackoverflow.com/questions/23660094/whats-the-difference-between-integer-class-and-numeric-class-in-r

data-frame: 18 obs. of 13 variables

17 Observaciones (Numero de Filas)
13 Variables (Numero de columnas o campos)
Un campo es entero y el resto del tipo num茅rico, todos los datos decimales tienen un decimal a excepci贸n de un campo.

驴En donde esta guardada la informaci贸n de la documentaci贸n del dataset, en que archivo esta?

17 observaciones de 13 variables

Country: Factor (17 niveles)
Todas las variables son num茅ricas (con decimales) a excepci贸n de GDP.PC que es de tipo entero

No hay variables l贸gicas.

Economia Naranja (OE): 17 Observaciones o filas y 13 Variables o columnas
dim(OE)
[1] 17 13

Country= Factor
GDP.PC= integer
11 columnas con valores num茅ricos
Creat.Ind鈥DP con NAN (not at number)

Gracias Sonia

Me sale el siguiente error cuando ejecuto el proceso

<Installing package into 鈥C:/Users/wilso/Documents/R/win-library/3.5鈥
(aslibis unspecified)
Warning in install.packages :
  package 鈥榤tcars鈥 is not available (for R version 3.5.2)>

N煤mero de observaciones 18, n煤mero de variables 13

str(orangeec)
鈥榙ata.frame鈥: 18 obs. of 13 variables:
$ V1 : Factor w/ 18 levels 鈥淎rgentina鈥,鈥淏elize鈥,鈥: 8 1 2 3 4 5 6 7 9 10 鈥
$ V2 : Factor w/ 18 levels 鈥11500鈥,鈥13300鈥,鈥: 18 7 15 13 4 9 3 5 1 16 鈥
$ V3 : Factor w/ 18 levels 鈥102.3鈥,鈥1149000鈥,鈥: 18 16 4 12 5 8 11 13 1 9 鈥
$ V4 : Factor w/ 18 levels 鈥0.8鈥,鈥1鈥,鈥1.5鈥,鈥: 18 10 1 13 2 3 4 12 8 6 鈥
$ V5 : Factor w/ 18 levels 鈥50鈥,鈥50.8鈥,鈥54.5鈥,鈥: 18 7 9 1 15 12 8 16 5 13 鈥
$ V6 : Factor w/ 12 levels 鈥溾,鈥1鈥,鈥1.5鈥,鈥2鈥,鈥: 12 8 1 1 6 5 7 4 4 1 鈥
$ V7 : Factor w/ 16 levels 鈥0.4鈥,鈥0.9鈥,鈥1鈥,鈥: 16 8 4 7 9 6 12 5 1 3 鈥
$ V8 : Factor w/ 15 levels 鈥10.1鈥,鈥10.5鈥,鈥: 15 14 1 6 3 12 2 14 7 12 鈥
$ V9 : Factor w/ 17 levels 鈥% pop below poverty line鈥,鈥: 1 8 14 12 13 2 9 4 3 11 鈥
$ V10: Factor w/ 18 levels 鈥38.2鈥,鈥42.1鈥,鈥: 18 17 4 12 10 11 6 14 13 5 鈥
$ V11: Factor w/ 18 levels 鈥22.1鈥,鈥22.7鈥,鈥: 18 14 2 4 15 16 12 13 7 6 鈥
$ V12: Factor w/ 18 levels 鈥% pop 25-54鈥,鈥: 1 8 3 5 17 16 15 18 9 6 鈥
$ V13: Factor w/ 14 levels 鈥2.8鈥,鈥3.2鈥,鈥3.5鈥,鈥: 14 10 13 12 10 7 6 11 8 3 鈥

18 obs y 13 var __ data frame

Encontr茅 17 observaciones con 13 variables

En este caso haciendo el an谩lisis del dataset orange me sale lo siguiente

<'data.frame':	18 obs. of  13 variables:
 $ V1 : Factor w/ 18 levels "Argentina","Belize",..: 8 1 2 3 4 5 6 7 9 10 ...
 $ V2 : Factor w/ 18 levels "11500","13300",..: 18 7 15 13 4 9 3 5 1 16 ...
 $ V3 : Factor w/ 18 levels "102.3","1149000",..: 18 16 4 12 5 8 11 13 1 9 ...
 $ V4 : Factor w/ 18 levels "0.8","1","1.5",..: 18 10 1 13 2 3 4 12 8 6 ...
 $ V5 : Factor w/ 18 levels "50","50.8","54.5",..: 18 7 9 1 15 12 8 16 5 13 ...
 $ V6 : Factor w/ 12 levels "","1","1.5","2",..: 12 8 1 1 6 5 7 4 4 1 ...
 $ V7 : Factor w/ 16 levels "0.4","0.9","1",..: 16 8 4 7 9 6 12 5 1 3 ...
 $ V8 : Factor w/ 15 levels "10.1","10.5",..: 15 14 1 6 3 12 2 14 7 12 ...
 $ V9 : Factor w/ 17 levels "% pop below poverty line",..: 1 8 14 12 13 2 9 4 3 11 ...
 $ V10: Factor w/ 18 levels "38.2","42.1",..: 18 17 4 12 10 11 6 14 13 5 ...
 $ V11: Factor w/ 18 levels "22.1","22.7",..: 18 14 2 4 15 16 12 13 7 6 ...
 $ V12: Factor w/ 18 levels "% pop 25-54",..: 1 8 3 5 17 16 15 18 9 6 ...
 $ V13: Factor w/ 14 levels "2.8","3.2","3.5",..: 14 10 13 12 10 7 6 11 8 3 ...>

En este caso a nivel general podremos observar que tiene 13 observaciones, en la cual el tipo de datos son decimales , no tiene booleanos

17 observaciones
13 variables

Todas num茅ricas a excepci贸n de GDP.PC que es de tipo entero.

鈥榙ata.frame鈥: 17 obs. of 13 variables:

str(orangeec)
鈥榙ata.frame鈥: 17 obs. of 13 variables:

N煤mero de observaciones: 17
N煤mero de variables: 13

鈥榙ata.frame鈥: 18 obs. of 13 variables
of dataset orangeec

Saludos, tengo una consulta como logro que se visualice igual que el de la profesora.

Hola buen d铆a
Generando el anslisis de estructura de orangeec se encuentra:
17 Observaciones y Variables.

Country (Factor) esta es la variable categorica .
GDP.PC (int)es variable tipo de dato entero
El resto de las variables (num) son tipo de dato con coma flotante (real con decimales)

La variable country se peude considerar tipo de dato caracter?

鈥榙ata.frame鈥: 18 obs. of 13 variables:

El dataset de Orange Economy es:
1.- 17 obs
2- 13 variables.
3.- La variable Contry es cualitativa.
4.- Dentro de las 13 variables solo GDP.PC (El PIB per capita) es de tipo entero (int) y el resto son de tipo num con coma flotante.
5.- En la variable Creat Ind % GDP se deben completar los datos. (N/A)

Ejecut茅 este comando > ?orangeec
y me gener贸 esta advertencia:
No documentation for 鈥榦rangeec鈥 in specified packages and libraries:
you could try 鈥??orangeec鈥

驴C贸mo se crea una documentaci贸n general del paquete orangeec ?,

Recomendatorio buscar en google: R for Data Science (r4ds)

I Found 17 obs of 13 variables into orangeec document

El dataset orangeec contiene 18 observaciones y 13 variables, todas las variables son de tipo factor.