Bienvenida e introducción

1

Todo lo que aprenderás sobre el lenguaje R

2

Programación y Data Science

3

R y proyecto economía naranja.

4

Instalando nuestras herramientas

Variables, tipos de datos y estructuras

5

Los primeros cálculos con R y variables

6

Tipos de datos

7

Estructura del dataset del proyecto

8

Vectores

9

Matrices

10

Ejercicios con matrices

11

Operadores para comparar y ubicar datos

12

Factores, listas y echar un vistazo al dataset

EDA: Exploratory data analysis

13

Qué es EDA: Exploratory Data Analysis

14

Gráficas de dispersión e histogramas.

15

Box Plot y su interpretación

16

EDA con dataset proyecto - Gráficas de dispersión.

17

EDA con histogramas.

18

EDA con dataset proyecto - histogramas - ggplot2

19

EDA con box plot- ggplot2

20

EDA con dataset proyecto - box plot- ggplot2 - dplyr

21

EDA con gráficas de dispersión con más de dos variables - ggplot2

22

EDA con dataset proyecto usando gráficas de dispersión con más de dos variables - ggplot2 - plotly

La estadística de los datos

23

Buscando correlaciones con pairs

24

Confirmando correlaciones con la función cor

25

Buscando correlaciones con pairs en dataset proyecto

26

Confirmando correlaciones con la función cor en dataset proyecto.

27

Protegiéndonos de los peligros del promedio.

28

Eliminando los NA's para hacer los cálculos.

29

Estadística y visualización aplicada a análisis de datos de mercadeo.

Ajustando los datos

30

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 1

31

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 2

Mejorando la visualización

32

Viendo más información con facet wrap - Parte 1

33

Viendo más información con facet wrap - Parte 2

Organizar visualizaciones y código con R Markdown

34

Conociendo R Markdown y organizando los hallazgos del análisis en un documento PDF.

Conclusiones Finales

35

Invitación a continuar recorriendo el mundo del data science.

Tipos de datos

6/35
Recursos

Además de trabajar con el dataset de Orange Economy vamos a necesitar el dataset de mtcars.

Dentro de la consola de R Studio, la función install.packages nos va a ayudar a instalar paquetes, como su nombre lo indica, en este caso intentaremos instalar mtcars.

En caso de no estar disponible para tu versión de R, puedes ir al Github de la profesora y descargarlo.

La función str nos va a mostrar la estructura que tiene el dataset que le pasemos.
Dentro de la consola podemos obtener más información sobre nuestro dataset anteponiendo el signo ? quedando ?mtcars

En el dataset mtcars podemos ver que hay datos de tipo int y num, la diferencia es que num son números con decimal mientras que int son enteros.

Podemos ver que las variables vs y am dentro de mtcars aunque están marcadas con int su función es de tipo boolean, para convertir estos datos utilizaremos la función as.logical

Reto: Explora la estructura del dataset orangeec. Escribe en los comentarios el número de observaciones y variables que encuentres.

Aportes 277

Preguntas 22

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

17 obs. y 13 variables. Hay que tener cuidado a la hora de importar el Dataset porque viene con la opción Header por defecto en No, y esto hace que los títulos los tome como una observación más, lo cual no es correcto. Hay que poner el Header en Yes para que tome los títulos de las variables correctamente

Puedes hacer notas con #

#Información sobre mtcars
?mtcars
#Clase de la variable vs
class(mtcars$vs)

#Convertir el tipo de la variable
mtcars$vs = as.logical(mtcars$vs)
mtcars$am = as.logical(mtcars$am)
class(mtcars$vs)
class(mtcars$am)

Para conocer la estructura de un dataset, utilizamos la función str() (que significa structure o estructura), pasandole como parámetro el nombre del dataset en cuestión.
­
En la información arrojada podemos visualizar los tipos de datos:
(se recomienda comprender los fundamentos de la programación)
int: Enteros. Números “redondos” como 1, 2, 3, 10, 100.
num: Numérico. Números flotantes (o de coma flotante, decimales), como 1.5, 2.3, 3.2, 0.01.
logi: Booleanos. Valores de true o false
­
Vale la pena aclarar que en los datasets, los valores booleanos pueden estar representados con los enteros (int) 1 y 0, true o false respectivamente.
Para cambiar el tipo de dato, podemos llamar al dataset, situarnos en la variable, y utilizar el método as.logical().
dataset$var = as.logical(dataset$var)
­
También vimos la variable Factor, se usa para clasificar los datos según su grupo o categoría.
­
Hubo dos términos claves, observaciones y variables.
Observaciones: Filas.
Variables: Columnas.
Donde fila y columna tienen el mismo significado que tienen en una tabla convencional; fila y observación son sinónimos, y variables y columnas también.

Otra forma de ver la descripción del dataset es en el panel derecho en la sección que dice Environment seleccionamos el dataset que importamos y desplegamos su información:

Y para quienes les salió 18 observaciones de 13 variables, es porque al importar quitan los headings por eso es que les sale una observación de más, para evitar esto habiliatamos la opción.

Saludos

para poder cargar el dataset “mtcars.csv”:

mtcars <- read.csv("mtcars.csv", header=TRUE)
  • header: si el archivo “mtcars.csv” tiene el nombre de las columnas en la primera linea.

Es cargar directamente desde el link de github el dataset _orangee.csv _utilizando el comando _read.csv _(con read.table también es posible).

El ejemplo con read.table() sería:

orangeec <- read.table("https://raw.githubusercontent.com/sap0408/Orange-Economy/master/orangeec.csv", header =  TRUE, sep = ",")

Mi análisis del data set de la economía naranja.
1.- Tiene 17 obs de 13 variables.
2.- La variable Contry es cualitativa y son las obs.
3.- Dentro de las 13 variables solo GDP.PC (El PIB per capita) es de tipo entero (int) y el resto son de tipo num con coma flotante.
4.- No existe variables de tipo logical (booleanos)
5.- La variable Creat Ind % GDP (El aporte de las industrias creativas) presenta datos vacíos o restantes. (N/A)

17 Observaciones (Filas)
13 Variables (Columnas)

1 Columna Categorica
1 Columna Numero Entero
15 Columnas Numero Natural

17 Observaciones
13 Variables (12 variables datos números, 1 variable entero)

Tengo una pequenda duda: Por que la variable de trasmision es 0 y 1 se convierte a True o Flase? A mi parecer, eso no escalaria, supongamos que el dia de manana se inventa un tramision tipo “smart”. Otra duda, en R existen las claves foraneas o todos son tipos duros?

cuando se importa el dataset orangeec, todas las variables aparecen tipo factor, esto ocurre ya que cuando se importa el dataset se debe colocar yes en la seccion que dice heading, o sino los coloca todos como tipo fact,
esto esta mejor explicado en la documentación

por lo tanto:

orangeec 17 obj y 13 variables
de las cuales 11 son tipo num, 1 int, 1 factor

También podemos cargarlo con la siguiente instrucción en R:

mtcars <- read.csv("https://raw.githubusercontent.com/sap0408/mtcars/master/mtcars.csv", sep = ',')

Teniendo en cuenta al utilizar como fuente de los datos una dirección URL, corremos el riesgo que esta pueda cambiar y si en un futuro ejecutamos de nuevo esta instrucción podemos tener un error. Por tanto creo importante tener tanto esta instrucción como opción pero también tener el archivo descargado.

Estar seguro de la estructura de datos para saber como trabajar con ellos, como transformarlo y que tipo de operaciones podemos hacer.

‘data.frame’: 17 obs. of 13 variables 😄

yo sigo sin poder ver el archivo de orangeec, le tengo metido en la misma carpeta donde guardo los scripts de R Studio y nada, siempre me detecta uno que se llama Orange, que no es este. En cambio este último archivo, el mtcars, lo veo perfectamente, si que me lo detecta el programa de R Studio

17 observaciones y 13 variables

para orangeec serían 18 obs y 13 vars
Que práctica herramienta y muy interesante!

Esta docente explica muy bien, desde lo mas mínimo y eso es excelente

Para saber la el numero de observaciones y el numero de variables del dataset orangeec se implementa la funcion **STR **para mostrarnos la estructura:

Me salen 18 observaciones y 13 variables. Al ver los comentarios noto que a los demás les sale 17 observaciones, es decir, el mío está tomando el encabezado de la tabla como una observación, ¿Alguien sabe por qué sucede esto ?

32 observaciones de 12 variables.

orangeec = 18 obs y 13 variables

32 obs y 12 variables

Data set compuesto por 17 observaciones y 13 variables

17 obs y 13 variables en country en esta version mas reciente me sale chr que significa “vectores de caracteres o cadenas”

str(orangeec)

32 obs y 11 variables

17 observaciones y 13 variables para orangeec

Me sale 18 observaciones, pero como mencionan, es el header. Así que 17 y 13 variables.

El set Orangeec tiene 17 observaciones y 13 variables (:

En mi caso yo tengo:
17 Observaciones
13 Variables
1 variable con valores de tipo Chr
1 variable con valores de tipo Int
11 variable con valores de tipo Num

18 observaciones y variables

17 observaciones con 13 variables

Para conocer el tipo de datos del dataset tenemos dos formas de hacerlo:

  1. con la opción str(nombre_dataset) en el R Script y el resultado sale en console
  2. En Enviroment oprimimos la flecha hacia abajo del dataset

Para responder la pregunta el dataset orangeec tiene 17 observaciones y 13 variables

En el data frame de Orangeec: obtengo 18 observaciones y 13 variables.
$ V1 : chr “Country” “Argentina” “Belize” “Bolivia” …
$ V2 : chr “GDP PC” “20900” “8300” “7500” …
$ V3 : chr “GDP US bill” “637.7” “1854” “37.1” …
$ V4 : chr “GDP Growth %” “2.9” “0.8” “4.2” …
$ V5 : chr “Services % GDP” “60.9” “62.2” “50” …
$ V6 : chr “Creat Ind % GDP” “3.8” “” “” …
$ V7 : chr “Inflation” “25.7” “1.1” “2.8” …
$ V8 : chr “Unemployment” “8.1” “10.1” “4” …
$ V9 : chr “% pop below poverty line” “25.7” “41” “38.6” …
$ V10: chr “Internet penetration % population” “93.1” “52.3” “78.6” …
$ V11: chr “Median age” “31.7” “22.7” “24.3” …
$ V12: chr “% pop 25-54” “39.38” “36.62” “37.48” …
$ V13: chr “Education invest % GDP” “5.9” “7.4” “7.3” …

Las variables que solo pueden tomar dos valores se conocen como dicotómicas o dummys.

‘data.frame’: 18 obs. of 13 variables:

32 obs. of 12 variables

Por si no lo notaron en la estructura del Data set tiene que ser 32 observaciones y 12 variables, si les sale diferente tienen que arreglar en la parte de Importar datos, cambiar en la opción de Header.

El Dataset orangeec tiene 17 obs y 13 variables. Sin embargo, algunas de las variables como el desempleo o el crecimiento del PIB deben ser expresadas en términos porcentuales, por lo tanto, hay que transformar la estructura de las variables.

Orangeec contiene 17 obs y 13 variables.

Variables.
1 chr.
1 int.
11 num.

‘data.frame’:18 obs. of 13 variables 😃

En el dataset: orangeec hay 17 observaciones y 13 variables. Hay variables númericas y enteras.

17 obs. of 13 variables.
Numéricos.
Íntegros.
Caracter.

tambien lo probe con el as.logical

17 observaciones y 13 variables.

… Country = col_character(),
GDP PC = col_double(),
GDP US bill = col_double(),
GDP Growth % = col_double(),
Services % GDP = col_double(),
Creat Ind % GDP = col_double(),
… Inflation = col_double(),
… Unemployment = col_double(),
% pop below poverty line = col_double(),
Internet penetration % population = col_double(),
Median age = col_double(),
% pop 25-54 = col_double(),
Education invest % GDP = col_double()

dataset:Economia naranja contiene 17 observaciones y 13 variables

Siento que a este curso de fundamentos no tiene nada.
La docente va demasiado rápido en cosas que son elementales y en cosas triviales pierde mucho tiempo. Además no muestra el proceso completo de como hace algunos pasos y tampoco contesta las preguntas que dejan los estudiantes,
Mejor me voy a hacer otro curso.

En el ejercicio me salio esto
data.frame’: 17 obs. of 13 variables:

str(orangeec)
‘data.frame’: 17 obs. of 13 variables:

11 variables "numeric"
1 variable "integer"
1 variable “character”

Orangeec: 17 Observaciones de 13 Variables.
La mayoría son valores numéricos, enteros y un factor. 😊
Pregunta ? Los tipos Factor, son básicamente cadenas de texto ?

Facinante este curso

17 observaciones y 13 variables 😃

str(orangeec)
‘data.frame’: 17 obs. of 13 variables:

17 observaciones y 12 variables. Alguien sabe porque me aparece Error in str(orangeec) : objeto ‘orangeec’ no encontrado ? str(mtcars) lo tomó sin problemas, pero tuve que pone str(orangeec.csv) para que me tome ese dataset

Instalando Data set mtcars

‘data.frame’: 17 obs. of 13 variables:

Es un data.frame con 17 observaciones y 13 atributos

Después de correr el comando:
17 obs. of 13 variables

‘data.frame’: 17 obs. of 13 variables:

17 obs. of 13 variables, Pero no pude ver la informacion detallada de Economia naranja.

18 observaciones
13 variables

13 variables y 17 observaciones

Análisis del dataset de Economia naranja
17 observaciones de 12 variables.

Me sale el siguiente error cuando ejecuto el proceso <Installing package into ‘C:/Users/wilso/Documents/R/win-library/3.5’ (as ‘lib’ is unspecified) Warning in install.packages : package ‘mtcars’ is not available (for R version 3.5.2)>

Puedo acceder a las sesiones 1,2,3,4,5

Pero no puedo acceder a la sesión 6, ya reporte,
Trate de acceder en 3 diferentes navegadores,

También puedo ver la sesión 7, la seis no.

data frame: con 18 obs y 13 variables

Encontramos 17 etiquetas las cuales corresponden a nombres de paises. El dataset ademas incluye 13 variables de las cuales 12 contiene variables num (Numeros decimales) y solo 1 int (Numeros enteros).

Dataset: Orangeec
17 obs. of 13 variables

Cambiar una variable numérica a lógica. Booleano = variable vs y am toman dos valores 0 y 1

17 observaciones y 13 variables

17 Observaciones
13 Variables

17 Observaciones
13 Variables

Si a ustedes, como a mi, les aparece que el tipo de variable es “numerical” en lugar de “integer” en el resto de las variables, no se preocupen, esto no afecta en practicamente nada porque R lo maneja por detrás.

Si quieren saber más: https://stackoverflow.com/questions/23660094/whats-the-difference-between-integer-class-and-numeric-class-in-r

data-frame: 18 obs. of 13 variables

17 Observaciones (Numero de Filas)
13 Variables (Numero de columnas o campos)
Un campo es entero y el resto del tipo numérico, todos los datos decimales tienen un decimal a excepción de un campo.

¿En donde esta guardada la información de la documentación del dataset, en que archivo esta?

17 observaciones de 13 variables

Country: Factor (17 niveles)
Todas las variables son numéricas (con decimales) a excepción de GDP.PC que es de tipo entero

No hay variables lógicas.

Economia Naranja (OE): 17 Observaciones o filas y 13 Variables o columnas
dim(OE)
[1] 17 13

Country= Factor
GDP.PC= integer
11 columnas con valores numéricos
Creat.Ind…GDP con NAN (not at number)

Gracias Sonia

Me sale el siguiente error cuando ejecuto el proceso

<Installing package into ‘C:/Users/wilso/Documents/R/win-library/3.5’
(aslibis unspecified)
Warning in install.packages :
  package ‘mtcars’ is not available (for R version 3.5.2)>

Número de observaciones 18, número de variables 13

str(orangeec)
‘data.frame’: 18 obs. of 13 variables:
$ V1 : Factor w/ 18 levels “Argentina”,“Belize”,…: 8 1 2 3 4 5 6 7 9 10 …
$ V2 : Factor w/ 18 levels “11500”,“13300”,…: 18 7 15 13 4 9 3 5 1 16 …
$ V3 : Factor w/ 18 levels “102.3”,“1149000”,…: 18 16 4 12 5 8 11 13 1 9 …
$ V4 : Factor w/ 18 levels “0.8”,“1”,“1.5”,…: 18 10 1 13 2 3 4 12 8 6 …
$ V5 : Factor w/ 18 levels “50”,“50.8”,“54.5”,…: 18 7 9 1 15 12 8 16 5 13 …
$ V6 : Factor w/ 12 levels “”,“1”,“1.5”,“2”,…: 12 8 1 1 6 5 7 4 4 1 …
$ V7 : Factor w/ 16 levels “0.4”,“0.9”,“1”,…: 16 8 4 7 9 6 12 5 1 3 …
$ V8 : Factor w/ 15 levels “10.1”,“10.5”,…: 15 14 1 6 3 12 2 14 7 12 …
$ V9 : Factor w/ 17 levels “% pop below poverty line”,…: 1 8 14 12 13 2 9 4 3 11 …
$ V10: Factor w/ 18 levels “38.2”,“42.1”,…: 18 17 4 12 10 11 6 14 13 5 …
$ V11: Factor w/ 18 levels “22.1”,“22.7”,…: 18 14 2 4 15 16 12 13 7 6 …
$ V12: Factor w/ 18 levels “% pop 25-54”,…: 1 8 3 5 17 16 15 18 9 6 …
$ V13: Factor w/ 14 levels “2.8”,“3.2”,“3.5”,…: 14 10 13 12 10 7 6 11 8 3 …

18 obs y 13 var __ data frame

Encontré 17 observaciones con 13 variables

En este caso haciendo el análisis del dataset orange me sale lo siguiente

<'data.frame':	18 obs. of  13 variables:
 $ V1 : Factor w/ 18 levels "Argentina","Belize",..: 8 1 2 3 4 5 6 7 9 10 ...
 $ V2 : Factor w/ 18 levels "11500","13300",..: 18 7 15 13 4 9 3 5 1 16 ...
 $ V3 : Factor w/ 18 levels "102.3","1149000",..: 18 16 4 12 5 8 11 13 1 9 ...
 $ V4 : Factor w/ 18 levels "0.8","1","1.5",..: 18 10 1 13 2 3 4 12 8 6 ...
 $ V5 : Factor w/ 18 levels "50","50.8","54.5",..: 18 7 9 1 15 12 8 16 5 13 ...
 $ V6 : Factor w/ 12 levels "","1","1.5","2",..: 12 8 1 1 6 5 7 4 4 1 ...
 $ V7 : Factor w/ 16 levels "0.4","0.9","1",..: 16 8 4 7 9 6 12 5 1 3 ...
 $ V8 : Factor w/ 15 levels "10.1","10.5",..: 15 14 1 6 3 12 2 14 7 12 ...
 $ V9 : Factor w/ 17 levels "% pop below poverty line",..: 1 8 14 12 13 2 9 4 3 11 ...
 $ V10: Factor w/ 18 levels "38.2","42.1",..: 18 17 4 12 10 11 6 14 13 5 ...
 $ V11: Factor w/ 18 levels "22.1","22.7",..: 18 14 2 4 15 16 12 13 7 6 ...
 $ V12: Factor w/ 18 levels "% pop 25-54",..: 1 8 3 5 17 16 15 18 9 6 ...
 $ V13: Factor w/ 14 levels "2.8","3.2","3.5",..: 14 10 13 12 10 7 6 11 8 3 ...>

En este caso a nivel general podremos observar que tiene 13 observaciones, en la cual el tipo de datos son decimales , no tiene booleanos

17 observaciones
13 variables

Todas numéricas a excepción de GDP.PC que es de tipo entero.

‘data.frame’: 17 obs. of 13 variables:

str(orangeec)
‘data.frame’: 17 obs. of 13 variables:

Número de observaciones: 17
Número de variables: 13

‘data.frame’: 18 obs. of 13 variables
of dataset orangeec

Saludos, tengo una consulta como logro que se visualice igual que el de la profesora.

Hola buen día
Generando el anslisis de estructura de orangeec se encuentra:
17 Observaciones y Variables.

Country (Factor) esta es la variable categorica .
GDP.PC (int)es variable tipo de dato entero
El resto de las variables (num) son tipo de dato con coma flotante (real con decimales)

La variable country se peude considerar tipo de dato caracter?

‘data.frame’: 18 obs. of 13 variables:

El dataset de Orange Economy es:
1.- 17 obs
2- 13 variables.
3.- La variable Contry es cualitativa.
4.- Dentro de las 13 variables solo GDP.PC (El PIB per capita) es de tipo entero (int) y el resto son de tipo num con coma flotante.
5.- En la variable Creat Ind % GDP se deben completar los datos. (N/A)

Ejecuté este comando > ?orangeec
y me generó esta advertencia:
No documentation for ‘orangeec’ in specified packages and libraries:
you could try ‘??orangeec’

¿Cómo se crea una documentación general del paquete orangeec ?,

Recomendatorio buscar en google: R for Data Science (r4ds)

I Found 17 obs of 13 variables into orangeec document

El dataset orangeec contiene 18 observaciones y 13 variables, todas las variables son de tipo factor.