Bienvenida e introducción

1

Todo lo que aprenderás sobre el lenguaje R

2

Programación y Data Science

3

R y proyecto economía naranja.

4

Instalando nuestras herramientas

Variables, tipos de datos y estructuras

5

Los primeros cálculos con R y variables

6

Tipos de datos

7

Estructura del dataset del proyecto

8

Vectores

9

Matrices

10

Ejercicios con matrices

11

Operadores para comparar y ubicar datos

12

Factores, listas y echar un vistazo al dataset

EDA: Exploratory data analysis

13

Qué es EDA: Exploratory Data Analysis

14

Gráficas de dispersión e histogramas.

15

Box Plot y su interpretación

16

EDA con dataset proyecto - Gráficas de dispersión.

17

EDA con histogramas.

18

EDA con dataset proyecto - histogramas - ggplot2

19

EDA con box plot- ggplot2

20

EDA con dataset proyecto - box plot- ggplot2 - dplyr

21

EDA con gráficas de dispersión con más de dos variables - ggplot2

22

EDA con dataset proyecto usando gráficas de dispersión con más de dos variables - ggplot2 - plotly

La estadística de los datos

23

Buscando correlaciones con pairs

24

Confirmando correlaciones con la función cor

25

Buscando correlaciones con pairs en dataset proyecto

26

Confirmando correlaciones con la función cor en dataset proyecto.

27

Protegiéndonos de los peligros del promedio.

28

Eliminando los NA's para hacer los cálculos.

29

Estadística y visualización aplicada a análisis de datos de mercadeo.

Ajustando los datos

30

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 1

31

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 2

Mejorando la visualización

32

Viendo más información con facet wrap - Parte 1

33

Viendo más información con facet wrap - Parte 2

Organizar visualizaciones y código con R Markdown

34

Conociendo R Markdown y organizando los hallazgos del análisis en un documento PDF.

Conclusiones Finales

35

Invitación a continuar recorriendo el mundo del data science.

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Tipos de datos

6/35
Recursos

Además de trabajar con el dataset de Orange Economy vamos a necesitar el dataset de mtcars.

Dentro de la consola de R Studio, la función install.packages nos va a ayudar a instalar paquetes, como su nombre lo indica, en este caso intentaremos instalar mtcars.

En caso de no estar disponible para tu versión de R, puedes ir al Github de la profesora y descargarlo.

La función str nos va a mostrar la estructura que tiene el dataset que le pasemos.
Dentro de la consola podemos obtener más información sobre nuestro dataset anteponiendo el signo ? quedando ?mtcars

En el dataset mtcars podemos ver que hay datos de tipo int y num, la diferencia es que num son números con decimal mientras que int son enteros.

Podemos ver que las variables vs y am dentro de mtcars aunque están marcadas con int su función es de tipo boolean, para convertir estos datos utilizaremos la función as.logical

Reto: Explora la estructura del dataset orangeec. Escribe en los comentarios el número de observaciones y variables que encuentres.

Aportes 338

Preguntas 32

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

17 obs. y 13 variables. Hay que tener cuidado a la hora de importar el Dataset porque viene con la opción Header por defecto en No, y esto hace que los títulos los tome como una observación más, lo cual no es correcto. Hay que poner el Header en Yes para que tome los títulos de las variables correctamente

Puedes hacer notas con #

#Información sobre mtcars
?mtcars
#Clase de la variable vs
class(mtcars$vs)

#Convertir el tipo de la variable
mtcars$vs = as.logical(mtcars$vs)
mtcars$am = as.logical(mtcars$am)
class(mtcars$vs)
class(mtcars$am)

Para conocer la estructura de un dataset, utilizamos la función str() (que significa structure o estructura), pasandole como parámetro el nombre del dataset en cuestión.
­
En la información arrojada podemos visualizar los tipos de datos:
(se recomienda comprender los fundamentos de la programación)
int: Enteros. Números “redondos” como 1, 2, 3, 10, 100.
num: Numérico. Números flotantes (o de coma flotante, decimales), como 1.5, 2.3, 3.2, 0.01.
logi: Booleanos. Valores de true o false
­
Vale la pena aclarar que en los datasets, los valores booleanos pueden estar representados con los enteros (int) 1 y 0, true o false respectivamente.
Para cambiar el tipo de dato, podemos llamar al dataset, situarnos en la variable, y utilizar el método as.logical().
dataset$var = as.logical(dataset$var)
­
También vimos la variable Factor, se usa para clasificar los datos según su grupo o categoría.
­
Hubo dos términos claves, observaciones y variables.
Observaciones: Filas.
Variables: Columnas.
Donde fila y columna tienen el mismo significado que tienen en una tabla convencional; fila y observación son sinónimos, y variables y columnas también.

Otra forma de ver la descripción del dataset es en el panel derecho en la sección que dice Environment seleccionamos el dataset que importamos y desplegamos su información:

Y para quienes les salió 18 observaciones de 13 variables, es porque al importar quitan los headings por eso es que les sale una observación de más, para evitar esto habiliatamos la opción.

Saludos

para poder cargar el dataset “mtcars.csv”:

mtcars <- read.csv("mtcars.csv", header=TRUE)
  • header: si el archivo “mtcars.csv” tiene el nombre de las columnas en la primera linea.

Es cargar directamente desde el link de github el dataset _orangee.csv _utilizando el comando _read.csv _(con read.table también es posible).

El ejemplo con read.table() sería:

orangeec <- read.table("https://raw.githubusercontent.com/sap0408/Orange-Economy/master/orangeec.csv", header =  TRUE, sep = ",")

Mi análisis del data set de la economía naranja.
1.- Tiene 17 obs de 13 variables.
2.- La variable Contry es cualitativa y son las obs.
3.- Dentro de las 13 variables solo GDP.PC (El PIB per capita) es de tipo entero (int) y el resto son de tipo num con coma flotante.
4.- No existe variables de tipo logical (booleanos)
5.- La variable Creat Ind % GDP (El aporte de las industrias creativas) presenta datos vacíos o restantes. (N/A)

17 Observaciones (Filas)
13 Variables (Columnas)

1 Columna Categorica
1 Columna Numero Entero
15 Columnas Numero Natural

Tengo una pequenda duda: Por que la variable de trasmision es 0 y 1 se convierte a True o Flase? A mi parecer, eso no escalaria, supongamos que el dia de manana se inventa un tramision tipo “smart”. Otra duda, en R existen las claves foraneas o todos son tipos duros?

17 Observaciones
13 Variables (12 variables datos números, 1 variable entero)

cuando se importa el dataset orangeec, todas las variables aparecen tipo factor, esto ocurre ya que cuando se importa el dataset se debe colocar yes en la seccion que dice heading, o sino los coloca todos como tipo fact,
esto esta mejor explicado en la documentación

por lo tanto:

orangeec 17 obj y 13 variables
de las cuales 11 son tipo num, 1 int, 1 factor

Si están en Windows para cargar el dataset el código serí así:

mtcars <- read.csv("c:\ruta\\de\\mi\\archivo\\mtcars.csv")

En mi versión ya no aparece como factor ahora dice chr, supongo que significa char o caracter.

Para conocer el tipo de datos del dataset tenemos dos formas de hacerlo:

  1. con la opción str(nombre_dataset) en el R Script y el resultado sale en console
  2. En Enviroment oprimimos la flecha hacia abajo del dataset

Para responder la pregunta el dataset orangeec tiene 17 observaciones y 13 variables

También podemos cargarlo con la siguiente instrucción en R:

mtcars <- read.csv("https://raw.githubusercontent.com/sap0408/mtcars/master/mtcars.csv", sep = ',')

Teniendo en cuenta al utilizar como fuente de los datos una dirección URL, corremos el riesgo que esta pueda cambiar y si en un futuro ejecutamos de nuevo esta instrucción podemos tener un error. Por tanto creo importante tener tanto esta instrucción como opción pero también tener el archivo descargado.

Estar seguro de la estructura de datos para saber como trabajar con ellos, como transformarlo y que tipo de operaciones podemos hacer.

‘data.frame’: 17 obs. of 13 variables 😄

yo sigo sin poder ver el archivo de orangeec, le tengo metido en la misma carpeta donde guardo los scripts de R Studio y nada, siempre me detecta uno que se llama Orange, que no es este. En cambio este último archivo, el mtcars, lo veo perfectamente, si que me lo detecta el programa de R Studio

17 observaciones y 13 variables

para orangeec serían 18 obs y 13 vars
Que práctica herramienta y muy interesante!

Esta docente explica muy bien, desde lo mas mínimo y eso es excelente

Para saber la el numero de observaciones y el numero de variables del dataset orangeec se implementa la funcion **STR **para mostrarnos la estructura:

Me salen 18 observaciones y 13 variables. Al ver los comentarios noto que a los demás les sale 17 observaciones, es decir, el mío está tomando el encabezado de la tabla como una observación, ¿Alguien sabe por qué sucede esto ?

str(orangeec) 'data.frame': 17 obs. of 13 variables:
Respuesta reto: 'data.frame': 17 obs. of 13 variables Pregunta: Tanto en mtcars como en orangeec me aparece: $ model : chr $ Country : chr cuando debería aparecer como "Factor"
En el dataset orangeec hay 17 obs. of 13 variables
En MTcars existen 32 obs. y 12 variables. Y en Orangeec son 17 obs y 13 variables
str(orangeec) <- 18 obs. 13 variables
18 observaciones, 13 variables
![](https://static.platzi.com/media/user_upload/image-c9348214-3618-4250-8db4-a8a1aeb84311.jpg) Con el dataset de orangeec, tenemos 17 obs. y 13 variables.
'data.frame': 17 obs. of 13 variables: $ Country : chr "Argentina" "Belize" "Bolivia" "Brazil" ... $ GDP.PC : int 20900 8300 7500 15600 24500 14500 16900 11500 8900 8100 ... $ GDP.US.bill : num 6.38e+02 1.85e+03 3.71e+01 2.06e+06 2.77e+02 ... $ GDP.Growth.. : num 2.9 0.8 4.2 1 1.5 1.8 3.2 2.7 2.4 2.8 ... $ Services...GDP : num 60.9 62.2 50 72.8 64.3 61.4 73.5 56.9 64.9 63.2 ... $ Creat.Ind...GDP : num 3.8 NA NA 2.6 2.2 3.3 2 2 NA NA ... $ Inflation : num 25.7 1.1 2.8 3.4 2.2 4.3 1.6 0.4 1 4.4 ... $ Unemployment : num 8.1 10.1 4 11.8 7 10.5 8.1 4.6 7 2.3 ... $ X..pop.below.poverty.line : num 25.7 41 38.6 4.2 14.4 28 21.7 21.5 32.7 59.3 ... $ Internet.penetration...population: num 93.1 52.3 78.6 70.7 77.5 63.2 86.7 79.9 57.7 42.1 ... $ Median.age : num 31.7 22.7 24.3 32 34.4 30 31.3 27.7 27.1 22.1 ... $ X..pop.25.54 : num 39.4 36.6 37.5 43.9 43.1 ... $ Education.invest...GDP : num 5.9 7.4 7.3 5.9 4.9 4.5 7.1 5 3.5 2.8 ...
Hola, encontre 32obs y 12 variables
Respondiendo a la pregunta de la clase como actividad autónoma: 'data.frame': 17 obs. of 13 variables. Es importante que, sin bien todas son variables numéricas, la interpretación de las mismas no son iguales, pues algunos valores representan porcentajes.
Ya me aparecen 17 registros, 13 variables, la primera variabes, las segunda entera y demas numericas
buenas tardes, no se porque todas las variables dew orangeec me las genera tipo caracter
Todas son tipo caracter
orangeec tiene 18 registros y 13 variables

Comentario:
aplique los codigo correspondiente: str(orangeec)
?Orange
class(orangeec$vs)
orangeec$v7 = as.logical(orangeec$v1)
orangeec$v1 = as.logical(orangeec$v8.
Luego el resultado de la data de ECONOMIA NARANJA. Salio el siguiente resultado:
str(orangeec)
?Orange
class(orangeec$vs)
orangeec$v7 = as.logical(orangeec$v1)
orangeec$v1 = as.logical(orangeec$v8

str(orangeec)
‘data.frame’: 17 obs. of 13 variables:

Hola, este es número de observaciones y variables en el dataset de economía naranja, visualizándolo con el comando str

32 observaciones y 12 variables

17 observaciones y 13 variables

13 variables y 17 observaciones en el dataset de orange economy

str(orangeec)
spc_tbl_ [17 x 13] (S3: spec_tbl_df/tbl_df/tbl/data.frame)
$ Country : chr [1:17] “Argentina” “Belize” “Bolivia” “Brazil” …
$ GDP PC : num [1:17] 20900 8300 7500 15600 24500 14500 16900 11500 8900 8100 …
$ GDP US bill : num [1:17] 6.38e+02 1.85e+03 3.71e+01 2.06e+06 2.77e+02 …
$ GDP Growth % : num [1:17] 2.9 0.8 4.2 1 1.5 1.8 3.2 2.7 2.4 2.8 …
$ Services % GDP : num [1:17] 60.9 62.2 50 72.8 64.3 61.4 73.5 56.9 64.9 63.2 …
$ Creat Ind % GDP : num [1:17] 3.8 NA NA 2.6 2.2 3.3 2 2 NA NA …
$ Inflation : num [1:17] 25.7 1.1 2.8 3.4 2.2 4.3 1.6 0.4 1 4.4 …
$ Unemployment : num [1:17] 8.1 10.1 4 11.8 7 10.5 8.1 4.6 7 2.3 …
$ % pop below poverty line : num [1:17] 25.7 41 38.6 4.2 14.4 28 21.7 21.5 32.7 59.3 …
$ Internet penetration % population: num [1:17] 93.1 52.3 78.6 70.7 77.5 63.2 86.7 79.9 57.7 42.1 …
$ Median age : num [1:17] 31.7 22.7 24.3 32 34.4 30 31.3 27.7 27.1 22.1 …
$ % pop 25-54 : num [1:17] 39.4 36.6 37.5 43.9 43.1 …
$ Education invest % GDP : num [1:17] 5.9 7.4 7.3 5.9 4.9 4.5 7.1 5 3.5 2.8 …

  • attr(*, “spec”)=
    … cols(
    … Country = col_character(),
    GDP PC = col_double(),
    GDP US bill = col_double(),
    GDP Growth % = col_double(),
    Services % GDP = col_double(),
    Creat Ind % GDP = col_double(),
    … Inflation = col_double(),
    … Unemployment = col_double(),
    % pop below poverty line = col_double(),
    Internet penetration % population = col_double(),
    Median age = col_double(),
    % pop 25-54 = col_double(),
    Education invest % GDP = col_double()
    … )
  • attr(*, “problems”)=<externalptr>

El dataset de orangeec tiene 17 observaciones (filas) y 13 variables (columnas).

str(orangeec)
‘data.frame’: 18 obs. of 13 variables:
$ V1 : chr “Country” “Argentina” “Belize” “Bolivia” …
$ V2 : chr “GDP PC” “20900” “8300” “7500” …
$ V3 : chr “GDP US bill” “637.7” “1854” “37.1” …
$ V4 : chr “GDP Growth %” “2.9” “0.8” “4.2” …
$ V5 : chr “Services % GDP” “60.9” “62.2” “50” …
$ V6 : chr “Creat Ind % GDP” “3.8” “” “” …
$ V7 : chr “Inflation” “25.7” “1.1” “2.8” …
$ V8 : chr “Unemployment” “8.1” “10.1” “4” …
$ V9 : chr “% pop below poverty line” “25.7” “41” “38.6” …
$ V10: chr “Internet penetration % population” “93.1” “52.3” “78.6” …
$ V11: chr “Median age” “31.7” “22.7” “24.3” …
$ V12: chr “% pop 25-54” “39.38” “36.62” “37.48” …
$ V13: chr “Education invest % GDP” “5.9” “7.4” “7.3” …

Datos de la columna que hace referencia a la media de la edad:

orange$V11
[1] "Median age" "31.7"       "22.7"       "24.3"       "32"         "34.4"       "30"        
 [8] "31.3"       "27.7"       "27.1"       "22.1"       "23"         "28.3"       "25.7"      
[15] "29.2"       "28.2"       "28"         "35"  

Esto es lo que me arroja la función str:

> str(orange)
'data.frame':	18 obs. of  13 variables:
 $ V1 : chr  "Country" "Argentina" "Belize" "Bolivia" ...
 $ V2 : chr  "GDP PC" "20900" "8300" "7500" ...
 $ V3 : chr  "GDP US bill" "637.7" "1854" "37.1" ...
 $ V4 : chr  "GDP Growth %" "2.9" "0.8" "4.2" ...
 $ V5 : chr  "Services % GDP" "60.9" "62.2" "50" ...
 $ V6 : chr  "Creat Ind % GDP" "3.8" "" "" ...
 $ V7 : chr  "Inflation" "25.7" "1.1" "2.8" ...
 $ V8 : chr  "Unemployment" "8.1" "10.1" "4" ...
 $ V9 : chr  "% pop below poverty line" "25.7" "41" "38.6" ...
 $ V10: chr  "Internet penetration % population" "93.1" "52.3" "78.6" ...
 $ V11: chr  "Median age" "31.7" "22.7" "24.3" ...
 $ V12: chr  "% pop 25-54" "39.38" "36.62" "37.48" ...
 $ V13: chr  "Education invest % GDP" "5.9" "7.4" "7.3" ...

Ejecuté este comando > ?orangeec
y me generó esta advertencia:
No documentation for ‘orangeec’ in specified packages and libraries:
you could try ‘??orangeec’

¿Cómo se crea una documentación general del paquete orangeec ?,

Hola.
El dataset orangeec.csv tiene 17 observaciones y 13 variables. Entre ellas hay una tipo chr, una tipo int y 11 tipo num (tengo la versión R.4.2.3)

Con la versión que estoy usando no aparece la misma redacción, pero se entiende de la misma manera:

<spc_tbl_ [17 × 13] (S3: spec_tbl_df/tbl_df/tbl/data. Frame)> 

De esta manera el primer número de los bráquets son las 17 observaciones y el segundo son las 13 variables.

Diplacement: Cilindraje. Los estadounidenses lo miden en pulgadas cúbicas. Nosotros en Colombia lo medimos en Centímetros cúbicos y es una variable importantísima inclusive para el pago del SOAT. Ejemplo, vehículos con motor con cilindraje menor al 1400 cc pagan menos

De acuerdo a Rstudio, me salen 17 observaciones y 13 variables. Una variable es de tipo factor (aparece CHR, pero asumo que es factor), una variable que es de tipo integer y las 11 restantes de tipo numérico.

La primera ver que ejecute el código para ver la estructura del dataset orangeec en el fichero script R
str(orangeec)
el resultado en la consola fue que todos las variables eran de tip o chr, esto era debido a que al importar el dataset no había indicado que los datos tenían cabecera (heading)
‘data.frame’: 18 obs. of 13 variables:
$ V1 : chr “Country” “Argentina” “Belize” “Bolivia” …
$ V2 : chr “GDP PC” “20900” “8300” “7500” …
$ V3 : chr “GDP US bill” “637.7” “1854” “37.1” …
$ V4 : chr “GDP Growth %” “2.9” “0.8” “4.2” …
$ V5 : chr “Services % GDP” “60.9” “62.2” “50” …
$ V6 : chr “Creat Ind % GDP” “3.8” “” “” …
$ V7 : chr “Inflation” “25.7” “1.1” “2.8” …
$ V8 : chr “Unemployment” “8.1” “10.1” “4” …
$ V9 : chr “% pop below poverty line” “25.7” “41” “38.6” …
$ V10: chr “Internet penetration % population” “93.1” “52.3” “78.6” …
$ V11: chr “Median age” “31.7” “22.7” “24.3” …
$ V12: chr “% pop 25-54” “39.38” “36.62” “37.48” …
$ V13: chr “Education invest % GDP” “5.9” “7.4” “7.3” …

Lo solucione volviendo a importar el dataset e indicando que había cabecera.

str(orangeec)
‘data.frame’: 17 obs. of 13 variables:
$ Country : chr “Argentina” “Belize” “Bolivia” “Brazil” …
$ GDP.PC : int 20900 8300 7500 15600 24500 14500 16900 11500 8900 8100 …
$ GDP.US.bill : num 6.38e+02 1.85e+03 3.71e+01 2.06e+06 2.77e+02 …
$ GDP.Growth… : num 2.9 0.8 4.2 1 1.5 1.8 3.2 2.7 2.4 2.8 …
$ Services…GDP : num 60.9 62.2 50 72.8 64.3 61.4 73.5 56.9 64.9 63.2 …
$ Creat.Ind…GDP : num 3.8 NA NA 2.6 2.2 3.3 2 2 NA NA …
$ Inflation : num 25.7 1.1 2.8 3.4 2.2 4.3 1.6 0.4 1 4.4 …
$ Unemployment : num 8.1 10.1 4 11.8 7 10.5 8.1 4.6 7 2.3 …
$ X…pop.below.poverty.line : num 25.7 41 38.6 4.2 14.4 28 21.7 21.5 32.7 59.3 …
$ Internet.penetration…population: num 93.1 52.3 78.6 70.7 77.5 63.2 86.7 79.9 57.7 42.1 …
$ Median.age : num 31.7 22.7 24.3 32 34.4 30 31.3 27.7 27.1 22.1 …
$ X…pop.25.54 : num 39.4 36.6 37.5 43.9 43.1 …
$ Education.invest…GDP : num 5.9 7.4 7.3 5.9 4.9 4.5 7.1 5 3.5 2.8 …

Probé a ver si había información del dataset en la ayuda

?orangeec
No documentation for ‘orangeec’ in specified packages and libraries:

También descubrí que en la pestaña environment desplegando en el dataset orangeec podías ver el tipo de datos

Utilizando la siguiente expresion: str(orangeec), obtuve que hay 17 observaciones cada uno con 13 variables.

Un total de 17 observaciones o registros y 13 variables conforman la data de orangeec, suministrando la información de 13 países latinoamericanos.

reto:
de la base orangeec se encuentran:

str(orangeec)
‘data.frame’: 18 obs(registros). de 13 variables (columnas)

17 observaciones y 13 variables

La data orangeec tiene 18 observaciones y 13 variables

El resultado es 17 observaciones y 13 variables, con respecto al tipo de variables se encontraron ( 1 (chr), 1 (Int) y 11 (num), adjunto visualización.

17 obs. of 13 variables:

En el dataset orangeec obtuve lo siguiente:
‘data.frame’: 18 obs. of 13 variables:
$ V1 : chr “Country” “Argentina” “Belize” “Bolivia” …
$ V2 : chr “GDP PC” “20900” “8300” “7500” …
$ V3 : chr “GDP US bill” “637.7” “1854” “37.1” …
$ V4 : chr “GDP Growth %” “2.9” “0.8” “4.2” …
$ V5 : chr “Services % GDP” “60.9” “62.2” “50” …
$ V6 : chr “Creat Ind % GDP” “3.8” “” “” …
$ V7 : chr “Inflation” “25.7” “1.1” “2.8” …
$ V8 : chr “Unemployment” “8.1” “10.1” “4” …
$ V9 : chr “% pop below poverty line” “25.7” “41” “38.6” …
$ V10: chr “Internet penetration % population” “93.1” “52.3” “78.6” …
$ V11: chr “Median age” “31.7” “22.7” “24.3” …
$ V12: chr “% pop 25-54” “39.38” “36.62” “37.48” …
$ V13: chr “Education invest % GDP” “5.9” “7.4” “7.3” …

No existe la documentación para nuestro Data Set orangeec,
con el comando ?orangeec

17 obs. of 13 variables

Buenas noches

Para esta actividad me sale 17 observaciones y 13 variables los cuales son :

$ Country : chr “Argentina” “Belize” “Bolivia” “Brazil” …
$ GDP.PC : int 20900 8300 7500 15600 24500 14500 16900 11500 8900 8100 …
$ GDP.US.bill : num 6.38e+02 1.85e+03 3.71e+01 2.06e+06 2.77e+02 …
$ GDP.Growth… : num 2.9 0.8 4.2 1 1.5 1.8 3.2 2.7 2.4 2.8 …
$ Services…GDP : num 60.9 62.2 50 72.8 64.3 61.4 73.5 56.9 64.9 63.2 …
$ Creat.Ind…GDP : num 3.8 NA NA 2.6 2.2 3.3 2 2 NA NA …
$ Inflation : num 25.7 1.1 2.8 3.4 2.2 4.3 1.6 0.4 1 4.4 …
$ Unemployment : num 8.1 10.1 4 11.8 7 10.5 8.1 4.6 7 2.3 …
$ X…pop.below.poverty.line : num 25.7 41 38.6 4.2 14.4 28 21.7 21.5 32.7 59.3 …
$ Internet.penetration…population: num 93.1 52.3 78.6 70.7 77.5 63.2 86.7 79.9 57.7 42.1 …
$ Median.age : num 31.7 22.7 24.3 32 34.4 30 31.3 27.7 27.1 22.1 …
$ X…pop.25.54 : num 39.4 36.6 37.5 43.9 43.1 …
$ Education.invest…GDP : num 5.9 7.4 7.3 5.9 4.9 4.5 7.1 5 3.5 2.8 …

Al buscar mas información en la pestaña de Help me sale error.

?orangeec
No documentation for ‘orangeec’ in specified packages and libraries:
you could try ‘??orangeec’

Hola! el dataset orangeec cuenta con 17 observaciones y 13 variables
str(orangeec)
data.frame’: 17 obs. of 13 variables:

17 observaciones y 13 variables

str(orangeec)
‘data.frame’: 18 obs. of 13 variables:
$ V1 : chr “Country” “Argentina” “Belize” “Bolivia” …
$ V2 : chr “GDP PC” “20900” “8300” “7500” …
$ V3 : chr “GDP US bill” “637.7” “1854” “37.1” …
$ V4 : chr “GDP Growth %” “2.9” “0.8” “4.2” …
$ V5 : chr “Services % GDP” “60.9” “62.2” “50” …
$ V6 : chr “Creat Ind % GDP” “3.8” “” “” …
$ V7 : chr “Inflation” “25.7” “1.1” “2.8” …
$ V8 : chr “Unemployment” “8.1” “10.1” “4” …
$ V9 : chr “% pop below poverty line” “25.7” “41” “38.6” …
$ V10: chr “Internet penetration % population” “93.1” “52.3” “78.6” …
$ V11: chr “Median age” “31.7” “22.7” “24.3” …
$ V12: chr “% pop 25-54” “39.38” “36.62” “37.48” …
$ V13: chr “Education invest % GDP” “5.9” “7.4” “7.3” …

?orangeec
No documentation for ‘orangeec’ in specified packages and libraries:
you could try ‘??orangeec’

EL modelo aparece como “chr” que indica caracateres o cadenas no un factor

Al poder ver la estructura de los datos de la base de economía naranja (orangeec) se encontró:
17 obs. of 13 variables en donde de las 13 variables: 1 es entera, 1 es caracter y las restantes son númericas.

Hola, cantidad de observaciones 17 y 13 variables:
Country: caracter
GDP.PC: entero
GDP.US.bill; GDP.Growth; Services…GDP; Creat.Ind…GDP; Inflation; Unemployment; X…pop.below.poverty.line; Internet.penetration…population; Median.age; X…pop.25.54 y Education.invest…GDP: numérico

En la clase, la profesora tiene los datos como paquete. Por eso ademas de los datos parece que tiene un archivo con etiquetas. No enseña como crear ese archivo de texto, eso es para crear paquetes, pero se supone que esas etiquetas no son importantes para los calculos.

Se importo y exploro “orangeec.cvs”:

$ Country : chr “Argentina” “Belize” “Bolivia” “Brazil” …
$ GDP.PC : int 20900 8300 7500 15600 24500 14500 16900 11500 8900 8100 …
$ GDP.US.bill : num 6.38e+02 1.85e+03 3.71e+01 2.06e+06 2.77e+02 …
$ GDP.Growth… : num 2.9 0.8 4.2 1 1.5 1.8 3.2 2.7 2.4 2.8 …
$ Services…GDP : num 60.9 62.2 50 72.8 64.3 61.4 73.5 56.9 64.9 63.2 …
$ Creat.Ind…GDP : num 3.8 NA NA 2.6 2.2 3.3 2 2 NA NA …
$ Inflation : num 25.7 1.1 2.8 3.4 2.2 4.3 1.6 0.4 1 4.4 …
$ Unemployment : num 8.1 10.1 4 11.8 7 10.5 8.1 4.6 7 2.3 …
$ X…pop.below.poverty.line : num 25.7 41 38.6 4.2 14.4 28 21.7 21.5 32.7 59.3 …
$ Internet.penetration…population: num 93.1 52.3 78.6 70.7 77.5 63.2 86.7 79.9 57.7 42.1 …
$ Median.age : num 31.7 22.7 24.3 32 34.4 30 31.3 27.7 27.1 22.1 …
$ X…pop.25.54 : num 39.4 36.6 37.5 43.9 43.1 …
$ Education.invest…GDP : num 5.9 7.4 7.3 5.9 4.9 4.5 7.1 5 3.5 2.8 …

17 obs. y 13 variables

Reto:

17 observaciones y 13 variales

Convertir variable numérica en lógica (boleana o dicotómica).

Reto:
Son 17 obs o filas y 13 variables o columnas.

18 observaciones y 13 variables. 😃

str(orangeec)
‘data.frame’: 17 obs. of 13 variables:
$ Country : chr “Argentina” “Belize” “Bolivia” “Brazil” …
$ GDP.PC : int 20900 8300 7500 15600 24500 14500 16900 11500 8900 8100 …
$ GDP.US.bill : num 6.38e+02 1.85e+03 3.71e+01 2.06e+06 2.77e+02 …
$ GDP.Growth… : num 2.9 0.8 4.2 1 1.5 1.8 3.2 2.7 2.4 2.8 …
$ Services…GDP : num 60.9 62.2 50 72.8 64.3 61.4 73.5 56.9 64.9 63.2 …
$ Creat.Ind…GDP : num 3.8 NA NA 2.6 2.2 3.3 2 2 NA NA …
$ Inflation : num 25.7 1.1 2.8 3.4 2.2 4.3 1.6 0.4 1 4.4 …
$ Unemployment : num 8.1 10.1 4 11.8 7 10.5 8.1 4.6 7 2.3 …
$ X…pop.below.poverty.line : num 25.7 41 38.6 4.2 14.4 28 21.7 21.5 32.7 59.3 …
$ Internet.penetration…population: num 93.1 52.3 78.6 70.7 77.5 63.2 86.7 79.9 57.7 42.1 …
$ Median.age : num 31.7 22.7 24.3 32 34.4 30 31.3 27.7 27.1 22.1 …
$ X…pop.25.54 : num 39.4 36.6 37.5 43.9 43.1 …
$ Education.invest…GDP

32 observaciones de 12 variables.

orangeec = 18 obs y 13 variables

32 obs y 12 variables

Data set compuesto por 17 observaciones y 13 variables

17 obs y 13 variables en country en esta version mas reciente me sale chr que significa “vectores de caracteres o cadenas”

str(orangeec)

32 obs y 11 variables

17 observaciones y 13 variables para orangeec

Me sale 18 observaciones, pero como mencionan, es el header. Así que 17 y 13 variables.

El set Orangeec tiene 17 observaciones y 13 variables (:

En mi caso yo tengo:
17 Observaciones
13 Variables
1 variable con valores de tipo Chr
1 variable con valores de tipo Int
11 variable con valores de tipo Num

18 observaciones y variables

17 observaciones con 13 variables

En el data frame de Orangeec: obtengo 18 observaciones y 13 variables.
$ V1 : chr “Country” “Argentina” “Belize” “Bolivia” …
$ V2 : chr “GDP PC” “20900” “8300” “7500” …
$ V3 : chr “GDP US bill” “637.7” “1854” “37.1” …
$ V4 : chr “GDP Growth %” “2.9” “0.8” “4.2” …
$ V5 : chr “Services % GDP” “60.9” “62.2” “50” …
$ V6 : chr “Creat Ind % GDP” “3.8” “” “” …
$ V7 : chr “Inflation” “25.7” “1.1” “2.8” …
$ V8 : chr “Unemployment” “8.1” “10.1” “4” …
$ V9 : chr “% pop below poverty line” “25.7” “41” “38.6” …
$ V10: chr “Internet penetration % population” “93.1” “52.3” “78.6” …
$ V11: chr “Median age” “31.7” “22.7” “24.3” …
$ V12: chr “% pop 25-54” “39.38” “36.62” “37.48” …
$ V13: chr “Education invest % GDP” “5.9” “7.4” “7.3” …

Las variables que solo pueden tomar dos valores se conocen como dicotómicas o dummys.

‘data.frame’: 18 obs. of 13 variables:

32 obs. of 12 variables

Por si no lo notaron en la estructura del Data set tiene que ser 32 observaciones y 12 variables, si les sale diferente tienen que arreglar en la parte de Importar datos, cambiar en la opción de Header.