Bienvenida e introducción

1

Todo lo que aprenderás sobre el lenguaje R

2

Programación y Data Science

3

R y proyecto economía naranja.

4

Instalando nuestras herramientas

Variables, tipos de datos y estructuras

5

Los primeros cálculos con R y variables

6

Tipos de datos

7

Estructura del dataset del proyecto

8

Vectores

9

Matrices

10

Ejercicios con matrices

11

Operadores para comparar y ubicar datos

12

Factores, listas y echar un vistazo al dataset

EDA: Exploratory data analysis

13

Qué es EDA: Exploratory Data Analysis

14

Gráficas de dispersión e histogramas.

15

Box Plot y su interpretación

16

EDA con dataset proyecto - Gráficas de dispersión.

17

EDA con histogramas.

18

EDA con dataset proyecto - histogramas - ggplot2

19

EDA con box plot- ggplot2

20

EDA con dataset proyecto - box plot- ggplot2 - dplyr

21

EDA con gráficas de dispersión con más de dos variables - ggplot2

22

EDA con dataset proyecto usando gráficas de dispersión con más de dos variables - ggplot2 - plotly

La estadística de los datos

23

Buscando correlaciones con pairs

24

Confirmando correlaciones con la función cor

25

Buscando correlaciones con pairs en dataset proyecto

26

Confirmando correlaciones con la función cor en dataset proyecto.

27

Protegiéndonos de los peligros del promedio.

28

Eliminando los NA's para hacer los cálculos.

29

Estadística y visualización aplicada a análisis de datos de mercadeo.

Ajustando los datos

30

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 1

31

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 2

Mejorando la visualización

32

Viendo más información con facet wrap - Parte 1

33

Viendo más información con facet wrap - Parte 2

Organizar visualizaciones y código con R Markdown

34

Conociendo R Markdown y organizando los hallazgos del análisis en un documento PDF.

Conclusiones Finales

35

Invitación a continuar recorriendo el mundo del data science.

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Eliminando los NA's para hacer los cálculos.

28/35
Recursos

Al momento de sacar el promedio de nuestro dataset orangeec encontramos variables que tienen valores NA, para que estos no afecten nuestro cálculo solamente debemos añadir como argumento na.rm=TRUE.

Aportes 20

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

El eliminar los NA del dataset puede ser contraproducente y puede generar Sesgo. En los entornos productivos es mejor aplicar técnicas de imputación de datos y esa directriz no la puede dar la industria. Por ejemplo una técnica de imputación es remplazar los valores NA por el valor promedio de la variable, otro ejemplo es remplazar los NA por el valor que más se repite en la variable.

Seria de utilidad que Platzi pueda hacer un curso orientado al Data Quality para enfocarse en curar los datos y hacer análisis mucho más refinados y limpios. Just think about it !

Nota Publica: Cuando el Coeficiente de Desviación no es optimo, lo mejor es apoyarse en la mediana o en algún curtail para explicar los datos.

Clase 28
Eliminando los NA’s para hacer los cálculos

.
.
Eliminar NA’s de la variable
na.rm = TRUE
.
mean(orangeec$Creat.Ind…GDP)
mean(orangeec$Creat.Ind…GDP, na.rm = TRUE)
prom <- mean(orangeec$Creat.Ind…GDP, na.rm = TRUE)
.
25% de coeficiente de variacion es el maximo para que el promedio sea una referencia
a la hora de tomar una decision

TIP

Si deseas visualizar lo que se guardó en la variable, luego de especificarla se debe llamar, así:
CoefVar = (desv/prom)*100
CoefVar

Si no quiere copiar la segunda línea, es similar a ejecutar
(CoefVar = (desv/prom)*100 )
Es decir, los parentesis, significa que va a mostrar el resultado apenas se ejecute.

Como está en el video, ayuda a eliminar los NA’s para ese cálculo en específico sin afectar la base de datos. Si lo que se quiere es limpiar la base de los NA’s para regresiones o demás hay opciones como:

orangeec <- datos[!is.na(orangeec$Creat.Ind…GDP),]

O para eliminar todas las filas que contengan un valor nulo:

orangeec <- na.omit(orangeec)

Poner el promedio en los NA

promedio <- mean(orangeec$Creat.Ind...GDP, na.rm = TRUE)

orangeec$Creat.Ind...GDP[is.na(orangeec$Creat.Ind...GDP)] <- promedio

Resultado

Los NA's son missing values quieres decir que son valores que no existen

Tomando el ejemplo para hallar la sd de la variable orangeec$Internet.penetration...population, adjunto los valores hallados y el summary:

mean(orangeec$Creat.Ind...GDP)
mean(orangeec$Creat.Ind...GDP, na.rm=TRUE)

sd(orangeec$Creat.Ind...GDP)
sd(orangeec$Creat.Ind...GDP, na.rm=TRUE)
desv<- sd(orangeec$Creat.Ind...GDP, na.rm=TRUE)

coefvar<-(desv/prom)*100
coefar

Buena clase, aprendimos a mirar el comportamiento de los datos con respecto de la media

Para el polvo la aspiradora
Para los NA’ na.rm = TRUE

Otro metodo de realizar analisis sin los Na es que podemos realizar el promedio o cualesquiera sea la medida de tendencia central o de dispersion, ajustando N. Asi evitamos los procesos engorrosos de transformacion u omision de datos.


## Protegiéndonos de los peligros del promedio.


summary(orangeec)

desv <- sd(orangeec$Internet.penetration...population)
desv

prom <- mean(orangeec$Internet.penetration...population)
prom

Coefvar <- (desv/prom)*100
Coefvar

prom <- mean(orangeec$Creat.Ind...GDP, na.rm=TRUE)
desv <- sd(orangeec$Creat.Ind...GDP, na.rm=TRUE)

Coefvar <- (desv/prom)*100
Coefvar```

Me sale el siguiente error cuando ejecuto el comando

<Error in mean.default(orangeec$Creat.Ind...GDP, na.rm = true) : 
  object 'true' not found>
sd(orangeec$Internet.penetration...population)
    dev <-sd(orangeec$Internet.penetration...population)
    mean(orangeec$Internet.penetration...population) 
    
    prom <- mean(orangeec$Internet.penetration...population)
    prom
    
    CoefVar <- (des/prom)*100
    CoefVar 
    mean(ntcars$mpg)```

Ejemplo de los calculos

<
desviacion<-sd(orangeec$Internet.penetration...population)
promedio<-mean(orangeec$Internet.penetration...population)
coeficiente<-(desviacion/promedio)*100>

En caso de quieran ahorrarse código y no necesiten tener guardadas las variables en su enviroment de R pueden ir directo a hacer el coeficiente de la siguiente manera

coefInternet<-(sd(orangeec.csv$Internet.penetration...population)/
                 mean(orangeec.csv$Internet.penetration...population))*100

Muy buena clase

mean(orangeec$Creat.Ind...GDP)
prom <- mean(orangeec$Creat.Ind...GDP, na.rm=TRUE)
sd(orangeec$Creat.Ind...GDP)
des <- sd(orangeec$Creat.Ind...GDP, na.rm=TRUE)

CoefVar <- (des / prom)*100
CoefVar