Bienvenida e introducci贸n

1

Todo lo que aprender谩s sobre el lenguaje R

2

Programaci贸n y Data Science

3

R y proyecto econom铆a naranja.

4

Instalando nuestras herramientas

Variables, tipos de datos y estructuras

5

Los primeros c谩lculos con R y variables

6

Tipos de datos

7

Estructura del dataset del proyecto

8

Vectores

9

Matrices

10

Ejercicios con matrices

11

Operadores para comparar y ubicar datos

12

Factores, listas y echar un vistazo al dataset

EDA: Exploratory data analysis

13

Qu茅 es EDA: Exploratory Data Analysis

14

Gr谩ficas de dispersi贸n e histogramas.

15

Box Plot y su interpretaci贸n

16

EDA con dataset proyecto - Gr谩ficas de dispersi贸n.

17

EDA con histogramas.

18

EDA con dataset proyecto - histogramas - ggplot2

19

EDA con box plot- ggplot2

20

EDA con dataset proyecto - box plot- ggplot2 - dplyr

21

EDA con gr谩ficas de dispersi贸n con m谩s de dos variables - ggplot2

22

EDA con dataset proyecto usando gr谩ficas de dispersi贸n con m谩s de dos variables - ggplot2 - plotly

La estad铆stica de los datos

23

Buscando correlaciones con pairs

24

Confirmando correlaciones con la funci贸n cor

25

Buscando correlaciones con pairs en dataset proyecto

26

Confirmando correlaciones con la funci贸n cor en dataset proyecto.

27

Protegi茅ndonos de los peligros del promedio.

28

Eliminando los NA's para hacer los c谩lculos.

29

Estad铆stica y visualizaci贸n aplicada a an谩lisis de datos de mercadeo.

Ajustando los datos

30

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 1

31

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 2

Mejorando la visualizaci贸n

32

Viendo m谩s informaci贸n con facet wrap - Parte 1

33

Viendo m谩s informaci贸n con facet wrap - Parte 2

Organizar visualizaciones y c贸digo con R Markdown

34

Conociendo R Markdown y organizando los hallazgos del an谩lisis en un documento PDF.

Conclusiones Finales

35

Invitaci贸n a continuar recorriendo el mundo del data science.

No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Protegi茅ndonos de los peligros del promedio.

27/35
Recursos

Podremos encontrar casos donde dos grupos de datos distintos tengan el mismo promedio, pero sus datos son muy diferentes uno del otro. No es lo mismo un grupo de datos donde su desviaci贸n es menor a 1, que aquel donde sus datos tienen una desviaci贸n de 4 o 6 puntos.

La formula del coeficiente de variaci贸n nos es 煤til al momento de evaluar estos casos:
(desviaci贸n est谩ndar)/(promedio) * 100 = coeficiente

Si el coeficiente es mayor al 25% entonces los datos no son homog茅neos, var铆an mucho.

Dentro de R podemos sacar la desviaci贸n est谩ndar con la funci贸n sd y el promedio con mean.

Aportes 22

Preguntas 2

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Conceptos鈥

- Desviaci贸n est谩ndar: la desviaci贸n Est谩ndar, en un conjunto de datos es una medida de dispersi贸n, que nos indica cu谩nto pueden alejarse los valores respecto al promedio (media).es 煤til para determinar entre qu茅 rango puede moverse una determinada variable.
(por lo tanto es 煤til para buscar probabilidades de que un evento ocurra)

- Coeficiente de variaci贸n: este expresa la desviaci贸n est谩ndar como porcentaje de la media, mostrando una mejor interpretaci贸n porcentual del grado de variabilidad que la desviaci贸n est谩ndar.

Clase 27
Protegi茅ndonos de los peligros del promedio

.
.
La desviacion estandar sirve para ver que datos estan muy desviados del promedio. Muy por encima o muy por debajo
.
Hay que ver la desviacion estandar para observar el comportamiento de los datos desde
el promedio
.
El coeficiente de variacion es el numero que indica que tan desviados estan los datos del promedio e indica hasta que punto es tan arriesgado tomar una decision basada en el promedio o no.
Optimo hasta 25%
.
sd(dataset$variable) DESVIACION ESTANDAR
desv <- sd(dataset$variable) NOMBRE PARA NUEVA VARIABLE
.
mean(dataset$variable) PROMEDIO
prom <- mean(dataset$variable) NOMBRE PARA NUEVA VARIABLE
.
CoefVar <-(desv/prom)*100 COEFICIENTE DE VARIACION
.
Para no pasar todo el calculo, nombrar una nueva variable facilita la vida. Para solo teclear su nombre y que se haga el calculo sin necesidad de escribir todo el calculo.
.
El nombre de la variable para la desviacion estandar sd(dataset$variable) es desv <- sd(dataset$variable)

Las medidas de tendencia central (promedio, mediana y moda) y las medidas de dispersi贸n (rango, varianza y desviaci贸n est谩ndar) nos ayudan a describir una distribuci贸n de frecuencias.
Las medidas principales son:

  • Media: Calculada como la suma de todos los valores dividida entre el conteo de valores.
  • Desviaci贸n est谩ndar: Expresa la desviaci贸n que tienen los valores de una variable respecto a su media.
  • Coeficiente de variaci贸n: Nos ayuda a medir qu茅 tan desviados est谩n los datos respecto al promedio. Se calcula dividiendo la desviaci贸n est谩ndar entre la media. Los valores 贸ptimos est谩n entre 0 y 0.25.

En algunas ocasiones la media no es la mejor medida de tendencia central para describir una distribuci贸n y podemos utilizar la moda (el valor m谩s frecuente) o la mediana (divide los datos en dos mitades). Debemos graficar la distribuci贸n para elegir la mejor medida.

Nota Publica: Un Coeficiente de variaci贸n <= a 25% es optimo

Mientras mayor es la desviaci貌n est脿ndar, mas se aleja el dato del promedio

.
.
summary() ve el minimo, 1er cuartil, mediana, media o promedio, 3er cuartil y maxima

驴La desvici贸n est谩ndar es lo mismo que el coeficiente de variaci贸n?

## Protegi茅ndonos de los peligros del promedio.
summary(mtcars)
# un coeficiente de variacion no supera los 25% podriamos tomar la decision con el dato promediado.

sd(mtcars$mpg)
desv <- sd(mtcars$mpg)
mean(mtcars$mpg)

prom <- mean(mtcars$mpg)

coefVar <-  (desv/prom)*100
coefVar```

Una manera de obtener todos los datos estad铆sticos para cada variable es usar la funci贸n apply(), tal como lo muestro en la siguiente imagen

La funci贸n apply() tiene tres par谩metros, donde el primero es la data que se va a tratar, en este caso mtcars; el segundo par谩metro es el margin de la data, es decir, las filas o las columnas, siendo 1 el valor de las filas y 2 el valor de las columnas; y, finalmente, la funci贸n que ser谩 aplicada sobre la base de datos, como la desviaci贸n est谩ndar. Con esos datos los uso como insumos para el calculo de todos los coeficientes de variaci贸n.

El protocolo ser矛a:
.
1.- ver el promedio mean ()
2.- luego la desviaci貌n estand脿r sd ()
3.- calcular el coeficiente de variaci貌n CoefVar <- (desv/prom)*100

Tengo una duda respecto al coeficiente de variaci贸n. La profesora dice que optimo hasta el 25%. 驴De d贸nde saca ese porcentaje?, Por qu茅 no puede ser otro valor? no s茅, tal vez 20% o 15% que s茅 yo.
Me gustar铆a una explicaci贸n m谩s detallada en este tema. Muchas gracias

Mediocristan es la tiran铆a de lo promedio, no encontrar谩s ni enanos ni gigantes, por ejemplo, no encontrar谩s alguien de 3 metros de altura, ni a nadie que pese 700 kg.

En cambio en Extremistan dominan los gigantes o los enanos. En tu clase de 100 personas entra Bill Gates y de pronto todos sois millonarios de media. Un peque帽o dato cambia la media dr谩sticamente.

Para comparar la dispersi贸n de los datos se usa medidas como el coeficiente de variacion o el Z score
Es de recordar que el coeficiene de variaci贸n se da en porcentaje y el Z score se mueve entre -3 y 3, entre mas cercano a cero menos dispersion habra.

La desviaci贸n est谩ndar se utiliza para saber que tanto es lo que se aleja de la media de una poblaci贸n suponiendo que se distribuya normalmente. Si se aleja positiva o negativamente a una desviaci贸n, dos desviaciones o tres desviaciones est谩ndar podr铆amos interpretar desnutrici贸n-obesidad, IC bajo- Aptitudes sobresalientes, entre otros constructos.

Coeficiente de Variaci贸n

Comportamiento de la desviaci貌n est脿ndar. A mayor n霉mero mas se aleja del promedio el dato, a menor n霉mero mas cerca del promedio

CoefVar IGUAL A COEFICIENTE DE VARIACI脪N

.
.
sd () IGUAL A DESVIACI脪N EST脌NDAR
mean () IGUAL A PROMEDIO

#Coeficiente de variaci贸n
coevar <- (desv/prom)*100
coefar

Muy buena explicaci贸n y aplicaci贸n del concepto!

Si Carlos tiene tres manzana, Johana ninguna manzana y Juan ninguna manzana en promedio cada uno tiene una manzana.

Asi que ojo con el promedio

summary(mtcars)

desviacion <- sd(mtcars$mpg)
promedio <- mean(mtcars$mpg)
CoefVar <- (desviacion / promedio)*100
CoefVar