Bienvenida e introducción

1

Todo lo que aprenderás sobre el lenguaje R

2

Programación y Data Science

3

R y proyecto economía naranja.

4

Instalando nuestras herramientas

Variables, tipos de datos y estructuras

5

Los primeros cálculos con R y variables

6

Tipos de datos

7

Estructura del dataset del proyecto

8

Vectores

9

Matrices

10

Ejercicios con matrices

11

Operadores para comparar y ubicar datos

12

Factores, listas y echar un vistazo al dataset

EDA: Exploratory data analysis

13

Qué es EDA: Exploratory Data Analysis

14

Gráficas de dispersión e histogramas.

15

Box Plot y su interpretación

16

EDA con dataset proyecto - Gráficas de dispersión.

17

EDA con histogramas.

18

EDA con dataset proyecto - histogramas - ggplot2

19

EDA con box plot- ggplot2

20

EDA con dataset proyecto - box plot- ggplot2 - dplyr

21

EDA con gráficas de dispersión con más de dos variables - ggplot2

22

EDA con dataset proyecto usando gráficas de dispersión con más de dos variables - ggplot2 - plotly

La estadística de los datos

23

Buscando correlaciones con pairs

24

Confirmando correlaciones con la función cor

25

Buscando correlaciones con pairs en dataset proyecto

26

Confirmando correlaciones con la función cor en dataset proyecto.

27

Protegiéndonos de los peligros del promedio.

28

Eliminando los NA's para hacer los cálculos.

29

Estadística y visualización aplicada a análisis de datos de mercadeo.

Ajustando los datos

30

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 1

31

Generando tablas, filtrando y seleccionando datos - dplyr-Parte 2

Mejorando la visualización

32

Viendo más información con facet wrap - Parte 1

33

Viendo más información con facet wrap - Parte 2

Organizar visualizaciones y código con R Markdown

34

Conociendo R Markdown y organizando los hallazgos del análisis en un documento PDF.

Conclusiones Finales

35

Invitación a continuar recorriendo el mundo del data science.

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Protegiéndonos de los peligros del promedio.

27/35
Recursos

Podremos encontrar casos donde dos grupos de datos distintos tengan el mismo promedio, pero sus datos son muy diferentes uno del otro. No es lo mismo un grupo de datos donde su desviación es menor a 1, que aquel donde sus datos tienen una desviación de 4 o 6 puntos.

La formula del coeficiente de variación nos es útil al momento de evaluar estos casos:
(desviación estándar)/(promedio) * 100 = coeficiente

Si el coeficiente es mayor al 25% entonces los datos no son homogéneos, varían mucho.

Dentro de R podemos sacar la desviación estándar con la función sd y el promedio con mean.

Aportes 22

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Conceptos…

- Desviación estándar: la desviación Estándar, en un conjunto de datos es una medida de dispersión, que nos indica cuánto pueden alejarse los valores respecto al promedio (media).es útil para determinar entre qué rango puede moverse una determinada variable.
(por lo tanto es útil para buscar probabilidades de que un evento ocurra)

- Coeficiente de variación: este expresa la desviación estándar como porcentaje de la media, mostrando una mejor interpretación porcentual del grado de variabilidad que la desviación estándar.

Clase 27
Protegiéndonos de los peligros del promedio

.
.
La desviacion estandar sirve para ver que datos estan muy desviados del promedio. Muy por encima o muy por debajo
.
Hay que ver la desviacion estandar para observar el comportamiento de los datos desde
el promedio
.
El coeficiente de variacion es el numero que indica que tan desviados estan los datos del promedio e indica hasta que punto es tan arriesgado tomar una decision basada en el promedio o no.
Optimo hasta 25%
.
sd(dataset$variable) DESVIACION ESTANDAR
desv <- sd(dataset$variable) NOMBRE PARA NUEVA VARIABLE
.
mean(dataset$variable) PROMEDIO
prom <- mean(dataset$variable) NOMBRE PARA NUEVA VARIABLE
.
CoefVar <-(desv/prom)*100 COEFICIENTE DE VARIACION
.
Para no pasar todo el calculo, nombrar una nueva variable facilita la vida. Para solo teclear su nombre y que se haga el calculo sin necesidad de escribir todo el calculo.
.
El nombre de la variable para la desviacion estandar sd(dataset$variable) es desv <- sd(dataset$variable)

Las medidas de tendencia central (promedio, mediana y moda) y las medidas de dispersión (rango, varianza y desviación estándar) nos ayudan a describir una distribución de frecuencias.
Las medidas principales son:

  • Media: Calculada como la suma de todos los valores dividida entre el conteo de valores.
  • Desviación estándar: Expresa la desviación que tienen los valores de una variable respecto a su media.
  • Coeficiente de variación: Nos ayuda a medir qué tan desviados están los datos respecto al promedio. Se calcula dividiendo la desviación estándar entre la media. Los valores óptimos están entre 0 y 0.25.

En algunas ocasiones la media no es la mejor medida de tendencia central para describir una distribución y podemos utilizar la moda (el valor más frecuente) o la mediana (divide los datos en dos mitades). Debemos graficar la distribución para elegir la mejor medida.

Nota Publica: Un Coeficiente de variación <= a 25% es optimo

Mientras mayor es la desviaciòn estàndar, mas se aleja el dato del promedio

.
.
summary() ve el minimo, 1er cuartil, mediana, media o promedio, 3er cuartil y maxima

¿La desvición estándar es lo mismo que el coeficiente de variación?

## Protegiéndonos de los peligros del promedio.
summary(mtcars)
# un coeficiente de variacion no supera los 25% podriamos tomar la decision con el dato promediado.

sd(mtcars$mpg)
desv <- sd(mtcars$mpg)
mean(mtcars$mpg)

prom <- mean(mtcars$mpg)

coefVar <-  (desv/prom)*100
coefVar```

Una manera de obtener todos los datos estadísticos para cada variable es usar la función apply(), tal como lo muestro en la siguiente imagen

La función apply() tiene tres parámetros, donde el primero es la data que se va a tratar, en este caso mtcars; el segundo parámetro es el margin de la data, es decir, las filas o las columnas, siendo 1 el valor de las filas y 2 el valor de las columnas; y, finalmente, la función que será aplicada sobre la base de datos, como la desviación estándar. Con esos datos los uso como insumos para el calculo de todos los coeficientes de variación.

El protocolo serìa:
.
1.- ver el promedio mean ()
2.- luego la desviaciòn estandàr sd ()
3.- calcular el coeficiente de variaciòn CoefVar <- (desv/prom)*100

Tengo una duda respecto al coeficiente de variación. La profesora dice que optimo hasta el 25%. ¿De dónde saca ese porcentaje?, Por qué no puede ser otro valor? no sé, tal vez 20% o 15% que sé yo.
Me gustaría una explicación más detallada en este tema. Muchas gracias

Mediocristan es la tiranía de lo promedio, no encontrarás ni enanos ni gigantes, por ejemplo, no encontrarás alguien de 3 metros de altura, ni a nadie que pese 700 kg.

En cambio en Extremistan dominan los gigantes o los enanos. En tu clase de 100 personas entra Bill Gates y de pronto todos sois millonarios de media. Un pequeño dato cambia la media drásticamente.

Para comparar la dispersión de los datos se usa medidas como el coeficiente de variacion o el Z score
Es de recordar que el coeficiene de variación se da en porcentaje y el Z score se mueve entre -3 y 3, entre mas cercano a cero menos dispersion habra.

La desviación estándar se utiliza para saber que tanto es lo que se aleja de la media de una población suponiendo que se distribuya normalmente. Si se aleja positiva o negativamente a una desviación, dos desviaciones o tres desviaciones estándar podríamos interpretar desnutrición-obesidad, IC bajo- Aptitudes sobresalientes, entre otros constructos.

Coeficiente de Variación

Comportamiento de la desviaciòn estàndar. A mayor nùmero mas se aleja del promedio el dato, a menor nùmero mas cerca del promedio

CoefVar IGUAL A COEFICIENTE DE VARIACIÒN

.
.
sd () IGUAL A DESVIACIÒN ESTÀNDAR
mean () IGUAL A PROMEDIO

#Coeficiente de variación
coevar <- (desv/prom)*100
coefar

Muy buena explicación y aplicación del concepto!

Si Carlos tiene tres manzana, Johana ninguna manzana y Juan ninguna manzana en promedio cada uno tiene una manzana.

Asi que ojo con el promedio

summary(mtcars)

desviacion <- sd(mtcars$mpg)
promedio <- mean(mtcars$mpg)
CoefVar <- (desviacion / promedio)*100
CoefVar