Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Medidas de dispersión

9/25
Recursos

Aportes 19

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Medidas de dispersión

  • Rango: El Rango es el intervalo entre el valor máximo y el valor mínimo.

  • Cuartiles: Los cuartiles son valores que dividen una muestra de datos en cuatro partes iguales.

    • 1er cuartil (Q1): 25% de los datos es menor que o igual a este valor.
    • 2do cuartil (Q2): La mediana. 50% de los datos es menor que o igual a este valor.
    • 3er cuartil (Q3): 75% de los datos es menor que o igual a este valor.
    • Rango intercuartil: La distancia entre el primer 1er cuartil y el 3er cuartil (Q3-Q1); de esta manera, abarca el 50% central de los datos.
  • Diagrama de caja o box plot: representa gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, el diagrama de caja muestra a simple vista la mediana y los cuartiles de los datos. También puede representar los valores atípicos de estos.

Los diagramas para el precio por cada color de vehículo

import matplotlib.pyplot as plt

sns.set_style("whitegrid")
plt.figure(figsize=(12, 8))
sns.boxplot(x='color', y='price_usd', data=df, palette='Blues')

Deciles y percentiles


También podemos dividir la muestra en 10 partes para obtener deciles.

Si dividimos en 100 partes, tenemos los percentiles.

Wow
Que felicidad acabo de entender que es el diagrama de caja, ahora que lo entiendo todos los gráficos que en algún momento observe tienen sentido.

Diagrama de cajas por tipo de carrocería vs precio (desde modelos del 2010):

Aquí el código:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('cars.csv')

df2010 = df[df['year_produced']>=2010]
plt.figure(figsize=(12, 8))
sns.boxplot(data=df2010, x='body_type', y='price_usd', color='blue')

Les comparto mis apuntes en Notion usando Notas de Cornell de esta clase: https://bit.ly/3x7DSIv

Medidas de dispersión o variabilidad
Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
5.2.1. El rango o recorrido estadístico es la diferencia entre el valor mínimo y el valor máximo en un grupo de números aleatorios. Se le suele simbolizar con R.
Requisitos del rango
 Se ordenan los números según su tamaño.
 Se resta el valor mínimo del valor máximo.

El medio rango de un conjunto de valores numéricos es la media del menor y mayor valor, o la mi-tad del camino entre el dato de menor valor y el dato de mayor valor. En consecuencia el medio ran-go es

El rango intercuartílico, RI es, sencillamente, la diferencia entre el tercer y el primer

A veces cosas tan sencillas como un rango intercuartil se usa para saber si las compañías cumplen o no con el regimen de precios de transferencias. Me queda la duda es si es la cantidad de datos o puedo hacer una división arbitraria en los rangos intercuartiles

Dejo mis apuntes sobre las medidas de dispersión, espero le sirva 🚀

Método IQR de detección de valores atípicos

Un valor atípico es un punto de datos que difiere significativamente de otras observaciones.

Para explicar el método IQR fácilmente, comencemos con un diagrama de caja.

Un diagrama de caja nos ayuda más o menos a entender la distribución de los datos.

Da una idea de cuánto se difunden realmente los datos, cuál es su rango y cuál es su sesgo.

Nos permite hacer inferencias a partir de él para un dato ordenado, nos dice acerca de las diversas métricas de un dato organizado en orden ascendente.

En la figura anterior, mínimo es el valor mínimo en el conjunto de datos, y máximo es el valor máximo en el conjunto de datos.

Entonces, la diferencia entre los dos nos dice sobre el rango del conjunto de datos.

La mediana es la mediana (o punto central), también llamado segundo cuartil, de los datos (que resulta del hecho de que los datos están ordenados).

Q1 es el primer cuartil de los datos, el 25% de los datos se encuentra entre el mínimo y Q1

Q3 es el tercer cuartil de los datos, el 75% de los datos se encuentra entre el mínimo y el Q3

La diferencia entre Q3 y Q1 se denomina rango intercuartil o IQR . IQR = Q3 - Q1

Para detectar los valores atípicos utilizando este método, llamémoslo rango de decisión, y cualquier punto de datos que se encuentre fuera de este rango se considera un valor atípico y se trata en consecuencia.

El rango es el que se indica a continuación:

Límite inferior: (Q1 - 1.5 * IQR)

Límite superior: (Q3 + 1.5 * IQR)

Cualquier punto de datos menor que el límite inferior o mayor que el límite superior se considera un valor atípico.

Un aporte para la clase: Entre mayor es el valor del rango intercuartil mayor será la dispersión de los datos.

Wow, me encanta sus explicaciones.

No entendí la explicación del Rango Intercuartil así que dejo este vídeo de Khan Academy Cómo calcular el rango intercuartil

Solo logré entender que es el rango. El resto de lo que explicó no me pareció claro :/

Hola amigos, a partir del DF cars, se crea la variable audi, la cual, incluye todos sus modelos y luego la graficamos con un boxplot para ver medianas, rango, QR y outliers o dartos atítpicos:
<import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import random
audi = df[(df[‘manufacturer_name’]==‘Audi’) & (df[‘model_name’])]
plt.rcParams[‘figure.figsize’] = (15, 10)
sns.set_style(“whitegrid”)
sns.boxplot(x=‘model_name’,y=‘price_usd’, data=audi, palette=‘Set3’)
plt.title(‘Distribución de modelos vs precio’)
plt.show

Excelente clase.

Reto:

<Jetta_df = df[(df['manufacturer_name']=='Volkswagen') & (df['model_name']=='Jetta')]
sns.histplot(Je_df, x='price_usd', hue = 'year_produced')> 

Excelente representación visual que resume todas estas medidas de dispersión.

Rango: La manera mas rápida es cogiendo el mayor y el menor y hacer la resta

Rango Intercuartil: 4 subdivisiones homogéneas, partimos en 4 partes iguales. Este rango es la distancia entre el cuartil 1 y el cuartil 3.