No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Medidas de dispersión

9/25
Recursos

Aportes 33

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Medidas de dispersión

  • Rango: El Rango es el intervalo entre el valor máximo y el valor mínimo.

  • Cuartiles: Los cuartiles son valores que dividen una muestra de datos en cuatro partes iguales.

    • 1er cuartil (Q1): 25% de los datos es menor que o igual a este valor.
    • 2do cuartil (Q2): La mediana. 50% de los datos es menor que o igual a este valor.
    • 3er cuartil (Q3): 75% de los datos es menor que o igual a este valor.
    • Rango intercuartil: La distancia entre el primer 1er cuartil y el 3er cuartil (Q3-Q1); de esta manera, abarca el 50% central de los datos.
  • Diagrama de caja o box plot: representa gráficamente una serie de datos numéricos a través de sus cuartiles. De esta manera, el diagrama de caja muestra a simple vista la mediana y los cuartiles de los datos. También puede representar los valores atípicos de estos.

Los diagramas para el precio por cada color de vehículo

import matplotlib.pyplot as plt

sns.set_style("whitegrid")
plt.figure(figsize=(12, 8))
sns.boxplot(x='color', y='price_usd', data=df, palette='Blues')

Deciles y percentiles


También podemos dividir la muestra en 10 partes para obtener deciles.

Si dividimos en 100 partes, tenemos los percentiles.

Dejo mis apuntes sobre las medidas de dispersión, espero le sirva 🚀

Diagrama de cajas por tipo de carrocería vs precio (desde modelos del 2010):

Aquí el código:

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

df = pd.read_csv('cars.csv')

df2010 = df[df['year_produced']>=2010]
plt.figure(figsize=(12, 8))
sns.boxplot(data=df2010, x='body_type', y='price_usd', color='blue')

Les comparto mis apuntes en Notion usando Notas de Cornell de esta clase: https://bit.ly/3x7DSIv

Wow
Que felicidad acabo de entender que es el diagrama de caja, ahora que lo entiendo todos los gráficos que en algún momento observe tienen sentido.

A veces cosas tan sencillas como un rango intercuartil se usa para saber si las compañías cumplen o no con el regimen de precios de transferencias. Me queda la duda es si es la cantidad de datos o puedo hacer una división arbitraria en los rangos intercuartiles

Medidas de dispersión o variabilidad
Las medidas de dispersión, también llamadas medidas de variabilidad, muestran la variabilidad de una distribución, indicando por medio de un número, si las diferentes puntuaciones de una variable están muy alejadas de la media. Cuanto mayor sea ese valor, mayor será la variabilidad, cuanto menor sea, más homogénea será. Así se sabe si todos los casos son parecidos o varían mucho entre ellos.
5.2.1. El rango o recorrido estadístico es la diferencia entre el valor mínimo y el valor máximo en un grupo de números aleatorios. Se le suele simbolizar con R.
Requisitos del rango
 Se ordenan los números según su tamaño.
 Se resta el valor mínimo del valor máximo.

El medio rango de un conjunto de valores numéricos es la media del menor y mayor valor, o la mi-tad del camino entre el dato de menor valor y el dato de mayor valor. En consecuencia el medio ran-go es

El rango intercuartílico, RI es, sencillamente, la diferencia entre el tercer y el primer

No entendí la explicación del Rango Intercuartil así que dejo este vídeo de Khan Academy Cómo calcular el rango intercuartil

Método IQR de detección de valores atípicos

Un valor atípico es un punto de datos que difiere significativamente de otras observaciones.

Para explicar el método IQR fácilmente, comencemos con un diagrama de caja.

Un diagrama de caja nos ayuda más o menos a entender la distribución de los datos.

Da una idea de cuánto se difunden realmente los datos, cuál es su rango y cuál es su sesgo.

Nos permite hacer inferencias a partir de él para un dato ordenado, nos dice acerca de las diversas métricas de un dato organizado en orden ascendente.

En la figura anterior, mínimo es el valor mínimo en el conjunto de datos, y máximo es el valor máximo en el conjunto de datos.

Entonces, la diferencia entre los dos nos dice sobre el rango del conjunto de datos.

La mediana es la mediana (o punto central), también llamado segundo cuartil, de los datos (que resulta del hecho de que los datos están ordenados).

Q1 es el primer cuartil de los datos, el 25% de los datos se encuentra entre el mínimo y Q1

Q3 es el tercer cuartil de los datos, el 75% de los datos se encuentra entre el mínimo y el Q3

La diferencia entre Q3 y Q1 se denomina rango intercuartil o IQR . IQR = Q3 - Q1

Para detectar los valores atípicos utilizando este método, llamémoslo rango de decisión, y cualquier punto de datos que se encuentre fuera de este rango se considera un valor atípico y se trata en consecuencia.

El rango es el que se indica a continuación:

Límite inferior: (Q1 - 1.5 * IQR)

Límite superior: (Q3 + 1.5 * IQR)

Cualquier punto de datos menor que el límite inferior o mayor que el límite superior se considera un valor atípico.

**Hola, deseando que te encuentres bien.
**Si te haz frustrado con estas clases no te preocupes, suele pasar.
Te explico que aprendiste en esta seccion.
Aqui se habla de las medidas de dispersion que se enfoca en en los datos que estan dispersos en tus bases de datos que vas a manejar y como estos (los datos) se relacionan con las medidas de la tendencia central.(Media, Moda y Mediana).
Cuando hablamos de las medidas de dispersion hacemos referencia a el calculo de los siguientes valores en la base de datos.
Rangos intercuatiles:
aqui hablamos de.
Q1: Es simplemente el valor que representa el 25% de los datos inferior a el 75%.
se calcula asi: (25x(n + 1))/100
Q2: Es la mediana de la medida de la tendencia central
Q3:(75x(n + 1))/100
IQR: Q3 - Q1
Rango= Es la diferencia(Resta) entre el valor maximo de los datos y el valor minimo. "SOLO EL VALOR MAS NO CUANTAS VECES SE REPITE"
Desviacion estandar(En la proxima seccion la veras)

Posdata:
“Si ves que python sale un numero distinto al que calculaste, no te frustres, ambos valores son correctos, la diferencia es que Python(usando pandas), calcula el valor exacto o mas preciso en los datos por otro lado, el valor que tu calculaste en el tablero(cuaderno) es para conocer la posicion del Rango intercuartil, cabe destacar que si el valor es decimal, tu solo lo elevas para que quede entero, cuentas el resultado en tu data set y ese es el valor del Rango Intercuartil”

No te preocupes, a mi me tomo 2 dias entender esto.
aqui te lo traemos solo en 5 min!

Medidas de Dispersión

  • Nos representan el grado de uniformidad de los datos
  • Complementan las medidas de tendencia central de los datos
  • Entre las principales medidas de tendencia central tenemos:
    • Rango: Valor mínimo menos el valor máximo.
    • Rango intercuartil: La diferencia del tercer cuartil y el primer cuartil (un cuartil representa cuatro divisiones homogeneas de los datos oredenados)
    • Desviación estandar: Nos representa el grado de lejanía de los datos con respecto a la media (numpericamente es la raiz de la suma de los cuadrados de la distancia de los valores con respecto a la media)

Nota

  • Diagrama de caja: representa la media, los cuartiles (en caja) y el rango de los datos en un diagrama
Solo logré entender que es el rango. El resto de lo que explicó no me pareció claro :/

Un aporte para la clase: Entre mayor es el valor del rango intercuartil mayor será la dispersión de los datos.

**¿Sabías que las medidas de dispersión te dicen cómo se "distribuyen" tus datos?** 📊 Por ejemplo, la **desviación estándar** te muestra qué tan lejos están los datos de la media, o promedio. Si los datos están muy dispersos, significa que hay mucha variabilidad. Si están cerca de la media, los datos son más consistentes. Entender esto es clave en #DataScience para analizar y tomar mejores decisiones. ¡Es más sencillo de lo que parece! 💡
Impecable la explicacion, gracias Francisco!

Me sorprende el uso de las medidas de dispersion para obtener el valor mediano de la dispersion. Es algo interesante para obtener estos resultados.

Oye que bien explica Camacho! La verdad hasta ahora el mejor acá en Platzi, con el debido respeto de Nico Molina y Carlos Alarcón

9. Medidas de dispersión

Dispersión en una distribución

→ Rango

→ Rango intercuartil

→ Desviación estándar

Que es un histograma:

Un histograma es una representación gráfica de la distribución de frecuencias de un conjunto de datos numéricos. En un histograma, se divide el rango de los datos en un conjunto de intervalos (también conocidos como “clases” o “bins”), y se cuenta el número de observaciones que caen dentro de cada intervalo. Luego, se representa cada intervalo en el eje x y el número de observaciones correspondiente en el eje y, utilizando barras adyacentes sin espacios entre ellas. El histograma es una herramienta útil para visualizar la forma de la distribución de los datos, así como para identificar valores atípicos y patrones en los datos.

El profe Francisco explica muy bien, este video me sirvió para profundizar este tema

https://youtu.be/jVN6vI71tSA

Buena explicación.

Información resumida de esta clase
#EstudiantesDePlatzi

  • Las 3 medidas de dispersión más utilizadas son: Rango, rango inter cuartil y desviación estándar

  • El rango es la distancia o diferencia entre el valor mínimo y el valor máximo de un conjunto de datos

  • Los cuartiles tienen como propósito dividir el conjunto de datos en 4 subdivisiones homogéneas y homogéneas, quiere decir que en cada una de las cuatro partes debe existir la misma cantidad de datos

  • Q2 = Cuartil 2, es la mediana

  • Q1 = Cuartil 1, es la mitad entre la mediana y el valor mínimo

  • Q3 = Cuartil 3, es la mitad entre la mediana y el valor máximo

  • La distancia entre el Q1 y el Q3 se le conoce como rango inter cuartil = IQR

  • La mejor visualización o gráfica que podemos usar para ver la dispersión de los datos en referencia a la mediana se le conoce como gráfica de caja

Definición y alcance del término

  • Las medidas de dispersión son valores que intervienen en la calibración de variables en estudios estadísticos. Se trata de ciertos valores que representan relaciones entre variables, datos y otras variables. Suponen una descripción matemática de un sistema de datos indefinidos que se organizan en variables y que buscan descubrir patrones y esquemas.

Las medidas de dispersión por lo general se clasifican en cuatro categorías

  • Rango de variación: se trata de un número que indica la distancia entre un valor máximo y uno mínimo. Dicho valor se toma de una población estadística determinada y se calcula con base en diferentes factores.

  • Varianza: esta medida representa la variación que puede sufrir un conjunto de datos respecto a la media.

  • Desviación estándar: corresponde a una desviación que es “habitual” entre el valor y la media. Se trata de un evento más probable y por lo tanto se emplea como tal en el cálculo de dispersión.

  • Coeficiente de variación: Esta medida de dispersión se expresa como un porcentaje que es el resultado de dividir la desviación típica sobre la media del conjunto.

La desviación estándar es de las medidas más utilizadas para conocer la relación entre variables, puesto que supone en sí mismo un valor que revela el comportamiento más probable
```.

La interpretación de la varianza depende de la recolección de distintos valores y su ponderación. Las muestras pueden tener en estos casos distintos grados de dispersión en función de otra muestra, y así sucesivamente hasta que se establezca una media
satisfactoria de una determinada muestra con el valor promedio.

Wow, me encanta sus explicaciones.

Hola amigos, a partir del DF cars, se crea la variable audi, la cual, incluye todos sus modelos y luego la graficamos con un boxplot para ver medianas, rango, QR y outliers o dartos atítpicos:
<import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import random
audi = df[(df[‘manufacturer_name’]==‘Audi’) & (df[‘model_name’])]
plt.rcParams[‘figure.figsize’] = (15, 10)
sns.set_style(“whitegrid”)
sns.boxplot(x=‘model_name’,y=‘price_usd’, data=audi, palette=‘Set3’)
plt.title(‘Distribución de modelos vs precio’)
plt.show

Excelente clase.

Reto:

<Jetta_df = df[(df['manufacturer_name']=='Volkswagen') & (df['model_name']=='Jetta')]
sns.histplot(Je_df, x='price_usd', hue = 'year_produced')> 

Excelente representación visual que resume todas estas medidas de dispersión.

Rango: La manera mas rápida es cogiendo el mayor y el menor y hacer la resta

Rango Intercuartil: 4 subdivisiones homogéneas, partimos en 4 partes iguales. Este rango es la distancia entre el cuartil 1 y el cuartil 3.