No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Curso de Estadística y Probabilidad

Curso de Estadística y Probabilidad

Ilse Beatriz Zubieta Martínez

Ilse Beatriz Zubieta Martínez

Box plots y el resumen de 5 números

13/26
Recursos

Aportes 52

Preguntas 4

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Apuntes

Box plots y el resumen de 5 números

Boxplot nos ayudará a identificar, dentro de una caja, la forma en que están organizados el 50% de nuestros valores y hacia que lado están arrastrados.

Boxplot es una caja que se compone de otras 2 cajas, en las cuales podremos identificar qué valores están dentro del priemer cuartil con respecto a la mediana y de la mediana respecto al tercer cuartil.

Se componde del mínimo y máximo unidos por una línea y las cajas representan desde qué punto están entre el cuartil 1,2 y 3.

Para construir se necesita el resumen de 5 números, para esto se necesita dentificar, dentro del conjunto ordenado de datos, el mínimo, el máximo y los 3 cuartiles y la mediana (segundo cuartil)

  • Primero debemos identificar los extremos que estarán unidos por una línea, luego establecemos la mediana y despues identificamos el 1er y 3er cuartil.
  • La parte superior de la caja tendrá más amplitud que la parte inferior.

  • Hay menos valores entre el 1er cuartil que los que están desde la mediana al 3er cuartil

¡Ojo! Porque un lado de la caja sea más largo que otro, no quiere decir que ese lado contenga más valores. Indica un rango más amplio, por lo que los datos estarán mas dispersos. Un rango menos amplio, indica que los datos están más próximos.

Cuartiles

Los cuartiles son medidas de tendencia central que dividen un conjunto de datos en cuatro partes iguales. El primer cuartil representa el 25% inferior de los datos, el segundo cuartil representa el 50% del centro de los datos (que es igual a la mediana), y el tercer cuartil representa el 75% superior de los datos. Los cuartiles pueden ser útiles para identificar valores atípicos o patrones en la distribución de los datos.

IQR

El IQR (rango intercuartil) es una medida de dispersión que se utiliza para medir la variabilidad de los datos. Se calcula restando el tercer cuartil del primer cuartil. El IQR puede ser útil para identificar valores atípicos o patrones en la distribución de los datos y es menos sensible a los valores extremos que la desviación estándar.

Boxplot o diagrama de caja:

Este tipo de gráficos nos permite identificar valores atípicos y comparar distribuciones. Además de conocer de forma rápida como se distribuyen el 50% de los valores centrales.

Las ventajas  principales de representar la distribución de los datos utilizando este método son:

  • Visualizar si la distribución de una variable es asimétrica o se aleja de la distribución normal.
  • La facilidad al comparar distribuciones entre grupos. Aunque se tendrá que usar técnicas estadísticas para establecer la significación de las diferencias percibidas.

Interpretación:

Caja:

La caja está determinada por la distancia del rango cuartilico, que es la diferencia entre el primer y tercer cuartil. El segmento que divide a la caja es la mediana.

  • Si la mediana se sitúa en el centro de la caja, entonces la distribución es simétrica y tanto la media, mediana y moda coinciden.
  • Si la mediana corta la caja en dos lados desicuales se tiene:

Asimetría positiva o sesgada a la derecha si la parte más larga de la caja es la parte superior a la mediana. Los datos se concentran en la parte inferior de la distribución. La media suele ser mayor a la mediana.

Asimetría negativa o sesgada a la izquierda si la parte más larga es la inferior a la mediana. Los datos se concentran en la parte superior de la distribución. La media suele ser menor que la mediana.

![](

<aside>
💡 Que un lado de la caja sea más amplio que el otro, no quiere decir que contenga más datos, si no que los datos están más dispersos. Un rango menos amplio, indica que los datos están más próximos.

</aside>

Bigotes:

Los vigotes son las líneas verticales que se extienden desde la caja hasta los valores máximo y mínimo de la serie o 1.5 veces el IQR.

Valores átipicos (outliers):

Estos valores son aquellos que están más allá del límite inferior o superior.

Wow!! **Boxplot ** nos ayudará a identificar, dentro de una caja, la forma en que están organizados el 50% de nuestros valores… Casualmente en esta clase se alcanza el 50% del curso

Para evitar confusiones en el minuto 1:14 menciona que la “media es el segundo cuartil (Q2)”, pero en realidad la mediana es el segundo cuartil, como ella lo confirma en el minuto 2:04

Acá está mi ejercicio:

Una genia la profe, muy pocas veces se ve tal calidad de explicación.

Comparto mi aprendizaje en esta parte de Box plots ![](https://static.platzi.com/media/user_upload/image-bb6323db-47ce-4ebb-aa25-035e88b39f59.jpg)
![](https://static.platzi.com/media/user_upload/image-f421ad48-4da3-478c-a903-a6b9c2227f0f.jpg)
Hola a todos. Antes que nada quisiera agradecer a la comunidad en general por todo el aporte que entregan con sus comntarios y por su puesto a la profe a quien le encuentro muy buena pedagogía a la hora de explicar con videos. En eseta oportunidad queria consultar para ver quien podría ayudarme porque me pasa que desde hace algunas clases me estoy haciendo la pregunta de cuando voy a necesitar algun x o y cálculo de los que estpoy aprendiendo en este curso, ya que estpoy viendo varios conceptos que son nuevos para mi. Que bueno sería si alguiémn tuvciera la respuesta obviamente de aportar para que sirven o en qué casos se debería utilizar una cosa u otra. Ojala se pueda entender mi pregunta. Saludos!

13. Box plots y el resumen de 5 números

  • Minimo
  • Q1
  • Mediana
  • Q3
  • Máximo
![](https://static.platzi.com/media/user_upload/image-e7ecbb84-adec-4425-808d-880677198c79.jpg) Presento mi Box Plots
**Mi Box Plot:** ![](https://static.platzi.com/media/user_upload/image-175db5d2-83ee-48ac-ba18-e8eebc682fe6.jpg)
Hay un error en el minuto 6:30. Por definición hay igual cantidad de datos entre un cuartil y su subsiguiente que entre otro cuartil y su subsiguiente. Que haya más "espacio" no significa que tenga más datos
En el video, al principio (ninutos: 0:46, 0:48, 1:15, etc.) dice que la media es el Q2, pero se confundió, la Mediana es el Q2 y NO la media. En algunas distribuciones la Media puede coincidir con la Mediana pero no siempre es así.
![]()No supe como agregar la mediana en google sheets parece que no lo soporta.
Aquí está el mío perras ![](https://static.platzi.com/media/user_upload/image-d487ebfd-7de4-4969-82b4-4189fedfd47e.jpg)
![](https://static.platzi.com/media/user_upload/image-de88baaa-c65e-44f3-a83c-3b6b1c4ff272.jpg)![](https://static.platzi.com/media/user_upload/image-b3318c59-efd3-4037-9e74-ebada9123dea.jpg)![]()
![](https://static.platzi.com/media/user_upload/BOXPLOTS-457f57f4-91d3-4dc4-828f-73c13e3733be.jpg) Cordial saludo
gracias
Buenos dias una consulta que no me queda claro, si esta es una variable aleatoria, al ordenarlos para generar un boxplot no se pierde o deja de representar a dicha variable aleatoria.????, como es que el boxplot representa la funcion de distribucion. que ensalada!!!!
![]()![](https://static.platzi.com/media/user_upload/image-cacb913f-8250-488a-ad19-2f339cc4e567.jpg)
![](https://static.platzi.com/media/user_upload/image-de2c95ad-784f-4beb-aecd-b4258eebd1d0.jpg)
Cuando la mediana divide a la caja y esta no es igual, no quiere decir que un lado de la caja posea mayor o menor cantidad de datos, ya que contienen la misma cantidad (25%), lo que esto nos indica simplemente es que en un lado el rango es menor y por ende los datos están menos dispersos y más concentrados, y cuando el rango es mayor, significa que los datos están más dispersos, o hay mayor separación entre ellos.
![](https://static.platzi.com/media/user_upload/image-adde1bd5-fcb9-4364-891f-3b9e3eada782.jpg)

Esta forma de crear graficos es interesante. Aqui les mando mi grafico de caja. No es bonito pero algo es algo.
![](

![](

![](https://static.platzi.com/media/user_upload/image-fb2cc373-e77b-4b26-9874-0ddb377be949.jpg)
Les comparto mi boxplot que hice con la data de ejemplo. Está hecho sobre los géneros principales vs su duración. ![]()![]()![](https://static.platzi.com/media/user_upload/image-105e24f3-9eb5-4e5f-9383-29a4aeb340c3.jpg)
### Box plots y los 5 números Los box plots, también conocidos como diagramas de caja y bigotes, son gráficos que representan la distribución de un conjunto de datos estadísticos a través de sus cuartiles. Estos gráficos proporcionan una visualización rápida y efectiva de la mediana, los cuartiles, el rango intercuartílico (IQR) y los valores atípicos potenciales de un conjunto de datos. El resumen de 5 números se refiere a los cinco valores estadísticos utilizados para construir un box plot: 1. **Mínimo:** El valor más pequeño en el conjunto de datos. 2. **Primer cuartil (Q1):** El valor que se encuentra en la posición 1/4 de los datos, es decir, el valor que deja atrás al 25% de los datos. 3. **Mediana (Q2):** El valor que se encuentra justo en el centro. 4. **Tercer cuartil (Q3):** El valor que se encuentra en la posición 3/4 de los datos, es decir, el valor que deja atrás al 75% de los datos. 5. **Máximo:** El valor más grande en el conjunto de datos. ![Untitled](https://prod-files-secure.s3.us-west-2.amazonaws.com/d3198403-6ac7-43d9-b40c-608386c6c503/8e1d9978-3e1e-40b3-9be5-dd7e42c7937d/Untitled.png)![](https://static.platzi.com/media/user_upload/image-0a804e61-cd0f-4904-914a-33e40537fc22.jpg) Estos cinco números resumen la distribución de los datos y se representan gráficamente en un box plot. La caja del gráfico representa el rango intercuartílico (IQR), que va desde el primer cuartil hasta el tercer cuartil, y la línea dentro de la caja representa la mediana. Los "bigotes" del gráfico se extienden hasta el mínimo y máximo no considerados atípicos, y los valores atípicos se representan como puntos individuales fuera de los bigotes.
![](https://static.platzi.com/media/user_upload/image-639b16f5-e059-4919-a324-bfbb477c11f4.jpg)**box plot**
Mi duda es saber exactamente cuando se usan, aca aprendí a como usar las formulas mediante un listado de números, pero quisiera saber a que llego mediante la interpretación del gráfico que genere y en que casos seria ideal usarlo.
***APUNTE:*** **<u>Box Plot:</u>** \- Nos ayuda a identificar dentro de una caja, de qué manera están organizados el 50% de nuestros valores y hacia que lado están arrastrados. * Es una caja que se compone de otras dos cajas o rectángulos en las cuales podemos identificar qué valores de nuestros datos están dentro del primer cuartil respecto a la media y dentro de la media con respecto al tercer cuartil. ![](https://static.platzi.com/media/user_upload/image-194915b0-ed7a-4011-bb7f-0e415062c8af.jpg)
Mi aporte: ![](https://static.platzi.com/media/user_upload/image-fe89256d-f9de-4bbf-9f94-f31400f70783.jpg)
Box Plot Caja que se compone de otras dos cajas, donde identificamos que valores estan dentro del primer cuartil respect a la mediana y de la mediana respect al tercer cuartil. Siempre es bueno ordenar los datos de menor a mayor, antes de tomar los 5 numeros que necesitamos Resumen de 5 numeros: min, maximo, y tres cuartiles. (q1,q2,q3). Recordar: La mediana es el 2do cuartil. Con estos 5 numeros se obtiene el box plot.
Boxplot ![](https://static.platzi.com/media/user_upload/boxplot-67322c06-e6f7-4e1e-a4bc-218ce7e37576.jpg)

Box Plots (Diagramas de Caja):

  1. Definición:
    • Un box plot es una representación gráfica que proporciona una visión visual de la distribución de un conjunto de datos. Consiste en una caja y dos brazos (bigotes). La caja representa el rango intercuartílico (IQR), y los bigotes se extienden hasta los valores extremos dentro de ciertos límites.
  2. Componentes de un Box Plot:
    • Caja: Representa el IQR y contiene el 50% central de los datos.
    • Línea Mediana: Dentro de la caja, indica la mediana del conjunto de datos.
    • Bigotes: Extremos que representan la variabilidad fuera del IQR.
    • Outliers: Puntos individuales más allá de los bigotes que pueden indicar valores atípicos.
  3. Uso:
    • Los box plots son útiles para visualizar la dispersión, simetría y presencia de outliers en un conjunto de datos. Facilitan la comparación entre diferentes distribuciones.

Resumen de 5 Números (o 5-Number Summary):

  1. Definición:
    • El resumen de 5 números es un conjunto de estadísticas descriptivas que proporcionan una visión rápida de la distribución de un conjunto de datos.
  2. Componentes del Resumen de 5 Números:
    • Mínimo: El valor más bajo en el conjunto de datos.
    • Q1 (Primer Cuartil): El valor que separa el 25% inferior de los datos.
    • Mediana (Q2): El valor que separa el 50% inferior del 50% superior de los datos.
    • Q3 (Tercer Cuartil): El valor que separa el 75% inferior de los datos.
    • Máximo: El valor más alto en el conjunto de datos.
  3. Uso:
    • El resumen de 5 números proporciona una descripción concisa pero completa de la tendencia central, dispersión y la presencia de outliers en un conjunto de datos. Es particularmente útil cuando se quiere tener una visión general rápida de la distribución.

Relación entre Box Plots y Resumen de 5 Números:

  • Los box plots visualizan la información del resumen de 5 números, ya que la caja representa el IQR y la línea mediana es la mediana (Q2). Los bigotes se extienden hasta el mínimo y el máximo, con la posibilidad de mostrar outliers.
  1. Visualización de la Distribución:
    • El Box Plot proporciona una representación gráfica clara de la distribución de los datos, mostrando cómo están dispersos y la presencia de outliers. Es particularmente útil cuando se trabaja con conjuntos de datos grandes y se busca una comprensión rápida de su variabilidad.
  2. Identificación de la Tendencia Central:
    • La línea en el centro de la caja representa la mediana del conjunto de datos. Al observar la posición de la mediana en relación con la caja, puedes tener una idea de la simetría de la distribución y si está sesgada hacia un extremo.
  3. Evaluar la Dispersión:
    • La longitud de la caja en el Box Plot indica la variabilidad intercuartílica (IQR), que abarca el 50% central de los datos. Cuanto más larga sea la caja, mayor será la dispersión en esa parte central del conjunto de datos.
  4. Detección de Outliers:
    • Los puntos individuales más allá de los “bigotes” del Box Plot pueden indicar valores atípicos o outliers. Esto es crucial para identificar datos que pueden tener un impacto significativo en las estadísticas descriptivas.
  5. Comparación entre Grupos:
    • Cuando trabajas con varios conjuntos de datos, los Box Plots permiten una comparación visual de sus distribuciones. Puedes identificar rápidamente cuál tiene una mayor variabilidad, cuál es más sesgado, etc.
  6. Robustez frente a la Asimetría:
    • A diferencia de otras representaciones gráficas, como el histograma, el Box Plot es menos afectado por la asimetría y los valores extremos, lo que lo hace más robusto para describir la distribución de datos.

El Box Plot es una herramienta poderosa para explorar y comunicar la estructura y la variabilidad de un conjunto de datos de manera visual y eficiente. Su simplicidad y capacidad para resumir información clave hacen que sea una opción valiosa en el análisis de datos.

![](https://static.platzi.com/media/user_upload/template-para-estudiantes-de-proyecto-curso-estadistica-y-probabilidad-platzi_3895678a-4a47-4ff5-80c8-f9a3a48b6b53%20-%20Hojas%20de%20c%C3%A1lculo%20de%20Google-1d111850-3a75-42c4-b539-1bda1757faf4.jpg)

Así me quedó en mio en Google Sheet

Dejo mi aporte usando el excel del curso (Netflix) y usando los datos del número de actores por país.

  • Límite Inferior?
  • Límite Superior?
  • Outliers?

El Box Plot, también llamado diagrama de caja, es una herramienta gráfica esencial en estadística y probabilidad. Su principal función es representar visualmente la distribución de un conjunto de datos, permitiendo identificar la dispersión, la tendencia central y los valores atípicos de manera eficiente. El Box Plot se basa en cinco valores clave, conocidos como el resumen de 5 números: el valor mínimo y máximo, los cuartiles Q1 y Q3, y la mediana en el centro. Al observar un Box Plot, se puede comprender rápidamente cómo se distribuyen los datos y si existen puntos que se alejan significativamente de la norma.

Reto

Ejercicio 1

Ejercicio 2

Boxplot

Comparto el Box Plot del IQR de las calificaciones del ejercicio en Excel.
.

Así me quedó el box plot