"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"

Clase 8 de 24 • Curso de Matemáticas para Data Science: Estadística Descriptiva

Contenido del curso

¿Para qué sirve la estadística descriptiva?

Estadística descriptiva para analítica

Estadística en la ingesta de datos

Proyecto de aplicación

Despedida

24
Estadística Descriptiva: Claves para el Análisis de Datos
03:06 min

Tomar examen

Resumen

¿Cómo calcular medidas de tendencia central con Python?

La programación en Python ofrece potentes herramientas para realizar análisis estadísticos. En esta clase se explorarán las medidas de tendencia central utilizando el lenguaje de programación Python y la librería Pandas. Se usará un dataset de catálogo de autos usados para poner en práctica estas técnicas.

¿Cómo calcular el promedio en Pandas?

El promedio o media es una de las principales medidas de tendencia central. Para calcularlo en Pandas, necesitas enfocarte en una columna específica del DataFrame.

import pandas as pd

# Lectura del dataset
cars = pd.read_csv('path/to/cars.csv')

# Cálculo del promedio en la columna 'price_USD'
average_price = cars['price_USD'].mean()
print(f"El precio promedio de los autos es: {average_price} USD")

En este ejemplo, se calcula el precio promedio de los autos en el dataset. Saber el precio promedio nos da una idea general del mercado, pero no evidencia si hay valores atípicos que desvirtúen la media.

¿Cómo usar la mediana para detectar sesgos?

La mediana es útil para identificar sesgos, ya que es menos sensible a los valores extremos. Para calcularla, se emplea la siguiente instrucción:

median_price = cars['price_USD'].median()
print(f"La mediana de los precios es: {median_price} USD")

Comparando la media y la mediana, podemos inferir la existencia de autos con precios significativamente altos que afecten la media, llevando a un desplazamiento hacia la derecha en su distribución.

¿Cómo construir un histograma con Pandas?

Un histograma es una representación gráfica indispensable para visualizar distribuciones de datos y detectar tendencias o variaciones.

import matplotlib.pyplot as plt

# Construcción del histograma
cars['price_USD'].plot(kind='hist', bins=20)
plt.xlabel('Precio en USD')
plt.ylabel('Frecuencia')
plt.title('Distribución de Precios de Autos Usados')
plt.show()

Este código genera un histograma que permite observar la distribución de precios de los autos, detectando la mayoría de observaciones entre ciertos rangos, y resaltando potenciales valores atípicos.

¿Cómo mejorar visualizaciones con Seaborn?

Seaborn es una librería poderosa para gráficos estadísticos, complementando el análisis visual con Pandas.

import seaborn as sns

# Displot con separación por marca de autos
sns.displot(data=cars, x='price_USD', hue='manufacturer_name', kind='kde')
plt.title('Distribución por Fabricante')
plt.show()

Esta visualización es sobrecargada si existen muchas marcas, por lo que es recomendable limitar las categorías o hacer análisis por subconjuntos más manejables.

¿Qué es un análisis estadístico descriptivo más detallado?

Además de las medidas de tendencia central, los estadísticos descriptivos incluyen la visualización de distribuciones y conteos de categorías:

# Conteo de tipos de motor
engine_count = cars['engine_type'].value_counts()
print(engine_count)

Esta observación cuantifica el número de autos por tipo de motor, proporcionando un contexto valioso sobre la diversidad del dataset.

Antes de continuar explorando las medidas de dispersión en la próxima clase, considerar estos elementos en tu análisis facilitará el entendimiento de las tendencias y patrones dentro de los datos. ¡Sigue practicando y expande tus habilidades en análisis de datos!

Comentarios

Miguel Angel Velazquez Romero

student•

Reto

Bueno, como a mí también me gustan los Audi, pero no las camionetas, ni los tope de gama, haré el filtro para el A5. Aquí ya me muestra los Audi A5 y todos sus detalles:

!A51

Hacemos el un diagrama de frecuencias entre el precio por año del modelo

!Audi a5

Conclusión: El modelo del A5 ideal para mi sería entre el 2009 y 2011, por la relación precio utilidad que le daré (en un futuro no muy lejano, jejejeje)

También me llama la atención, cuántos modelos del a5 salieron con transmisión manual y vemos que...

!Mecanical

hay solo 2 jajajaja. Es una decepción.

Y para finalizar, vamos a hacer varios diagramas de frecuencias con sus respectivas conclusiones entre: .

El precio en relación el tipo de motor:

Los carros a diésel son más caros que los de gasolina. .

Como influye el color en el precio del auto:

Los colores más caros son los más feos, xd. Y claro, también los menos comúnes. .

Y la ubicación con el precio del auto.

¿Eso es Ruso? Creo que si, por lo tanto, comprarse un carro es muy caro en Rusia. Rusia descartada para emigrar, jejeje.

Uriel Alfonso Velandia Donado

student•

Es muy interesante ver la distribución por colores, ya que una hipotesis que me salta a la mente es que colores como el negro 🖤 son asociados con bienes de lujo, por lo que se esperaría que los autos de mayor precio tiendan a ser comprados en este color. Por otra parte, ¿sabes si "sns" permite cambiar los colores de las barras?, lo que sucede es que el analisis puede llegar a ser más confuso porque los colores de las leyendas no coninciden con el de las barras, por lo que si se puedieran cambiar, esa dataViz facilmente interpretable 😎. ¡Saludos!

Arturo Torres

student•

Una cosulta. ¿Cómo puedo hacer para ver el modelo por marca? No encuentro la manera :(

Miguel Angel Velazquez Romero

student•

Dato curioso: ¿Cuál es la diferencia entre un diagrama de frecuencias (gráfica de barras) y un histograma

. El diagrama de frecuencias (gráfica de barras) sirve para representar las variables cualitativas ordinales. En el eje horizontal se representan las diferentes categorías y sobre él se levantan unas columnas o barras cuya altura es proporcional a la frecuencia de cada categoría. También podríamos utilizar este tipo de gráfico para representar variables cuantitativas discretas, pero lo que no es correcto hacer es usarlo para las variables cualitativas nominales. El gran mérito del diagrama de barras es expresar la magnitud de las diferencias entre las categorías de la variable. Pero ahí está precisamente, su punto débil, ya que son fácilmente manipulables si modificamos los ejes. . El histograma es un gráfico con un significado mucho más profundo. Un histograma representa una distribución de frecuencias que se utiliza (o debe) para representar la frecuencia de las variables cuantitativas continuas. Aquí no es la altura, sino el área de la barra lo que es proporcional a la frecuencia de ese intervalo, y está en relación con la probabilidad con la que cada intervalo puede presentarse. Otra diferencia muy importante entre el diagrama de barras y el histograma es que en el primero solo se representan los valores de las variables que hemos observado al hacer el estudio. Sin embargo, el histograma va mucho más allá, ya que representa todos los valores posibles que existen dentro de los intervalos, aunque no hayamos observado ninguno de forma directa. Permite así calcular la probabilidad de que se represente cualquier valor de la distribución, lo que es de gran importancia si queremos hacer inferencia y estimar valores de la población a partir de los resultados de nuestra muestra.

Jennifer Zuluaga

student•

¿Por qué no es recomendable usar el diagrama de frecuencias con variables cualitativas nominales?

Brayan Alexis Lechon Andrango

student•

Solución al reto

No tenia un modelo especifico en mente, así que lo primero que hize fue ver cuales eran las marcas de autos con mas datos.

Elegí a Nissan, tenia una noción de los modelos de esta marca pero lo que hize fue volver a listar el dataset de Nissan por marcas

Me incline por "Primera" y realize el filtrado además incluí únicamente a los modelos a partir del 2000, les dejo un tip también se puede hacer el condicional usando la función query de pandas a mi criterio es mas fácil.

nissan_df=df.query('manufacturer_name=="Nissan" and model_name=="Primera" and year_produced>=2000')

El resultado fue el siguiente

Conclusión

Lo que me llamo mas la atención fue que del modelo mas carro solo existe información de un solo auto por lo que hubiese podido sesgar nuestro análisis para este caso especifico. Les dejo el link de mi repositorio de deepnote. :) https://deepnote.com/project/CursoEstadisticaDescriptiva-xA8JQdncQF2M2hTiCdgZUw/%2FCarsAnalitycs.ipynb

Luis Alonso Copete

student•

Me gustó la función de Query. Siempre tardaba mucho en intentar filtrar por diferentes condiciones.

Daniel De Jesús

student•

Gracias a tu comentario descubrí la función de query, era algo que me preguntaba si se podía hacer y gracias a tu ejemplo supe cómo hacerlo. ¡Gracias!

Anthony Ismael Manotoa Moreno

student•

💡 Si es de las primeras veces que trabajas con Pandas, te comparto un tutorial para que aprendas desde cero y paso a paso todo lo fundamental que necesitas:

Guía definitiva para dominar Pandas 💚

Cristian A Mora A

student•

Que excelente aporte, mil gracias por esta información. Se nota el esfuerzo y la dedicación. Mil gracias

Anthony Ismael Manotoa Moreno

student•

Me alegra mucho que te haya servido :D

Cualquier duda o aporte me encantaría leerlos en los comentarios, pronto estaré dando una vuelta por el blog para responderlos :D

Daniel David Mármol Rivero

student•

Sinceramente Pandas era todo lo que necesitaba para mejorar mi productividad con el análisis de Datos y ahora con Deepnote todo será más organizado, estoy que lloro de la alegría <3

black_cars = df[(df['color'] == 'black')  & (df['price_usd'] <= 20000)  & (df['year_produced'] >= 2017)]
sns.histplot(black_cars, x = 'price_usd', hue = 'year_produced')

Mario Esser

student•

Otra función muy útil de Seaborn, pairplot entrega mucha información contrastada de variables que escojamos. Acá se puede ver que el kilometraje es también relevante respecto del precio, entre otras cosas.

import seaborn as sns
sns.set(style="ticks", color_codes=True)
sns.pairplot(df,vars = ['price_usd', 'odometer_value','year_produced'], hue="engine_type")
plt.show()

Joel Angel David Barrantes Palacios

student•

me gusto mucho l oque hiciste, sin embargo no definas el plt.show() si no estas usando matplotlib :-)

david.parra

student•

De hecho el plt.show() sí sirve en ese caso. Ya que Seaborn está basado en matplotlib. Una forma de ahorrarselo es poner ; al final:

sns.pairplot(df,vars = ['price_usd', 'odometer_value','year_produced'], hue="engine_type");

Javier Pajarito Caicedo

student•

MI reto

Max Andy Diaz Neyra

student•

Comandos de la clase: Importar libreria

import pandas as pd

Obtener datos de un archivo csv:

df = pd.read_csv('nombreArchivo.csv')

Para obtener el valor promedio de una columna:

df['nombre_columna'].mean()

Para obtener la mediana de una columna:

df['nombre_columna'].median()

Para obtener histograma:

df['nombre_columna'].plot.hist(bins=#intervalos)

Esta librería nos brinda visualización estadística

import seaborn as sns

Vamos a generar histogramas de datos numéricos de una columna por cada valor categórico de otra columna.

sns.displot(nombre_dataframe, x = 'nombre_columna_numerico, hue = 'nombre_columna_categorias')

para visualizar las barras apiladas útil al ver diferentes histogramas

sns.displot(df, x='price_usd', hue = 'engine_type', multiple='stack')

para poder agrupar los datos por categóricos y luego sabe cuantos hay de cada uno

df.groupby('columna_categorica').count()

vamos a filtar a los autos de la clase q7 y que sean Audi

Q7_df = df[(df['manufacturer_name']=='Audi') & (df['model_name']=='Q7')]

Mauricio Guzman

student•

Gracias por el resumen :D

jhon Gutierrez

student•

Reto

Analice como se han producido los autos con los años y encontré que antes se fabricaban más autos mecánicos! pero la tendencia ahora es la producción de automáticos.

Y luego revise los precios de vehículos de acuerdo por su transmisión y los autos automatices son más costosos que los mecánicos.

Conclusión Ahora se fabrican más autos automáticos que antes y el valor de estos es más alto.

Bryan

student•

Yo elegí un Subaru y modelo Outback

Q7_df = df[(df['manufacturer_name']=='Subaru') & (df['model_name']=='Outback')]
sns.histplot(Q7_df, x='price_usd', hue='year_produced')

Jose Luis Higuera Caraveo

student•

Como feedback. Es buena práctica usar nombre de variables de acuerdo a lo que se está analizando. En este caso, Q7_df no hace sentido con el auto que estas analizando. Recomendaría usar outback_df.=

Bryan

student•

Gracias por el aporte!

Bryan David Vasquez Paz

student•

I like Subaru cars and I made this graphic to watch prices after the 2013

cars_df = pd.read_csv("cars.csv")

subaru_cars_df = cars_df[(cars_df["manufacturer_name"] == "Subaru") & (cars_df["year_produced"] >= 2013)]

sns.histplot(data = subaru_cars_df, x = "price_usd", hue = "model_name", multiple = "stack")

Santiago Nuñez Barrera

student•

Hola, al realizar el grafico del reto final me muestra este error, ¿Saben cuál es el error? Dice que df no esta definida

José Luis Bolaños

student•

Hola amigo! El error se da debido a que la celda del código que crea la variable df no ah sido cargada, intenta correr cada celda de tu nootbook

Wuilson Chan

student•

Hola

Trata de escribir esta primer linea en el código, me paso lo mismo y funciono, espero sea de ayuda

df = pd.read_csv("cars.csv")

Q7_df = df[(df["manufacturer_name"]=="Audi") & (df["model_name"]=="Q7")]

sns.histplot(Q7_df, x="price_usd", hue="year_produced")

Fernanda Arteaga Guivin

student•

Comparto mi solucíón al reto:

Exploración de datos, buscando que marcas existen en el Dataframe.

Buscando que modelos existen de la marca que escogí (Peugeot).

Creando un DataFrame filtrado que contenga unicamente la marca y modelo que escojí ( Peugeot 806)

Haciendo un histograma de la maca y modelo seleccionada, por precio y año de fabricación.

Manuel Julio Romero Olvera

student•

Muy bonita visualización con Seaborn

Pablo Reyes Abarca

student•

Si quieren solo contar los valores de los tipos de motor:

df['engine_type'].value_counts()

Nicolás Perilla Melo

student•

Noto que al final hay dos barras que quedan ocultas en la parte de atrás, hay forma de ponerlas en la parte frontal? encuentro que stack no es el comando más adecuando ya que las agrupa y modifica la escala vertical :)

Alejandro Núñez Arroyo

student•

¿A qué gráfica te refieres? Puedes dar un minuto para entenderte mejor. :)

Nicolás Perilla Melo

student•

En el minuto 18 Alejandro!

Ricardo Gomez

student•

Bryan Carvajal

student•

Yo elegi Honda Civic y este fue el resultado

Josue Noha Valdivia

student•

Medidas de Tendencia central con python

Cuando tenemos datos continuos, no podemos representar el diagram de frecuencias, pero usamos un diagrama equivalente: el histograma, agrupando los valores por rangos, una manera de representarlo por el método hist de pandas: df.hist(bins=n) # bins representa el número de barras (divisiones) a representar
Una librería muy útil para la visualizacion de datos es la librería seaborn: import seaborn as sns, por ejemplo podemos realizar un diagrama de distribucion, agrupando los datos: sns.distplot(df,x='columna_datos',hue='columna_agrupacion', multiple='stack')
Es importante hacer un análisis exploratorio para ver cómo se comportan los datos y trabajar con información relevante.
La estadistica descriptiva consta de números y visualizaciones, que nos permitan resumir y entender los datos

Pablo José Ramos Wilkins

student•

Como recurso para aprender Pandas recomiendo el libro Python For Data Analysis de Wes McKinney, en el cual también se puede aprender Numpy, que es otra librería muy utilizada en ciencia de datos.

cars_df = pd.read_csv("cars.csv")

subaru_cars_df = cars_df[(cars_df["manufacturer_name"] == "Subaru") & (cars_df["year_produced"] >= 2013)]

sns.histplot(data = subaru_cars_df, x = "price_usd", hue = "model_name", multiple = "stack")

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"

¿Para qué sirve la estadística descriptiva?

Fundamentos de Estadística Descriptiva y sus Aplicaciones Prácticas

Estadística Descriptiva en el Flujo de Ciencia de Datos

Estadística Descriptiva Aplicada a Ciencia de Datos

Estadística descriptiva para analítica

Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos

Medidas de Tendencia Central: Media, Mediana y Moda

Media vs. Mediana: Diferencias y Aplicaciones Prácticas