¿Cómo calcular medidas de tendencia central con Python?
La programación en Python ofrece potentes herramientas para realizar análisis estadísticos. En esta clase se explorarán las medidas de tendencia central utilizando el lenguaje de programación Python y la librería Pandas. Se usará un dataset de catálogo de autos usados para poner en práctica estas técnicas.
¿Cómo calcular el promedio en Pandas?
El promedio o media es una de las principales medidas de tendencia central. Para calcularlo en Pandas, necesitas enfocarte en una columna específica del DataFrame.
import pandas as pd
cars = pd.read_csv('path/to/cars.csv')
average_price = cars['price_USD'].mean()
print(f"El precio promedio de los autos es: {average_price} USD")
En este ejemplo, se calcula el precio promedio de los autos en el dataset. Saber el precio promedio nos da una idea general del mercado, pero no evidencia si hay valores atípicos que desvirtúen la media.
¿Cómo usar la mediana para detectar sesgos?
La mediana es útil para identificar sesgos, ya que es menos sensible a los valores extremos. Para calcularla, se emplea la siguiente instrucción:
median_price = cars['price_USD'].median()
print(f"La mediana de los precios es: {median_price} USD")
Comparando la media y la mediana, podemos inferir la existencia de autos con precios significativamente altos que afecten la media, llevando a un desplazamiento hacia la derecha en su distribución.
¿Cómo construir un histograma con Pandas?
Un histograma es una representación gráfica indispensable para visualizar distribuciones de datos y detectar tendencias o variaciones.
import matplotlib.pyplot as plt
cars['price_USD'].plot(kind='hist', bins=20)
plt.xlabel('Precio en USD')
plt.ylabel('Frecuencia')
plt.title('Distribución de Precios de Autos Usados')
plt.show()
Este código genera un histograma que permite observar la distribución de precios de los autos, detectando la mayoría de observaciones entre ciertos rangos, y resaltando potenciales valores atípicos.
¿Cómo mejorar visualizaciones con Seaborn?
Seaborn es una librería poderosa para gráficos estadísticos, complementando el análisis visual con Pandas.
import seaborn as sns
sns.displot(data=cars, x='price_USD', hue='manufacturer_name', kind='kde')
plt.title('Distribución por Fabricante')
plt.show()
Esta visualización es sobrecargada si existen muchas marcas, por lo que es recomendable limitar las categorías o hacer análisis por subconjuntos más manejables.
¿Qué es un análisis estadístico descriptivo más detallado?
Además de las medidas de tendencia central, los estadísticos descriptivos incluyen la visualización de distribuciones y conteos de categorías:
engine_count = cars['engine_type'].value_counts()
print(engine_count)
Esta observación cuantifica el número de autos por tipo de motor, proporcionando un contexto valioso sobre la diversidad del dataset.
Antes de continuar explorando las medidas de dispersión en la próxima clase, considerar estos elementos en tu análisis facilitará el entendimiento de las tendencias y patrones dentro de los datos. ¡Sigue practicando y expande tus habilidades en análisis de datos!
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?