"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"
Clase 8 de 25 • Curso de Matemáticas para Data Science: Estadística Descriptiva
Contenido del curso
- 4
Uso de Deepnote para Jupyter Notebooks en Ciencia de Datos
01:19 - 5

Tipos de Datos en Ciencia de Datos: Categóricos y Numéricos
16:06 - 6

Medidas de Tendencia Central: Media, Mediana y Moda
09:47 - 7

Media vs. Mediana: Diferencias y Aplicaciones Prácticas
17:17 - 8

"Estadística Descriptiva con Pandas: Medidas de Tendencia Central"
20:58 - 9

Rango y Rango Intercuartil en Medidas de Dispersión
05:25 - 10

Desviación Estándar y Varianza en Estadística Descriptiva
14:29 - 11

Cálculo y Visualización de Medidas de Dispersión en Python
11:14 - 12

Visualización de Datos: Catálogo y Uso de Diagramas en Python
08:48 - 13

Diagramas de Dispersión y su Análisis con Seaborn
12:32
- 14

Escalamiento Lineal de Datos Numéricos para Machine Learning
10:54 - 15

Transformaciones No Lineales para Datos Sesgados en Machine Learning
08:51 - 16

Procesamiento y Escalamiento de Datos Numéricos en Python
14:55 - 17

Mapeo de Variables Categóricas en Python: Dumi y OneHot
05:00 - 18

Codificación de Variables Categóricas en Python con Pandas y Scikit-Learn
12:58 - 19

Correlación y covarianza en análisis de datos
09:09 - 20

Construcción y Análisis de la Matriz de Covarianza en Python
13:09
¿Cómo calcular medidas de tendencia central con Python?
La programación en Python ofrece potentes herramientas para realizar análisis estadísticos. En esta clase se explorarán las medidas de tendencia central utilizando el lenguaje de programación Python y la librería Pandas. Se usará un dataset de catálogo de autos usados para poner en práctica estas técnicas.
¿Cómo calcular el promedio en Pandas?
El promedio o media es una de las principales medidas de tendencia central. Para calcularlo en Pandas, necesitas enfocarte en una columna específica del DataFrame.
import pandas as pd
# Lectura del dataset
cars = pd.read_csv('path/to/cars.csv')
# Cálculo del promedio en la columna 'price_USD'
average_price = cars['price_USD'].mean()
print(f"El precio promedio de los autos es: {average_price} USD")
En este ejemplo, se calcula el precio promedio de los autos en el dataset. Saber el precio promedio nos da una idea general del mercado, pero no evidencia si hay valores atípicos que desvirtúen la media.
¿Cómo usar la mediana para detectar sesgos?
La mediana es útil para identificar sesgos, ya que es menos sensible a los valores extremos. Para calcularla, se emplea la siguiente instrucción:
median_price = cars['price_USD'].median()
print(f"La mediana de los precios es: {median_price} USD")
Comparando la media y la mediana, podemos inferir la existencia de autos con precios significativamente altos que afecten la media, llevando a un desplazamiento hacia la derecha en su distribución.
¿Cómo construir un histograma con Pandas?
Un histograma es una representación gráfica indispensable para visualizar distribuciones de datos y detectar tendencias o variaciones.
import matplotlib.pyplot as plt
# Construcción del histograma
cars['price_USD'].plot(kind='hist', bins=20)
plt.xlabel('Precio en USD')
plt.ylabel('Frecuencia')
plt.title('Distribución de Precios de Autos Usados')
plt.show()
Este código genera un histograma que permite observar la distribución de precios de los autos, detectando la mayoría de observaciones entre ciertos rangos, y resaltando potenciales valores atípicos.
¿Cómo mejorar visualizaciones con Seaborn?
Seaborn es una librería poderosa para gráficos estadísticos, complementando el análisis visual con Pandas.
import seaborn as sns
# Displot con separación por marca de autos
sns.displot(data=cars, x='price_USD', hue='manufacturer_name', kind='kde')
plt.title('Distribución por Fabricante')
plt.show()
Esta visualización es sobrecargada si existen muchas marcas, por lo que es recomendable limitar las categorías o hacer análisis por subconjuntos más manejables.
¿Qué es un análisis estadístico descriptivo más detallado?
Además de las medidas de tendencia central, los estadísticos descriptivos incluyen la visualización de distribuciones y conteos de categorías:
# Conteo de tipos de motor
engine_count = cars['engine_type'].value_counts()
print(engine_count)
Esta observación cuantifica el número de autos por tipo de motor, proporcionando un contexto valioso sobre la diversidad del dataset.
Antes de continuar explorando las medidas de dispersión en la próxima clase, considerar estos elementos en tu análisis facilitará el entendimiento de las tendencias y patrones dentro de los datos. ¡Sigue practicando y expande tus habilidades en análisis de datos!