Visualización de ventas con Matplotlib

Curso de Python para Ciencia de Datos

Contenido del curso

NumPy

Pandas

Matplotlib

Proyecto de Análisis de Datos de Retail

Tomar examen

Visualización de ventas con Matplotlib

Resumen

Cuando terminas de limpiar y transformar tus datos, llega la pregunta clave: ¿qué te están diciendo realmente? La visualización de datos con Matplotlib te permite traducir miles de filas en gráficos que revelan patrones, tendencias y oportunidades que no verías solo mirando una tabla. Aquí trabajamos con un dataset de online retail ya procesado para construir gráficos de pastel y barras en Python.

¿Cómo identificar devoluciones en un dataset de ventas?

Antes de graficar, necesitas separar los datos. En un dataset de retail, las cantidades negativas suelen indicar devoluciones, mientras que las positivas representan ventas efectivas.

Para extraer las devoluciones, filtras tu DataFrame preguntando dónde la columna cantidad es menor a cero. Ese filtro produce un nuevo DataFrame con 8.872 transacciones devueltas. Para las ventas efectivas, aplicas el filtro contrario: cantidades mayores o iguales a cero [03:10].

¿Qué significa una cantidad negativa en un dataset de ventas? Representa una devolución. El signo negativo indica que el producto regresó al inventario en lugar de salir, así que filtrando por cantidad < 0 aíslas todas las devoluciones del periodo.

Usar shape[0] sobre cada DataFrame te devuelve el conteo exacto de filas, que es justo lo que necesitas para alimentar el siguiente gráfico.

¿Cómo crear un gráfico de pastel con Matplotlib?

Un pie chart es la forma más directa de mostrar proporciones entre dos o tres categorías, como devoluciones contra no devoluciones.

El flujo básico con matplotlib.pyplot es así:

Importas pyplot y defines la lista de labels con los nombres de cada porción.
Defines la lista de sizes con los totales numéricos de cada categoría.
Asignas una lista de colors, por ejemplo coral y verde claro.
Llamas a plt.figure(figsize=(8,8)) para fijar las dimensiones del lienzo.
Ejecutas plt.pie(sizes, labels=labels, colors=colors, startangle=140).
Añades plt.title("Porcentaje de transacciones con y sin devolución") y cierras con plt.show().

Un detalle que cuesta caro: si defines la lista colors pero olvidas pasarla como argumento dentro de plt.pie(), Matplotlib usará la paleta por defecto. El parámetro startangle=140 rota el círculo para que el corte inicial quede en una posición visualmente cómoda [05:50].

El resultado revela que la proporción de devoluciones es muy pequeña frente al total de ventas, algo que no era evidente solo viendo los conteos.

¿Cómo graficar la distribución de ventas por mes y año?

Cuando ya tienes columnas de año y mes separadas, agruparlas te permite ver la evolución temporal del negocio.

El patrón con pandas y Matplotlib es:

Crear la figura con plt.figure(figsize=(12,6)).
Aplicar df.groupby(['año','mes'])['total_amount'].sum() para obtener la suma de ventas por periodo.
Encadenar .plot(kind='bar') directamente sobre el resultado.
Etiquetar con plt.title("Distribución de ventas por mes y año"), plt.xlabel("Año-Mes") y plt.ylabel("Ventas totales").

Al mirar el gráfico aparece una tendencia ascendente clara, pero el último mes (diciembre) cae respecto al anterior. Y aquí viene lo interesante: antes de concluir que las ventas bajaron, debes verificar si los datos del mes están completos o si solo capturaste una parte del periodo [08:30].

¿Por qué agrupar por año y mes en lugar de solo por mes? Porque agrupar solo por mes mezcla años distintos y oculta la evolución real. Agrupar por la combinación año-mes preserva la línea de tiempo y te deja ver tendencias de crecimiento o estacionalidad.

¿Cómo construir un top 10 de productos más vendidos en Python?

Para rankear productos necesitas combinar agrupación, ordenamiento y merge con la tabla de descripciones.

El proceso paso a paso:

Aplicas groupby('stock_code')['cantidad'].sum() para obtener el total vendido por código de producto.
Encadenas .sort_values(ascending=False) para ordenar de mayor a menor.
Tomas .head(10) para quedarte con el top 10.
Ejecutas reset_index() para limpiar los índices antes de graficar.
Haces pd.merge() entre tu top y el DataFrame limpio para traer la descripción de cada stock_code, eliminando duplicados con drop_duplicates(subset='stock_code') y usando how='left'.

Para el gráfico final, las barras horizontales funcionan mejor que las verticales cuando los nombres de producto son largos:

plt.figure(figsize=(12,8)) define el lienzo.
plt.barh(top_productos['descripcion'], top_productos['cantidad']) dibuja las barras.
plt.gca().invert_yaxis() invierte el eje Y para que el producto más vendido quede arriba [12:15].
Etiquetas los ejes con plt.xlabel("Cantidad vendida") y plt.ylabel("Producto").

Si quieres un top 3 en lugar de top 10, solo cambias el argumento de head() y el resto del pipeline se adapta solo.

Qué descubres cuando NumPy, Pandas y Matplotlib trabajan juntos

La fuerza de este flujo está en encadenar herramientas: NumPy maneja los cálculos, pandas organiza y filtra el DataFrame, y Matplotlib convierte ese trabajo en gráficos que comunican.

Graficar no es decoración, es diagnóstico. La caída de diciembre en las ventas, la mínima proporción de devoluciones y la concentración de unidades en pocos productos top son hallazgos que solo aparecen al visualizar. También puedes crear una columna categórica nueva clasificando el monto total en alto, medio o bajo, y graficarla en otro pastel para ver cómo se distribuye el ticket de tus clientes.

Ahora te toca a ti: aplica este mismo flujo al dataset que elegiste, comparte tus gráficos en los comentarios y cuéntanos qué patrón inesperado encontraste.

Mario Alexander Vargas Celis

Estudiante

La **graficación** y el **análisis de resultados** son componentes clave en cualquier proceso de análisis de datos. Utilizando bibliotecas como **Matplotlib** o **Seaborn**, puedes visualizar los patrones y tendencias en los datos, lo que facilita la interpretación de los resultados. Aquí te explico algunos tipos de gráficos comunes y cómo analizar los resultados visualmente.

### 1. **Gráficos de líneas (Line Plot)**

El gráfico de líneas es ideal para visualizar la evolución de una variable a lo largo del tiempo o en relación con otra variable.

#### Ejemplo: Graficar una serie temporal de precios


import matplotlib.pyplot as plt

import pandas as pd



\# Crear datos de ejemplo

data = {'Día': \[1, 2, 3, 4, 5],

&#x20;       'Precio': \[100, 102, 101, 105, 107]}



df = pd.DataFrame(data)



\# Graficar

plt.plot(df\['Día'], df\['Precio'], marker='o')

plt.title('Evolución del Precio')

plt.xlabel('Día')

plt.ylabel('Precio')

plt.grid(True)

plt.show()

#### Análisis:

- **Tendencia**: Puedes observar si los precios están aumentando, disminuyendo o fluctuando.

- **Patrones**: Si el gráfico muestra fluctuaciones recurrentes, podrías investigar ciclos o estacionalidad.

### 2. **Gráficos de dispersión (Scatter Plot)**

El gráfico de dispersión es útil para analizar la relación entre dos variables continuas.

#### Ejemplo: Relación entre edad y salario


\# Crear datos de ejemplo

data = {'Edad': \[25, 30, 35, 40, 45],

&#x20;       'Salario': \[2000, 2500, 3000, 3500, 4000]}



df = pd.DataFrame(data)



\# Graficar

plt.scatter(df\['Edad'], df\['Salario'])

plt.title('Relación entre Edad y Salario')

plt.xlabel('Edad')

plt.ylabel('Salario')

plt.show()

#### Análisis:

- **Correlación**: Si observas que los puntos siguen una tendencia ascendente o descendente, esto sugiere una correlación positiva o negativa entre las variables.

- **Outliers**: Los puntos alejados del patrón general pueden indicar valores atípicos.

### 3. **Histogramas**

Un histograma muestra la distribución de una variable continua, útil para ver la forma de la distribución (simetría, sesgo, etc.).

#### Ejemplo: Distribución de la edad


\# Crear datos de ejemplo

edades = \[23, 24, 23, 30, 29, 25, 22, 30, 31, 24, 28]



\# Graficar

plt.hist(edades, bins=5, edgecolor='black')

plt.title('Distribución de la Edad')

plt.xlabel('Edad')

plt.ylabel('Frecuencia')

plt.show()

#### Análisis:

- **Sesgo**: Si los datos están sesgados a la derecha o izquierda, puede afectar cómo se interpretan los estadísticos como la media.

- **Distribución**: Ver si los datos son normales o siguen otra forma de distribución.

### 4. **Boxplots (Diagrama de Caja)**

Los **boxplots** son útiles para visualizar la dispersión de los datos, resúmenes estadísticos, y detectar outliers.

#### Ejemplo: Distribución de salarios


\# Crear datos de ejemplo

salarios = \[2000, 2200, 2100, 2300, 2800, 3200, 2500, 3000, 2700, 2900]



\# Graficar

plt.boxplot(salarios, vert=False)

plt.title('Distribución de Salarios')

plt.xlabel('Salario')

plt.show()

#### Análisis:

- **Rango intercuartílico**: El rango intercuartílico (entre el primer y tercer cuartil) muestra la dispersión central de los datos.

- **Outliers**: Los puntos fuera de los bigotes indican valores atípicos que podrían requerir atención especial.

### 5. **Gráficos de barras**

Los gráficos de barras son útiles para mostrar comparaciones entre diferentes categorías.

#### Ejemplo: Comparación de ventas en varias ciudades


\# Crear datos de ejemplo

ciudades = \['Ciudad A', 'Ciudad B', 'Ciudad C']

ventas = \[1000, 1500, 800]



\# Graficar

plt.bar(ciudades, ventas, color=\['blue', 'green', 'red'])

plt.title('Ventas por Ciudad')

plt.xlabel('Ciudad')

plt.ylabel('Ventas')

plt.show()

#### Análisis:

- **Comparación**: Es fácil ver qué categoría (en este caso, ciudad) tiene el valor más alto o bajo.

- **Patrones**: Si las barras tienen un patrón claro, podría haber alguna relación subyacente que vale la pena investigar.

### 6. **Gráficos de pastel (Pie Chart)**

Los gráficos de pastel se utilizan para mostrar la proporción de categorías dentro de un total.

#### Ejemplo: Distribución de mercado por producto


\# Crear datos de ejemplo

productos = \['Producto A', 'Producto B', 'Producto C']

participación = \[30, 45, 25]



\# Graficar

plt.pie(participación, labels=productos, autopct='%1.1f%%')

plt.title('Participación de Mercado por Producto')

plt.show()

#### Análisis:

- **Proporciones**: Se puede ver fácilmente qué categoría tiene la mayor o menor participación.

- **Balance**: Si el gráfico está equilibrado o dominado por una categoría, esto podría influir en decisiones de negocio.

### 7. **Subplots**

Puedes utilizar subplots para comparar múltiples gráficos en la misma figura.

#### Ejemplo: Gráfico de líneas y gráfico de barras en la misma figura


\# Crear datos de ejemplo

días = \[1, 2, 3, 4, 5]

ventas = \[100, 150, 200, 250, 300]

costos = \[90, 120, 180, 220, 260]



\# Crear subplots

fig, ax = plt.subplots(1, 2, figsize=(10, 5))



\# Gráfico de líneas

ax\[0].plot(días, ventas, marker='o', label='Ventas')

ax\[0].plot(días, costos, marker='x', label='Costos')

ax\[0].set\_title('Ventas y Costos')

ax\[0].set\_xlabel('Día')

ax\[0].set\_ylabel('Valor')

ax\[0].legend()



\# Gráfico de barras

ax\[1].bar(días, ventas, color='green')

ax\[1].set\_title('Ventas Diarias')

ax\[1].set\_xlabel('Día')

ax\[1].set\_ylabel('Ventas')



plt.tight\_layout()

plt.show()

### 8. **Análisis de resultados**

Una vez que hayas creado los gráficos, el análisis debe enfocarse en:

- **Identificar patrones**: Como tendencias crecientes, decrecientes o cíclicas.

- **Comparar variables**: Ver si existen relaciones entre diferentes variables.

- **Detectar outliers**: Valores extremos que podrían necesitar mayor investigación.

- **Interpretar la distribución**: Ver la forma de los datos para determinar si están sesgados o siguen una distribución normal.

### Conclusión

La visualización de datos con gráficos y el análisis de resultados son herramientas poderosas para entender los datos y comunicar hallazgos de manera clara y concisa. Con librerías como **Matplotlib** y **Seaborn**, puedes personalizar y analizar gráficamente cualquier conjunto de datos.

Kennet Rodriguez

Christopher Andrés Guano Valencia

David Lopez

Juan Jose Ramirez Lopez

Alejo Vera

Paola Alapizco

Gabriela Parada Puig

Juan Diego

Jesús Alberto Romero Hernández

Henry Mauricio Cepeda Chacon

Elias Echeverri

Saul Antonio Cerén Gálvez

Diego Ernesto Cuaycal Tirira

Rigoberto Maldonado

Edwin Daniel Méndez Amaya

ROBINSON ORTIZ SIERRA

Antonio Demarco Bonino

Visualización de ventas con Matplotlib

NumPy

Análisis de Datos con NumPy y Pandas en Python

Manipulación de Dimensiones en Arrays NumPy para Ciencia de Datos

Atributos, dtypes y estadística en arrays NumPy

Álgebra Lineal Aplicada con NumPy: Operaciones y Ejemplos Prácticos

Indexación y Slicing en NumPy para Análisis de Datos

Broadcasting y operaciones entre arrays en NumPy

Identificación y conteo de respuestas únicas con NumPy

Manipulación de Matrices y Arrays en NumPy: Transponer, Invertir y Aplanar

Análisis de Ventas Mensuales con NumPy: Transformaciones y Insights

Álgebra lineal con NumPy y linalg

Conexión de NumPy con Pandas y Matplotlib para Análisis de Datos

Pandas

Análisis de Datos con Pandas: Carga y Exploración de DataFrames

Creación de DataFrames con Pandas en Python

Análisis de Datos con Pandas: Series y DataFrames en RetailData

iloc vs loc en Pandas para filtrar datos

Manejo de Datos Faltantes en Pandas: Identificación y Tratamiento

Cómo crear columnas nuevas en Pandas

Análisis de Ventas con Pandas: Agrupaciones y Estadísticas

Filtrado de datos en pandas con condiciones

Creación y manejo de Pivot Tables en pandas

Fusión de DataFrames con Pandas: merge, concat y join

Fechas en Pandas: datetime, índice y filtros

Matplotlib

Gráficos de líneas y dispersión con Matplotlib

Personalización Avanzada de Gráficos en Matplotlib

Creación y Personalización de Gráficos con Matplotlib

Creación y personalización de histogramas y boxplots con Matplotlib

Visualización de Series Temporales con Python: Matplotlib y Pandas

Creación de Gráficos Combinados en Matplotlib con GridSpec

Proyecto de Análisis de Datos de Retail

Análisis de Datos con NumPy, Pandas y Matplotlib: Portafolio Final

Crear columnas y agrupar ventas en Pandas

Visualización de ventas con Matplotlib

Análisis de Datos con NumPy y Pandas en Proyectos Reales

Resumen