Análisis de Ventas con Pandas: Agrupaciones y Estadísticas

Curso de Python para Ciencia de Datos

Contenido del curso

NumPy

Pandas

Matplotlib

Proyecto de Análisis de Datos de Retail

Tomar examen

Análisis de Ventas con Pandas: Agrupaciones y Estadísticas

Resumen

¿Cómo analizar datos de ventas utilizando Pandas?

Analizar datos de ventas puede parecer una tarea titánica, especialmente cuando hablamos de grandes volúmenes de información. Afortunadamente, Pandas, una biblioteca poderosa de Python, nos proporciona herramientas eficaces para realizar este tipo de análisis de una manera simplificada y eficaz. Hoy exploraremos cómo agrupar y analizar datos de ventas utilizando el método group by de Pandas.

¿Qué es la distribución de frecuencias y cómo se obtiene?

Obtener la distribución de frecuencias es el primer paso para entender cómo se distribuyen los datos. Para realizarlo:

Selecciona la columna de interés, como Country.
Utiliza el DataFrame para contar los valores únicos de esa columna.

country_counts = df['Country'].value_counts()
print(country_counts)

Este sencillo código te mostrará cuántas ventas se registraron en cada país, un paso crucial para cualquier análisis más avanzado.

¿Cómo se agrupan los datos para obtener la suma total?

Después de entender la distribución de frecuencias, el siguiente paso es agrupar los datos para calcular la suma total de ventas por país:

Utiliza la función group by en conjunto con sum.
Agrupa los datos por país y calcula la suma de la cantidad de artículos vendidos.

country_totals = df.groupby('Country')['Quantity'].sum()
print(country_totals)

Con este enfoque, podrás visualizar rápidamente cuántos productos han sido vendidos en cada país.

¿Cómo se calculan estadísticas adicionales como la media?

Para un análisis más profundo, calcular estadísticas como la media de precios unitarios puede ofrecer información valiosa:

Agrupa nuevamente los datos por país.
Calcula tanto la suma como la media de los precios unitarios.

country_stats = df.groupby('Country')['UnitPrice'].agg(['sum', 'mean'])
print(country_stats)

Este código mostrará tanto la suma como la media del precio unitario por cada país, permitiéndote comparar los valores de una manera más detallada.

¿Cómo agrupar usando múltiples columnas?

A veces, un solo nivel de agrupación no es suficiente. Si deseas entender el comportamiento de las ventas no solo por país, sino también por stock, sigue estos pasos:

Agrupa los datos por Country y StockCode.
Calcula la suma de la cantidad para cada combinación de país y stock.

country_stock_totals = df.groupby(['Country', 'StockCode'])['Quantity'].sum()
print(country_stock_totals)

Este enfoque te dará una visión más granular de las ventas, desglosando no solo por región, sino también por cada producto específico.

¿Cómo calcular el ingreso total por país?

El cálculo del ingresos totales depende de multiplicar la cantidad de productos vendidos por su precio unitario:

Crea una función que calcule el ingreso total para un grupo.
Aplica esta función después de agrupar los datos por país.

def total_revenue(group):
    return (group['Quantity'] * group['UnitPrice']).sum()

country_revenue = df.groupby('Country').apply(total_revenue)
print(country_revenue)

Este enfoque te mostrará el ingreso total generado por las ventas en cada país.

¿Cuál es el ejercicio para practicar y reforzar lo aprendido?

Como reto final, intenta determinar cuáles son los tres mejores y peores países en cuanto a ventas totales utilizando Pandas. Los resultados te sorprenderán y te ayudarán a entender mejor el poder del análisis de datos:

Calcula los ingresos totales.
Ordena los resultados de mayor a menor.
Extrae el top 3 de mejores y peores países.

La práctica constante con ejercicios como este te llevará a dominar Pandas, aumentando significativamente tus habilidades de análisis de datos. ¡Sigue adelante!

Mario Alexander Vargas Celis

Estudiante

En **Pandas**, la función groupby() se utiliza para agrupar datos en un DataFrame según una o más columnas. Esta función es muy poderosa y se combina comúnmente con operaciones de agregación, como sumas, promedios, conteos, entre otros.

A continuación te explico cómo usar groupby() con ejemplos:

### 1. **Agrupar y aplicar una función de agregación**

El uso más común de groupby() es agrupar los datos por una columna y aplicar una función de agregación como sum(), mean(), count(), etc.

#### Ejemplo básico:


import pandas as pd



\# Crear un DataFrame de ejemplo

data = {

&#x20;   'nombre': \['Ana', 'Juan', 'Pedro', 'Ana', 'Juan', 'Pedro'],

&#x20;   'ciudad': \['Madrid', 'Barcelona', 'Sevilla', 'Madrid', 'Barcelona', 'Sevilla'],

&#x20;   'ventas': \[200, 150, 100, 250, 300, 120],

&#x20;   'anio': \[2021, 2021, 2021, 2022, 2022, 2022]

}

df = pd.DataFrame(data)



\# Agrupar por la columna 'nombre' y sumar las ventas

resultado = df.groupby('nombre')\['ventas'].sum()

print(resultado)

**Resultado:**


nombre

Ana      450

Juan     450

Pedro    220

Name: ventas, dtype: int64

### 2. **Agrupar por múltiples columnas**

Puedes agrupar los datos por más de una columna para realizar análisis más complejos.


\# Agrupar por 'nombre' y 'ciudad' y calcular el promedio de ventas

resultado = df.groupby(\['nombre', 'ciudad'])\['ventas'].mean()

print(resultado)

**Resultado:**


nombre  ciudad   &#x20;

Ana     Madrid        225.0

Juan    Barcelona     225.0

Pedro   Sevilla       110.0

Name: ventas, dtype: float64

### 3. **Aplicar varias funciones de agregación**

Puedes aplicar múltiples funciones de agregación al mismo tiempo utilizando el método agg().


\# Agrupar por 'ciudad' y aplicar múltiples funciones de agregación

resultado = df.groupby('ciudad')\['ventas'].agg(\['sum', 'mean', 'max', 'min'])

print(resultado)

**Resultado:**


&#x20;            sum   mean  max  min

ciudad                            &#x20;

Barcelona    450  225.0  300  150

Madrid       450  225.0  250  200

Sevilla      220  110.0  120  100

### 4. **Filtrar resultados después de agrupar**

Puedes filtrar los grupos después de agrupar usando filter(), que te permite aplicar una condición para eliminar grupos específicos.


\# Filtrar ciudades donde la suma de ventas es mayor a 300

resultado = df.groupby('ciudad').filter(lambda x: x\['ventas'].sum() > 300)

print(resultado)

**Resultado:**


&#x20;  nombre      ciudad  ventas  anio

0    Ana       Madrid     200  2021

1   Juan   Barcelona     150  2021

3    Ana       Madrid     250  2022

4   Juan   Barcelona     300  2022

### 5. **Agrupación y conteo**

Si deseas contar el número de ocurrencias en cada grupo, puedes usar count() o size().


\# Contar el número de ventas por cada ciudad

resultado = df.groupby('ciudad').size()

print(resultado)

**Resultado:**


ciudad

Barcelona    2

Madrid       2

Sevilla      2

dtype: int64

### 6. **Iterar sobre grupos**

Puedes iterar sobre los grupos formados por groupby() usando un bucle for. Cada iteración te da el nombre del grupo y el sub-DataFrame correspondiente.


\# Iterar sobre los grupos por 'nombre'

for nombre, grupo in df.groupby('nombre'):

&#x20;   print(f"Nombre: {nombre}")

&#x20;   print(grupo)

**Resultado:**


Nombre: Ana

&#x20; nombre  ciudad  ventas  anio

0    Ana  Madrid     200  2021

3    Ana  Madrid     250  2022

Nombre: Juan

&#x20; nombre      ciudad  ventas  anio

1   Juan   Barcelona     150  2021

4   Juan   Barcelona     300  2022

Nombre: Pedro

&#x20; nombre   ciudad  ventas  anio

2  Pedro  Sevilla     100  2021

5  Pedro  Sevilla     120  2022

### 7. **Agrupar y rellenar valores faltantes**

Si tienes valores faltantes, puedes usar groupby() junto con transform() para aplicar funciones sobre los grupos y rellenar esos valores.


\# Rellenar valores faltantes con la media del grupo

df\['ventas'] = df.groupby('ciudad')\['ventas'].transform(lambda x: x.fillna(x.mean()))

print(df)

### 8. **Agrupaciones con varias columnas y múltiples operaciones**

Si necesitas realizar varias operaciones en columnas diferentes, puedes usar agg() para especificar las funciones para cada columna.


\# Agrupar por 'anio' y aplicar funciones diferentes a 'ventas' y 'anio'

resultado = df.groupby('anio').agg({

&#x20;   'ventas': \['sum', 'mean'],

&#x20;   'anio': 'count'

})

print(resultado)

### 9. **Restablecer el índice después de groupby()**

A veces, después de agrupar, el índice del resultado puede no ser el esperado. Puedes restablecer el índice con reset\_index().


\# Agrupar por 'nombre' y restablecer el índice

resultado = df.groupby('nombre')\['ventas'].sum().reset\_index()

print(resultado)

**Resultado:**


&#x20;  nombre  ventas

0     Ana     450

1    Juan     450

2   Pedro     220

Estos son algunos de los usos más comunes de groupby() en **Pandas** para trabajar con datos agrupados. Si tienes algún caso específico o más preguntas sobre esto, no dudes en preguntar.

Antonio Demarco Bonino

David Lopez

Erick Infante

Rubik Adams

Abel Castañeda Fandiño

Alvaro Jose Florez Rangel

Javier Ladino

•

RICARDO CASTRILLON RAMIREZ

Rebeca Pedrozo

Paola Alapizco

HEDILBERTO ORTIZ HERNANDEZ

Elías Vilcachagua Roque

Leidy Katherin

Víctor Alexis Matos Ramírez

Humberto Cruz

Elias Echeverri

alejandro sobrevilla

Alejandro Sabogal

Jhan Daniel Parra Hernández

Análisis de Ventas con Pandas: Agrupaciones y Estadísticas

NumPy

Análisis de Datos con NumPy y Pandas en Python

Manipulación de Dimensiones en Arrays NumPy para Ciencia de Datos

Atributos, dtypes y estadística en arrays NumPy

Álgebra Lineal Aplicada con NumPy: Operaciones y Ejemplos Prácticos

Indexación y Slicing en NumPy para Análisis de Datos

Broadcasting y operaciones entre arrays en NumPy

Identificación y conteo de respuestas únicas con NumPy

Manipulación de Matrices y Arrays en NumPy: Transponer, Invertir y Aplanar

Análisis de Ventas Mensuales con NumPy: Transformaciones y Insights

Álgebra lineal con NumPy y linalg

Conexión de NumPy con Pandas y Matplotlib para Análisis de Datos

Pandas

Análisis de Datos con Pandas: Carga y Exploración de DataFrames

Creación de DataFrames con Pandas en Python

Análisis de Datos con Pandas: Series y DataFrames en RetailData

iloc vs loc en Pandas para filtrar datos

Manejo de Datos Faltantes en Pandas: Identificación y Tratamiento

Cómo crear columnas nuevas en Pandas