Creación y manejo de Pivot Tables en pandas

Clase 20 de 32 • Curso de Python para Ciencia de Datos

Contenido del curso

NumPy

Pandas

Matplotlib

Proyecto de Análisis de Datos de Retail

Tomar examen

Resumen

¿Qué son las Pivot Tables en pandas?

Las Pivot Tables son una herramienta poderosa y versátil que nos permite resumir y reorganizar columnas de datos crudos de un DataFrame de pandas. Gracias a ellas, podemos realizar cálculos estadísticos comunes como sumas, conteos y promedios, ayudándonos a descubrir patrones ocultos y obtener insights valiosos de nuestros datos originales.

Al utilizar Pivot Tables, puedes:

Resumir y reorganizar los datos.
Identificar patrones.
Comparar subgrupos de datos.

¿Cómo crear una Pivot Table?

Para crear una Pivot Table en pandas, debes seguir un proceso estructurado, especificando varios parámetros clave. Veamos cómo hacerlo paso a paso.

¿Cómo pasar la información al DataFrame?

El primer paso es definir el DataFrame que vamos a utilizar. Luego, especificaremos las columnas y los índices que deseamos tener en nuestra Pivot Table.

DataFrame inicial: Debemos tener un DataFrame con los datos que queremos analizar.
Columna de valores: Definimos la columna cuyo cálculo estadístico queremos realizar (por ejemplo, 'cantidad').
Índice: En lugar de usar un índice posicional (como 0, 1, 2), se puede utilizar una de las columnas como índice. Por ejemplo, 'country'.
Columnas: Incluir las columnas que deseas evaluar, como los 'stock codes'.
Función de cálculo: Determina la función que aplicarás, como la suma, para mostrar las sumatorias totales en el índice.

import pandas as pd

# Crear una pivot table
pivot_table = pd.pivot_table(
    data_frame, 
    values='cantidad', 
    index='country', 
    columns='stock code', 
    aggfunc='sum'
)

¿Cómo modificar las funciones agregadas?

Se pueden personalizar las funciones agregadas de nuestra Pivot Table según la necesidad del análisis.

En lugar de sumar, podemos calcular la media, por ejemplo:

# Modificar para utilizar la función de media
pivot_table = pd.pivot_table(
    data_frame, 
    values='cantidad', 
    index='country', 
    columns='stock code', 
    aggfunc='mean'
)

¿Cómo apilar y desapilar datos en DataFrames?

El apilamiento y desapilamiento de datos son técnicas útiles cuando necesitas cambiar la estructura de tu DataFrame para análisis más profundos o para ajustar la presentación de la información.

¿Qué es el método stack en pandas?

El método stack convierte el índice de un DataFrame en una columna, apilando los datos.

# Usar el método stack para apilar datos
stacked_df = original_df.stack()

¿Qué es el método unstack en pandas?

El unstack hace el proceso contrario al stack, transformando columnas en índices.

# Usar el método unstack para desapilar datos
unstacked_df = stacked_df.unstack()

Un paso más allá con Pivot Tables

Las Pivot Tables y los métodos de apilar y desapilar ofrecen posibilidades casi ilimitadas para el análisis de datos. Ahora no solo estás limitado a índices posicionales; puedes modificar y utilizar columnas para un análisis más profundo y personalizado.

¡Explora estas funcionalidades y descubre cómo pueden aportar valor en tus proyectos actuales o futuros! Si tienes alguna idea de cómo aplicarás estos conceptos en el análisis de retail o en otro tipo de proyectos, comparte tus reflexiones. Estaré encantado de leerte y seguir aprendiendo juntos.

Comentarios

Alberto Duque Villegas

student•

Las pivot tables (tablas dinámicas, en Excel) y los métodos stack y unstack pueden ser aplicados en nuestro df de ventas, según el interés de la audiencia a la que nos dirijamos:

Equipo gerencial: total de ventas por productos, por clientes o por región (para definir políticas o planes comerciales)
Proveeduría o fabricación: cantidades vendidas por producto (StockCode o Description) o por país (para asegurar disponibilidad del inventario)
Contabilidad o financiera: total de ventas por cliente, por facturas o por períodos: años, meses o días (para realizar conciliaciones bancarias, revisar cuentas de clientes o generar reportes tributarios o para la gerencia).
etc

Oriol Alejandro Manrique Pérez

student•

¡Excelente aporte! Descubrí que es posible hacer un sort, si se agrega alguna columna totalizada para presentar los datos organizados por de mayor a menor.

retail_year=retail_2011.pivot_table( values="TotalPrice", index='Country', columns='Month', aggfunc='sum')retail_year['TotalSales'] = retail_year.sum(axis=1)sort_retail_year=retail_year.sort_values(by='TotalSales',ascending=False)sort_retail_year

```python retail_year=retail_2011.pivot_table( values="TotalPrice", index='Country', columns='Month', aggfunc='sum' ) retail_year['TotalSales'] = retail_year.sum(axis=1) sort_retail_year=retail_year.sort_values(by='TotalSales',ascending=False) sort_retail_year


Esto permite presentar la tabla así

Paola Alapizco

student•

📝 Mis apuntes de la clase (parte 1)

Pivot table

Una pivot table es una herramienta para resumir y reorganizar columnas de un DataFrame de pandas, que además permite crear cálculos estadísticos (suma, conteos, promedios, etc.).

Básicamente transforma los valores de determinadas filas o columnas en indices de un nuevo DataFrame, la intersección de éstos es el valor resultante.

La nueva organización de los datos nos ayuda a encontrar patrones que pudieran estar ocultos en los datos crudos.

Función:

pivot_table(): Puede implementarse directo del DataFrame o a partir de la librería en si misma "pd.pivot_table()" con la diferencia de que ésta última recibe el DF como parámetro.

Parámetros:

data: Cuando se utiliza la función directamente de pandas.
values: Nombre de la columna o columnas (lista) que rellenarán la tabla a partir de la función de agregación.
index: Nombre de la columna donde se tomarán los valores para crear los indices del DataFrame resultante.
columns: Nombre de la columna donde se tomarán los valores las nuevas columnas del DataFrame resultante.
aggfunc: Función de agregación a aplicar.

Ejemplo # 1: Crear un resumen del promedio de ventas que tuvo cada país durante los doce meces del año 2011.

# Creamos una copia del DataFrame original
sales_2011 = retail_df.loc[retail_df["InvoiceDate"].dt.year == 2011, ::]

# Creamos la columna "Year" donde guardaremos la extracción de año a partir del "InvoiceDate"
sales_2011["Month"] = sales_2011["InvoiceDate"].dt.month

# Hacemos un pivot table 
sales_by_year = sales_2011.pivot_table(
  values="TotalPrice",
  index="Country",
  columns="Month",
  aggfunc="mean"
)

sales_by_year

Resultado:

Ejemplo #2: Crear un resumen del promedio de ventas que tuvo cada país durante los 4 trimestres del año 2011.

# Función para calcular cual es el trimestre del año
def quarter_of_year(value):
  if value in [1, 2, 3]:
    return "1st"
  elif value in [4, 5, 6]:
    return "2nd"
  elif value in [7, 8, 9]: 
    return "3rd"
  else:
    return "4th"



# Aplicamos la función para calcular el trimestre correspondiente 
sales_2011["Quarter"] = sales_2011["Month"].apply(quarter_of_year)

# Hacemos pivot table donde las columnas seran cada trimestre del 2011
quarter_sales = sales_2011.pivot_table(
  values="TotalPrice",
  index="Country",
  columns="Quarter",
  aggfunc="mean"
)
quarter_sales.head()

Resultado:

Juan Jose Echavarria

student•

Gran comentario

Juan Diego Vélez Betancourth

student•

Excelentes ejercicios y muy prácticos para el curso

Marina Barraza

student•

Usos Principales de las Pivot Tables

Resumir Datos: Permiten calcular agregaciones (como sumas, medias, conteos) y ver resultados resumidos en una tabla estructurada.
Reorganizar Datos: Facilitan la reorganización de datos para ver relaciones entre diferentes variables. Puedes pivotar filas en columnas y viceversa.
Comparar Datos: Ayudan a comparar datos en diferentes niveles de detalle, como por ejemplo ver las ventas por producto y por región en una sola tabla.
Visualizar Datos: Preparan datos para ser visualizados de manera más clara y significativa.

Andres Barra

student•

Apilada por producto, precio unitario, cantidad y total

Stock_descipcion_cant= sales_data[['StockCode', 'Description','Quantity','UnitPrice']].head(10) Stock_descipcion_cant['TotalPrice'] = Stock_descipcion_cant['UnitPrice'] * Stock_descipcion_cant['Quantity']

apilados = Stock_descipcion_cant.stack() print(apilados)

Ignacio Robles

student•

gracias! buena forma de ver filtrando por columnas.

Gustavo Rodriguez

student•

Aqui se pude ver como use la pívot table para identificar que vino tiene mayor cantidad de alcohol que otro

Andrés Sotelo Durán

student•

Si imprimimos

print(type(df_stacked))

Podemos ver que lo que obtenemos al hacer un stack de un dataframe es un objeto tipo Serie

GEORGE DARWIN GARZON MARIN

student•

Tiene cierto parecido a la elaboración de tablas dinámicas en excel

Saul Antonio Cerén Gálvez

student•

import pandas as pd

# 1. Filtramos específicamente el primer semestre de 2011

semestre_1 = df[(df['InvoiceDate'] >= '2011-01-01') & (df['InvoiceDate'] <= '2011-06-30')].copy()

print(f"Filas encontradas para el 1er semestre de 2011: {len(semestre_1)}")

# 2. Creamos la columna de Mes (numérico o nombre)

semestre_1['Mes'] = semestre_1['InvoiceDate'].dt.month_name()

# 3. Pivot Table: Productos vs Meses

# Para que la tabla no sea infinita, filtramos los 10 productos más vendidos

top_10_nombres = semestre_1.groupby('Description')['Quantity'].sum().nlargest(10).index

df_top = semestre_1[semestre_1['Description'].isin(top_10_nombres)]

tabla_pivot = df_top.pivot_table(

index='Description',

columns='Mes',

values='Quantity',

aggfunc='sum',

fill_value=0

)

# Ordenar los meses cronológicamente (opcional pero recomendado)

meses_orden = ['January', 'February', 'March', 'April', 'May', 'June']

tabla_pivot = tabla_pivot.reindex(columns=meses_orden)

print("\n--- PIVOT TABLE: TOP 10 PRODUCTOS (ENE-JUN 2011) ---")

print(tabla_pivot)

Filas encontradas para el 1er semestre de 2011: 201802

--- PIVOT TABLE: TOP 10 PRODUCTOS (ENE-JUN 2011) ---

Mes January February March April May \

Description

ASSORTED COLOUR BIRD ORNAMENT 1771 1667 2649 2560 3059

ASSORTED COLOURS SILK FAN 377 2260 3104 1966 4684

BROCADE RING PURSE 3181 398 3396 510 2209

JUMBO BAG RED RETROSPOT 2639 3078 5281 2452 3617

PACK OF 12 LONDON TISSUES 465 2725 3645 2226 1476

PACK OF 60 PINK PAISLEY CAKE CASES 757 1540 2697 2521 4055

PACK OF 72 RETROSPOT CAKE CASES 3409 2095 3975 2972 3465

SMALL POPCORN HOLDER 1809 2663 2798 1856 6848

WHITE HANGING HEART T-LIGHT HOLDER 5530 1874 1982 1907 4021

WORLD WAR 2 GLIDERS ASSTD DESIGNS 1492 3518 3888 10143 3893

Mes June

Description

ASSORTED COLOUR BIRD ORNAMENT 1484

ASSORTED COLOURS SILK FAN 3316

BROCADE RING PURSE 2989

JUMBO BAG RED RETROSPOT 3441

PACK OF 12 LONDON TISSUES 2343

PACK OF 60 PINK PAISLEY CAKE CASES 1481

PACK OF 72 RETROSPOT CAKE CASES 1862

SMALL POPCORN HOLDER 1127

WHITE HANGING HEART T-LIGHT HOLDER 1615

WORLD WAR 2 GLIDERS ASSTD DESIGNS 1978

Aplicar stack

tabla_stack = tabla_pivot.stack()

print("\n--- MÉTODO STACK (Formato Largo) ---")

# Mostramos los primeros 15 registros para ver cómo se apilaron los meses bajo cada producto

print(tabla_stack.head(15))

--- MÉTODO STACK (Formato Largo) ---

Description Mes

ASSORTED COLOUR BIRD ORNAMENT January 1771

February 1667

March 2649

April 2560

May 3059

June 1484

ASSORTED COLOURS SILK FAN January 377

February 2260

March 3104

April 1966

May 4684

June 3316

BROCADE RING PURSE January 3181

February 398

March 3396

dtype: int64

FABIAN PEREZ

student•

¿El método stack en pandas seria equivalente al unpivot en PowerQuery?

Alexander Ramirez

student•

Si compañero, sería su equivalente

Miguel Fernando Cruz Santiago

student•

Porque hariamos el stack a un dataFrame?

jesus manuel vergara arias

student•

No necesariamente hariamos stack al df original, primero debes de construir un df que cumpla con el objetivo de contener información que quieras contrastar sobre todo los datos, ejemplo, la cantidad de ventas de cierto producto (con un código asociado) en un pais determinado... Este es el ejemplo de la profe, crea una tabla pivote del df original, con los paises como indices, cuyos codigos de productos como las columnas y los valores son las cantidades distribuidas, al final si haces stack, obtienes información mas ordenada sobre la relación de esas variables.

  print(pivot_table.stack())
                       Quantity
Country     StockCode          
Australia   15036         600.0
            15056BL         3.0
            16161P        400.0
            16169E         25.0
            20665           6.0
...                         ...
Unspecified 85180A          2.0
            85180B          1.0
            85212          12.0
            85213          12.0
            85227          10.0
```  print(pivot\_table.stack())

&#x20;                      Quantity

Country     StockCode         &#x20;

Australia   15036         600.0

&#x20;           15056BL         3.0

&#x20;           16161P        400.0

&#x20;           16169E         25.0

&#x20;           20665           6.0

...                         ...

Unspecified 85180A          2.0

&#x20;           85180B          1.0

&#x20;           85212          12.0

&#x20;           85213          12.0

&#x20;           85227          10.0

Christopher Andrés Guano Valencia

student•

Además, de lo comentado por el compañero, agrego:

Para facilitar el análisis de datos, puede que la información de las filas estén mejor en columnas.
Preparación para un modelo de Machine Learning, ciertos modelos requieren la información estructura según lo establezca el algoritmo.
Visualización, igualmente que el primer punto, puede que sea más fácil de visualizar si está ordenado de manera diferente.
Limpieza de datos, en ciertas ocasiones la información faltante no se muestra porque faltan filas, al hacer stack, las columnas se autocompletan mostrando la información faltante.

Espero haberte ayudado. ¡Nunca pares de aprender! 🚀🚀

Maria del Mar Acosta Sanchez

student•

Un ejemplo podría ser:

pivot_table = retail_data.pivot_table( values='Total Price', index='Country', columns='PriceCategory', aggfunc='sum', fill_value=0) print("Tabla pivote original:")print(pivot_table)

Y ahora usando stack():

stacked_table = pivot_table.stack() print("\nTabla pivote apilada (stacked):")print(stacked_table)

Daniel Andres Rojas Paredes

student•

stack permite comvertir algo que es de indice simple a multi indice y unstack convertir algo que es multi indice a indise simple, siendo indice simple lo que emos visto hacta ahora en la mayorias de dataframes (columnas con una sola serie o filas con un solo tipo de informacion). multy indice seria por ejemplo cuando en una columna tenemos varias series, o lo que sucedia en el ejemplo de la clase anterior al hacer groupby por 2 categoria obteniendo filas compuestas. el nivel del indice comienza en 0 ciendo el mas exterior .

Gabriel Obregón

student•

1. Creación de una Tabla Pivote

pivot_table = pd.pivot_table(sales_data, values='Quantity', index='Country', columns='StockCode', aggfunc='sum')

print(pivot_table)

Descripción:

Se crea una tabla pivote utilizando pd.pivot_table, donde:
- values='Quantity' especifica que la columna Quantity se utiliza para los cálculos.
- index='Country' establece Country como las filas (índice).
- columns='StockCode' establece StockCode como las columnas.
- aggfunc='sum' agrega los datos sumando la cantidad (Quantity) para cada combinación de Country y StockCode.
La tabla pivote se imprime.

Resultado: Una tabla con:

Filas representando países.
Columnas representando códigos de producto (StockCode).
Valores representando la cantidad total vendida para cada código de producto en cada país. Las combinaciones faltantes se rellenan con NaN.

2. Creación de un DataFrame de Ejemplo

df = pd.DataFrame({

'A': ['foo', 'bar', 'baz'],

'B': [1, 2, 3],

'C': [4, 5, 6]

})

print(df)

Descripción:

Se crea un DataFrame simple df con tres columnas: A, B y C.
Las filas se rellenan con los datos proporcionados.

Resultado: Un DataFrame con tres filas y tres columnas:

A B C

0 foo 1 4

1 bar 2 5

2 baz 3 6

3. Apilar el DataFrame

df_stack = df.stack()

print(df_stack)

Descripción:

El método stack() transforma el DataFrame apilando las columnas en filas, creando una Serie con un índice jerárquico.
El nivel interno del índice corresponde a los nombres de las columnas originales, y el nivel externo al índice de las filas originales.

Resultado: Una Serie apilada donde cada valor está asociado con un par de índices (fila y columna original). Por ejemplo:

0 A foo

B 1

C 4

1 A bar

B 2

C 5

2 A baz

B 3

C 6

dtype: object

4. Desapilar la Serie Apilada

df_unstacked = df_stacked.unstack()

print(df_unstacked)

Descripción:

El método unstack() transforma la Serie apilada de nuevo en un DataFrame, revirtiendo la operación de stack().
El nivel externo del índice se convierte en filas, y el nivel interno en columnas.

Resultado: El DataFrame original es reconstruido:

A B C

0 foo 1 4

1 bar 2 5

2 baz 3 6

Daniel Humberto Ortiz Vargas

student•

stack es lo mismo que el metodo transponer ?

jesus manuel vergara arias

student•

Usando la pivot table, podemos ver la información más ordenada, ya que al aplicar stack al resultado de la profe obtenemos esto:

pivot_table = pd.pivot_table(df, index=['Country'], columns=['StockCode'], values=['Quantity'], aggfunc=np.sum)
print(pivot_table.stack())

  print(pivot_table.stack())
                       Quantity
Country     StockCode          
Australia   15036         600.0
            15056BL         3.0
            16161P        400.0
            16169E         25.0
            20665           6.0
...                         ...
Unspecified 85180A          2.0
            85180B          1.0
            85212          12.0
            85213          12.0
            85227          10.0
```pivot\_table = pd.pivot\_table(df, index=\['Country'], columns=\['StockCode'], values=\['Quantity'], aggfunc=np.sum)print(pivot\_table.stack())

Mario Alexander Vargas Celis

student•

En **Pandas**, la reestructuración de datos mediante las funciones pivot, pivot\_table, melt, y stack/unstack permite reorganizar y transformar **DataFrames** en diferentes formatos. Estas funciones son útiles para cambiar el formato de los datos, reorganizarlos o preparar resúmenes.

A continuación te explico cómo funcionan estas técnicas con ejemplos:

### 1. **pivot() para reorganizar columnas**

El método pivot() reorganiza los datos de un DataFrame al transformar columnas en índices, y los valores en filas.

#### Ejemplo:


import pandas as pd



\# Crear un DataFrame de ejemplo

df = pd.DataFrame({

&#x20;   'fecha': \['2023-01', '2023-02', '2023-01', '2023-02'],

&#x20;   'ciudad': \['Madrid', 'Madrid', 'Barcelona', 'Barcelona'],

&#x20;   'ventas': \[250, 300, 200, 210]

})



\# Reorganizar el DataFrame usando 'fecha' como índice, 'ciudad' como columnas y 'ventas' como valores

pivot\_df = df.pivot(index='fecha', columns='ciudad', values='ventas')

print(pivot\_df)

**Resultado:**


ciudad    Barcelona  Madrid

fecha                       &#x20;

2023-01      200.0   250.0

2023-02      210.0   300.0

### 2. **pivot\_table() para agregar datos**

La función pivot\_table() es similar a pivot(), pero permite realizar agregaciones si hay duplicados en los datos. Esto es útil cuando hay valores repetidos y deseas aplicar una función de agregación como sum(), mean(), etc.

#### Ejemplo con agregación:


\# Crear un DataFrame con datos repetidos

df = pd.DataFrame({

&#x20;   'fecha': \['2023-01', '2023-01', '2023-02', '2023-02'],

&#x20;   'ciudad': \['Madrid', 'Madrid', 'Barcelona', 'Barcelona'],

&#x20;   'ventas': \[250, 300, 200, 210]

})



\# Crear una tabla dinámica usando 'fecha' como índice, 'ciudad' como columnas y 'ventas' como valores, agregando con sum

pivot\_table\_df = df.pivot\_table(index='fecha', columns='ciudad', values='ventas', aggfunc='sum')

print(pivot\_table\_df)

**Resultado:**


ciudad    Barcelona  Madrid

fecha                       &#x20;

2023-01      200.0    550.0

2023-02      210.0      NaN

### 3. **melt() para transformar de formato ancho a largo**

El método melt() transforma un **DataFrame** de formato ancho (donde los datos están en columnas) a formato largo (donde los datos se combinan en una columna única de valores).

#### Ejemplo:


\# Crear un DataFrame en formato ancho

df\_wide = pd.DataFrame({

&#x20;   'fecha': \['2023-01', '2023-02'],

&#x20;   'Madrid': \[250, 300],

&#x20;   'Barcelona': \[200, 210]

})



\# Convertir el DataFrame a formato largo usando melt()

df\_long = pd.melt(df\_wide, id\_vars='fecha', var\_name='ciudad', value\_name='ventas')

print(df\_long)

**Resultado:**


&#x20;     fecha      ciudad  ventas

0  2023-01      Madrid     250

1  2023-02      Madrid     300

2  2023-01   Barcelona     200

3  2023-02   Barcelona     210

### 4. **stack() y unstack() para reestructuración de índices jerárquicos**

stack() y unstack() son métodos que permiten manipular índices jerárquicos (índices multi-nivel).

- **stack()** convierte columnas en filas.

- **unstack()** convierte filas en columnas.

#### Ejemplo de stack():


\# Crear un DataFrame con multi-índice

df\_multi = df.pivot(index='fecha', columns='ciudad', values='ventas')



\# Aplicar stack() para convertir las columnas en índices

stacked\_df = df\_multi.stack()

print(stacked\_df)

**Resultado:**


fecha     ciudad   &#x20;

2023-01   Barcelona    200

&#x20;          Madrid      250

2023-02   Barcelona    210

&#x20;          Madrid      300

dtype: int64

#### Ejemplo de unstack():


\# Aplicar unstack() para convertir los índices de nuevo en columnas

unstacked\_df = stacked\_df.unstack()

print(unstacked\_df)

**Resultado:**


ciudad    Barcelona  Madrid

fecha                       &#x20;

2023-01      200.0   250.0

2023-02      210.0   300.0

### 5. **wide\_to\_long() para transformar varias columnas en una**

La función wide\_to\_long() es útil cuando tienes varias columnas que representan variables relacionadas y deseas convertirlas en una sola.

#### Ejemplo:


\# Crear un DataFrame con varias columnas

df\_wide = pd.DataFrame({

&#x20;   'id': \[1, 2],

&#x20;   'nombre': \['Ana', 'Pedro'],

&#x20;   'edad\_2021': \[25, 30],

&#x20;   'edad\_2022': \[26, 31]

})



\# Convertir el DataFrame a formato largo usando wide\_to\_long()

df\_long = pd.wide\_to\_long(df\_wide, stubnames='edad', i='id', j='anio')

print(df\_long)

**Resultado:**


&#x20;        nombre  edad

id anio               &#x20;

1  2021     Ana    25

&#x20;  2022     Ana    26

2  2021   Pedro    30

&#x20;  2022   Pedro    31

### 6. **transpose() para intercambiar filas y columnas**

El método transpose() intercambia filas por columnas y viceversa.

#### Ejemplo:


\# Transponer el DataFrame

df\_transposed = df\_wide.transpose()

print(df\_transposed)

**Resultado:**


&#x20;               0      1

id              1      2

nombre        Ana  Pedro

edad\_2021      25     30

edad\_2022      26     31

### 7. **set\_index() y reset\_index() para trabajar con índices**

El método set\_index() permite establecer una columna como índice, y reset\_index() revierte la operación para convertir el índice en columna.

#### Ejemplo con set\_index():


\# Establecer la columna 'fecha' como índice

df\_indexed = df.set\_index('fecha')

print(df\_indexed)

**Resultado:**


&#x20;         ciudad  ventas

fecha                   &#x20;

2023-01   Madrid     250

2023-01   Madrid     300

2023-02   Barcelona     200

2023-02   Barcelona     210

#### Ejemplo con reset\_index():


\# Restablecer el índice como columna

df\_reset = df\_indexed.reset\_index()

print(df\_reset)

**Resultado:**


&#x20;     fecha      ciudad  ventas

0  2023-01      Madrid     250

1  2023-01      Madrid     300

2  2023-02   Barcelona     200

3  2023-02   Barcelona     210

### Resumen de funciones:

- **pivot()**: Convierte columnas en filas según un índice.

- **pivot\_table()**: Similar a pivot(), pero permite agregaciones.

- **melt()**: Transforma de formato ancho a largo.

- **stack()**: Convierte columnas en índices.

- **unstack()**: Convierte índices en columnas.

- **wide\_to\_long()**: Convierte varias columnas relacionadas en una columna única.

- **transpose()**: Intercambia filas y columnas.

- **set\_index()**: Establece una columna como índice.

- **reset\_index()**: Convierte un índice en columna.

Estas funciones permiten transformar los datos en diferentes formas según tus necesidades. Si tienes alguna duda sobre cómo aplicarlas en tu caso, ¡déjame saber!

Javier Ladino

student•

Las pivot tables son muy flexibles y pueden ser adaptadas para cualquier tipo de análisis, dependiendo de las preguntas de negocio que quieras responder. Combinando estas tablas con gráficos y análisis adicionales, puedes extraer conclusiones valiosas sobre el comportamiento de las ventas, la gestión de inventario y la relación con los clientes.

Análisis de Ventas por Producto Objetivo: Identificar cuáles productos generan más ingresos.

pivot_sales_product = sales_data.pivot_table(
    values='TotalPrice',
    index='Description',
    aggfunc='sum'
).sort_values(by='TotalPrice', ascending=False)

print(pivot_sales_product.head())

Análisis de Ventas por País Objetivo: Entender en qué países se realizan más ventas.

pivot_sales_country = sales_data.pivot_table(
    values='TotalPrice',
    index='Country',
    aggfunc='sum'
).sort_values(by='TotalPrice', ascending=False)

print(pivot_sales_country.head())

Rendimiento de Ventas por Cliente Objetivo: Analizar qué clientes son los más valiosos en términos de compras.

pivot_sales_customer = sales_data.pivot_table(
    values='TotalPrice',
    index='CustomerID',
    aggfunc='sum'
).sort_values(by='TotalPrice', ascending=False)

print(pivot_sales_customer.head())

Jhon Freddy Tavera Blandon

student•

df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

df['Date'] = df['InvoiceDate'].dt.date

pivot_table_df = df.pivot_table(index='Date', columns=['Country', 'Description'], values='Quantity', aggfunc='sum')

stacked_df = pivot_table_df.stack()

unstacked_df = stacked_df.unstack()

print("Tabla dinámica original:")
print(pivot_table_df.head(), "\n")

print("Datos apilados (stacked):")
print(stacked_df.head(), "\n")

print("Datos desapilados (unstacked):")
print(unstacked_df.head())

Diego Andrés Lopez Rodriguez

student•

# Creamos una copia del DataFrame original
sales_2011 = retail_df.loc[retail_df["InvoiceDate"].dt.year == 2011, ::]

# Creamos la columna "Year" donde guardaremos la extracción de año a partir del "InvoiceDate"
sales_2011["Month"] = sales_2011["InvoiceDate"].dt.month

# Hacemos un pivot table 
sales_by_year = sales_2011.pivot_table(
  values="TotalPrice",
  index="Country",
  columns="Month",
  aggfunc="mean"
)

sales_by_year

# Función para calcular cual es el trimestre del año
def quarter_of_year(value):
  if value in [1, 2, 3]:
    return "1st"
  elif value in [4, 5, 6]:
    return "2nd"
  elif value in [7, 8, 9]: 
    return "3rd"
  else:
    return "4th"



# Aplicamos la función para calcular el trimestre correspondiente 
sales_2011["Quarter"] = sales_2011["Month"].apply(quarter_of_year)

# Hacemos pivot table donde las columnas seran cada trimestre del 2011
quarter_sales = sales_2011.pivot_table(
  values="TotalPrice",
  index="Country",
  columns="Quarter",
  aggfunc="mean"
)
quarter_sales.head()

  print(pivot_table.stack())
                       Quantity
Country     StockCode          
Australia   15036         600.0
            15056BL         3.0
            16161P        400.0
            16169E         25.0
            20665           6.0
...                         ...
Unspecified 85180A          2.0
            85180B          1.0
            85212          12.0
            85213          12.0
            85227          10.0
```  print(pivot\_table.stack())

&#x20;                      Quantity

Country     StockCode         &#x20;

Australia   15036         600.0

&#x20;           15056BL         3.0

&#x20;           16161P        400.0

&#x20;           16169E         25.0

&#x20;           20665           6.0

...                         ...

Unspecified 85180A          2.0

&#x20;           85180B          1.0

&#x20;           85212          12.0

&#x20;           85213          12.0

&#x20;           85227          10.0

pivot_table = pd.pivot_table(df, index=['Country'], columns=['StockCode'], values=['Quantity'], aggfunc=np.sum)
print(pivot_table.stack())

  print(pivot_table.stack())
                       Quantity
Country     StockCode          
Australia   15036         600.0
            15056BL         3.0
            16161P        400.0
            16169E         25.0
            20665           6.0
...                         ...
Unspecified 85180A          2.0
            85180B          1.0
            85212          12.0
            85213          12.0
            85227          10.0
```pivot\_table = pd.pivot\_table(df, index=\['Country'], columns=\['StockCode'], values=\['Quantity'], aggfunc=np.sum)print(pivot\_table.stack())

import pandas as pd

\# Crear un DataFrame de ejemplo

df = pd.DataFrame({

&#x20;   'fecha': \['2023-01', '2023-02', '2023-01', '2023-02'],

&#x20;   'ciudad': \['Madrid', 'Madrid', 'Barcelona', 'Barcelona'],

&#x20;   'ventas': \[250, 300, 200, 210]

})

\# Reorganizar el DataFrame usando 'fecha' como índice, 'ciudad' como columnas y 'ventas' como valores

pivot\_df = df.pivot(index='fecha', columns='ciudad', values='ventas')

print(pivot\_df)

\# Crear un DataFrame con datos repetidos

df = pd.DataFrame({

&#x20;   'fecha': \['2023-01', '2023-01', '2023-02', '2023-02'],

&#x20;   'ciudad': \['Madrid', 'Madrid', 'Barcelona', 'Barcelona'],

&#x20;   'ventas': \[250, 300, 200, 210]

})

\# Crear una tabla dinámica usando 'fecha' como índice, 'ciudad' como columnas y 'ventas' como valores, agregando con sum

pivot\_table\_df = df.pivot\_table(index='fecha', columns='ciudad', values='ventas', aggfunc='sum')

print(pivot\_table\_df)

\# Crear un DataFrame en formato ancho

df\_wide = pd.DataFrame({

&#x20;   'fecha': \['2023-01', '2023-02'],

&#x20;   'Madrid': \[250, 300],

&#x20;   'Barcelona': \[200, 210]

})

\# Convertir el DataFrame a formato largo usando melt()

df\_long = pd.melt(df\_wide, id\_vars='fecha', var\_name='ciudad', value\_name='ventas')

print(df\_long)

\# Crear un DataFrame con multi-índice

df\_multi = df.pivot(index='fecha', columns='ciudad', values='ventas')

\# Aplicar stack() para convertir las columnas en índices

stacked\_df = df\_multi.stack()

print(stacked\_df)

\# Crear un DataFrame con varias columnas

df\_wide = pd.DataFrame({

&#x20;   'id': \[1, 2],

&#x20;   'nombre': \['Ana', 'Pedro'],

&#x20;   'edad\_2021': \[25, 30],

&#x20;   'edad\_2022': \[26, 31]

})

\# Convertir el DataFrame a formato largo usando wide\_to\_long()

df\_long = pd.wide\_to\_long(df\_wide, stubnames='edad', i='id', j='anio')

print(df\_long)

df['InvoiceDate'] = pd.to_datetime(df['InvoiceDate'])

df['Date'] = df['InvoiceDate'].dt.date

pivot_table_df = df.pivot_table(index='Date', columns=['Country', 'Description'], values='Quantity', aggfunc='sum')

stacked_df = pivot_table_df.stack()

unstacked_df = stacked_df.unstack()

print("Tabla dinámica original:")
print(pivot_table_df.head(), "\n")

print("Datos apilados (stacked):")
print(stacked_df.head(), "\n")

print("Datos desapilados (unstacked):")
print(unstacked_df.head())

Creación y manejo de Pivot Tables en pandas

NumPy

Análisis de Datos con NumPy y Pandas en Python

Manipulación de Dimensiones en Arrays NumPy para Ciencia de Datos

Manipulación de Arrays NumPy para Análisis de Datos en Python

Álgebra Lineal Aplicada con NumPy: Operaciones y Ejemplos Prácticos

Indexación y Slicing en NumPy para Análisis de Datos

Operaciones con Arrays en NumPy: Broadcasting, Concatenación y Más

Identificación y conteo de respuestas únicas con NumPy

Manipulación de Matrices y Arrays en NumPy: Transponer, Invertir y Aplanar

Análisis de Ventas Mensuales con NumPy: Transformaciones y Insights

Operaciones de Álgebra Lineal con NumPy en Python

Conexión de NumPy con Pandas y Matplotlib para Análisis de Datos

Pandas

Análisis de Datos con Pandas: Carga y Exploración de DataFrames

Creación de DataFrames con Pandas en Python

Análisis de Datos con Pandas: Series y DataFrames en RetailData

Selección de Datos en Pandas: Uso de iLoc y loc

Manejo de Datos Faltantes en Pandas: Identificación y Tratamiento

Transformaciones y Manipulación de Datos con Pandas en Python

Análisis de Ventas con Pandas: Agrupaciones y Estadísticas

Filtrado de Datos en Pandas para Análisis Efectivo