Creación y manejo de Pivot Tables en pandas

Curso de Python para Ciencia de Datos

Contenido del curso

NumPy

Pandas

Matplotlib

Proyecto de Análisis de Datos de Retail

Tomar examen

Creación y manejo de Pivot Tables en pandas

Resumen

¿Qué son las Pivot Tables en pandas?

Las Pivot Tables son una herramienta poderosa y versátil que nos permite resumir y reorganizar columnas de datos crudos de un DataFrame de pandas. Gracias a ellas, podemos realizar cálculos estadísticos comunes como sumas, conteos y promedios, ayudándonos a descubrir patrones ocultos y obtener insights valiosos de nuestros datos originales.

Al utilizar Pivot Tables, puedes:

Resumir y reorganizar los datos.
Identificar patrones.
Comparar subgrupos de datos.

¿Cómo crear una Pivot Table?

Para crear una Pivot Table en pandas, debes seguir un proceso estructurado, especificando varios parámetros clave. Veamos cómo hacerlo paso a paso.

¿Cómo pasar la información al DataFrame?

El primer paso es definir el DataFrame que vamos a utilizar. Luego, especificaremos las columnas y los índices que deseamos tener en nuestra Pivot Table.

DataFrame inicial: Debemos tener un DataFrame con los datos que queremos analizar.
Columna de valores: Definimos la columna cuyo cálculo estadístico queremos realizar (por ejemplo, 'cantidad').
Índice: En lugar de usar un índice posicional (como 0, 1, 2), se puede utilizar una de las columnas como índice. Por ejemplo, 'country'.
Columnas: Incluir las columnas que deseas evaluar, como los 'stock codes'.
Función de cálculo: Determina la función que aplicarás, como la suma, para mostrar las sumatorias totales en el índice.

import pandas as pd

# Crear una pivot table
pivot_table = pd.pivot_table(
    data_frame, 
    values='cantidad', 
    index='country', 
    columns='stock code', 
    aggfunc='sum'
)

¿Cómo modificar las funciones agregadas?

Se pueden personalizar las funciones agregadas de nuestra Pivot Table según la necesidad del análisis.

En lugar de sumar, podemos calcular la media, por ejemplo:

# Modificar para utilizar la función de media
pivot_table = pd.pivot_table(
    data_frame, 
    values='cantidad', 
    index='country', 
    columns='stock code', 
    aggfunc='mean'
)

¿Cómo apilar y desapilar datos en DataFrames?

El apilamiento y desapilamiento de datos son técnicas útiles cuando necesitas cambiar la estructura de tu DataFrame para análisis más profundos o para ajustar la presentación de la información.

¿Qué es el método stack en pandas?

El método stack convierte el índice de un DataFrame en una columna, apilando los datos.

# Usar el método stack para apilar datos
stacked_df = original_df.stack()

¿Qué es el método unstack en pandas?

El unstack hace el proceso contrario al stack, transformando columnas en índices.

# Usar el método unstack para desapilar datos
unstacked_df = stacked_df.unstack()

Un paso más allá con Pivot Tables

Las Pivot Tables y los métodos de apilar y desapilar ofrecen posibilidades casi ilimitadas para el análisis de datos. Ahora no solo estás limitado a índices posicionales; puedes modificar y utilizar columnas para un análisis más profundo y personalizado.

¡Explora estas funcionalidades y descubre cómo pueden aportar valor en tus proyectos actuales o futuros! Si tienes alguna idea de cómo aplicarás estos conceptos en el análisis de retail o en otro tipo de proyectos, comparte tus reflexiones. Estaré encantado de leerte y seguir aprendiendo juntos.

Mario Alexander Vargas Celis

Estudiante

En **Pandas**, la reestructuración de datos mediante las funciones pivot, pivot\_table, melt, y stack/unstack permite reorganizar y transformar **DataFrames** en diferentes formatos. Estas funciones son útiles para cambiar el formato de los datos, reorganizarlos o preparar resúmenes.

A continuación te explico cómo funcionan estas técnicas con ejemplos:

### 1. **pivot() para reorganizar columnas**

El método pivot() reorganiza los datos de un DataFrame al transformar columnas en índices, y los valores en filas.

#### Ejemplo:


import pandas as pd



\# Crear un DataFrame de ejemplo

df = pd.DataFrame({

&#x20;   'fecha': \['2023-01', '2023-02', '2023-01', '2023-02'],

&#x20;   'ciudad': \['Madrid', 'Madrid', 'Barcelona', 'Barcelona'],

&#x20;   'ventas': \[250, 300, 200, 210]

})



\# Reorganizar el DataFrame usando 'fecha' como índice, 'ciudad' como columnas y 'ventas' como valores

pivot\_df = df.pivot(index='fecha', columns='ciudad', values='ventas')

print(pivot\_df)

**Resultado:**


ciudad    Barcelona  Madrid

fecha                       &#x20;

2023-01      200.0   250.0

2023-02      210.0   300.0

### 2. **pivot\_table() para agregar datos**

La función pivot\_table() es similar a pivot(), pero permite realizar agregaciones si hay duplicados en los datos. Esto es útil cuando hay valores repetidos y deseas aplicar una función de agregación como sum(), mean(), etc.

#### Ejemplo con agregación:


\# Crear un DataFrame con datos repetidos

df = pd.DataFrame({

&#x20;   'fecha': \['2023-01', '2023-01', '2023-02', '2023-02'],

&#x20;   'ciudad': \['Madrid', 'Madrid', 'Barcelona', 'Barcelona'],

&#x20;   'ventas': \[250, 300, 200, 210]

})



\# Crear una tabla dinámica usando 'fecha' como índice, 'ciudad' como columnas y 'ventas' como valores, agregando con sum

pivot\_table\_df = df.pivot\_table(index='fecha', columns='ciudad', values='ventas', aggfunc='sum')

print(pivot\_table\_df)

**Resultado:**


ciudad    Barcelona  Madrid

fecha                       &#x20;

2023-01      200.0    550.0

2023-02      210.0      NaN

### 3. **melt() para transformar de formato ancho a largo**

El método melt() transforma un **DataFrame** de formato ancho (donde los datos están en columnas) a formato largo (donde los datos se combinan en una columna única de valores).

#### Ejemplo:


\# Crear un DataFrame en formato ancho

df\_wide = pd.DataFrame({

&#x20;   'fecha': \['2023-01', '2023-02'],

&#x20;   'Madrid': \[250, 300],

&#x20;   'Barcelona': \[200, 210]

})



\# Convertir el DataFrame a formato largo usando melt()

df\_long = pd.melt(df\_wide, id\_vars='fecha', var\_name='ciudad', value\_name='ventas')

print(df\_long)

**Resultado:**


&#x20;     fecha      ciudad  ventas

0  2023-01      Madrid     250

1  2023-02      Madrid     300

2  2023-01   Barcelona     200

3  2023-02   Barcelona     210

### 4. **stack() y unstack() para reestructuración de índices jerárquicos**

stack() y unstack() son métodos que permiten manipular índices jerárquicos (índices multi-nivel).

- **stack()** convierte columnas en filas.

- **unstack()** convierte filas en columnas.

#### Ejemplo de stack():


\# Crear un DataFrame con multi-índice

df\_multi = df.pivot(index='fecha', columns='ciudad', values='ventas')



\# Aplicar stack() para convertir las columnas en índices

stacked\_df = df\_multi.stack()

print(stacked\_df)

**Resultado:**


fecha     ciudad   &#x20;

2023-01   Barcelona    200

&#x20;          Madrid      250

2023-02   Barcelona    210

&#x20;          Madrid      300

dtype: int64

#### Ejemplo de unstack():


\# Aplicar unstack() para convertir los índices de nuevo en columnas

unstacked\_df = stacked\_df.unstack()

print(unstacked\_df)

**Resultado:**


ciudad    Barcelona  Madrid

fecha                       &#x20;

2023-01      200.0   250.0

2023-02      210.0   300.0

### 5. **wide\_to\_long() para transformar varias columnas en una**

La función wide\_to\_long() es útil cuando tienes varias columnas que representan variables relacionadas y deseas convertirlas en una sola.

#### Ejemplo:


\# Crear un DataFrame con varias columnas

df\_wide = pd.DataFrame({

&#x20;   'id': \[1, 2],

&#x20;   'nombre': \['Ana', 'Pedro'],

&#x20;   'edad\_2021': \[25, 30],

&#x20;   'edad\_2022': \[26, 31]

})



\# Convertir el DataFrame a formato largo usando wide\_to\_long()

df\_long = pd.wide\_to\_long(df\_wide, stubnames='edad', i='id', j='anio')

print(df\_long)

**Resultado:**


&#x20;        nombre  edad

id anio               &#x20;

1  2021     Ana    25

&#x20;  2022     Ana    26

2  2021   Pedro    30

&#x20;  2022   Pedro    31

### 6. **transpose() para intercambiar filas y columnas**

El método transpose() intercambia filas por columnas y viceversa.

#### Ejemplo:


\# Transponer el DataFrame

df\_transposed = df\_wide.transpose()

print(df\_transposed)

**Resultado:**


&#x20;               0      1

id              1      2

nombre        Ana  Pedro

edad\_2021      25     30

edad\_2022      26     31

### 7. **set\_index() y reset\_index() para trabajar con índices**

El método set\_index() permite establecer una columna como índice, y reset\_index() revierte la operación para convertir el índice en columna.

#### Ejemplo con set\_index():


\# Establecer la columna 'fecha' como índice

df\_indexed = df.set\_index('fecha')

print(df\_indexed)

**Resultado:**


&#x20;         ciudad  ventas

fecha                   &#x20;

2023-01   Madrid     250

2023-01   Madrid     300

2023-02   Barcelona     200

2023-02   Barcelona     210

#### Ejemplo con reset\_index():


\# Restablecer el índice como columna

df\_reset = df\_indexed.reset\_index()

print(df\_reset)

**Resultado:**


&#x20;     fecha      ciudad  ventas

0  2023-01      Madrid     250

1  2023-01      Madrid     300

2  2023-02   Barcelona     200

3  2023-02   Barcelona     210

### Resumen de funciones:

- **pivot()**: Convierte columnas en filas según un índice.

- **pivot\_table()**: Similar a pivot(), pero permite agregaciones.

- **melt()**: Transforma de formato ancho a largo.

- **stack()**: Convierte columnas en índices.

- **unstack()**: Convierte índices en columnas.

- **wide\_to\_long()**: Convierte varias columnas relacionadas en una columna única.

- **transpose()**: Intercambia filas y columnas.

- **set\_index()**: Establece una columna como índice.

- **reset\_index()**: Convierte un índice en columna.

Estas funciones permiten transformar los datos en diferentes formas según tus necesidades. Si tienes alguna duda sobre cómo aplicarlas en tu caso, ¡déjame saber!

Alberto Duque Villegas

Oriol Alejandro Manrique Pérez

Paola Alapizco

Juan Jose Echavarria

Juan Diego Vélez Betancourth

Marina Barraza

Andres Barra

Ignacio Robles

Gustavo Rodriguez

Andrés Sotelo Durán

GEORGE DARWIN GARZON MARIN

Verónica Jiménez Ramírez

Alexander Mazo

Elias Echeverri

Cristian Alexander Vallejos De la rosa

Saul Antonio Cerén Gálvez

FABIAN PEREZ

Alexander Ramirez

Miguel Fernando Cruz Santiago

jesus manuel vergara arias

Christopher Andrés Guano Valencia

Maria del Mar Acosta Sanchez

Daniel Andres Rojas Paredes

Gabriel Obregón

Daniel Humberto Ortiz Vargas

Creación y manejo de Pivot Tables en pandas

NumPy

Análisis de Datos con NumPy y Pandas en Python

Manipulación de Dimensiones en Arrays NumPy para Ciencia de Datos

Atributos, dtypes y estadística en arrays NumPy

Álgebra Lineal Aplicada con NumPy: Operaciones y Ejemplos Prácticos

Indexación y Slicing en NumPy para Análisis de Datos

Broadcasting y operaciones entre arrays en NumPy

Identificación y conteo de respuestas únicas con NumPy

Manipulación de Matrices y Arrays en NumPy: Transponer, Invertir y Aplanar

Análisis de Ventas Mensuales con NumPy: Transformaciones y Insights

Álgebra lineal con NumPy y linalg

Conexión de NumPy con Pandas y Matplotlib para Análisis de Datos

Pandas

Análisis de Datos con Pandas: Carga y Exploración de DataFrames

Creación de DataFrames con Pandas en Python

Análisis de Datos con Pandas: Series y DataFrames en RetailData

iloc vs loc en Pandas para filtrar datos

Manejo de Datos Faltantes en Pandas: Identificación y Tratamiento

Cómo crear columnas nuevas en Pandas

Análisis de Ventas con Pandas: Agrupaciones y Estadísticas

Filtrado de datos en pandas con condiciones