Cómo convertir un DataFrame en tabla de hechos

Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Cómo convertir un DataFrame en tabla de hechos

Resumen

Transformar un DataFrame principal en una tabla de hechos es el paso clave para dejar tu ETL listo para analítica. Aquí aprendes a separar dimensiones, generar IDs únicos y unir todo con merges en pandas, usando datos reales de importaciones y exportaciones entre países.

¿Qué es una tabla de hechos y por qué la necesitas?

Una tabla de hechos guarda solo métricas y llaves que conectan con dimensiones. En el caso del proyecto, las métricas son valor en dólares, kilogramos y cantidades; las llaves apuntan a países, códigos de producto, año, flow y quantity name.

¿Qué es una tabla de hechos? Es la tabla central de un modelo estrella que contiene métricas numéricas y claves foráneas hacia tablas de dimensión. No guarda descripciones, solo lo que puedes sumar, contar o promediar.

Dentro del DataFrame unido tras el merge aparecen columnas que no son métricas: flow indica si el trade es importación o exportación, quantity name describe la unidad (peso, cantidades) y year funciona como dimensión temporal. Todas estas deben salir de la tabla de hechos y convertirse en dimensiones independientes [01:00].

¿Cómo crear dimensiones a partir de valores únicos en pandas?

La estrategia es construir una función reutilizable que reciba un DataFrame y un nombre de ID, y devuelva una dimensión con identificador único y valores. Así evitas repetir código por cada columna candidata a dimensión.

¿Cómo se arma la función create_dimension?

La función create_dimension recibe los datos y un id_name, inicializa una lista de llaves y un contador en uno, e itera con un for sobre los valores [02:30]. En cada vuelta agrega el contador a la lista y lo incrementa en uno. Al final retorna un DataFrame construido desde un diccionario con dos columnas: el ID y los values.

python def create_dimension(data, id_name): list_keys = [] value = 1 for _ in data: list_keys.append(value) value = value + 1 return pd.DataFrame({id_name: list_keys, "values": data})

Con esa función puedes generar tres dimensiones rápidas:

df_quantity: pasando los valores únicos de quantity name y el ID id_quantity. El resultado son 12 valores únicos.
df_flow: pasando los valores únicos de flow con el ID id_flow.
df_year: pasando los valores únicos de year con el ID id_year.

Usar .unique() sobre la columna garantiza que la dimensión no tenga duplicados antes de entrar a la función [04:00].

¿Cómo unir las dimensiones a la tabla de hechos con merge?

Una vez creadas las dimensiones, viene la parte de pegarlas al DataFrame principal usando merge con left join. Aunque sabes que todos los registros harán match (porque las dimensiones nacen del mismo dataset), el left join mantiene la integridad de la tabla de hechos [05:30].

¿Cuándo uso left join en un merge de pandas? Cuando quieres conservar todas las filas del DataFrame izquierdo aunque no encuentren coincidencia en el derecho. Es la opción segura al enriquecer una tabla de hechos con dimensiones.

El patrón se repite tres veces:

Merge con df_quantity usando left_on="quantity_name" y right_on="values".
Merge con df_flow usando left_on="flow" y right_on="values".
Merge con df_year usando left_on="year" y right_on="values".

Después de los tres merges, el DataFrame limpio tiene las columnas id_quantity, id_flow e id_year, que reemplazan a las columnas originales de texto.

¿Cómo genero un ID único para la tabla de hechos?

Antes de filtrar columnas, creas un identificador único llamado id_trades basado en el index del DataFrame más uno [07:30]. Es la misma técnica usada antes del merge inicial y asegura que cada transacción tenga su propia llave primaria.

python df_clean["id_trades"] = df_clean.index + 1

¿Qué columnas conservar en el dataset final?

El dataset_final se queda solo con lo esencial para análisis: id_trades, trade_usd, kilograms, quantity, el código del producto, el código del país, id_quantity, id_flow e id_year. Una copia con .copy() evita advertencias de pandas al modificar el resultado [08:30].

Para las dimensiones que ya existían desde antes, df_country y df_codes, solo se reordenan columnas:

df_country: id_country, alpha_3, country, region, subregion.
df_codes: id_code, clean_code, description, parent_description.

Ese orden hace la lectura más natural y respeta la convención de poner la llave primaria al inicio.

¿Qué sigue después de transformar el DataFrame?

Con la tabla de hechos lista, dos dimensiones existentes (countries y codes) y tres dimensiones nuevas (quantity, flow, year), el modelo estrella queda armado. En la práctica real, no toda ETL termina en modelo estrella ni en base de datos: depende del negocio, de las relaciones entre variables y del objetivo del proyecto.

Lo que no cambia son los tres pasos: extraes, transformas y cargas. La carga al destino es el siguiente movimiento. ¿Qué dimensiones identificarías tú en tu propio dataset? Cuéntalo en los comentarios.

Mario Alexander Vargas Celis

Estudiante

La **transformación de datos de transacciones** es un paso clave dentro de un proceso de **ETL** (Extracción, Transformación y Carga) en el que los datos se procesan para que sean más útiles y adecuados para su análisis posterior. En el contexto de las transacciones financieras o de ventas, este paso implica la conversión de datos crudos provenientes de diferentes fuentes en un formato más estandarizado, limpio y estructurado. Aquí te dejo algunos aspectos clave y ejemplos de cómo se realiza la transformación de datos de transacciones:

### 1. **Limpieza de Datos**

La limpieza es fundamental para asegurar que no haya errores en los datos antes de cargarlos a la base de datos o al sistema de análisis.

- **Eliminar registros duplicados**: Si tienes registros de transacciones duplicados, necesitarás eliminarlos.

- **Rellenar valores nulos**: Algunas transacciones pueden tener valores faltantes, como un monto o una fecha. Dependiendo de las reglas del negocio, podrías decidir rellenar estos valores con un valor predeterminado o eliminarlos.

- **Formato de fechas**: Es posible que las fechas de las transacciones vengan en diferentes formatos (por ejemplo, DD/MM/YYYY o MM-DD-YYYY). Se deben estandarizar en un formato único.

**Ejemplo en Python (Pandas)**:

```python

import pandas as pd

# Eliminar duplicados

df = df.drop_duplicates(subset=["transaction_id"])

# Rellenar valores nulos

df["transaction_amount"].fillna(0, inplace=True)

# Convertir fechas

df["transaction_date"] = pd.to_datetime(df["transaction_date"], format="%Y-%m-%d")

```

### 2. **Agregación de Datos**

Las transacciones a menudo deben agregarse para obtener métricas clave como el total de ventas por día, el total de transacciones por usuario, etc. Esto se hace mediante operaciones como la suma, el promedio, el conteo, etc.

- **Total de ventas diarias**: Si cada transacción tiene un monto asociado, puedes agregar las ventas por día.

- **Transacciones por usuario**: Puedes contar el número de transacciones realizadas por cada cliente o usuario.

**Ejemplo en Python (Pandas)**:

```python

# Total de ventas por día

df_daily_sales = df.groupby("transaction_date")["transaction_amount"].sum().reset_index()

# Número de transacciones por cliente

df_transactions_per_user = df.groupby("user_id")["transaction_id"].count().reset_index()

```

### 3. **Normalización y Estandarización**

Los datos de transacciones pueden tener diferentes unidades o escalas. Es importante estandarizar estos valores para que sean consistentes.

- **Normalización de montos**: Si tienes transacciones en diferentes monedas, deberías convertirlas a una moneda común.

- **Transformar categorías**: Las categorías de productos o servicios pueden tener diferentes etiquetas (por ejemplo, "Electrónica", "Electrodomésticos", "Tech"). Puedes agruparlos bajo categorías estandarizadas.

**Ejemplo en Python (Pandas)**:

```python

# Convertir montos a una moneda común (suponiendo una tasa de cambio de 1 USD = 0.85 EUR)

df["transaction_amount_usd"] = df["transaction_amount"] * 0.85

# Estandarizar categorías de productos

category_map = {"Electrodomésticos": "Electronics", "Tech": "Electronics"}

df["product_category"] = df["product_category"].replace(category_map)

```

### 4. **Cálculo de Métricas Derivadas**

Las métricas derivadas son cálculos adicionales basados en los datos de transacciones que pueden ayudar a tomar decisiones o hacer análisis.

- **Monto de transacciones por usuario**: Calcular cuánto ha gastado cada usuario.

- **Margen de beneficio**: Si tienes datos sobre el costo y el precio de los productos, puedes calcular el margen de beneficio.

**Ejemplo en Python (Pandas)**:

```python

# Calcular el monto total por usuario

df_user_spending = df.groupby("user_id")["transaction_amount"].sum().reset_index()

# Calcular margen de beneficio

df["profit_margin"] = (df["transaction_amount"] - df["cost_amount"]) / df["transaction_amount"]

```

### 5. **Enriquecimiento de Datos**

A veces es necesario enriquecer los datos de transacciones con información adicional que provenga de otras fuentes. Esto podría incluir detalles sobre el usuario, ubicación, productos o promociones.

- **Datos de cliente**: Puedes agregar información sobre los clientes, como el nombre, la ubicación o su nivel de fidelidad.

- **Categorías de productos**: Si tienes una lista de productos con su categoría, puedes añadirla a cada transacción.

**Ejemplo en Python (Pandas)**:

```python

# Suponiendo que tienes un DataFrame con información de clientes

df_customers = pd.DataFrame({"user_id": [1, 2], "customer_name": ["Alice", "Bob"]})

# Unir la información de los clientes con las transacciones

df = pd.merge(df, df_customers, on="user_id", how="left")

```

### 6. **Formato de Salida**

Finalmente, los datos de transacciones transformados deben estar en el formato adecuado para su almacenamiento o análisis posterior. Pueden almacenarse en bases de datos, archivos CSV, formatos como JSON o Parquet, entre otros.

**Ejemplo en Python (Pandas)**:

```python

# Guardar los datos transformados en un archivo CSV

df.to_csv("transacciones_transformadas.csv", index=False)

```

### Resumen del Proceso de Transformación de Datos de Transacciones:

1. **Limpieza de datos**: Eliminar duplicados, rellenar valores nulos, convertir fechas.

2. **Agregación de datos**: Sumar transacciones por fecha, contar transacciones por usuario.

3. **Normalización**: Convertir unidades (como moneda) y estandarizar categorías.

4. **Cálculo de métricas derivadas**: Calcular métricas adicionales como el gasto total por cliente o el margen de beneficio.

5. **Enriquecimiento de datos**: Agregar datos adicionales como la información del cliente.

6. **Exportación y almacenamiento**: Guardar los datos en el formato deseado (CSV, base de datos, etc.).

Este proceso de transformación es clave para preparar los datos para su análisis o para generar informes de negocio confiables.

Luis Rivero

Guillermo Augusto Bracho Prieto

Luis Falconí

Nicolás Muriel

santiago lagos

Juan Sebastián Vargas Castañeda

Jose Luis Gamarra Palacios

andres maldonado

martin chavez

JORGE E FRANCO

Juan camilo truillo galvis

Enrique Alexis Lopez Araujo

Valentina Arenas Lozano

Camilo Falla Albarracin

Ausubel Velásquez

Manuel Alejandro Orejuela Garcés

Norberto Iván Tolaba

Sebastian Granda Gallego

Wilson Gutiérrez Lancheros

Cómo convertir un DataFrame en tabla de hechos

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?

Conceptos clave de ETL: source, target y staging

Consideraciones clave antes de implementar ETL

Herramientas ETL: Pentaho, Pandas y más

Extracción de datos

Consideraciones clave al extraer datos en ETL

Configuración de base de datos source y entorno para ETL en Python

Extracción ETL con Pandas desde Postgres

Transformación de datos

Consideraciones clave antes de transformar datos ETL

Limpieza de códigos de productos con Pandas

Merge de países y productos con pandas