Transformación de datos de transacciones

Clase 11 de 25 • Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Resumen

Construir un modelo de datos eficiente a partir de un DataFrame transaccional es una de las tareas más importantes dentro de cualquier proceso de ETL. En esta fase de transformación se separan las métricas de las dimensiones, se crean identificadores únicos y se reorganiza la información para que pueda cargarse en un destino analítico. A continuación se explica paso a paso cómo lograrlo usando pandas.

¿Por qué separar dimensiones de la tabla de hechos?

Cuando se parte de un DataFrame resultado de un merge previo, la estructura contiene columnas que no son métricas operables: flow indica si la transacción es importación o exportación, quantity name describe la unidad de medida y year representa el año del registro [00:44]. Estas columnas son atributos descriptivos, no valores que se puedan sumar o promediar, por lo que pertenecen a tablas de dimensiones separadas.

El objetivo es llevar el DataFrame a una tabla de hechos (fact table) que solo contenga métricas —como valor en dólares, kilogramos y cantidades— junto con llaves foráneas que la conecten con cada dimensión. Este diseño se conoce como modelo estrella y facilita las consultas analíticas.

¿Cómo crear dimensiones dinámicas con una función reutilizable?

Se define una función llamada create_dimension que recibe un conjunto de datos y el nombre del identificador [01:22]. Internamente funciona así:

python def create_dimension(data, id_name): list_keys = [] value = 1 for d in data: list_keys.append(value) value = value + 1 return pd.DataFrame({id_name: list_keys, 'values': data})

Se inicializa una lista vacía (list_keys) y un contador en uno.
Se itera sobre los valores únicos recibidos, asignando un identificador incremental a cada registro.
Se retorna un nuevo DataFrame con dos columnas: el ID y los valores originales.

Con esta función se generan tres dimensiones a partir de los valores únicos del DataFrame limpio [02:18]:

python df_quantity = create_dimension(df_trades_clean['quantity_name'].unique(), 'id_quantity') df_flow = create_dimension(df_trades_clean['flow'].unique(), 'id_flow') df_year = create_dimension(df_trades_clean['year'].unique(), 'id_year')

El método .unique() garantiza que solo se extraigan valores distintos, generando dimensiones compactas. Por ejemplo, df_quantity resulta en apenas doce registros [03:08].

¿Cómo integrar las dimensiones y construir la tabla de hechos?

¿Qué merges se necesitan para incorporar los IDs?

Cada dimensión se une al DataFrame principal mediante un left join sobre la columna correspondiente [03:30]:

python df_trades_clean = df_trades_clean.merge(df_quantity, how='left', left_on='quantity_name', right_on='values') df_trades_clean = df_trades_clean.merge(df_flow, how='left', left_on='flow', right_on='values') df_trades_clean = df_trades_clean.merge(df_year, how='left', left_on='year', right_on='values')

Tras estos merges, el DataFrame contiene las columnas id_quantity, id_flow e id_year, que actúan como llaves foráneas.

¿Cómo generar el identificador único de la tabla de hechos?

Antes de recortar columnas, se crea un ID basado en el índice [04:20]:

python df_trades_clean['id_trades'] = df_trades_clean.index + 1

Este patrón simple asegura que cada fila tenga un identificador irrepetible.

¿Qué columnas conservar en el dataset final?

Solo se seleccionan métricas y llaves [04:48]:

python dataset_final = df_trades_clean[['id_trades', 'trade_usd', 'kg', 'quantity', 'code', 'country_code', 'id_quantity', 'id_flow', 'id_year']].copy()

El resultado es una tabla de hechos limpia con valores numéricos para análisis y códigos para relacionarse con las dimensiones de país, producto, flujo, cantidad y año.

¿Qué ajustes finales requieren las dimensiones de país y producto?

Las tablas df_country y df_codes se reordenan colocando el ID como primera columna, seguido de los atributos descriptivos como región, subregión, descripción y descripción padre [05:32]. Con esto se completan todas las piezas del modelo.

Los conceptos aplicados —extraer, transformar y cargar— se mantienen sin importar el destino final. No todos los proyectos terminan en un modelo estrella ni en una base de datos relacional, pero la lógica de separar métricas de atributos descriptivos y crear relaciones mediante llaves es universal. ¿Qué estructura de destino usarías en tu próximo proyecto? Comparte tu experiencia.

Comentarios

Luis Rivero

student•

Me gustaría que el curso esté enfocado en un proyecto y una solución, creo que el profesor explica muy bien peero no veo una idea clara, se que él la sabe, sabe cuál es el objetivo pero yo no lo sé y solo me guío de lo que hace el profesor y no me da la libertad a mi de ir hacer una solución de una manera distinta.

Guillermo Augusto Bracho Prieto

student•

Tuve la misma sensación, me parece que la información que expone es valiosisima, pero me pierdo en tratar de justificar por que esta tomando esas decisiones para la transformación de los datos.

Luis Falconí

student•

Pienso lo mismo, tal vez al curso le hizo falta una explicación ya sea por parte del profesor o un apartado de lectura indicando cual es el modelo de negocio o de que se tratan los datos que estamos utilizando, si por nuestra cuenta lo hacemos y tratamos de entender toda la data que esta en nuestras manos en este proyecto tal vez lo logremos entender pero otras personas pueden tener otro punto de vista distinto, creo que hizo falta una pequeña introducción de donde viene esta data.

Nicolás Muriel

student•

Tal vez esto sirva para aclarar un poco,

Al final lo que hizo el profesor fue construir 3 dimensiones:

Una dimension es algo que describe o da contexto a una metrica, normalmente responde el 'quien?', 'donde?', 'como?', 'cuando?' de un 'que?'
Por ejemplo, al hacer un pedido por amazon, puede haber una tabla de hechos (fact table) llamada ordenes, que va a tener metricas (precio, cantidades), para dar contexto a esta orden se tendrian estas dimensiones:
dimension cliente: (dim_customer) el usuario que compro esta orden, con informacion adicional, como su email, hace cuanto es cliente, el pais donde vive, etc.
dimension almacen: (dim_warehouse) el almacen desde donde se va a despachar el producto, su ubicacion, etc.
dimension vendedor: (dim_seller) quien es la persona que vende el producto en amazon, con datos adicionales sobre el.

NORMALMENTE estos datos vienen de una aplicacion, por ejemplo puede ser SAP, NetSuite, Stripe, Salesforce, y ya tienen sus primary keys y foreign keys creadas, por lo tanto 'no seria necesario' construir los ids de cada dimension.

En esta clase el profe Carlos constuye cada dimension a partir de los mismos atributos de la dimension,

para dim quantity crea un id unico apartir del quantity_name que es un string, porque nativamente no tenia identificadores unicos.
para dim flow crea un id unico a partir del 'flow', ya que tampoco tenia un identificador unico.

santiago lagos

student•

En realidad creo 5 dimensiones. Las dimensiones son basicamente informacion extra que brinda mas contexto de lo que se esta midiendo en este caso esta dando contexto de como se esta comportando cada uno de los trades ('trade_usd','kg','quantity') con respecto a 6 variables: ('codes','country','flow','year','quantity_name'). Por cada uno de los ids en tu tabla de hechos hace referencia a una dimension.

Juan Sebastián Vargas Castañeda

student•

Code

df_trades_final = df_trades_clean[['id_trades', 'trade_usd', 'kg', 'quantity', 'id_code', 'id_country', 'id_quantity', 'id_flow', 'id_year']]

df_countries = df_countries[['id_country', 'alpha-3', 'country', 'region', 'sub-region']]

df_codes = df_codes[['id_code', 'clean_code', 'Description', 'parent_description']]

Jose Luis Gamarra Palacios

student•

El curso empezó bien con la intro de la primera clase. Después no se aclaro el camino y se hizo de todo sin explicar por que ! No hubo enfoque solo procesos sin rumbo !

andres maldonado

student•

claro, a cuenta que solo entramos al curso a copiar codigo y no se explica el contexto del ejercicio, no sabemos por qué está haciendo cada cosa o con que finalidad

Juan Sebastián Vargas Castañeda

student•

También podemos usar enumerate en la función:

def create_dimension(data, id_name):
    list_keys = []
    #value = 1

    for count, _ in enumerate(data):
        list_keys.append(count + 1)

    return pd.DataFrame({id_name: list_keys, 'values': data})

martin chavez

student•

como ubicas que features de una tabla deben ser o no dimenciones?

JORGE E FRANCO

student•

Creo que el error de esta clase no fue explicar la codificación que usa el profesor que aunque es valiosa, le falto explicar a mayor profundidad los conceptos de dimensiones , métricas y los hechos, ya que esta es la base conceptual de un ETL

Nicolás Muriel

student•

Importante anotar que los identificadores unicos que utiliza el profesor no son suficientes para garantizar que no tenemos duplicados, pues pandas crea los index sin importar si 2 registros tienen los mismos valores, en este caso la mejor opcion es comparar los dos registros utilizando surrogate_keys.

df_trades_fact['surrogate_key'] = df_trades_fact.apply(lambda row: ''.join(hex(hash(row[col]))[2:] for col in df_trades_fact.columns), axis=1)

Juan camilo truillo galvis

student•

Muy buena la clase y todos lo aportes dados en la misma, pero en lo personal tuve problemas para conectar la base datos por Dataspell,y por tanto no podía seguir con el proyecto pero lo logre solucionar de esta forma.

<code> 
import psycopg2
import os
import pandas as pd

try:
      Connection=psycopg2.connect(host="localhot",
                                  
                                  user="postgres",
                                  
                                  password="",
                                  
                                  database="universida",
                                 
                                 puerto ="5432")
      
      print(f"conexion exitosa")
      cursor=Connection.cursos()
      cursor.execute("SELECT version()*")
      row=cursor.fetchone()
      print(row)
      cursor.execute("SELECT * FROM  curso")
      rows=cursor.fetchall()
      for row in rows:
          print(row)
except Exception as ex:
    print(ex)
finally:
    Connection.close()
    print("se termino la conexion")

Espero les sea de ayuda.

Luis Falconí

student•

Yo si logre de tanto luchar conectar la base, pero esta solución es algo distinta lo guardare por si acaso jeje

Mario Alexander Vargas Celis

student•

La **transformación de datos de transacciones** es un paso clave dentro de un proceso de **ETL** (Extracción, Transformación y Carga) en el que los datos se procesan para que sean más útiles y adecuados para su análisis posterior. En el contexto de las transacciones financieras o de ventas, este paso implica la conversión de datos crudos provenientes de diferentes fuentes en un formato más estandarizado, limpio y estructurado. Aquí te dejo algunos aspectos clave y ejemplos de cómo se realiza la transformación de datos de transacciones:

### 1. **Limpieza de Datos**

La limpieza es fundamental para asegurar que no haya errores en los datos antes de cargarlos a la base de datos o al sistema de análisis.

- **Eliminar registros duplicados**: Si tienes registros de transacciones duplicados, necesitarás eliminarlos.

- **Rellenar valores nulos**: Algunas transacciones pueden tener valores faltantes, como un monto o una fecha. Dependiendo de las reglas del negocio, podrías decidir rellenar estos valores con un valor predeterminado o eliminarlos.

- **Formato de fechas**: Es posible que las fechas de las transacciones vengan en diferentes formatos (por ejemplo, DD/MM/YYYY o MM-DD-YYYY). Se deben estandarizar en un formato único.

**Ejemplo en Python (Pandas)**:

```python

import pandas as pd

# Eliminar duplicados

df = df.drop_duplicates(subset=["transaction_id"])

# Rellenar valores nulos

df["transaction_amount"].fillna(0, inplace=True)

# Convertir fechas

df["transaction_date"] = pd.to_datetime(df["transaction_date"], format="%Y-%m-%d")

```

### 2. **Agregación de Datos**

Las transacciones a menudo deben agregarse para obtener métricas clave como el total de ventas por día, el total de transacciones por usuario, etc. Esto se hace mediante operaciones como la suma, el promedio, el conteo, etc.

- **Total de ventas diarias**: Si cada transacción tiene un monto asociado, puedes agregar las ventas por día.

- **Transacciones por usuario**: Puedes contar el número de transacciones realizadas por cada cliente o usuario.

**Ejemplo en Python (Pandas)**:

```python

# Total de ventas por día

df_daily_sales = df.groupby("transaction_date")["transaction_amount"].sum().reset_index()

# Número de transacciones por cliente

df_transactions_per_user = df.groupby("user_id")["transaction_id"].count().reset_index()

```

### 3. **Normalización y Estandarización**

Los datos de transacciones pueden tener diferentes unidades o escalas. Es importante estandarizar estos valores para que sean consistentes.

- **Normalización de montos**: Si tienes transacciones en diferentes monedas, deberías convertirlas a una moneda común.

- **Transformar categorías**: Las categorías de productos o servicios pueden tener diferentes etiquetas (por ejemplo, "Electrónica", "Electrodomésticos", "Tech"). Puedes agruparlos bajo categorías estandarizadas.

**Ejemplo en Python (Pandas)**:

```python

# Convertir montos a una moneda común (suponiendo una tasa de cambio de 1 USD = 0.85 EUR)

df["transaction_amount_usd"] = df["transaction_amount"] * 0.85

# Estandarizar categorías de productos

category_map = {"Electrodomésticos": "Electronics", "Tech": "Electronics"}

df["product_category"] = df["product_category"].replace(category_map)

```

### 4. **Cálculo de Métricas Derivadas**

Las métricas derivadas son cálculos adicionales basados en los datos de transacciones que pueden ayudar a tomar decisiones o hacer análisis.

- **Monto de transacciones por usuario**: Calcular cuánto ha gastado cada usuario.

- **Margen de beneficio**: Si tienes datos sobre el costo y el precio de los productos, puedes calcular el margen de beneficio.

**Ejemplo en Python (Pandas)**:

```python

# Calcular el monto total por usuario

df_user_spending = df.groupby("user_id")["transaction_amount"].sum().reset_index()

# Calcular margen de beneficio

df["profit_margin"] = (df["transaction_amount"] - df["cost_amount"]) / df["transaction_amount"]

```

### 5. **Enriquecimiento de Datos**

A veces es necesario enriquecer los datos de transacciones con información adicional que provenga de otras fuentes. Esto podría incluir detalles sobre el usuario, ubicación, productos o promociones.

- **Datos de cliente**: Puedes agregar información sobre los clientes, como el nombre, la ubicación o su nivel de fidelidad.

- **Categorías de productos**: Si tienes una lista de productos con su categoría, puedes añadirla a cada transacción.

**Ejemplo en Python (Pandas)**:

```python

# Suponiendo que tienes un DataFrame con información de clientes

df_customers = pd.DataFrame({"user_id": [1, 2], "customer_name": ["Alice", "Bob"]})

# Unir la información de los clientes con las transacciones

df = pd.merge(df, df_customers, on="user_id", how="left")

```

### 6. **Formato de Salida**

Finalmente, los datos de transacciones transformados deben estar en el formato adecuado para su almacenamiento o análisis posterior. Pueden almacenarse en bases de datos, archivos CSV, formatos como JSON o Parquet, entre otros.

**Ejemplo en Python (Pandas)**:

```python

# Guardar los datos transformados en un archivo CSV

df.to_csv("transacciones_transformadas.csv", index=False)

```

### Resumen del Proceso de Transformación de Datos de Transacciones:

1. **Limpieza de datos**: Eliminar duplicados, rellenar valores nulos, convertir fechas.

2. **Agregación de datos**: Sumar transacciones por fecha, contar transacciones por usuario.

3. **Normalización**: Convertir unidades (como moneda) y estandarizar categorías.

4. **Cálculo de métricas derivadas**: Calcular métricas adicionales como el gasto total por cliente o el margen de beneficio.

5. **Enriquecimiento de datos**: Agregar datos adicionales como la información del cliente.

6. **Exportación y almacenamiento**: Guardar los datos en el formato deseado (CSV, base de datos, etc.).

Este proceso de transformación es clave para preparar los datos para su análisis o para generar informes de negocio confiables.

Enrique Alexis Lopez Araujo

student•

El objetivo de la clase fue enseñar a los estudiantes cómo transformar un dataframe de transacciones de importación y exportación en una estructura de tabla de hechos adecuada para análisis y machine learning. Se abordaron conceptos como la creación de dimensiones y la utilización de joins para relacionar métricas y dimensiones, preparando los datos para su posterior carga en un sistema. Esto es fundamental en el flujo ETL que se utiliza en la ingeniería de datos.

Valentina Arenas Lozano

student•

Aplicando listas comprensivas

def create_dimension(data, id_name):
    list_keys = [
        value + 1
        for value in range(len(data))
    ]

    return pd.DataFrame({
        id_name: list_keys,
        "values": data
    })

Camilo Falla Albarracin

student•

Pense que este profesor era mas del corte de los que intenta enseñar, y creo quiere mostrar que tan bueno es el, no recomiendo para nada este curso, el cual me tomo una semana aprendiendo por otro lado a crear u bash para cargar la sql tan grandem, que lo unico que hace es en el Coolab bloquear mi pc, ojala puedan mejorar este curso y trabajar en como enseña el profesor que no enseño nada sino el codea aplicando unas funciones a base de conceptos muy cortos que son llaves unicas para mejorar complementar las tablas con relaciones lo cuale s poderoso pero necesitaba todo lo anterior para enseñar de zero a hero, OJALA mejore Platzi me estoy cansando

Ausubel Velásquez

student•

Eso fue muy hermoso

Manuel Alejandro Orejuela Garcés

student•

Alguien sabe como en DataSpell uno puede guardar cambios ? no encuentro ningun comando al estilo Control + S, para ir guardando los cambios en el notebook, siempre me ha tocado confiar en que se autoguarda. Pero me da miedo, ya que no veo ninguna indicación en el entorno dataSepell que me lo indique.

Help !!

Norberto Iván Tolaba

student•

Ahora capté mejor lo que involucra la transformación y en sí el ETL. Muy lindo el curso

Sebastian Granda Gallego

student•

Una forma de hacerlo mas corto

def create_dimension(data, id_name):
    list_keys = [ i+1 for i in range(data.size) ]
    return pd.DataFrame({id_name:list_keys, "values": data})

Wilson Gutiérrez Lancheros

student•

def create_dimension(data, id_name):
    list_keys = []
    value =1
    for _ in data:
        list_keys.append(value)
        value = value + 1  
    
    return pd.DataFrame({id_name:list_keys,'values':data})

def create_dimension(data, id_name):
    list_keys = []
    #value = 1

    for count, _ in enumerate(data):
        list_keys.append(count + 1)

    return pd.DataFrame({id_name: list_keys, 'values': data})

<code> 
import psycopg2
import os
import pandas as pd

try:
      Connection=psycopg2.connect(host="localhot",
                                  
                                  user="postgres",
                                  
                                  password="",
                                  
                                  database="universida",
                                 
                                 puerto ="5432")
      
      print(f"conexion exitosa")
      cursor=Connection.cursos()
      cursor.execute("SELECT version()*")
      row=cursor.fetchone()
      print(row)
      cursor.execute("SELECT * FROM  curso")
      rows=cursor.fetchall()
      for row in rows:
          print(row)
except Exception as ex:
    print(ex)
finally:
    Connection.close()
    print("se termino la conexion")

def create_dimension(data, id_name):
    list_keys = [
        value + 1
        for value in range(len(data))
    ]

    return pd.DataFrame({
        id_name: list_keys,
        "values": data
    })

def create_dimension(data, id_name):
    list_keys = []
    value =1
    for _ in data:
        list_keys.append(value)
        value = value + 1  
    
    return pd.DataFrame({id_name:list_keys,'values':data})

Transformación de datos de transacciones

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?

Conceptos base de ETL

Consideraciones de ETL

Servicios y herramientas para ETL

Extracción de datos

Sources

Configuración de base de datos source y entorno para ETL en Python

Extracción de datos con Python y Pandas

Transformación de datos

Transformación

Transformación de datos con Python y Pandas

Transformación de datos de países

Transformación de datos de transacciones

Carga de datos

Carga

Configuración de clúster en AWS Redshift

Crear tablas en AWS Redshift

Carga de datos con Python

Estructurar sentence para carga de datos de S3 a Redshift

Carga de datos: subida de archivos a AWS Redshift

ETL con Pentaho

Instalación de Pentaho

Extracción de datos con Pentaho

Transformación de datos con Pentaho

Transformación de datos con Pentaho: parte 2

Transformación de datos con Pentaho: parte 3

Carga de datos con Pentaho

Conclusión

Siguientes pasos

Comparte tu proyecto de ETL y obtén tu certificado