Transformaciones ETL en Pentaho sin código

Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Transformaciones ETL en Pentaho sin código

Resumen

Trabajar con grandes volúmenes de información requiere herramientas que simplifiquen el proceso ETL sin escribir código línea por línea. Pentaho, un sistema open source para el manejo de ETL, permite aplicar transformaciones a tus datasets arrastrando bloques visuales que replican lo que harías en Pandas, pero con un enfoque gráfico ideal para analistas de datos y profesionales de Business Intelligence.

¿Cómo aplicar un filtro de filas en Pentaho para limpiar países?

El primer paso para transformar el dataset de países es eliminar registros con valores vacíos. Para eso, Pentaho ofrece el componente Filter Rows, que conectas al flujo principal y configuras con una condición lógica.

En el caso del dataset country, la condición indica que el campo alpha no sea nulo. Así garantizas que solo avancen los registros válidos hacia las siguientes etapas de la transformación.

¿Qué hace el componente Filter Rows en Pentaho? Filtra registros según una condición booleana. Solo los datos que cumplan la regla pasan al siguiente paso del flujo. [00:35]

¿Cómo generar un ID autoincremental con Add Sequence?

Una vez filtrados los países, necesitas un identificador único para cada registro. El componente Add Sequence crea una secuencia numérica configurable, en este caso llamada id_country, que va del uno al nueve.

Este ID será clave más adelante para hacer merge con la tabla de trades, ya que conecta los países con sus respectivas regiones y subregiones.

¿Para qué sirve Select Values al final del flujo?

No todas las columnas son útiles en la vista final. Con Select Values eliges únicamente las que aportan valor al dataset transformado.

Para la vista de países, las columnas seleccionadas son:

id_country como identificador único.
alpha como código del país.
country con el nombre.
region y subregion para la jerarquía geográfica.

¿Cómo crear dimensiones para flow, year y quantity?

Las dimensiones son tablas auxiliares que contienen los valores únicos de un atributo junto con un ID. En este caso, vas a crear tres dimensiones a partir del dataset original: flow, year y quantity.

El proceso se repite tres veces en paralelo y empieza con el ordenamiento de los datos.

¿Por qué hay que ordenar antes de buscar valores únicos?

El componente Sort Rows organiza los datos de manera ascendente por el campo elegido. Esto es un requisito previo del siguiente paso, Unique Rows, que necesita los registros ordenados para detectar correctamente los duplicados.

Cada flujo paralelo aplica:

Sort Rows sobre la variable correspondiente (flow, year o quantity).
Unique Rows con la opción ignore case activada.
Add Sequence para generar el ID único de la dimensión.

¿Qué diferencia hay entre Sort Rows y Unique Rows? Sort Rows ordena los datos según un campo. Unique Rows elimina duplicados, pero exige que los datos lleguen ya ordenados. [04:20]

¿Cómo nombrar correctamente las secuencias de cada dimensión?

El nombre de la secuencia debe reflejar la dimensión que estás construyendo. Para el flujo de flow, la secuencia se llama id_flow. Para year, se llama id_year. Y para quantity, id_quantity.

Esta convención de nombres facilita el merge posterior y mantiene consistencia con la tabla de hechos.

¿Cómo finalizar la transformación con Select Values en cada dimensión?

Después de generar los IDs, cada flujo termina con un Select Values que conserva solo dos columnas: el ID autoincremental y el valor único.

Un detalle importante apareció con la dimensión de cantidad: el campo correcto no era quantity, sino quantity_name. Verificar el nombre exacto del campo evita errores silenciosos en la ejecución.

El resultado final son tres datasets independientes, uno por dimensión, listos para integrarse al modelo:

Dimensión flow con cuatro valores únicos.
Dimensión year con los años disponibles en el dataset.
Dimensión quantity con los nombres de unidad de medida.

¿En qué se parece Pentaho a Pandas para transformar datos?

La lógica detrás de ambas herramientas es idéntica: filtrar, ordenar, eliminar duplicados, agregar identificadores y seleccionar columnas. La diferencia está en la interfaz.

Mientras que en Pandas escribes funciones como drop_duplicates() o sort_values(), en Pentaho arrastras stages visuales que cumplen la misma función. Esto convierte a Pentaho en una opción accesible para perfiles que prefieren un enfoque low code sin perder potencia analítica.

El siguiente paso del proceso es completar la transformación del dataset de trades y unirlo con las dimensiones de códigos y países mediante un merge. ¿Tú prefieres trabajar con código en Pandas o con bloques visuales en Pentaho? Cuéntame en los comentarios.

Mario Alexander Vargas Celis

Estudiante

En esta segunda parte sobre **transformación de datos con Pentaho**, vamos a profundizar en otros aspectos importantes que puedes aplicar en tus procesos de ETL (Extracción, Transformación y Carga): ### **1. Enriquecimiento de Datos**Pentaho permite enriquecer los datos provenientes de diferentes fuentes, añadiendo información adicional o calculando nuevos campos. Algunas herramientas y pasos útiles: - **Add Constants**: Agrega columnas con valores constantes a los datos procesados.- **Calculator**: Permite realizar operaciones matemáticas sobre los campos existentes.- **Lookup Fields**: Busca y agrega valores desde otra tabla o flujo de datos. #### Ejemplo:**Agregar una columna "Región" con valores constantes:**plaintextID | Nombre -> ID | Nombre | Región-----|------------- ------|-----------|-------001 | Pedro 001 | Pedro | América002 | María 002 | María | América ### **2. Filtrado y Limpieza de Datos**Es importante filtrar los datos irrelevantes o corregir errores en los datos fuente antes de cargarlos. - **Filter Rows**: Filtra las filas en base a condiciones lógicas.- **Data Cleanser**: Corrige errores comunes como capitalización, eliminar espacios en blanco, etc.- **Replace Values**: Reemplaza valores específicos en un campo. #### Ejemplo:**Filtrar registros con edad menor a 18 años:**plaintextEntrada:ID | Nombre | Edad-----|------------|-----001 | Pedro | 17002 | María | 21 Salida:ID | Nombre | Edad-----|------------|-----002 | María | 21 ### **3. Unión y División de Flujos de Datos**Cuando trabajas con múltiples fuentes, puedes necesitar unirlas o dividirlas según condiciones específicas. - **Merge Join**: Une dos flujos de datos según claves comunes.- **Switch/Case**: Divide un flujo de datos en varios en función de una condición.- **Union Rows**: Combina dos o más flujos de datos. #### Ejemplo:**División por región usando Switch/Case:**plaintextEntrada:ID | Nombre | Región-----|-----------|-------001 | Pedro | América002 | María | Europa Salida:Flujo América:ID | Nombre | Región-----|-----------|-------001 | Pedro | América Flujo Europa:ID | Nombre | Región-----|-----------|-------002 | María | Europa ### **4. Generación de Nuevos Datos**Pentaho facilita la generación de nuevos datos, como claves únicas o registros simulados. - **Generate Row Number**: Genera números consecutivos en los registros.- **Row Generator**: Crea datos simulados útiles para pruebas. #### Ejemplo:**Generar números únicos:**plaintextEntrada:Nombre------PedroMaría Salida:ID | Nombre-----|-------1 | Pedro2 | María ### **5. Carga de Datos Transformados**Los datos procesados pueden cargarse en diversas plataformas, como bases de datos, archivos planos, o sistemas en la nube. - **Table Output**: Carga los datos en una base de datos.- **Text File Output**: Escribe los datos en un archivo de texto (CSV, JSON, etc.).- **S3 File Output**: Guarda los datos transformados directamente en un bucket de Amazon S3. #### Ejemplo:**Escribir un archivo CSV:**plaintextEntrada:ID | Nombre | Edad-----|-----------|-----001 | Pedro | 21002 | María | 25 Salida (CSV):ID,Nombre,Edad001,Pedro,21002,María,25 ### **Mejoras Adicionales en las Transformaciones**1. **Monitoreo y Logs**: - Usa el paso **Write to log** para registrar información durante el proceso.2. **Uso de Variables**: - Las variables pueden hacer que tus transformaciones sean dinámicas, adaptándose a diferentes escenarios.3. **Manejo de Errores**: - Configura rutas de manejo de errores para procesar registros problemáticos sin interrumpir el flujo.

Transformaciones ETL en Pentaho sin código

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?

Conceptos clave de ETL: source, target y staging

Consideraciones clave antes de implementar ETL

Herramientas ETL: Pentaho, Pandas y más

Extracción de datos

Consideraciones clave al extraer datos en ETL

Configuración de base de datos source y entorno para ETL en Python

Extracción ETL con Pandas desde Postgres

Transformación de datos

Consideraciones clave antes de transformar datos ETL

Limpieza de códigos de productos con Pandas

Merge de países y productos con pandas

Cómo convertir un DataFrame en tabla de hechos

Carga de datos

Consideraciones clave antes de cargar a Redshift

Configuración de clúster en AWS Redshift

Crear tablas en AWS Redshift

Carga de CSV a Redshift con COPY

Estructurar sentence para carga de datos de S3 a Redshift

Carga masiva de CSVs a Redshift con Python

ETL con Pentaho

Instalación de Pentaho

Extracción de datos con Pentaho desde cero

Transformación de códigos con Pentaho