Transformación de códigos con Pentaho

Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Transformación de códigos con Pentaho

Resumen

Transformar datos en Pentaho replica lo que harías con Pandas y Python, pero con un flujo visual de cajas conectadas. Aquí verás cómo limpiar códigos, filtrar nulos, recortar strings y unir descripciones para construir una tabla final consumible, paso a paso.

¿Cómo se inicia la transformación de códigos en Pentaho?

El primer movimiento es separar el flujo en dos data frames, igual que cuando trabajabas con padres y nombres de productos en Python. Todo arranca con un filtro que elimine los valores nulos del campo codecom.

Desde la entrada de datos, conectas la salida a un paso Filter Rows y defines la condición: codecom no debe ser nulo. Ese filtro se convierte en el punto de partida para los dos caminos siguientes.

¿Qué hace el paso Filter Rows en Pentaho? Evalúa una condición sobre cada fila y separa el flujo en dos rutas: las filas que cumplen y las que no. Sirve para descartar nulos o segmentar por niveles.

¿Cómo separar los productos por nivel jerárquico?

Una copia del flujo se envía a otro filtro que evalúa el campo level. Cuando level es igual a 2, esas filas siguen su propio camino para conservar solo las descripciones de categoría.

La clave aquí es usar Copy en lugar de Distribute al conectar pasos, para que ambos caminos reciban los mismos datos completos en vez de partirlos.

Después del filtro por nivel 2, un paso Select Values se queda únicamente con las columnas necesarias: la descripción y codecom, que se renombra a Code con mayúscula para mantener el estándar.

¿Cómo calcular la longitud de un string en Pentaho?

Para replicar la lógica de Python que evaluaba si la longitud del código era 11 o mayor, se usa el paso Calculator. Ahí defines un nuevo campo llamado LenCode que aplica la función length of a string sobre el campo code.

Si el campo code viene como integer, Pentaho lanza un error al intentar cortarlo como string. La solución es agregar un paso previo que convierta code a tipo string antes de pasar al Calculator.

¿Por qué falla el corte de strings sobre un campo numérico? Porque las funciones de subcadena solo operan sobre texto. Si el campo es entero, primero debes castearlo a string para que Pentaho pueda recortarlo.

¿Cómo cortar el código según su longitud?

Con LenCode calculado, un nuevo Filter Rows evalúa si el valor es igual a 11 y abre dos rutas paralelas:

String Cut Code 11: cuando la longitud es 11, se genera clean code tomando posiciones 0 a 1 y parent code también de 0 a 1.
String Cut Code 12: cuando la longitud no es 11, clean code va de 0 a 6 y parent code va de 0 a 2.

Cada rama produce las mismas dos variables, clean code y parent code, listas para ser unidas. Esto es exactamente lo mismo que hacías en Pandas con condicionales sobre len(), solo que apilando cajas.

¿Cómo unir flujos y enriquecer datos en Pentaho?

Las dos ramas se reúnen con un paso Append Streams, que concatena las filas de ambos caminos en un solo flujo. Tienes que indicar explícitamente cuál stream va primero y cuál segundo, de lo contrario el paso falla.

Una vez unidos, el siguiente paso es un Merge Join tipo inner join contra el flujo del nivel 2, usando parent code contra Code. Aquí está el detalle clave: si intentas unir por clean code no obtendrás resultados, porque la coincidencia ocurre con el código padre.

¿Cuál es la diferencia entre Append Streams y Merge Join? Append Streams apila filas de dos flujos, como un concat en Pandas. Merge Join combina columnas de dos flujos según una llave común, como un merge o join.

¿Cómo agregar un identificador único y seleccionar columnas finales?

Después del merge, el paso Add Sequence crea un identificador autoincremental llamado ID code, que avanza de uno en uno. Es el equivalente directo a generar una columna índice en Pandas.

Finalmente, otro Select Values ordena y conserva solo las columnas relevantes:

ID code como identificador único.
clean code como código limpio del producto.
description con el nombre del producto.
parent description con la categoría a la que pertenece.

El resultado es una tabla totalmente consumible donde cada fila tiene su código, su versión limpia, la descripción del producto y la categoría padre. Lo interesante es que este diagrama gráfico hace exactamente lo mismo que el script de Pandas, solo que apilando stages visuales en lugar de escribir líneas de código.

Si te quedó alguna duda sobre la conexión entre pasos o el casteo de tipos, déjala en los comentarios y ayuda a otros estudiantes que estén replicando este flujo.

Mario Alexander Vargas Celis

Estudiante

La **transformación de datos con Pentaho** se refiere al proceso de modificar, limpiar, enriquecer y estructurar los datos extraídos para prepararlos para su análisis o almacenamiento. En **Pentaho Data Integration (PDI)**, las transformaciones se crean mediante pasos específicos en un entorno visual que facilita la manipulación de datos de manera eficiente. ### Proceso de Transformación de Datos en Pentaho 1. **Crear una transformación**: - En Pentaho Data Integration, una **transformación** es un conjunto de pasos conectados que procesan datos. - Se inicia creando un nuevo archivo de transformación (.ktr). 2. **Agregar pasos para transformar los datos**: - Desde la paleta de herramientas, selecciona los pasos según la necesidad: - **Filter Rows**: Filtrar filas con base en condiciones. - **Replace in String**: Sustituir valores en cadenas de texto. - **Sort Rows**: Ordenar los datos. - **Calculator**: Realizar cálculos matemáticos o lógicos. - **Join Rows**: Combinar datos de múltiples fuentes. - **Row Normalizer**: Convertir columnas en filas. - **Row Denormalizer**: Convertir filas en columnas. 3. **Conectar los pasos**: - Arrastra líneas de conexión entre pasos para definir el flujo de datos. - Asegúrate de que cada paso recibe correctamente la salida del anterior. 4. **Configurar cada paso**: - Define las reglas o configuraciones para cada operación: - En **Filter Rows**, especifica las condiciones para filtrar. - En **Replace in String**, define los valores a buscar y reemplazar. - En **Join Rows**, selecciona las claves para combinar los conjuntos de datos. 5. **Validar la transformación**: - Utiliza la opción de **vista previa** para verificar cómo se procesan los datos después de cada paso. ### Ejemplo Práctico: Transformar un Archivo de Ventas 1. **Escenario**: - Dispones de un archivo CSV con las columnas: producto, cantidad, precio\_unitario, fecha. - Necesitas: - Calcular el valor total (cantidad \* precio\_unitario). - Filtrar los registros con fecha mayor a 2024-01-01. - Enriquecer los datos agregando una columna categoría basada en el producto. 2. **Pasos en Pentaho**: - **Leer el archivo CSV**: 1. Agrega un paso **Text File Input** y selecciona el archivo. 2. Configura los delimitadores y nombres de columnas. - **Calcular el valor total**: 1. Agrega el paso **Calculator**. 2. Define una nueva columna valor\_total con la operación cantidad \* precio\_unitario. - **Filtrar registros**: 1. Usa el paso **Filter Rows**. 2. Configura la condición fecha > '2024-01-01'. - **Agregar la categoría**: 1. Usa el paso **Add Constants** o **Mapping (sub-transformación)**. 2. Crea una regla condicional que asigne categorías según el producto. - **Escribir el resultado**: 1. Agrega un paso **Text File Output**. 2. Especifica el archivo de salida y las columnas a incluir. 3. **Ejecutar la transformación**: - Haz clic en "Ejecutar" y revisa los resultados. ### Pasos Comunes en Transformaciones - **Limpieza de datos**: - **Select Values**: Seleccionar o renombrar columnas. - **Data Validator**: Validar datos contra reglas específicas. - **Combinación de datos**: - **Merge Join**: Combinar tablas mediante una unión (JOIN). - **Append Streams**: Fusionar dos flujos de datos secuencialmente. - **Conversión de datos**: - **String Operations**: Manipular cadenas de texto. - **Number Range**: Categorizar valores numéricos en rangos. - **Agregación**: - **Group By**: Calcular sumas, promedios o contar elementos. ### Beneficios de Transformar Datos con Pentaho - **Automatización**: Configura procesos reutilizables y programables.- **Flexibilidad**: Admite múltiples formatos y tipos de datos.- **Escalabilidad**: Puede manejar grandes volúmenes de datos.- **Simplicidad visual**: Permite diseñar transformaciones complejas sin necesidad de programación. Si tienes un caso específico o necesitas más ejemplos prácticos, ¡puedo ayudarte a configurarlo!

Transformación de códigos con Pentaho

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?

Conceptos clave de ETL: source, target y staging

Consideraciones clave antes de implementar ETL

Herramientas ETL: Pentaho, Pandas y más

Extracción de datos

Consideraciones clave al extraer datos en ETL

Configuración de base de datos source y entorno para ETL en Python

Extracción ETL con Pandas desde Postgres

Transformación de datos

Consideraciones clave antes de transformar datos ETL

Limpieza de códigos de productos con Pandas

Merge de países y productos con pandas

Cómo convertir un DataFrame en tabla de hechos

Carga de datos

Consideraciones clave antes de cargar a Redshift

Configuración de clúster en AWS Redshift

Crear tablas en AWS Redshift

Carga de CSV a Redshift con COPY

Estructurar sentence para carga de datos de S3 a Redshift

Carga masiva de CSVs a Redshift con Python

ETL con Pentaho

Instalación de Pentaho

Extracción de datos con Pentaho desde cero