Transformación de datos con Pentaho

Clase 20 de 25 • Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Resumen

Convertir datos crudos en información limpia y estructurada es el corazón de cualquier proceso ETL, y Pentaho ofrece una forma visual e intuitiva de lograrlo. A continuación se explica cómo replicar las mismas transformaciones que se realizan con Python y Pandas, pero utilizando cajas conectadas en un flujo gráfico dentro de Pentaho Data Integration.

¿Cómo filtrar datos nulos y por nivel en Pentaho?

El primer paso del proceso de transformación consiste en garantizar la calidad de los datos eliminando valores nulos. Para ello se utiliza un componente de tipo filter que evalúa si el campo CodeCon no es nulo [01:07]. Solo los registros que pasan esta validación continúan por el flujo.

Acontinuación se necesita duplicar la información sin distribuirla, de modo que una copia se dirija a un segundo filtro. Este segundo filter se encarga de separar los registros cuyo nivel (level) sea igual a dos [01:42]. El resultado son dos caminos:

Todos los registros válidos (sin nulos) avanzan hacia el procesamiento de códigos.
Solo los registros de nivel dos pasan a un Select Values donde se conservan únicamente la descripción y el campo Code renombrado con mayúscula inicial para mantener el estándar [02:18].

¿Cómo cortar y limpiar strings con Calculator y String Operations?

Una vez filtrados los nulos, se necesita conocer la longitud del código para aplicar distintas reglas de corte. El componente Calculator [03:05] crea un nuevo campo llamado LenCode que calcula la longitud (length) del string Code. Esto permite identificar si un código tiene once o doce caracteres.

Con esa información se agrega otro filtro que evalúa si LenCode es igual a once [03:40]. A partir de aquí el flujo se bifurca en dos ramas:

¿Qué ocurre cuando el código tiene once caracteres?

Se crea un componente de operaciones de string llamado String Code Once [04:05]. Dentro de él se generan dos variables:

CleanCode: toma los caracteres desde la posición cero hasta cinco.
ParentCode: toma desde la posición cero hasta uno.

¿Qué sucede cuando el código tiene doce caracteres?

Otro componente llamado String Code Doce [04:30] aplica reglas similares pero con rangos distintos:

CleanCode: posiciones de cero a seis.
ParentCode: posiciones de cero a dos.

Es importante notar que si el campo Code llega como entero, Pentaho lanzará un error al intentar cortarlo como string. La solución es transformar el tipo de dato a string antes de la operación [05:10].

¿Cómo unir resultados y generar el dataset final?

Una vez que ambas ramas producen CleanCode y ParentCode, se combinan mediante Append Stream [05:35], que apila los registros de ambos caminos en un solo flujo, sin importar si venían de la condición de once o de doce caracteres.

El siguiente paso es cruzar esta información con las descripciones del nivel dos. Para ello se usa un componente de Merge Join configurado como inner join [06:10]. La clave de unión es ParentCode contra el campo Code proveniente del Select Values de nivel dos. Esto asocia cada producto con la descripción de su categoría padre.

Finalmente se añaden dos componentes para completar la transformación:

Add Sequence [07:05]: genera un identificador único incremental llamado IDCode que avanza de uno en uno.
Select Values [07:25]: selecciona y reordena las columnas finales del dataset.

El resultado es una tabla limpia con cuatro campos:

IDCode: identificador secuencial.
CleanCode: código del producto depurado.
Descripción del producto.
ParentDescription: categoría a la que pertenece.

Todo el proceso es equivalente al código escrito en Pandas y Python, con la ventaja de que cada paso queda representado como una caja visual conectada. Cada caja funciona como un stage dentro del flujo, lo que facilita la lectura, el mantenimiento y la colaboración en equipo. Si algún paso te genera dudas, compártelas en los comentarios para que la comunidad pueda apoyarte.

Comentarios

Luis Damián Campana

student•

no pude instalar/ejecutar pentaho pero recomiendo otra herramienta open source y gratuita muy parecida con la cual ya trabajé anteriormente y me ha resultado maravillosa, super intuitiva , la usé como estudiante y en ambiente laboral , nunca me trajo problemas al contrario, siempre soluciones, se llama Knime Patform Analytics.

https://www.knime.com/knime-analytics-platform

Enjoy it! trabajé con otros software similares y Knime continua invicto. De nada!!

Norberto Iván Tolaba

student•

Si estás haciendo en Windows instalalo según este tutorial: https://www.youtube.com/watch?v=kAnpLonFYWc

Gian HM

student•

Tengo que realizar un ETL , obteniendo datos de Microsoft sharepoint y normalizandolo, donde mi target será postgresql, bueno asi lo decidio yo jeje, ojala me salga todo bien .

Andres Sanchez

student•

20. Transformación de datos con Pentaho

Hacer las transformaciones
Hacer los respectivos filtros según demande al data
Revisar el flujo

Gian HM

student•

Excelente curso, hasta el momento me va gustando mas Python, pero, esta herramienta también esta buenísima

Gabriel Maxemin Ramirez

student•

no!! odio la programación en bloques pero bueno entre mas conocimiento mejor a mi gusto prefiero programar a la convencional

Mario Alexander Vargas Celis

student•

La **transformación de datos con Pentaho** se refiere al proceso de modificar, limpiar, enriquecer y estructurar los datos extraídos para prepararlos para su análisis o almacenamiento. En **Pentaho Data Integration (PDI)**, las transformaciones se crean mediante pasos específicos en un entorno visual que facilita la manipulación de datos de manera eficiente. ### Proceso de Transformación de Datos en Pentaho 1. **Crear una transformación**: - En Pentaho Data Integration, una **transformación** es un conjunto de pasos conectados que procesan datos. - Se inicia creando un nuevo archivo de transformación (.ktr). 2. **Agregar pasos para transformar los datos**: - Desde la paleta de herramientas, selecciona los pasos según la necesidad: - **Filter Rows**: Filtrar filas con base en condiciones. - **Replace in String**: Sustituir valores en cadenas de texto. - **Sort Rows**: Ordenar los datos. - **Calculator**: Realizar cálculos matemáticos o lógicos. - **Join Rows**: Combinar datos de múltiples fuentes. - **Row Normalizer**: Convertir columnas en filas. - **Row Denormalizer**: Convertir filas en columnas. 3. **Conectar los pasos**: - Arrastra líneas de conexión entre pasos para definir el flujo de datos. - Asegúrate de que cada paso recibe correctamente la salida del anterior. 4. **Configurar cada paso**: - Define las reglas o configuraciones para cada operación: - En **Filter Rows**, especifica las condiciones para filtrar. - En **Replace in String**, define los valores a buscar y reemplazar. - En **Join Rows**, selecciona las claves para combinar los conjuntos de datos. 5. **Validar la transformación**: - Utiliza la opción de **vista previa** para verificar cómo se procesan los datos después de cada paso. ### Ejemplo Práctico: Transformar un Archivo de Ventas 1. **Escenario**: - Dispones de un archivo CSV con las columnas: producto, cantidad, precio\_unitario, fecha. - Necesitas: - Calcular el valor total (cantidad \* precio\_unitario). - Filtrar los registros con fecha mayor a 2024-01-01. - Enriquecer los datos agregando una columna categoría basada en el producto. 2. **Pasos en Pentaho**: - **Leer el archivo CSV**: 1. Agrega un paso **Text File Input** y selecciona el archivo. 2. Configura los delimitadores y nombres de columnas. - **Calcular el valor total**: 1. Agrega el paso **Calculator**. 2. Define una nueva columna valor\_total con la operación cantidad \* precio\_unitario. - **Filtrar registros**: 1. Usa el paso **Filter Rows**. 2. Configura la condición fecha > '2024-01-01'. - **Agregar la categoría**: 1. Usa el paso **Add Constants** o **Mapping (sub-transformación)**. 2. Crea una regla condicional que asigne categorías según el producto. - **Escribir el resultado**: 1. Agrega un paso **Text File Output**. 2. Especifica el archivo de salida y las columnas a incluir. 3. **Ejecutar la transformación**: - Haz clic en "Ejecutar" y revisa los resultados. ### Pasos Comunes en Transformaciones - **Limpieza de datos**: - **Select Values**: Seleccionar o renombrar columnas. - **Data Validator**: Validar datos contra reglas específicas. - **Combinación de datos**: - **Merge Join**: Combinar tablas mediante una unión (JOIN). - **Append Streams**: Fusionar dos flujos de datos secuencialmente. - **Conversión de datos**: - **String Operations**: Manipular cadenas de texto. - **Number Range**: Categorizar valores numéricos en rangos. - **Agregación**: - **Group By**: Calcular sumas, promedios o contar elementos. ### Beneficios de Transformar Datos con Pentaho - **Automatización**: Configura procesos reutilizables y programables.- **Flexibilidad**: Admite múltiples formatos y tipos de datos.- **Escalabilidad**: Puede manejar grandes volúmenes de datos.- **Simplicidad visual**: Permite diseñar transformaciones complejas sin necesidad de programación. Si tienes un caso específico o necesitas más ejemplos prácticos, ¡puedo ayudarte a configurarlo!

Marco Esparza

company_admin•

Muy buena herramienta, lo que no me agrada es que no tiene un instalador que facilite su instalacion, tienes que hacer varios ajustes para que pueda funcionar y a la fecha no he podido trabajarlo con Mac con chip m1. Es por ello que recomiendo tambien evaluar la herramienta de Talend, la cual es mucho más sencilla de instalar e iniciar.

Transformación de datos con Pentaho

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?

Conceptos base de ETL

Consideraciones de ETL

Servicios y herramientas para ETL

Extracción de datos

Sources

Configuración de base de datos source y entorno para ETL en Python

Extracción de datos con Python y Pandas

Transformación de datos

Transformación

Transformación de datos con Python y Pandas

Transformación de datos de países

Transformación de datos de transacciones

Carga de datos

Carga

Configuración de clúster en AWS Redshift

Crear tablas en AWS Redshift

Carga de datos con Python

Estructurar sentence para carga de datos de S3 a Redshift

Carga de datos: subida de archivos a AWS Redshift

ETL con Pentaho

Instalación de Pentaho

Extracción de datos con Pentaho

Transformación de datos con Pentaho

Transformación de datos con Pentaho: parte 2

Transformación de datos con Pentaho: parte 3

Carga de datos con Pentaho

Conclusión

Siguientes pasos

Comparte tu proyecto de ETL y obtén tu certificado