Transformación de datos con Pentaho

Clase 20 de 25Curso de Fundamentos de ETL con Python y Pentaho

Resumen

¿Cómo transformar datos en Pentaho de manera efectiva?

Transformar datos es un paso crucial en el proceso de análisis, que nos permite preparar la información para obtener insights valiosos. En este contexto, Pentaho se convierte en una herramienta potente, facilitándonos la tarea mediante su interfaz gráfica intuitiva. Aprenderemos a replicar las transformaciones habitualmente realizadas en Python y Pandas, aprovechando las funcionalidades que nos ofrece Pentaho.

¿Cómo se manejan los datos nulos y se seleccionan valores específicos?

Lo primero que hacemos al transformar datos es asegurarnos de que no haya nulos. En Pentaho, utilizamos un filtro para eliminarlos. Este filtro se conecta a la fuente de datos y verifica que campos específicos, como CodeCon, no sean nulos.

Consecuentemente, seleccionamos los datos que necesitan transformarse, filtrar por niveles de interés permite centrar nuestro análisis. En este caso, interesaba el level2, y usando una función llamada selectValues, filtramos y renombramos columnas para seguir un estándar. Por ejemplo, unificamos nombres usando mayúsculas iniciales, algo que contribuye a mantener un dataset limpio y coherente.

¿Qué otras transformaciones aplicamos en los campos de datos?

A menudo, es esencial trabajar con la longitud de ciertos datos. En Python, podríamos usar una función como len(), pero en Pentaho, recurrimos a la herramienta Calculator. Esta nos ayuda a crear nuevos campos, como LendData, que almacenan la longitud de los códigos, y nos permite diferenciar entre códigos válidos y errores.

Posteriormente, aplicamos filtros adicionales para separar datos basado en estos criterios de longitud, utilizando los resultados para dividir strings en secciones específicas mediante la función Code. Esto se traduce en un trabajo más preciso y ordenado que facilita análisis más detallados.

¿Cómo integramos y finalizamos el procesamiento de datos?

Después de las transformaciones, es vital consolidar los datos. Se usa AppendStream en Pentaho para unir ambos conjuntos de filtrado. Esta función simplifica el proceso, permitiendo unir flujos de datos diferentes en un solo conjunto más homogéneo.

Para culminar, podemos añadir un identificador único a través de AddSequence, proporcionando a cada entrada un id Code que asegura la trazabilidad dentro de nuestro análisis.

Finalmente, con select values seleccionamos y ordenamos las columnas necesarias, asegurando que nuestro dataset final contiene solo los campos relevantes para el análisis. Este procedimiento ayuda a mantener la eficiencia y simplifica revisiones y análisis subsecuentes.

Pentaho nos facilita replicar transformaciones complejas realizadas tradicionalmente con Python y Pandas, simplificando el proceso gracias a su interfaz gráfica. Es una gran oportunidad para reforzar nuestras habilidades analíticas al combinar programación y herramientas de visualización.