Extracción en Pentaho

Clase 19 de 26Curso de Data Warehousing y Modelado OLAP

Resumen

¿Cómo transferir una consulta SQL a Pentaho?

Inmediatamente al sumergirnos en las herramientas de business intelligence, el proceso de consultar, extraer y transformar datos cobra relevancia. En esta clase, exploramos cómo implementar consultas SQL dentro de Pentaho, una herramienta poderosa para procesar datos de manera eficiente. A continuación, se detalla el procedimiento para trasladar un query desde SQL a Pentaho, comenzando con la creación de una nueva transformación.

¿Cuál es el primer paso en Pentaho?

  1. Crear una nueva transformación:
    • Accedemos a Pentaho y creamos una transformación nueva. Esto se realiza seleccionando "nueva transformación" en el menú de herramientas.
  2. Configurar un Table Input:
    • Dentro de la nueva transformación, añadimos un paso "Table Input".
    • Arrastramos y soltamos el "Table Input" en nuestro espacio de trabajo.

¿Cómo se configura la conexión a la base de datos?

Para que Pentaho pueda interactuar con las bases de datos, es fundamental establecer una conexión adecuada:

  • Establecer conexión a la base de datos:

    • Definimos los parámetros de conexión como el motor de base de datos (en este caso, Postgres), el servidor, el nombre de la base de datos, el usuario y el password.
    • Se asigna un nombre descriptivo a la conexión, como con_Postgres_AdventureWorks.
  • Validar la conexión:

    • Es crucial probar la conexión para asegurar que todos los parámetros son correctos y que la base de datos es accesible.

¿Cómo ejecutar y validar una consulta SQL en Pentaho?

  1. Ingresar el query en Pentaho:

    • Una vez la conexión está establecida, se inserta el SQL query copiado previamente desde SQL dedicado, configurándolo como parámetro del "Table Input".
  2. Probar la consulta:

    • Con la conexión correcta, se realiza un "preview" de los datos para garantizar que se están extrayendo como se espera.

¿Cómo cruzar datos de múltiples bases de datos?

Después de asegurar la extracción de datos de una base de datos transaccional, es imprescindible cruzar estos datos con otros provenientes del Data Warehouse:

  1. Configurar una nueva conexión:

    • Establecemos otra conexión, esta vez hacia una base de datos en Redshift, para obtener datos dimensionales.
  2. Definir consulta a la base de datos dimensional:

    • Realizamos un query para seleccionar los campos necesarios, por ejemplo, ID, código y fecha de actualización.
    • Validamos y probamos los aspectos de la conexión y los datos extraídos.
  3. Cruzando datos entre tablas:

    • Utilizamos un "stream lookup" para relacionar las dos fuentes de datos.
    • Se definirá qué campos, como el código del cliente, serán la clave para esa relación.

¿Cómo identificar y procesar datos nuevos?

  • Asignar ID a registros nuevos:
    • Para los datos nuevos, que no tengan un ID asignado, se les generará uno único.
    • Para los datos existentes se reusará el ID actual.

Con estos pasos, se establece una base sólida para trabajar datos de manera óptima en Pentaho. Este enfoque permite un manejo de datos más robusto y confiable tanto de los datos nuevos como antiguos, preparándonos para la siguiente etapa: aplicar transformaciones y cargar los resultados en la base de datos, un ejercicio a profundizar en futuras clases. Ahí radica la riqueza del aprendizaje continuo en la gestión de datos, ¡así que sigan adelante explorando más!