Revisión de todo el ETL

Clase 25 de 26 • Curso de Data Warehousing y Modelado OLAP

Contenido del curso

Introducción a BI y Data Warehouse

Modelos dimensionales

ETL para inserción en Data Warehouse

Cierre

26
Reflexiones y cierre
01:19 min

Tomar examen

Resumen

Construir un proceso ETL completo que cargue dimensiones y una tabla de hechos requiere decisiones técnicas precisas sobre paralelismo, manejo de variables y estrategias de carga según el volumen de datos. Aquí se explica paso a paso la propuesta de solución para este reto, desde la orquestación de las cargas hasta la verificación final en la base de datos.

¿Cómo se orquesta la carga en paralelo de las dimensiones?

El flujo comienza con un start y un dummy que permite lanzar ejecuciones en paralelo [0:06]. Sin embargo, hay un detalle crítico: cuando todas las dimensiones comparten la misma transformación para generar máximos IDs, pueden solaparse y enviar variables de manera incorrecta.

Para evitar ese problema se utilizan bloques wait con intervalos de aproximadamente cinco segundos entre cada ejecución [0:25]. Como la transformación de generación de IDs es rápida, ese tiempo es suficiente para que una termine antes de que la siguiente inicie su cálculo. Así, aunque las cargas de clientes, productos, territorios y vendedores corren casi al mismo tiempo, no hay conflicto de variables.

¿Por qué se deshabilita la carga de la dimensión tiempo?

La dimensión tiempo se ejecuta una sola vez y luego se deshabilita [1:10]. La razón es sencilla: los datos de tiempo no cambian. Generalmente se carga con varios años hacia el futuro y no requiere modificaciones posteriores, así que no tiene sentido ejecutarla en cada corrida del proceso.

¿Qué estrategia de carga se usa para clientes versus productos?

Para clientes se aplican dos transformaciones encadenadas [1:27]:

La primera ejecuta reglas de negocio, crea campos nuevos y genera un archivo CSV.
La segunda toma ese CSV y lo carga mediante un comando copy.

Esta estrategia responde a que Redshift no es eficiente para inserciones directas, pero con copy carga millones de registros de forma muy rápida [1:53].

En cambio, para productos, territorios y vendedores, como son pocos registros, la carga se hace directamente a base de datos sin pasar por CSV [1:48]. El rendimiento es aceptable dado el bajo volumen.

¿Cómo se manejan las variables entre múltiples jobs?

Cada carga recibe la asignación de sus propias variables: nombre de tabla, campo identificador y demás parámetros [2:15]. Un punto importante es el manejo del caché de variables. Cuando trabajas con varios proyectos, las variables pueden cruzarse. La solución es indicarle al job que use exclusivamente las variables definidas en su contexto [2:30], evitando así lecturas incorrectas de valores residuales.

¿Cómo se carga la tabla de hechos de ventas?

La carga de la tabla de hechos (FAQ) es más simple en su orquestación porque es una sola tabla [2:50]. No necesita dummy ni wait. El flujo sigue estos pasos:

Setear las variables correspondientes: ID, nombre de tabla y campo para identificar registros nuevos.
Calcular el máximo ID existente para generar consecutivos a partir de ahí.
Transformar los datos de ventas.
Exportar a CSV y cargar con copy, igual que clientes, debido al alto volumen de registros [3:18].

Es fundamental que las dimensiones se carguen antes que la tabla de hechos [4:28]. Durante la transformación de ventas se cruza cada registro con las dimensiones usando el código de negocio (código de vendedor, de producto, de cliente) para obtener el ID correspondiente en el data warehouse.

¿Cómo se verifican los resultados en la base de datos?

Al consultar la tabla de vendedores, cada registro tiene su ID consecutivo, los campos definidos en el modelo de datos y las fechas de inicio y fin de vigencia [3:40]. Esta es la implementación de la dimensión lentamente cambiante tipo dos (SCD tipo 2): cuando un registro se modifica en la base transaccional, se cierra la vigencia del anterior y se abre una nueva para el registro actualizado [3:55].

La tabla de clientes usa una dimensión lentamente cambiante tipo uno (SCD tipo 1) [4:08]: cada actualización sobreescribe directamente el registro sin guardar historial.

La tabla de productos incluye campos como color, tamaño, categoría y fechas de carga y actualización [4:20].

Finalmente, la tabla de hechos de ventas contiene los IDs de cada dimensión, el código de factura, cantidades, valores, descuentos y fechas de inserción [4:35]. Con este modelo completo ya es posible conectar herramientas de visualización como Power BI, MicroStrategy, Tableau o Superset para construir tableros y aportar valor al negocio.

¿Tu solución fue diferente? Comparte en los comentarios cómo resolviste el reto y qué enfoque utilizaste para la carga de dimensiones y la tabla de hechos.

Mario Alexander Vargas Celis

student•

Para realizar una revisión exhaustiva de tu proceso ETL en Pentaho, es importante considerar las siguientes áreas clave:

1. Validación de Parámetros y Variables

Revisión:
- Confirma que las variables usadas (${CONSECUTIVO}, ${TABLA}, etc.) estén definidas y que se pasen correctamente al Job o a las transformaciones.
- Usa el paso de "Set Variables" en el Job si es necesario definir variables globales.
Prueba:
- Ejecuta un paso de prueba para asegurarte de que las variables se están resolviendo correctamente.

2. Extracción de Datos

Revisión:
- Verifica las consultas SQL para garantizar que:
  - Tengan la sintaxis correcta.
  - Devuelvan los resultados esperados.
  - Se adapten al tipo de base de datos (PostgreSQL, Redshift, etc.).
- Revisa conexiones en "Database Connections":
  - Dirección del servidor.
  - Credenciales.
  - Puerto y esquema correcto.
Prueba:
- Ejecuta cada consulta en un cliente de base de datos externo antes de incluirla en el ETL.

3. Transformaciones

Revisión:
- Analiza cada transformación (.ktr) incluida en el Job:
  - Los pasos tienen configuraciones válidas y conexiones entre ellos.
  - Se manejan excepciones o datos inválidos adecuadamente.
  - Las salidas son coherentes con los requisitos del proceso.
Prueba:
- Ejecuta cada transformación por separado y valida sus salidas antes de integrarlas al Job.

4. Limpieza y Enriquecimiento de Datos

Revisión:
- Asegúrate de que los pasos de transformación manejen:
  - Nulls y valores faltantes (IfNull, Replace Value, etc.).
  - Tipos de datos correctos para las operaciones posteriores.
  - Enriquecimiento basado en reglas de negocio.
Prueba:
- Revisa ejemplos de datos antes y después de los pasos críticos (usa "Preview Rows").

5. Carga en Destino

Revisión:
- Valida que las tablas de destino:
  - Existan y sean accesibles.
  - Coincidan con la estructura esperada por el ETL.
  - Sean gestionadas correctamente (truncar, insertar, actualizar).
- Revisa configuraciones de pasos como "Table Output" o "Insert/Update".
Prueba:
- Ejecuta cargas de prueba con datos controlados.

6. Manejo de Errores

Revisión:
- Configura logs y pasos de salida de errores:
  - Define "Error Handling" en pasos clave.
  - Registra errores en un archivo o tabla.
- Usa condiciones en los hops para manejar errores y redirigir el flujo del Job.
Prueba:
- Simula errores para comprobar que el Job se comporta adecuadamente.

7. Rendimiento

Revisión:
- Evalúa tiempos de ejecución.
- Optimiza pasos pesados (filtros, transformaciones complejas, etc.).
- Configura paralelización si es necesario.
Prueba:
- Ejecuta el ETL en condiciones de producción y monitorea tiempos y uso de recursos.

8. Documentación

Revisión:
- Añade descripciones claras en cada paso del Job y transformaciones.
- Documenta dependencias, rutas de archivos y credenciales.

9. Pruebas End-to-End

Revisión:
- Ejecuta el Job completo con datos reales (o simulados) y verifica:
  - La integridad de los datos en cada paso.
  - Que los datos cargados en el destino cumplan con las expectativas.
- Compara los resultados con un conjunto de datos esperado.

10. Plan de Mantenimiento

Revisión:
- Diseña estrategias para:
  - Gestionar cambios en las estructuras de datos de origen o destino.
  - Monitorear errores en ejecución.
  - Escalar el proceso ETL si crece el volumen de datos.

Revisión de todo el ETL

Introducción a BI y Data Warehouse

¿Qué es BI y Data Warehousing?

Niveles de analítica y jerarquía del conocimiento

Conceptos de BI: Data Warehouse, Data Mart, Dimensiones y Hechos

Base de datos OLTP vs. OLAP

Metodologías de Data Warehouse

Modelos dimensionales

Data Warehouse, Data Lake y Data Lakehouse: ¿Cuál utilizar?

Tipos de esquemas dimensionales

Dimensiones lentamente cambiantes

Dimensión tipo 1

Dimensión tipo 2

Dimensión tipo 3

Tabla de hechos (fact)

Configuración de herramientas para Data Warehouse y ETL

Modelado dimensional: identificación de dimensiones y métricas

Modelado dimensional: diseño de modelo

ETL para inserción en Data Warehouse

Documento de mapeo

Creación del modelo físico

Extracción: querys en SQL

Extracción en Pentaho

Transformación: dimensión de cliente

Carga: dimensión de cliente

Soluciones ETL de las tablas de dimensiones y hechos

Parámetros en ETL

Orquestar ETL en Pentaho: job

Revisión de todo el ETL

Cierre

Reflexiones y cierre