Contenido del curso
Extracción de datos
Transformación de datos
Carga de datos
- 12

Consideraciones clave antes de cargar a Redshift
03:31 min - 13

Configuración de clúster en AWS Redshift
04:59 min - 14

Crear tablas en AWS Redshift
02:45 min - 15

Carga de CSV a Redshift con COPY
14:03 min - 16

Estructurar sentence para carga de datos de S3 a Redshift
01:14 min - 17

Carga masiva de CSVs a Redshift con Python
08:07 min
ETL con Pentaho
Conclusión
Merge y lookup en Pentaho para tabla de hechos
Resumen
Cerrar el proceso de transformación en Pentaho implica unir cada fuente con su identificador correspondiente para construir una vista minable lista para cargar a un data warehouse. Aquí verás cómo aplicar merge y lookup en Pentaho sobre una tabla de trades para enlazar dimensiones como flow, year, quality, country y codes, y dejar todo listo para Redshift.
¿Cómo se duplica un flujo de datos en Pentaho con Dummy?
Antes de aplicar los lookups necesitas una copia del stream principal de trades. La forma más limpia es usar un step Dummy, que no ejecuta ninguna lógica pero permite generar una réplica del flujo para trabajar en paralelo [01:00].
¿Para qué sirve el step Dummy en Pentaho? Es un step que no transforma datos. Se usa para duplicar un flujo, organizar visualmente la transformación o como punto de paso cuando necesitas mantener una rama disponible sin alterarla.
Podrías omitirlo y conectar directo, pero conocerlo te da flexibilidad cuando armes pipelines más complejos.
¿Cómo aplicar Stream Lookup para cruzar dimensiones?
El Stream Lookup es el corazón de esta etapa. Permite hacer un merge entre dos flujos usando una llave común y traer un valor específico de la dimensión hacia la tabla principal [01:20].
En este pipeline se crearon cinco lookups, uno por cada dimensión:
- Lookup Flow: cruza el campo flow contra flow para traer el ID Flow.
- Lookup Year: cruza el campo año contra año para obtener el ID Year.
- Lookup Quality: cruza quality name contra quality name para traer el ID Quality.
- Lookup Country: cruza el Country Code contra el Country Code para obtener el ID Country.
- Lookup Codes: cruza el Com Code contra el Clean Code para traer el ID Code.
Cada lookup recibe el flujo principal de trades y una fuente secundaria que contiene la dimensión con su identificador.
¿Qué hacer cuando un lookup arroja error de campo?
Durante la ejecución apareció un error en el Lookup Country: el step buscaba contra un campo llamado Alfa 3 que en realidad se llamaba Country Code [04:30]. La solución fue validar el nombre exacto del campo en el select values de origen y ajustarlo en la configuración del lookup.
¿Por qué falla un Stream Lookup en Pentaho? Casi siempre por un nombre de campo mal escrito o porque el campo se renombró en un step anterior. Revisa el select values fuente y confirma que la llave coincida exactamente.
¿Cómo generar el ID de la tabla de hechos?
Una vez encadenados los cinco lookups, se agrega un step de secuencia llamado ID_Trades para asignar un identificador único a cada registro de la tabla de hechos [05:10]. Esta secuencia es la llave primaria que distinguirá cada transacción de exportación o importación.
¿Cómo construir la vista minable final con Select Values?
El último paso es filtrar solo las columnas que la tabla de hechos necesita. Se usa un step Select Values llamado Select Value Trades que conserva:
- ID Trade como llave primaria.
- Métricas: USD, kilos y cantidad.
- Identificadores foráneos: ID Code, ID Country, ID Flow, ID Year e ID Quantity.
Con esto queda una vista minable que contiene un identificador de trade, todas las métricas del negocio y las llaves hacia las dimensiones de código, país, flow, año y quantity [06:00]. Es exactamente la estructura que espera un modelo dimensional en estrella.
¿Por qué Pentaho funciona para proyectos ETL de comercio internacional?
Lo interesante de Pentaho es que transformaciones que suenan complejas, como cruzar cinco dimensiones contra una tabla de hechos, se resuelven arrastrando cajitas y configurando llaves. No escribiste una sola línea de SQL para lograrlo.
La herramienta tiene decenas de stages adicionales para limpieza, validación, joins, agregaciones y conexiones a bases de datos. Cada uno se conecta con el mismo principio: entrada, configuración mínima, salida.
El siguiente paso del pipeline es la carga hacia Redshift, donde esta vista minable se convertirá en la tabla de hechos lista para análisis. ¿Cuál de estos stages te parece más útil para tus propios proyectos? Déjalo en los comentarios.