Carga de datos ETL con Pentaho a Redshift

Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Carga de datos ETL con Pentaho a Redshift

Resumen

La carga es el último paso de un pipeline ETL y en Pentaho se resuelve con un componente llamado Table Output. Si ya limpiaste tus datos, conectar la salida a Redshift, S3, JSON o CSV toma pocos minutos y deja todo listo para análisis.

¿Qué hace el paso de carga en un pipeline ETL?

La carga toma el dataset transformado y lo escribe en un destino final. En Pentaho ese destino lo defines desde la sección output del diseñador, donde aparecen todos los targets disponibles para tu flujo.

¿Qué es Table Output en Pentaho? Es el paso que inserta los registros procesados directamente en una tabla de base de datos, mapeando columnas y manejando commits por lote.

Entre las opciones que tienes para cerrar un pipeline aparecen varias rutas según tu arquitectura:

Cargar a un data warehouse como Redshift, BigQuery, Snowflake u Oracle.
Enviar el resultado a S3 como almacenamiento intermedio.
Generar archivos planos en CSV, JSON o XML.
Producir sentencias insert listas para ejecutar.

Cada destino responde a una necesidad distinta, así que la elección depende de quién consume los datos después.

¿Cómo configurar Table Output hacia Redshift paso a paso?

El flujo parte del dataset limpio, en este caso Quantity, y conecta con una copia hacia el nodo Table Output. Antes de configurarlo necesitas tener creada la conexión a Redshift, que se levanta igual que una conexión a Postgres.

Dentro del paso debes definir tres elementos clave:

El esquema destino, que aquí se llama etl_test.
La tabla destino, que coincide con Quantity.
El tamaño del commit, configurado cada 1.000 registros aunque podrías bajarlo a 100 si la tabla es pequeña.

El tamaño del commit importa porque controla cada cuántas filas Pentaho confirma la transacción contra la base. Para tablas con pocos registros, lotes más chicos te dan retroalimentación más rápida.

¿Y si los nombres de columnas no coinciden?

Pentaho ofrece un mapeo dentro del mismo paso para emparejar campos del flujo con campos de la tabla destino. En este ejemplo id_quantity y quantity_name se llaman igual en origen y destino, así que el mapeo es directo.

¿Cuándo necesito mapear columnas manualmente? Solo cuando los nombres del dataset no coinciden con los de la tabla destino; si son idénticos, Pentaho los empareja automáticamente.

¿Cómo verificar que la carga funcionó?

Antes de ejecutar conviene consultar la tabla destino desde tu cliente SQL, en este caso DataSpell, para confirmar que está vacía. Después de correr el pipeline, repites la consulta y deberías ver todos los registros insertados.

El proceso termina con un mensaje de inserción y los datos quedan disponibles para análisis posteriores. Esa validación de antes y después es la forma más simple de confirmar que el Table Output hizo su trabajo.

¿Qué otros destinos puedes probar desde Pentaho?

La misma lógica que usaste con Redshift aplica a cualquier otro target. Crear la conexión, mapear columnas y ejecutar. Eso te abre la puerta a experimentar con varios formatos sin reescribir el pipeline completo.

Algunas variantes que vale la pena replicar con el resto de datasets:

Exportar a un archivo JSON para integraciones con APIs.
Generar un CSV para análisis rápido en hojas de cálculo.
Producir XML cuando trabajas con sistemas legacy.
Cargar a Oracle, BigQuery o Snowflake según el stack de tu equipo.

Pentaho es gratis, intuitivo y se adapta bien a proyectos de distinto tamaño. Si tienes una idea de pipeline que quieras llevar a esta herramienta, cuéntalo en los comentarios y comparte tu experiencia con la comunidad.

Mario Alexander Vargas Celis

Estudiante

La carga de datos con Pentaho se realiza comúnmente en la etapa final de un proceso ETL (Extracción, Transformación y Carga). Este proceso implica mover los datos transformados hacia un sistema destino, que puede ser un almacenamiento como bases de datos, archivos CSV, sistemas analíticos, o incluso APIs.

Pasos para realizar la carga de datos con Pentaho

1. Configuración Inicial

Antes de empezar, asegúrate de lo siguiente:

Tener los datos correctamente transformados y limpios.
Definir el sistema destino, como una base de datos (PostgreSQL, MySQL, Redshift, etc.), un archivo CSV, o un sistema en la nube.
Crear una conexión en Pentaho Spoon para acceder al destino.

2. Conexión al Sistema Destino

Agregar una Conexión (si usas una base de datos):
- Ve a la pestaña Explorador de Conexiones en Spoon.
- Haz clic en Nueva Conexión y selecciona el tipo de base de datos.
- Configura los parámetros:
  - Host (servidor).
  - Puerto.
  - Nombre de la base de datos.
  - Usuario y contraseña.
  - Probar conexión.
Definir un archivo destino (si usas CSV/Excel):
- Usa el paso Text File Output para guardar los datos en un archivo.
- Especifica el nombre del archivo y el delimitador.

3. Agregar el Paso de Carga de Datos

Dependiendo del destino, selecciona el paso adecuado:

Table Output (Salida a Tabla):
- Conecta este paso al flujo de datos transformados.
- Configura:
  - Nombre de la tabla.
  - Modo de inserción (Insertar, Actualizar, Upsert).
  - Opciones adicionales como truncar la tabla antes de cargar los datos.
Text File Output (Salida a Archivo de Texto):
- Configura:
  - Ruta del archivo.
  - Delimitador de columnas (coma, tabulación, etc.).
  - Codificación del archivo (UTF-8 es la más común).
  - Encabezados (incluir o no).
Load to Cloud (Carga a la Nube):
- Usa pasos como S3 File Output o conexiones API para cargar datos a sistemas en la nube.

4. Configurar Opciones Avanzadas

Manejo de Errores:
- Configura un flujo de errores para capturar registros que no se carguen correctamente.
- Usa el paso Write to Log o Text File Output para registrar errores.
Control de Batch:
- Si estás cargando grandes volúmenes de datos, ajusta los tamaños de lote (batch size) para optimizar la carga.
Compresión:
- Para grandes cantidades de datos, usa compresión (gzip, zip) para optimizar el almacenamiento.

5. Probar y Ejecutar la Transformación

Ejecuta la transformación desde Spoon.
Monitorea los logs en la consola para identificar errores.
Verifica en el sistema destino que los datos se hayan cargado correctamente.

Ejemplo Práctico: Carga a una Tabla MySQL

Crea una conexión a la base de datos MySQL.
Agrega el paso Table Output al final del flujo.
Configura:
- Tabla destino: ventas_mensuales.
- Modo: Insert.
- Activa "Commit Size" (por ejemplo, 500 registros por lote).
Ejecuta y valida los datos en MySQL.

Consejos Adicionales

Validar Datos: Usa pasos como Select Values o Filter Rows antes de la carga para asegurarte de que los datos cumplen con las reglas de negocio.
Automatización: Si necesitas realizar cargas frecuentes, usa Pentaho Carte para programar transformaciones.
Optimización: Si cargas a una base de datos, usa índices adecuados en las tablas destino.

Con estos pasos, puedes implementar un flujo robusto para la carga de datos con Pentaho.

Carga de datos ETL con Pentaho a Redshift

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?

Conceptos clave de ETL: source, target y staging

Consideraciones clave antes de implementar ETL

Herramientas ETL: Pentaho, Pandas y más

Extracción de datos

Consideraciones clave al extraer datos en ETL

Configuración de base de datos source y entorno para ETL en Python

Extracción ETL con Pandas desde Postgres

Transformación de datos

Consideraciones clave antes de transformar datos ETL

Limpieza de códigos de productos con Pandas

Merge de países y productos con pandas

Cómo convertir un DataFrame en tabla de hechos

Carga de datos

Consideraciones clave antes de cargar a Redshift

Configuración de clúster en AWS Redshift

Crear tablas en AWS Redshift

Carga de CSV a Redshift con COPY

Estructurar sentence para carga de datos de S3 a Redshift

Carga masiva de CSVs a Redshift con Python

ETL con Pentaho

Instalación de Pentaho

Extracción de datos con Pentaho desde cero

Transformación de códigos con Pentaho

Transformaciones ETL en Pentaho sin código

Merge y lookup en Pentaho para tabla de hechos