No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Carga de datos con Pentaho

23/25
Recursos

⚠️ Recuerda que al poner el dato del Target schema debe ser public, porque ese es el esquema donde creaste las tablas en tu Redshift.

En este había usado etl_test por ser el esquema donde las había dejado.

schema_public_en_pantaho.png

Aportes 9

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Solo por probar, quize cargar la Table Output a una nueva tabla en el contenedor de postgres en lugar de redshift. asi que hice una nueva tabla con los datos necesarios

CREATE TABLE quantity_output (
	id_quantity VARCHAR(20),
	quantity_name VARCHAR(20)
);

y luego hice los pasos para cargarlos a postgres en vez de a redshift.

Ejecute y me funciono 😃. Se cargaron los datos al contenedor de postgres.

⚠️ Recuerda que al poner el dato del Target schema debe ser public, porque ese es el esquema donde creaste las tablas en tu Redshift.

En este caso se había usado etl_test por ser el esquema donde se las había dejado Carlos.

no pude hacer funcionar Pentaho pero por suerte ya tuve experiencias con otra herramienta de similar caracteristicas que nunca me ha dado problema, al contrario, todas soluciones. Super recomendada, gratuita y open source! KNIME! pasen a verla no se arrepentiran.

https://www.knime.com/

Enjoy it!

23. Carga de datos con Pentaho

  1. Conectarse a RedShift
  2. Insertar outupt
  3. Conectar los datos transformados con el output

Para el cargue de los datos, lo hice a una base de datos en Postgresql, con un table output![](

hola! si llegaste aquí al igual que yo y tienes dudas de como el profesor (que no explica nada de sus procesos ajajaja) se conecto a redshift yo te digo que onda: 1\. Al parecer Pentaho no puede realizar la conexión a Redshift ya que necesita el driver JDBC de Amazon Redshift (un mentado .jar) les dejo el link donde lo pueden descargar: <https://docs.aws.amazon.com/es_es/redshift/latest/mgmt/jdbc20-download-driver.html> 2\. da clic en [Versión 2.1 del controlador compatible con JDBC 4.2 y bibliotecas dependientes del controlador con AWS SDK](https://s3.amazonaws.com/redshift-downloads/drivers/jdbc/2.1.0.30/redshift-jdbc42-2.1.0.30.zip) esto te descargara un .zip que contendrá un montón de archivos .jar el que busca dentro de ese archivo el que diga redshift-jdbc42-2.1.0.30.jar 3\. tienes que añadirlo a las librerías de pentaho esto lo haces yendo a la carpeta donde hiciste toda la instalación luego a data-integration y por ultimo a lib la ruta es algo asi: pdi-ce-10.2.0.0-222\data-integration\lib 4\. ahí copia el archivo redshift-jdbc42-2.1.0.30.jar 5, reinicia pentaho 6\. para la credenciales has lo siguiente si pudiste hacer la coneccion en DataSpell felicidades ya tienes todo para hacerlo aquí y si no lo siento mijo estas perdido ya que también dure mucho para poder hacerlo en DataSpell yo como resolví esto fue yendo a chatGPT y poniendo los errores que me decía DataSpell en el notebook pero bueno aquí te digo que pongas en cada ampo **Host name:** Copia el valor de `os.environ['host']` **Database Name:** Copia el valor de `os.environ['database']` **Port Number:** Redshift utiliza el puerto `5439` por defecto **Username:** Copia el valor de `os.environ['user']` **Authentication method:** Selecciona **Standard**. **Password:** Copia el valor de `os.environ['password']` 7\. pícale en test para probar tu conexión y déjame un perro like por que me costo un !#"$%# saber como hacer esto gracias y que loco que soy el único comentario espero que no sea el único que lo halla logrado ya que si falta mucha explicación
La **carga de datos** con Pentaho se realiza comúnmente en la etapa final de un proceso ETL (Extracción, Transformación y Carga). Este proceso implica mover los datos transformados hacia un sistema destino, que puede ser un almacenamiento como bases de datos, archivos CSV, sistemas analíticos, o incluso APIs. ### **Pasos para realizar la carga de datos con Pentaho** #### **1. Configuración Inicial** Antes de empezar, asegúrate de lo siguiente: * Tener los datos correctamente transformados y limpios. * Definir el sistema destino, como una base de datos (PostgreSQL, MySQL, Redshift, etc.), un archivo CSV, o un sistema en la nube. * Crear una conexión en Pentaho Spoon para acceder al destino. #### **2. Conexión al Sistema Destino** 1. **Agregar una Conexión (si usas una base de datos):** * Ve a la pestaña *Explorador de Conexiones* en Spoon. * Haz clic en **Nueva Conexión** y selecciona el tipo de base de datos. * Configura los parámetros: * Host (servidor). * Puerto. * Nombre de la base de datos. * Usuario y contraseña. * Probar conexión. 2. **Definir un archivo destino (si usas CSV/Excel):** * Usa el paso **Text File Output** para guardar los datos en un archivo. * Especifica el nombre del archivo y el delimitador. #### **3. Agregar el Paso de Carga de Datos** Dependiendo del destino, selecciona el paso adecuado: 1. **Table Output (Salida a Tabla)**: * Conecta este paso al flujo de datos transformados. * Configura: * Nombre de la tabla. * Modo de inserción (Insertar, Actualizar, Upsert). * Opciones adicionales como truncar la tabla antes de cargar los datos. 2. **Text File Output (Salida a Archivo de Texto)**: * Configura: * Ruta del archivo. * Delimitador de columnas (coma, tabulación, etc.). * Codificación del archivo (UTF-8 es la más común). * Encabezados (incluir o no). 3. **Load to Cloud (Carga a la Nube)**: * Usa pasos como **S3 File Output** o conexiones API para cargar datos a sistemas en la nube. #### **4. Configurar Opciones Avanzadas** * **Manejo de Errores:** * Configura un flujo de errores para capturar registros que no se carguen correctamente. * Usa el paso **Write to Log** o **Text File Output** para registrar errores. * **Control de Batch:** * Si estás cargando grandes volúmenes de datos, ajusta los tamaños de lote (batch size) para optimizar la carga. * **Compresión:** * Para grandes cantidades de datos, usa compresión (gzip, zip) para optimizar el almacenamiento. #### **5. Probar y Ejecutar la Transformación** 1. Ejecuta la transformación desde Spoon. 2. Monitorea los logs en la consola para identificar errores. 3. Verifica en el sistema destino que los datos se hayan cargado correctamente. ### **Ejemplo Práctico: Carga a una Tabla MySQL** 1. Crea una conexión a la base de datos MySQL. 2. Agrega el paso **Table Output** al final del flujo. 3. Configura: * Tabla destino: `ventas_mensuales`. * Modo: `Insert`. * Activa "Commit Size" (por ejemplo, 500 registros por lote). 4. Ejecuta y valida los datos en MySQL. ### **Consejos Adicionales** * **Validar Datos**: Usa pasos como *Select Values* o *Filter Rows* antes de la carga para asegurarte de que los datos cumplen con las reglas de negocio. * **Automatización**: Si necesitas realizar cargas frecuentes, usa Pentaho Carte para programar transformaciones. * **Optimización**: Si cargas a una base de datos, usa índices adecuados en las tablas destino. Con estos pasos, puedes implementar un flujo robusto para la carga de datos con Pentaho.
Muchisimas gracias por este curso, migrare todas las bases de datos de una empresa a un nuevo aplicativo y ya realice dos modulos con pentaho, excelente herramienta
me toco crear la conexion y cambiar esto :![](https://static.platzi.com/media/user_upload/image-f5c7ace8-8fab-4156-96ed-3ecd61d6b84f.jpg)