¡Hola, te doy la bienvenida a este tutorial! Configurarás las bases de datos y herramientas que usaremos para el ETL y crear un data warehouse.
Usaremos PostgreSQL con la base de datos Adventureworks. Será nuestra base de datos transaccional y la fuente de información para llevar al data warehouse.
Ejecuta las siguientes instrucciones para configurar esto:
Ruby
Instalación de Ruby en Ubuntu o WSL con Ubuntu
Abre la terminal de Ubuntu
Ejecuta el siguiente comando en la terminal para actualizar la lista de paquetes disponibles:
sudo apt-get update
Una vez actualizada la lista de paquetes, instala Ruby ejecutando el siguiente comando en la terminal:
sudo apt-get install ruby-full
Verifica que Ruby se haya instalado correctamente ejecutando ruby -v en la terminal.
Selecciona la versión de Ruby que deseas instalar.
Ejecuta el instalador y sigue las instrucciones del asistente de instalación.
Una vez completada la instalación, abre la línea de comandos de Windows (cmd.exe) y escribe ruby -v para verificar que la instalación se haya realizado correctamente.
Instalación de Ruby en macOS
Abre la terminal de macOS.
Instala Homebrew ejecutando el siguiente comando en la terminal:
Selecciona la opción para crear una nueva conexión.
Selecciona PostgreSQL en la lista de bases de datos.
Ingresa la información de conexión necesaria en la pestaña.
Host: localhost
Port: 5432
Base de datos: Adventureworks
Nombre de usuario: postgres
Password: la que tengas de tu user de postgresql.
5.Haz clic en **TestConnection** para asegurarte de que los detalles de conexión sean correctos y que puedas conectarte a la base de datos.6.Si la prueba de conexión es exitosa, haz clic en "Finalizar" para guardar la configuración de la conexión.
Configuración de Pentaho
Esta herramienta la utilizaremos para crear las ETL de los datos transaccionales (DB Adventureworks) en Postgres a el Data Warehouse en AWS Redshift.
AWS Redshift será utilizado como data warehouse. Será el lugar donde construiremos las dimensiones, tablas de hechos y llevaremos los datos modelados y limpios que se obtuvieron del sistema transaccional.
Crea un nuevo clúster de AWS Redshift de manera similar al Curso de Fundamentos de ETL con Python y Pentaho. Puedes seguir las clases tutoriales de ese curso: