Recuerden que para ahcer la conexión, toca encender el contenedor de docker donde esta alojada la base de datos 😃
Introducción a ETL
¿Qué es un ETL en ingeniería de datos?
Conceptos base de ETL
Consideraciones de ETL
Servicios y herramientas para ETL
Quiz: Introducción a ETL
Extracción de datos
Sources
Configuración de base de datos source y entorno para ETL en Python
Extracción de datos con Python y Pandas
Quiz: Extracción de datos
Transformación de datos
Transformación
Transformación de datos con Python y Pandas
Transformación de datos de países
Transformación de datos de transacciones
Quiz: Transformación de datos
Carga de datos
Carga
Configuración de clúster en AWS Redshift
Crear tablas en AWS Redshift
Carga de datos con Python
Estructurar sentence para carga de datos de S3 a Redshift
Carga de datos: subida de archivos a AWS Redshift
Quiz: Carga de datos
ETL con Pentaho
Instalación de Pentaho
Extracción de datos con Pentaho
Transformación de datos con Pentaho
Transformación de datos con Pentaho: parte 2
Transformación de datos con Pentaho: parte 3
Carga de datos con Pentaho
Quiz: ETL con Pentaho
Conclusión
Siguientes pasos
Comparte tu proyecto de ETL y obtén tu certificado
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
El proceso ETL (Extract, Transform, Load) es crucial en el manejo de datos masivos, y aunque anteriormente se vio cómo implementar este proceso utilizando Python, ahora nos adentramos en el mundo de las herramientas open source con Pentaho. Pentaho ofrece una interfaz amigable que simplifica el manejo de datos a través de conexiones visuales y componentes predefinidos para cada etapa del proceso ETL.
El primer paso en el uso de Pentaho es crear una conexión a una base de datos. Este proceso es esencial para la extracción de datos y se realiza de la siguiente manera:
localhost
Postgres
Postgres
mysecretpass
Pentaho permite leer datos desde múltiples fuentes, como bases de datos, archivos CSV y JSON, a través de componentes específicos en su interfaz. Aquí te mostramos cómo se realiza cada tipo de extracción:
Extracción de tabla en base de datos:
SELECT * FROM traits LIMIT 1000;
Extracción desde un archivo CSV:
Extracción de un archivo JSON:
asterisco.punto.todo
para seleccionar los nodos correctos.Ambas herramientas tienen sus pros y contras, y la elección dependerá de las necesidades del proyecto. Aquí algunos puntos claves para tener en cuenta:
Pentaho:
Desarrollo con Python:
La decisión final sobre cuál utilizar dependerá de las necesidades específicas de cada proyecto y del nivel de experiencia del equipo en el manejo de estas herramientas. ¡Anímate a explorar ambas opciones y comparte tus experiencias en los comentarios!
Aportes 7
Preguntas 4
Recuerden que para ahcer la conexión, toca encender el contenedor de docker donde esta alojada la base de datos 😃
no se que tan poderoso sea pentaho para la parte de hacer un parsing en un json con muchos multi niveles… talvez sea mejor crear una funcion en python ‘raw’ para hacer ese parsing y crear una tabla ‘plana’ como output despues de ese parsing… alli veo python puro con mas poder.
Pentaho
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?