Servicios y herramientas para ETL

Clase 4 de 25 • Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Resumen

Elegir la herramienta adecuada para construir un proceso de ETL puede marcar la diferencia entre un pipeline eficiente y uno lleno de fricciones. Existen decenas de opciones que van desde soluciones open source hasta productos enterprise de grandes compañías, pasando por servicios nativos en la nube. Conocer el panorama completo permite tomar decisiones informadas según el contexto, el presupuesto y la escala del proyecto.

¿Qué herramientas se utilizan para aprender ETL de forma práctica?

Dos herramientas destacan por su accesibilidad y potencia para aprender el flujo completo de una ETL desde cero.

¿Por qué Pentaho Data Integration es ideal para comenzar?

Pentaho Data Integration es una herramienta open source de procesamiento de ETL [0:36] que ofrece varias ventajas clave:

Es completamente gratuita y se puede instalar en Windows, Mac o Linux.
Funciona como cliente local o se puede montar en un servidor.
Su interfaz es muy intuitiva gracias al sistema de drag and drop, que consiste en arrastrar y soltar componentes visuales sobre un diseñador de ETL [1:02].
Se utiliza la versión 9.3 como referencia para el aprendizaje.

Esta combinación de facilidad y flexibilidad la convierte en una puerta de entrada perfecta para llevar una ETL de principio a fin sin complicaciones.

¿Por qué Python y Pandas son la opción custom por excelencia?

Cuando se necesita un procesamiento totalmente personalizado, Python con la librería Pandas es la elección preferida [1:27]. Pandas permite manejar datos provenientes de archivos CSV, bases de datos y DataFrames, aplicando transformaciones dentro de su propio ecosistema.

Python es el lenguaje insignia de la ciencia de datos y la ingeniería de datos, junto con SQL [2:24]. Aprender a construir una ETL completa con Pandas resulta extremadamente útil en la industria, porque ofrece control total sobre cada paso del proceso.

¿Qué soluciones enterprise existen para ETL a gran escala?

A nivel corporativo, las empresas más grandes del mundo confían en productos robustos con gran cantidad de conectores, fuentes y destinos [2:58].

IBM DataStage: un ecosistema completo para el manejo y limpieza de datos a través de ETL o ELT.
Oracle Data Integrator (ODI): muy popular en sectores como banca y telecomunicaciones.
Informatica: otra solución ampliamente adoptada en organizaciones de gran tamaño.

Estas plataformas están diseñadas para manejar volúmenes masivos de datos y flujos complejos que requieren alta disponibilidad y soporte profesional.

¿Qué opciones hay en la nube y en el mundo open source?

Los grandes proveedores de nube también ofrecen sus propios servicios de ETL [3:33]:

Microsoft Azure cuenta con herramientas como Azure Data Factory.
Google Cloud Platform (GCP) ofrece soluciones integradas para transformación de datos.
Amazon Web Services (AWS) dispone de servicios como AWS Glue.
Integrate.io es otra alternativa robusta basada en la nube.

En el terreno open source, además de Pentaho, existen alternativas muy populares [3:53]:

Talend: plataforma visual con versión comunitaria gratuita.
Apache NiFi: orientada a flujos de datos en tiempo real.
Singer: enfocada en la creación de pipelines de datos reutilizables.

Para soluciones totalmente custom, cualquier lenguaje o librería que permita transformar y mover datos puede servir: Python, SQL o Apache Spark son ejemplos frecuentes [4:12]. La idea es construir un modelo propio, diseñado a medida, para ejecutar el proceso de ETL que el negocio necesita.

La variedad de herramientas refleja la importancia fundamental de la ETL dentro de todo el ecosistema de ciencia de datos, inteligencia artificial y analítica. Cada opción tiene su lugar según el tamaño del equipo, el volumen de datos y los recursos disponibles. ¿Ya tienes claro cuál se adapta mejor a tu próximo proyecto? Comparte tu experiencia y las herramientas que has probado.

Comentarios

Luis Rivero

student•

Me encanta lo actual de este curso, a veces en platzi me consigo con cursos de hace más de 2 años y todo el material suele estar desactualizado. Hasta ahora 10/10.

Andres Sanchez

student•

4. Servicios y herramientas para ETL

Pentaho (open source)
Pandas
IBM Data Stage
Oracle Data Integrator
Azure
AWS
Google Dataflow
talend
SINGER
nifi
python
SQL

Bryan Carvajal

student•

Pablo Torres

student•

Buenas ardes no pude descargar Pentaho, no aparece el link.

Hugo Esteban Zapata Tuberquia

student•

Faltó Knime, también es muy buena e intuitiva

Yerson Felipe Ramirez Garnica

student•

Yo trabaje con knime, muy intuitiva y es prácticamente lo que vamos a ver con pentaho

Alexander Grajales Vanegas

student•

algunas herramientas etl o elt talend -> https://www.talend.com/ airflow -> https://airflow.apache.org/ synapse -> https://azure.microsoft.com/es-es/products/synapse-analytics dbt -> https://www.getdbt.com/ glue -> https://docs.aws.amazon.com/es_es/glue/latest/dg/what-is-glue.html singer -> https://www.singer.io/

Phillip Leonardo Cabrera Medrano

student•

No puedo descargar el instalador del Pentaho. Alguien más tiene el mismo problema?

Phillip Leonardo Cabrera Medrano

student•

Nestor Daniel Cisneros Llanos

student•

Estaría genial un curso de las herramientas Enterprise

Luisa Fernanda Carbonell Garcia

student•

el link que recomiendas ya no sirve https://www.hitachivantara.com/en-us/products/pentaho-platform/data-integration-analytics/pentaho-community-edition.html Cuál de todos descargo? estoy perdida ayuda.

Sergio Grisales

student•

El link de descarga de pentaho ya no funciona, me lo podrian compartir porfavor

Ivett Gonzalez

student•

¿Como se elabora, la documentacion de una ETL?

Ana Campos

student•

La página para descargarlo no sale así. Como hay que hacerlo desde este link? Podéis pasarme el link exacto a la página que muestra en el video por favor? Gracias

Katherine Canaza

student•

Buenas, en la sección de aportes compartieron el link de descarga y para el link de la página de documentación es este donde hay mas info.

JEFFER CORREA

student•

Hola,

No sé si la página para descargar pentaho no funciona o el link ya no está vigente. Me podrían ayudar? muchas gracias

Nicolás Miras Núñez

student•

El alcance del ETL son mucho más amplios que solo para temas analíticos o ML o Data Science. También tienen tremendo potencial para automatizaciones de procesos, dejando de lado los famosos y rígidos bots

cipriano salazar

student•

Uso MAC con chip M1 y no conseguí opción para poder instalar Pentaho si alguien pudo estar atento.

Alfonso Andres Zapata Guzman

student•

> ## ~ Que tal Platzinauta, ya conectamos en LinkedIn? ~ > ### ¡Que estas esperando! Conectemos en ++__*[LinkedIn](https://www.linkedin.com/in/aazg)\*\_\_++, ++__*[GitHub](https://github.com/AAZG)\*\_\_++, ++__*[Medium](https://medium.com/@aazg24)\*\_\_++, ++__*[Redes sociales](https://linktr.ee/aazg)\*\_\_++ o unete al mejor servidor de ++__*[Discord](https://discord.gg/5sYJGuyHSv)\*\_\_++ sobre Python y ciencia de datos en español.

Gabriel Alexis Crispin Diaz

student•

Hola por acá dejo el link para descargar Pentaho Data Integration https://www.hitachivantara.com/en-us/products/pentaho-platform/data-integration-analytics/pentaho-community-edition.html

Mario Alexander Vargas Celis

student•

### **Servicios y Herramientas para ETL** El éxito de los procesos de ETL depende en gran medida de las herramientas y servicios que facilitan la extracción, transformación y carga de datos. A continuación, se describen las principales opciones divididas en categorías clave: ### **1. Herramientas ETL Tradicionales**Estas herramientas están diseñadas específicamente para procesos ETL en entornos locales o híbridos. - **Informatica PowerCenter** Una de las herramientas más populares y robustas para ETL. Ofrece funciones avanzadas para transformar y gestionar grandes volúmenes de datos. - **Talend Data Integration** Plataforma de código abierto que incluye conectores para diversas fuentes de datos y capacidades avanzadas de transformación. - **IBM DataStage** Herramienta empresarial para grandes proyectos ETL, ideal para integraciones complejas y procesamiento de big data. - **Microsoft SQL Server Integration Services (SSIS)** Parte de Microsoft SQL Server, ofrece capacidades ETL para usuarios que trabajan con bases de datos SQL. ### **2. Herramientas ETL en la Nube**Diseñadas para aprovechar la escalabilidad y flexibilidad de la nube, estas herramientas integran flujos ETL con servicios en la nube. - **AWS Glue** Servicio ETL totalmente administrado en AWS que permite ejecutar transformaciones de datos basadas en Python (PySpark). - **Google Cloud Dataflow** Ofrece capacidades de procesamiento en tiempo real y por lotes para pipelines de datos en la nube de Google. - **Azure Data Factory** Solución de integración de datos de Microsoft Azure que permite mover y transformar datos entre múltiples orígenes y destinos. - **Snowflake + Matillion** Snowflake es un almacén de datos en la nube, y Matillion es una herramienta ETL diseñada específicamente para integrarse con Snowflake. ### **3. Herramientas Open Source**Opciones gratuitas que ofrecen flexibilidad y personalización para desarrolladores y pequeños equipos. - **Apache Nifi** Herramienta de integración de datos visual para flujos ETL. Ideal para flujos en tiempo real y automatización. - **Apache Airflow** Aunque no es una herramienta ETL tradicional, permite programar y orquestar pipelines ETL. - **Pentaho Data Integration (PDI)** Herramienta de código abierto que proporciona un enfoque visual para construir y ejecutar flujos ETL. ### **4. Herramientas de Orquestación de Datos**Estas herramientas gestionan pipelines de datos más complejos, combinando ETL con otras funcionalidades. - **Fivetran** Automatiza la extracción de datos y los carga en destinos populares como BigQuery, Snowflake o Redshift. - **Stitch** Una herramienta ligera para mover datos rápidamente hacia almacenes de datos. - **dbt (Data Build Tool)** Aunque es más una herramienta ELT, ayuda a gestionar transformaciones SQL en almacenes de datos modernos. ### **5. Herramientas de Big Data y Procesamiento en Tiempo Real**Diseñadas para manejar volúmenes masivos de datos y ofrecer capacidades en tiempo real. - **Apache Spark** Plataforma de análisis distribuido que permite realizar ETL a gran escala con alta velocidad. - **Kafka + Kafka Streams** Para flujos ETL en tiempo real con mensajes entre sistemas distribuidos. - **Databricks** Plataforma basada en Apache Spark que permite construir pipelines ETL avanzados. ### **6. Servicios ETL Especializados**Soluciones diseñadas para necesidades específicas de sectores o casos de uso. - **Alteryx** Enfocada en la integración y análisis de datos, ideal para usuarios que requieren análisis avanzado sin codificación extensa. - **SAP Data Services** Herramienta ETL orientada a la integración de datos empresariales en entornos SAP. - **Boomi (Dell Boomi)** Solución basada en la nube que facilita la integración de datos entre aplicaciones SaaS y locales. ### **7. Factores para Elegir una Herramienta ETL**1. **Volumen de datos:** ¿Es un entorno pequeño o big data? 2. **Compatibilidad:** ¿Se conecta fácilmente a tus fuentes y destinos? 3. **Rendimiento:** ¿Puede manejar la frecuencia y carga de datos? 4. **Facilidad de uso:** ¿Es necesario programar o es más visual? 5. **Costo:** Considera herramientas gratuitas frente a licencias comerciales. 6. **Escalabilidad:** ¿Se adapta al crecimiento futuro de los datos?

Platzi

student•

{"Informatica PowerCenter":"Una de las herramientas más populares y robustas para ETL.","Talend Data Integration":"Plataforma de código abierto que incluye conectores para diversas fuentes de datos y capacidades avanzadas de transformación.","IBM DataStage":"Herramienta empresarial para grandes proyectos ETL, ideal para integraciones complejas y procesamiento de big data.","Microsoft SQL Server Integration Services (SSIS)":"Ofrece capacidades ETL para usuarios que trabajan con bases de datos SQL.","AWS Glue":"Servicio ETL totalmente administrado en AWS que permite ejecutar transformaciones de datos basadas en Python (PySpark).","Google Cloud Dataflow":"Ofrece capacidades de procesamiento en tiempo real y por lotes para pipelines de datos en la nube de Google.","Azure Data Factory":"Solución de integración de datos de Microsoft Azure que permite mover y transformar datos entre múltiples orígenes y destinos.","Snowflake + Matillion":"Snowflake es un almacén de datos en la nube, y Matillion es una herramienta ETL diseñada específicamente para integrarse con Snowflake.","Apache Nifi":"Herramienta de integración de datos visual para flujos ETL. Ideal para flujos en tiempo real y automatización.","Apache Airflow":"Permite programar y orquestar pipelines ETL.","Pentaho Data Integration (PDI)":"Herramienta de código abierto que proporciona un enfoque visual para construir y ejecutar flujos ETL.","Fivetran":"Automatiza la extracción de datos y los carga en destinos populares como BigQuery, Snowflake o Redshift.","Stitch":"Una herramienta ligera para mover datos rápidamente hacia almacenes de datos.","dbt (Data Build Tool)":"Ayuda a gestionar transformaciones SQL en almacenes de datos modernos.","Apache Spark":"Plataforma de análisis distribuido que permite realizar ETL a gran escala con alta velocidad.","Kafka + Kafka Streams":"Para flujos ETL en tiempo real con mensajes entre sistemas distribuidos.","Databricks":"Plataforma basada en Apache Spark que permite construir pipelines ETL avanzados.","Alteryx":"Enfocada en la integración y análisis de datos, ideal para usuarios que requieren análisis avanzado sin codificación extensa.","SAP Data Services":"Herramienta ETL orientada a la integración de datos empresariales en entornos SAP.","Boomi (Dell Boomi)":"Solución basada en la nube que facilita la integración de datos entre aplicaciones SaaS y locales."}

Servicios y herramientas para ETL

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?

Conceptos base de ETL

Consideraciones de ETL