Conceptos clave de ETL: source, target y staging

Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Conceptos clave de ETL: source, target y staging

Resumen

Si trabajas con datos, entender los conceptos clave de un proceso ETL te permite mover información entre sistemas con criterio. Aquí verás qué es un source, un target, un staging, un data warehouse, un data lake y un data lakehouse, y cómo se conectan en un flujo real de ingeniería de datos.

¿Qué es un source y qué es un target en ETL?

Todo proceso ETL empieza en un punto y termina en otro. Esos dos extremos son el source y el target, y cada uno puede tomar formas muy distintas según el caso de uso.

El source es el origen de donde extraes los datos. Puede ser una base de datos, un repositorio, una API o cualquier estructura que entregue información. No importa el formato: si puedes leer datos de ahí, es una fuente válida.

El target, en cambio, es el destino donde cargas los datos ya transformados. Lo más común es que sea una base de datos columnar como Redshift, Snowflake o BigQuery. También puede ser una base transaccional como PostgreSQL, Oracle o MySQL, o incluso un repositorio de archivos como S3 o Cloud Storage.

¿Qué diferencia hay entre source y target? El source es de dónde sacas los datos; el target es a dónde los llevas. Uno alimenta el proceso, el otro lo cierra.

¿Para qué sirve el área de staging?

Entre el source y el target hay un espacio intermedio llamado staging. Es un área de paso, casi siempre en memoria, donde realizas las transformaciones antes de cargar los datos finales.

El staging no es el lugar donde reposa la información para análisis ni para machine learning. Es una zona temporal. Aunque vive en memoria, también puedes guardar partes de la transformación en una base de datos para retomarlas después y completar el cargue.

¿Qué es un data warehouse y cómo se estructura?

Un data warehouse es literalmente una bodega de datos con estructura definida, alimentada desde múltiples fuentes. Hoy la mayoría vive en la nube sobre bases columnares como BigQuery, Redshift o Snowflake.

Una forma muy usada de organizar la información dentro del data warehouse es el modelo estrella. En el centro pones una tabla de hechos con las métricas importantes de tu negocio, y alrededor pones tablas de dimensiones que describen cómo consultar esas métricas.

Piensa en una métrica de ventas. La tabla de hechos guarda cuánto se pagó por cada venta, y las dimensiones describen el contexto:

Producto.
Cliente.
Proveedor.
Tiempo.

Para un proyecto ETL de comercio internacional, por ejemplo, la tabla de hechos podría guardar el monto de la transacción de importación o exportación, el peso y las cantidades. Las dimensiones serían países o regiones, códigos de producto, descripciones, años y el tipo de operación.

¿Qué es el modelo estrella? Es una forma de organizar un data warehouse con una tabla central de métricas y tablas de dimensiones alrededor que dan contexto a esas métricas.

¿En qué se diferencian data lake, data warehouse y data lakehouse?

No todos los datos necesitan estructura previa. Aquí entran el data lake y el data lakehouse, que cambian el enfoque sobre cuándo y cómo transformas la información.

¿Qué es un data lake y cuándo conviene usarlo?

Un data lake casi siempre es un file system, no una base de datos. Es un repositorio donde guardas archivos en su formato raw, tal como vienen del source, sin transformaciones.

La ventaja es el costo. Guardar archivos en disco duro es mucho más barato que sostener un data warehouse completo. La desventaja es que no tienes compatibilidad analítica directa: no puedes hacer SQL sobre el lake como lo harías sobre un warehouse.

El data lake funciona muy bien cuando necesitas datos crudos para entrenar modelos de machine learning o procesos de inteligencia artificial.

¿Qué resuelve el data lakehouse?

El data lakehouse es la combinación de un data lake y un data warehouse. Mantienes los archivos en formato crudo dentro de un file system, pero agregas una capa de consulta SQL o un motor como Spark encima.

Con estructuras tipo Delta Lake, puedes dejar los datos en archivos entendibles por el lakehouse y aplicar SQL u otros lenguajes directamente sobre ellos, sin transformarlos antes. Ganas el costo bajo del lake y la capacidad analítica del warehouse.

¿Cuándo usar ETL y cuándo ELT?

El orden de las letras importa. En ETL extraes, transformas y luego cargas. En ELT extraes, cargas y transformas al final.

El flujo ELT encaja perfecto con el data lakehouse. Llevas los datos del source al file system en su formato crudo, sin tocarlos. La transformación ocurre después, según lo que necesites: un modelo de inteligencia artificial, un análisis puntual o una consulta sobre estructuras específicas.

¿Cuál es la diferencia entre ETL y ELT? En ETL transformas antes de cargar; en ELT cargas primero los datos crudos y transformas cuando los vas a usar. ELT es ideal para alimentar un lakehouse desde múltiples fuentes.

Estos conceptos son la base para diseñar cualquier flujo de datos serio. ¿Cuál de estos modelos se ajusta mejor al proyecto que tienes en mente? Cuéntame en los comentarios.

Mario Alexander Vargas Celis

Estudiante

### Conceptos Base de ETL (Extract, Transform, Load) ETL (Extraer, Transformar, Cargar) es un proceso fundamental en la ingeniería de datos que permite trasladar y procesar datos desde múltiples fuentes hacia un destino final para análisis o almacenamiento. A continuación, se describen los conceptos base: ### **1. Extracción (Extract)****Definición:** Es el proceso de recopilar datos desde una o varias fuentes heterogéneas. Las fuentes pueden incluir bases de datos relacionales, archivos planos (CSV, JSON, XML), APIs, logs, o sistemas ERP. **Características:**- **Variedad de fuentes:** Datos estructurados (tablas SQL) y no estructurados (archivos de texto, imágenes).- **Objetivo:** Obtener datos sin alterar su formato original.- **Herramientas comunes:** Conectores de bases de datos, APIs REST, scripts personalizados. **Ejemplo:** Conectar a una base de datos SQL para extraer una tabla de usuarios:sqlSELECT \* FROM usuarios; ### **2. Transformación (Transform)****Definición:** Es la etapa donde los datos se limpian, estandarizan, enriquecen o transforman para adaptarse a las necesidades del negocio o del sistema de destino. **Operaciones típicas:**- **Limpieza:** Eliminar valores nulos, duplicados o inconsistentes.- **Normalización:** Cambiar formatos de fecha o convertir unidades de medida.- **Cálculos:** Crear nuevas columnas (por ejemplo, calcular ingresos anuales a partir de ingresos mensuales).- **Enriquecimiento:** Combinar datos de múltiples fuentes.- **Validación:** Asegurarse de que los datos cumplen con reglas de negocio específicas. **Ejemplo:** Convertir un archivo CSV de ventas en un formato estandarizado:pythonimport pandas as pd \# Cargar datosdata = pd.read\_csv("ventas.csv") \# Limpiar y transformardata\['fecha'] = pd.to\_datetime(data\['fecha'])data\['total'] = data\['cantidad'] \* data\['precio\_unitario']data = data.dropna() # Eliminar valores nulos ### **3. Carga (Load)****Definición:** Es el proceso de mover los datos transformados al sistema de destino, como un almacén de datos (Data Warehouse), base de datos, o sistema de análisis. **Tipos de carga:**- **Carga completa:** Sobrescribe los datos existentes en cada ejecución.- **Carga incremental:** Solo se cargan los datos nuevos o modificados.- **Carga en tiempo real:** Los datos se envían continuamente al destino. **Herramientas comunes:** - SQL para bases de datos relacionales.- APIs o conectores específicos para sistemas en la nube como Amazon S3 o Google BigQuery. **Ejemplo:** Insertar los datos procesados en una tabla de SQL:sqlINSERT INTO ventas\_procesadas (fecha, producto, cantidad, total)VALUES ('2024-01-01', 'Laptop', 10, 15000); ### **Objetivo del Proceso ETL**El propósito principal de ETL es consolidar datos dispersos en un solo lugar, procesarlos para que sean útiles y garantizar que estén listos para el análisis o la toma de decisiones. Esto incluye:- **Integración:** Combinar datos de diferentes fuentes.- **Consistencia:** Proveer datos limpios y estructurados.- **Eficiencia:** Reducir la complejidad del acceso y análisis. ### **ETL vs. ELT**Aunque ETL es el enfoque tradicional, **ELT (Extract, Load, Transform)** es una variación que carga los datos directamente en el almacén de datos antes de transformarlos. Esto se utiliza especialmente en sistemas modernos basados en la nube.

Yeder Laura vicente

Bryan Carvajal

Lorena Monserrat Campuzano Sánchez

Juan Sebastián Vargas Castañeda

David Arenas Zapata

Carlos Eduardo Bracho Rosales

Jonathan Barzola

Claudio Sepulveda

JOSE DANIEL ALVEAR ACEVEDO

Andres Sanchez

Daniel Calderón

Company_admin

Santiago Ahumada Lozano

Ricardo R.

María Elvira Ureña

Franco Torres

Nicolás Muriel

Percy Oswaldo Herrera Mogrovejo

Alejandra Gonzalez

Fernando Sánchez Mejía

Renato Alvarez Ortega

Conceptos clave de ETL: source, target y staging

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?