Conceptos base de ETL

Clase 2 de 25 • Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Resumen

¿Cuáles son los conceptos clave en el mundo de las ETLs?

El mundo de las ETLs (Extract, Transform, Load) es fundamental en la gestión de datos, permitiendo la transformación de datos brutos en información estructurada y útil. En este contexto, existen varios conceptos clave que todo profesional debe conocer. Desde el origen de los datos hasta su almacenamiento y transformación, cada paso es esencial para garantizar un proceso eficiente y exitoso.

¿Qué es el source?

El término "source" se refiere al origen de los datos que serán extraídos, constituyendo las bases del proceso ETL. Estas fuentes pueden adoptar diversas formas y estructuras:

Bases de datos: Como Postgres, Oracle, MySQL.
Repositorios: Espacios donde se almacenan archivos y datos.
APIs: Interfaz que permite la comunicación entre diferentes sistemas y aplicaciones.
Cualquier formato estructurado o no estructurado: La clave es que la fuente contenga los datos necesarios.

¿Cuál es la función del target?

El "target" es el objetivo final donde se cargarán los datos una vez transformados. Por lo general, este destino es una base de datos unificada y estructurada:

Bases de datos columnares: Redshift, Snowflake, BigQuery son ejemplos comunes.
Almacenes de información: Espacios como Amazon S3 o Google Cloud Storage donde reposan los datos procesados.
Otros posibles destinos: Cualquier repositorio de datos donde se alojarán los datos transformados y cargados.

¿Qué papel juega el staging?

El "staging" actúa como un área temporal donde se realizan las respectivas transformaciones de los datos. Este espacio permite:

Almacenamiento en memoria: Para manipulaciones temporales y rápidas.
Facilidad de transformación: Las transformaciones se ejecutan sin ser la ubicación final de los mismos.
Opción de almacenamiento intermedio: Guardar partes del proceso para retomar y completar posteriormente la carga.

¿Qué es un Data Warehouse?

Un Data Warehouse es un sistema que permite centralizar y almacenar grandes volúmenes de datos provenientes de múltiples fuentes en una estructura definida. Este enfoque de almacenamiento es esencial en la inteligencia de negocios:

Bodegas de datos: Espacios para almacenar datos estructurados.
Bases de datos columnares: Utilizadas en su mayoría debido a su eficacia en la consulta y análisis de datos.
Modelos de estrella: Estructura que organiza las tablas de métricas y dimensiones permitiendo la fácil consulta y análisis de datos.

¿Cómo se implementa el modelo de estrella?

El modelo de estrella es una técnica organizacional que optimiza las consultas en un Data Warehouse. Este modelo abarca:

Tabla de hechos: Contiene métricas clave como ventas, peso, o cantidades.
Tablas de dimensiones: Factores como países, productos, clientes, tiempo, que permiten desglosar y examinar las métricas.

¿Qué diferencia a un Data Lake de un Data Warehouse?

Mientras que un Data Warehouse maneja datos estructurados, un Data Lake almacena información en su formato original, sin modificaciones, dispuesto para un uso flexible en inteligencia artificial y machine learning. Sus componentes incluyen:

File systems: Estructuras de almacenamiento que contienen los datos en su estado bruto.
Aprovechamiento de datos crudos: Permite un acceso directo a los datos en su forma original para capacitaciones de machine learning.
Costo beneficio: Más económico debido a su simplicidad en estructura comparado con un Data Warehouse.

¿Qué es un Data Lake House?

El concepto de Data Lake House fusiona las ventajas de un Data Warehouse y un Data Lake, proponiendo un entorno híbrido:

Combinación de estructuras: Integración de datos brutos con una capa de consulta SQL.
Analítica directa: Permite análisis directo sin necesidad de una transformación previa.
Compatibilidad y eficiencia: Ofrece una alternativa rentable y efectiva para el análisis de datos.

¿Cómo implemento un proceso ELT en un Data Lake House?

En contraste con el clásico proceso ETL, el proceso ELT (Extract, Load, Transform) minimiza las transformaciones iniciales. En su lugar, los datos son:

Extraídos y Cargados: Transformados en un sistema de archivo sin procesar.
Transformación eventual: Se realiza después de cargar los datos, adaptándose a los requisitos del análisis o modelos de inteligencia artificial.

¡Explora más allá y expande tus capacidades en la gestión de datos! El mundo de las ETLs y sus equivalencias modernas, como el ELT, ofrecen un marco robusto para cualquier analista o ingeniero de datos en el sector.

Mario Alexander Vargas Celis

student•

### Conceptos Base de ETL (Extract, Transform, Load) ETL (Extraer, Transformar, Cargar) es un proceso fundamental en la ingeniería de datos que permite trasladar y procesar datos desde múltiples fuentes hacia un destino final para análisis o almacenamiento. A continuación, se describen los conceptos base: ### **1. Extracción (Extract)****Definición:** Es el proceso de recopilar datos desde una o varias fuentes heterogéneas. Las fuentes pueden incluir bases de datos relacionales, archivos planos (CSV, JSON, XML), APIs, logs, o sistemas ERP. **Características:**- **Variedad de fuentes:** Datos estructurados (tablas SQL) y no estructurados (archivos de texto, imágenes).- **Objetivo:** Obtener datos sin alterar su formato original.- **Herramientas comunes:** Conectores de bases de datos, APIs REST, scripts personalizados. **Ejemplo:** Conectar a una base de datos SQL para extraer una tabla de usuarios:sqlSELECT \* FROM usuarios; ### **2. Transformación (Transform)****Definición:** Es la etapa donde los datos se limpian, estandarizan, enriquecen o transforman para adaptarse a las necesidades del negocio o del sistema de destino. **Operaciones típicas:**- **Limpieza:** Eliminar valores nulos, duplicados o inconsistentes.- **Normalización:** Cambiar formatos de fecha o convertir unidades de medida.- **Cálculos:** Crear nuevas columnas (por ejemplo, calcular ingresos anuales a partir de ingresos mensuales).- **Enriquecimiento:** Combinar datos de múltiples fuentes.- **Validación:** Asegurarse de que los datos cumplen con reglas de negocio específicas. **Ejemplo:** Convertir un archivo CSV de ventas en un formato estandarizado:pythonimport pandas as pd \# Cargar datosdata = pd.read\_csv("ventas.csv") \# Limpiar y transformardata\['fecha'] = pd.to\_datetime(data\['fecha'])data\['total'] = data\['cantidad'] \* data\['precio\_unitario']data = data.dropna() # Eliminar valores nulos ### **3. Carga (Load)****Definición:** Es el proceso de mover los datos transformados al sistema de destino, como un almacén de datos (Data Warehouse), base de datos, o sistema de análisis. **Tipos de carga:**- **Carga completa:** Sobrescribe los datos existentes en cada ejecución.- **Carga incremental:** Solo se cargan los datos nuevos o modificados.- **Carga en tiempo real:** Los datos se envían continuamente al destino. **Herramientas comunes:** - SQL para bases de datos relacionales.- APIs o conectores específicos para sistemas en la nube como Amazon S3 o Google BigQuery. **Ejemplo:** Insertar los datos procesados en una tabla de SQL:sqlINSERT INTO ventas\_procesadas (fecha, producto, cantidad, total)VALUES ('2024-01-01', 'Laptop', 10, 15000); ### **Objetivo del Proceso ETL**El propósito principal de ETL es consolidar datos dispersos en un solo lugar, procesarlos para que sean útiles y garantizar que estén listos para el análisis o la toma de decisiones. Esto incluye:- **Integración:** Combinar datos de diferentes fuentes.- **Consistencia:** Proveer datos limpios y estructurados.- **Eficiencia:** Reducir la complejidad del acceso y análisis. ### **ETL vs. ELT**Aunque ETL es el enfoque tradicional, **ELT (Extract, Load, Transform)** es una variación que carga los datos directamente en el almacén de datos antes de transformarlos. Esto se utiliza especialmente en sistemas modernos basados en la nube.

Yeder Laura vicente

Bryan Carvajal

Lorena Monserrat Campuzano Sánchez

Juan Sebastián Vargas Castañeda

David Arenas Zapata

Carlos Eduardo Bracho Rosales

Jonathan Barzola

Claudio Sepulveda

JOSE DANIEL ALVEAR ACEVEDO

Andres Sanchez

Daniel Calderón

company_admin•

Santiago Ahumada Lozano

Ricardo R.

María Elvira Ureña

Franco Torres

Nicolás Muriel

Percy Oswaldo Herrera Mogrovejo

Alejandra Gonzalez

Fernando Sánchez Mejía

Renato Alvarez Ortega

Conceptos base de ETL

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?