Documento de mapeo
Clase 16 de 26 • Curso de Data Warehousing y Modelado OLAP
Contenido del curso
- 6

Data Warehouse, Data Lake y Data Lakehouse: ¿Cuál utilizar?
07:03 - 7

Tipos de esquemas dimensionales
05:14 - 8

Dimensiones lentamente cambiantes
04:33 - 9

Dimensión tipo 1
07:13 - 10

Dimensión tipo 2
06:05 - 11

Dimensión tipo 3
03:31 - 12

Tabla de hechos (fact)
09:04 - 13
Configuración de herramientas para Data Warehouse y ETL
03:22 - 14

Modelado dimensional: identificación de dimensiones y métricas
08:55 - 15

Modelado dimensional: diseño de modelo
11:24 Modelos dimensionales
- 16

Documento de mapeo
19:26 - 17

Creación del modelo físico
07:09 - 18

Extracción: querys en SQL
17:28 - 19

Extracción en Pentaho
09:26 - 20

Transformación: dimensión de cliente
15:19 - 21

Carga: dimensión de cliente
15:01 - 22

Soluciones ETL de las tablas de dimensiones y hechos
12:21 - 23

Parámetros en ETL
17:26 - 24

Orquestar ETL en Pentaho: job
24:27 - 25

Revisión de todo el ETL
07:27 ETL para inserción en Data Warehouse
¿Cómo mapear documentos para el proceso ETL?
El mapeo de documentos es un paso crucial en el proceso ETL (Extracción, Transformación y Carga), ya que permite documentar todas las fuentes de datos y el destino de nuestro modelo. El objetivo es diseñar un documento que identifique de qué tabla y campo provendrá la información y cómo se almacenará en nuestro Data Warehouse.
¿Qué es un documento de mapeo y cómo se estructura?
Un documento de mapeo es una herramienta esencial para documentar el proceso de ETL. En él, se detalla tanto el origen como el destino de los datos:
- Target (Destino): Indica la tabla y el campo de destino en el modelo dimensional del Data Warehouse.
- Source (Origen): Incluye información sobre la tabla y columna de origen, si es una clave primaria, la transformación a aplicar, y cualquier observación relevante.
- Estructura Sugerida:
- Tabla de destino (Target)
- Atributos y tipo de dato del destino
- Observaciones y transformaciones necesarias
- Tabla de origen (Source) y columna
¿Cómo se mapea una dimensión del modelo dimensional?
Para el modelo dimensional, se detalla cada dimensión, como 'clientes', y se identifica el origen de cada campo necesario para la dimensión. Se utiliza la base de datos creada previamente, como AdventureWorks, para rastrear las tablas y columnas que llenarán estos campos.
## Ejemplo de mapeo para la dimensión Cliente
- **ID de Cliente:** Proviene del campo `CustomerID` en la tabla `Customer` de AdventureWorks.
- **Nombre y Apellido:** Se obtienen de la tabla `Person`, de los campos `FirstName` y `LastName`.
- **Nombre Completo:** Se genera mediante la concatenación de `FirstName` y `LastName`, requerirá una transformación.
- **Números de Teléfono:** Requiere extracción y transformación de la tabla `PersonPhone`, diferenciando el tipo de teléfono (celular, casa, trabajo).
- **Ciudad de Resiencia:** Usando el campo `AddressID` en la tabla `Address` relacionada con `Person`.
¿Cómo se identifican transformaciones y condiciones en el mapeo?
En el mapeo, las transformaciones son necesarias cuando los datos no están en el formato exacto que se necesita o cuando requieren un cambio de estructura:
- Transformaciones comunes:
- Concatenación de campos (por ejemplo,
Nombre Completo). - Diferenciación por tipo de teléfono usando códigos de tipo.
- Formateo de fechas a un formato estándar.
- Concatenación de campos (por ejemplo,
- Condiciones: Se pueden aplicar condicionales para separar datos en columnas específicas basadas en su tipo o atributo.
¿Qué retos se pueden encontrar en el mapeo ETL?
- Identificación de Relaciones: Es esencial entender cómo las tablas se relacionan dentro de la base de datos, lo que puede requerir examinar diagramas de relaciones de tablas.
- Homologación de Valores: Cuando diferentes campos en distintas tablas expresan conceptos similares, es crucial aplicar estándares y transformar los valores para que sean uniformes en la base de datos.
- Optimización de Modelos: El objetivo último es asegurar que el modelo dimensional permita consultar los datos de manera sencilla, evitando complicaciones que puedan surgir por relaciones complejas o datos dispersos.
Anímate a continuar practicando y perfeccionando tus habilidades de mapeo y transforma datos de forma eficiente. Recuerda que la práctica constante ayuda a dominar el proceso y, con el tiempo, facilitará la toma de decisiones basada en datos. ¡Buen aprendizaje!