Documento de mapeo
Clase 16 de 26 • Curso de Data Warehousing y Modelado OLAP
Contenido del curso
Modelos dimensionales
- 6

Data Warehouse, Data Lake y Data Lakehouse: ¿Cuál utilizar?
07:03 min - 7

Tipos de esquemas dimensionales
05:14 min - 8

Dimensiones lentamente cambiantes
04:33 min - 9

Dimensión tipo 1
07:13 min - 10

Dimensión tipo 2
06:05 min - 11

Dimensión tipo 3
03:31 min - 12

Tabla de hechos (fact)
09:04 min - 13
Configuración de herramientas para Data Warehouse y ETL
03:22 min - 14

Modelado dimensional: identificación de dimensiones y métricas
08:55 min - 15

Modelado dimensional: diseño de modelo
11:24 min Modelos dimensionales
ETL para inserción en Data Warehouse
- 16

Documento de mapeo
Viendo ahora - 17

Creación del modelo físico
07:09 min - 18

Extracción: querys en SQL
17:28 min - 19

Extracción en Pentaho
09:26 min - 20

Transformación: dimensión de cliente
15:19 min - 21

Carga: dimensión de cliente
15:01 min - 22

Soluciones ETL de las tablas de dimensiones y hechos
12:21 min - 23

Parámetros en ETL
17:26 min - 24

Orquestar ETL en Pentaho: job
24:27 min - 25

Revisión de todo el ETL
07:27 min ETL para inserción en Data Warehouse
Cierre
¿Cómo mapear documentos para el proceso ETL?
El mapeo de documentos es un paso crucial en el proceso ETL (Extracción, Transformación y Carga), ya que permite documentar todas las fuentes de datos y el destino de nuestro modelo. El objetivo es diseñar un documento que identifique de qué tabla y campo provendrá la información y cómo se almacenará en nuestro Data Warehouse.
¿Qué es un documento de mapeo y cómo se estructura?
Un documento de mapeo es una herramienta esencial para documentar el proceso de ETL. En él, se detalla tanto el origen como el destino de los datos:
- Target (Destino): Indica la tabla y el campo de destino en el modelo dimensional del Data Warehouse.
- Source (Origen): Incluye información sobre la tabla y columna de origen, si es una clave primaria, la transformación a aplicar, y cualquier observación relevante.
- Estructura Sugerida:
- Tabla de destino (Target)
- Atributos y tipo de dato del destino
- Observaciones y transformaciones necesarias
- Tabla de origen (Source) y columna
¿Cómo se mapea una dimensión del modelo dimensional?
Para el modelo dimensional, se detalla cada dimensión, como 'clientes', y se identifica el origen de cada campo necesario para la dimensión. Se utiliza la base de datos creada previamente, como AdventureWorks, para rastrear las tablas y columnas que llenarán estos campos.
## Ejemplo de mapeo para la dimensión Cliente
- **ID de Cliente:** Proviene del campo `CustomerID` en la tabla `Customer` de AdventureWorks.
- **Nombre y Apellido:** Se obtienen de la tabla `Person`, de los campos `FirstName` y `LastName`.
- **Nombre Completo:** Se genera mediante la concatenación de `FirstName` y `LastName`, requerirá una transformación.
- **Números de Teléfono:** Requiere extracción y transformación de la tabla `PersonPhone`, diferenciando el tipo de teléfono (celular, casa, trabajo).
- **Ciudad de Resiencia:** Usando el campo `AddressID` en la tabla `Address` relacionada con `Person`.
¿Cómo se identifican transformaciones y condiciones en el mapeo?
En el mapeo, las transformaciones son necesarias cuando los datos no están en el formato exacto que se necesita o cuando requieren un cambio de estructura:
- Transformaciones comunes:
- Concatenación de campos (por ejemplo,
Nombre Completo). - Diferenciación por tipo de teléfono usando códigos de tipo.
- Formateo de fechas a un formato estándar.
- Concatenación de campos (por ejemplo,
- Condiciones: Se pueden aplicar condicionales para separar datos en columnas específicas basadas en su tipo o atributo.
¿Qué retos se pueden encontrar en el mapeo ETL?
- Identificación de Relaciones: Es esencial entender cómo las tablas se relacionan dentro de la base de datos, lo que puede requerir examinar diagramas de relaciones de tablas.
- Homologación de Valores: Cuando diferentes campos en distintas tablas expresan conceptos similares, es crucial aplicar estándares y transformar los valores para que sean uniformes en la base de datos.
- Optimización de Modelos: El objetivo último es asegurar que el modelo dimensional permita consultar los datos de manera sencilla, evitando complicaciones que puedan surgir por relaciones complejas o datos dispersos.
Anímate a continuar practicando y perfeccionando tus habilidades de mapeo y transforma datos de forma eficiente. Recuerda que la práctica constante ayuda a dominar el proceso y, con el tiempo, facilitará la toma de decisiones basada en datos. ¡Buen aprendizaje!