Dimensión tipo 3
Clase 11 de 26 • Curso de Data Warehousing y Modelado OLAP
Contenido del curso
- 6

Data Warehouse, Data Lake y Data Lakehouse: ¿Cuál utilizar?
07:03 - 7

Tipos de esquemas dimensionales
05:14 - 8

Dimensiones lentamente cambiantes
04:33 - 9

Dimensión tipo 1
07:13 - 10

Dimensión tipo 2
06:05 - 11

Dimensión tipo 3
03:31 - 12

Tabla de hechos (fact)
09:04 - 13
Configuración de herramientas para Data Warehouse y ETL
03:22 - 14

Modelado dimensional: identificación de dimensiones y métricas
08:55 - 15

Modelado dimensional: diseño de modelo
11:24 Modelos dimensionales
- 16

Documento de mapeo
19:26 - 17

Creación del modelo físico
07:09 - 18

Extracción: querys en SQL
17:28 - 19

Extracción en Pentaho
09:26 - 20

Transformación: dimensión de cliente
15:19 - 21

Carga: dimensión de cliente
15:01 - 22

Soluciones ETL de las tablas de dimensiones y hechos
12:21 - 23

Parámetros en ETL
17:26 - 24

Orquestar ETL en Pentaho: job
24:27 - 25

Revisión de todo el ETL
07:27 ETL para inserción en Data Warehouse
¿Qué es una dimensión lentamente cambiante tipo 3?
Las dimensiones lentamente cambiantes son herramientas valiosas en el mundo del análisis de datos, permitiendo almacenar historia y capturar la evolución de los datos a lo largo del tiempo. La dimensión lentamente cambiante tipo 3, en particular, ofrece una forma innovadora de preservar la historia de los cambios sin duplicar registros. En lugar de crear un registro nuevo al modificar un atributo, se añaden nuevas columnas al registro existente. Veamos cómo funciona mediante el siguiente ejemplo.
¿Cómo se representa el cambio de atributo en una dimensión tipo 3?
Imaginemos a Pepito Pérez, un estudiante inicialmente inscrito en la facultad de Mercadeo. Cuando Pepito cambia a la facultad de Ingeniería, no se crea un nuevo registro en la base de datos. En su lugar, se añaden dos columnas en su registro actual: "facultad nueva" y "facultad vieja". Este enfoque permite visualizar tanto su nueva afiliación como su anterior sin duplicar su entrada en el sistema.
Ejemplo práctico de implementación con Pepito Pérez
-
Primera Carga de Datos:
- Iniciamos con Pepito Pérez asignado a la facultad de Salud.
- Dado que este es su primer registro en la dimensión, el ID asignado es '1', calculado como el máximo ID actual.
- Las nuevas columnas registran: "facultad old" como
NULL(ya que es su primera carga) y "facultad new" como "Salud". - La fecha de inserción se registra como 24 de febrero del 2030.
-
Actualización del Registro:
- En marzo, Pepito es transferido a la facultad de Ingeniería.
- La dimensión tipo 3 actualiza las columnas sin crear un nuevo registro.
- "facultad nueva" se actualiza a "Ingeniería" y "facultad vieja" a "Salud".
- La fecha de carga se actualiza para reflejar el cambio en marzo.
¿Qué ventajas ofrece este enfoque?
Este método no solo permite almacenar la historia de cambios de manera eficiente, sino que también ofrece beneficios puntuales:
- Reducción del volumen de datos: Al no duplicar registros, economiza espacio y simplifica la gestión de la base de datos.
- Facilidad en las consultas: Permite consultar los cambios históricos con precisión y rapidez al mantener la traza de las modificaciones en columnas específicas.
- Simplicidad en la actualización: El proceso para actualizar un atributo es directo, evitando la complejidad de gestionar múltiples registros.
Reflexión y desafíos futuros
La dimensión tipo 3 proporciona una estructura útil para registrar cambios limitados en los datos. Sin embargo, un desafío interesante es imaginar una combinación de dimensiones tipo 2 y tipo 3, que registre tanto cambios a nivel de registros como a nivel de columnas. Esto podría ofrecer un enfoque híbrido, aprovechando lo mejor de ambos mundos para una gestión de datos más completa.
Te invito a reflexionar sobre cómo podrías implementar dicha combinación en tus proyectos y a compartir tus ideas sobre su funcionalidad. Continuemos explorando el apasionante mundo del análisis de datos y su evolución constante. ¡Nos vemos en la próxima clase!