Dimensión tipo 1

Cursos Empresas Blog Live Conf Precios

Contenido del curso

Introducción a BI y Data Warehouse

Modelos dimensionales

ETL para inserción en Data Warehouse

Cierre

26
Reflexiones y cierre
01:19 min

Tomar examen

Dimensión tipo 1

Resumen

Cuando un dato cambia en tu sistema transaccional, no siempre necesitas conservar su historia. La dimensión lentamente cambiante tipo 1 (Slowly Changing Dimension Type 1) resuelve exactamente eso: reemplaza el valor anterior por el nuevo, manteniendo tu modelo dimensional limpio y actualizado sin acumular versiones innecesarias.

¿Cómo funciona el reemplazo de atributos en una dimensión tipo 1?

El principio es directo: cuando un atributo cambia en la base de datos transaccional, la dimensión correspondiente en el data warehouse se actualiza sobrescribiendo el valor antiguo. No se crea un registro nuevo ni se guarda la versión anterior.

El ejemplo clásico ilustra esto con claridad [0:20]:

El estudiante Pepito Pérez pertenecía a la Facultad de Mercadeo.
Posteriormente cambió a la Facultad de Ingeniería.
En la dimensión de estudiante, el valor "Mercadeo" se reemplaza por "Ingeniería".
A partir de ese momento, no existe rastro de que Pepito Pérez alguna vez perteneció a Mercadeo.

Esta decisión de diseño es intencional. Si tu negocio solo necesita conocer el estado actual de un atributo, la tipo 1 es la opción correcta.

¿Por qué crear un ID propio en la dimensión?

Uno de los puntos más relevantes del proceso de carga es la creación de un ID surrogate (identificador propio) dentro de la dimensión [1:30]. En los sistemas transaccionales, los identificadores suelen combinar números y texto, como códigos alfanuméricos. Esto genera problemas de rendimiento:

Las búsquedas sobre campos varchar son más lentas.
La indexación pierde eficiencia.
Las relaciones entre la dimensión y la tabla de hechos se vuelven costosas.

Por eso, en el data warehouse se asigna un ID numérico incremental propio. El identificador original del sistema transaccional se conserva como código operativo, pero las relaciones internas del modelo dimensional funcionan con el nuevo ID numérico. Así, las consultas y los joins entre dimensiones y hechos son mucho más rápidos.

¿Qué papel juega el proceso ETL en la carga de dimensiones?

El proceso de ETL (Extract, Transform, Load) es el intermediario entre la fuente de datos transaccional y la dimensión en el data warehouse [2:10]. Durante la transformación se aplican las reglas de negocio definidas. Por ejemplo, si el negocio requiere separar un campo de nombre completo en nombre y apellido, esa lógica se ejecuta en la ETL antes de cargar la dimensión.

El flujo completo funciona así:

Se identifican los registros nuevos en la tabla transaccional comparando fechas.
Se extraen solo esos registros.
Se transforman según las reglas de negocio.
Se cargan en la dimensión, asignando el ID a partir del máximo existente.
Si un registro ya existe y cambió algún atributo, se actualiza en lugar de insertarse.

¿Cuándo conviene usar tipo 1 en lugar de tipo 2?

La decisión depende del valor que tenga la historia de ese atributo para el negocio [4:05]. Una dimensión de clientes normalmente no necesita almacenar cada cambio de domicilio; basta con tener la dirección actual. Sin embargo, si tu negocio requiere la trazabilidad completa de cambios en correo electrónico o teléfono, entonces necesitas una dimensión tipo 2, que sí conserva el historial.

¿Qué son los campos de auditoría y por qué importan?

Agregar atributos de auditoría a la dimensión es una práctica recomendada [4:40]:

Fecha de carga: indica cuándo se insertó el registro.
Fecha de actualización: registra la última modificación.
Usuario: identifica si la carga fue automática o manual.

Estos campos permiten comparar contra la tabla transaccional para detectar solo los registros nuevos o modificados. Esto evita tener que reprocesar toda la tabla en cada ejecución, lo cual es crítico cuando se trabaja con grandes volúmenes de datos. En tablas que no tienen campos de fecha, será necesario procesar toda la información, aunque generalmente son tablas pequeñas [5:20].

Si quieres profundizar en cómo la dimensión tipo 2 maneja el historial de cambios, comparte tus dudas y conversemos al respecto.

Comentarios

Ilse Zubieta

teacher

Recordemos que, en una base de datos dimensional, las SCD (Slowly Changing Dimensions) son aquellas dimensiones que cambian con el tiempo, pero no necesariamente de manera constante o predecible. Por ejemplo, en una tabla de datos de clientes, la dirección del cliente puede cambiar con el tiempo, pero no todos los clientes cambian su dirección al mismo ritmo. Algunos clientes pueden cambiar su dirección cada mes, mientras que otros pueden mantener la misma dirección durante años.

Existen diferentes tipos de SDC, que se clasifican según la forma en que se manejan los cambios en las dimensiones. Por ejemplo, el tipo 1 significa que se sobrescribe la información antigua con la nueva información cada vez que se produce un cambio.

El manejo adecuado de las Slowly Changing Dimensions es importante para mantener la precisión y la integridad de los datos dimensionales en una base de datos, ya que permite a los usuarios realizar análisis históricos y comparar datos a lo largo del tiempo.

Andrey Mena

student

El nuevo id_estudiante, propio, lo pueden encontrar en otras fuentes como ++surrogate key++ que es como se menciona, una llave artificial que se busca que sea ojalá numérica, haciendo una posible búsqueda más rápida.

A eso hay que sumarle que las fuentes OLAP están hechas precisamente para ser consultadas, por lo que la velocidad de búsqueda es esencial.

También, los surrogate keys ayudan a mantener un código único que identifique el registro. En un futuro, de necesitarse, siempre se pueden identificar todos los surrogate keys por medio del cod_estudiante.

Adjunto un enlace referente al tema: https://www.kimballgroup.com/1998/05/surrogate-keys/

Mario Alexander Vargas Celis

student

Una dimensión tipo 1 es un tipo de dimensión en un Data Warehouse que no conserva el historial de los cambios en los datos. En este enfoque, cuando ocurre un cambio en el atributo de una dimensión, los datos existentes son simplemente sobrescritos con los nuevos valores, sin almacenar la versión anterior.

Características principales:

Actualización directa: Los cambios en los datos actualizan la fila correspondiente en la tabla de dimensiones.
Sin historial: No se guarda el valor previo de los datos; solo se almacena el estado más reciente.
Fácil implementación: Es la solución más simple y rápida de aplicar.

Casos de uso:

Cuando no es necesario rastrear cambios históricos en los atributos.
Si los cambios son correcciones de errores y se espera que los datos siempre reflejen el estado actual.

Ejemplo:

Supongamos que tienes una tabla de dimensión para productos:

ID_ProductoNombreCategoríaPrecio1Lámpara LEDIluminación15.002Escritorio XLMobiliario120.00

Si el precio de la Lámpara LED cambia de 15.00 a 18.00, se sobrescribe directamente:

ID_ProductoNombreCategoríaPrecio1Lámpara LEDIluminación18.002Escritorio XLMobiliario120.00

No se conserva el historial del precio anterior.

Las dimensiones tipo 1 son ideales cuando mantener el historial no agrega valor al análisis de los datos.

Introducción a BI y Data Warehouse

¿Qué es BI y Data Warehousing?

Niveles de analítica y jerarquía del conocimiento

Conceptos de BI: Data Warehouse, Data Mart, Dimensiones y Hechos

Base de datos OLTP vs. OLAP

Metodologías de Data Warehouse

Modelos dimensionales

Data Warehouse, Data Lake y Data Lakehouse: ¿Cuál utilizar?

Tipos de esquemas dimensionales

Dimensiones lentamente cambiantes