Dimensión tipo 1
Clase 9 de 26 • Curso de Data Warehousing y Modelado OLAP
Resumen
¿Qué son las dimensiones lentamente cambiantes tipo 1?
Las dimensiones lentamente cambiantes tipo 1 son un concepto clave en el manejo de bases de datos y almacenamiento de datos, especialmente en data warehouses. Se utilizan para gestionar el cambio en los atributos de datos a lo largo del tiempo. En este tipo de dimensión, cuando un atributo cambia, simplemente reemplazamos el valor anterior en la base de datos, sin conservar el historial del cambio. Por ejemplo, si un estudiante cambia de facultad de Mercadeo a Ingeniería, el valor se actualiza directamente, perdiendo así la información anterior.
¿Cómo se implementa una dimensión tipo 1?
La implementación de una dimensión tipo 1 implica varios pasos importantes:
- Identificación de registros nuevos: Al realizar la carga inicial, identificamos los registros más nuevos que no existen en la dimensión actual.
- Creación de un ID propio: Para optimizar las búsquedas y relaciones en nuestra base de datos dimensional, se asigna un ID único a cada registro.
- Actualización de atributos: Se aplican las normas de negocio necesarias, por ejemplo, separar el nombre y el apellido en campos distintos.
- Carga de datos optimizada: Se cargan los datos identificando solamente los registros nuevos, minimizando procesamientos innecesarios.
¿Por qué utilizar dimensiones tipo 1?
Aunque el uso de dimensiones tipo 1 no captura el historial de cambios, es útil en situaciones donde los cambios históricos no son relevantes o importantes para el negocio. Por ejemplo, en una dimensión de clientes, no suele ser necesario almacenar cada cambio de domicilio, a menos que el negocio requiera esa trazabilidad. Por este motivo, en ciertos casos, interesa reemplazar los valores y no almacenar el historial.
Cómo optimizar la carga de datos
Para asegurar que la carga y las actualizaciones de datos sean eficientes, se deben seguir estas mejores prácticas:
- Atributos de auditoría: Incorporar campos como fecha de carga, fecha de actualización y el usuario que realizó la carga, ayuda a identificar la fuente y la fecha de los cambios.
- Procesamiento selectivo: Utilizar campos de fecha para procesar únicamente los registros que han cambiado, evitando la necesidad de procesar toda la tabla en cada carga.
- Uso de ID operativos: Al transformar los identificadores de los estudiantes o cualquier entidad a un formato más eficiente, las consultas y relaciones son más rápidas.
Ejemplo de un cambio en una dimensión tipo 1
Imaginemos el caso de Pepito Pérez, un estudiante que inicialmente está registrado en la facultad de Mercadeo. Si luego cambia a la facultad de Ingeniería, el proceso de ETL (Extracción, Transformación y Carga) detectará el nuevo registro en la base de datos transaccional y actualizará el valor correspondiente en el data warehouse, cambiando de Mercadeo a Ingeniería, y así reflejando el estado actual del atributo sin mantener registro del cambio anterior.
¿Cuándo considerar una dimensión tipo 2 u otras estrategias?
Es importante saber que mientras las dimensiones tipo 1 sobrescriben valores y no guardan historial, existen otras estrategias como las dimensiones tipo 2 que permiten mantener la trazabilidad completa de los cambios. Esto es útil en escenarios donde el historial de los cambios es crucial para el análisis de datos o para el manejo del negocio, como en el caso de cambios frecuentes en los datos de contacto de un cliente.
Conocer cuándo y cómo aplicar cada tipo de dimensión en un data warehouse es crucial para la gestión eficiente y efectiva de los datos. En nuestro próximo encuentro, exploraremos otras estrategias como la dimensión lentamente cambiante tipo 2, la cual ofrece una mecánica distinta de manejo de cambios. Continuemos este viaje para enriquecer nuestro conocimiento en la gestión de datos y mejorar nuestras capacidades técnicas. ¡Nos vemos en la siguiente clase!