Modelo estrella vs copo de nieve en datos

Curso de Data Warehousing y Modelado OLAP

Contenido del curso

No sé dónde empezar

Introducción a BI y Data Warehouse

Modelos dimensionales

ETL para inserción en Data Warehouse

Cierre

26
De datos crudos a modelo dimensional listo
01:18 min

Tomar examen

Modelo estrella vs copo de nieve en datos

Resumen

Si trabajas con datos y necesitas estructurarlos para análisis, entender la diferencia entre modelo estrella y copo de nieve te ayuda a decidir cómo organizar tus métricas y dimensiones. Esta guía explica ambos esquemas con ejemplos prácticos, pensada para quienes están dando sus primeros pasos en modelado dimensional.

¿Qué es un modelo dimensional y cómo se compone?

Un modelo dimensional es la base de cualquier análisis de negocio bien estructurado. Se compone de dos elementos: las métricas, que son los hechos o actividades que quieres medir (los indicadores de tu negocio), y los atributos, que viven en las dimensiones y representan las perspectivas desde las cuales analizar esas métricas.

La estructura central es una tabla de hechos rodeada por dimensiones. La conexión se hace llevando el ID de cada dimensión como clave foránea hacia la tabla de hechos, y así ambas tablas quedan relacionadas.

¿Qué es una tabla de hechos? Es la tabla central de un modelo dimensional donde se almacenan las métricas o indicadores del negocio, como ventas, ingresos o cantidades.

¿Cómo visualizar un modelo dimensional con un cubo?

Piensa en una tabla dinámica de Excel: ingresas una métrica y la puedes ver desde diferentes perspectivas, como producto, tiempo o ubicación. Un cubo funciona igual, pero en tres caras.

Imagina un cubo donde cada cara representa una dimensión distinta. Si lo volteas, cambias la perspectiva de análisis. Cada cubito dentro del cubo te entrega un dato puntual: qué producto se vendió, en qué fecha y a qué cliente.

Por ejemplo, una cocina de madera comprada en una fecha específica en HomeCenter es un punto exacto dentro del cubo, cruzando las dimensiones de producto, tiempo y ubicación.

¿Qué es el modelo estrella y cuándo usarlo?

El modelo estrella ubica la tabla de hechos en el centro y la relaciona directamente con sus dimensiones, a un solo nivel. No hay intermediarios: cada dimensión se conecta de forma directa con la tabla de hechos y allí están todos los atributos que necesitas para analizar.

Este esquema funciona cuando los datos no requieren niveles adicionales de detalle. Por ejemplo, una dimensión de producto que incluye nombre, ID, descripción, talla y línea es suficiente si tu negocio no maneja más niveles de clasificación.

Ventajas del modelo estrella:

Estructura simple y fácil de entender.
Consultas más rápidas al tener menos uniones entre tablas.
Ideal cuando los atributos de cada dimensión son acotados.

¿Qué es el modelo copo de nieve y por qué normalizar dimensiones?

El modelo copo de nieve mantiene la tabla de hechos en el centro, pero ahora una dimensión puede relacionarse con otras dimensiones. Es decir, normalizas la dimensión principal separando atributos en tablas adicionales.

Una regla clave: nunca relaciones tablas de hechos entre sí. Las relaciones en los modelos siempre se dan a través de las dimensiones que comparten.

¿Cuándo conviene usar copo de nieve en lugar de estrella? Cuando una dimensión tiene jerarquías o muchos valores repetidos, como producto con categoría y subcategoría. Separarlos reduce redundancia y agiliza filtros.

¿Cómo se aplica el copo de nieve con un ejemplo de productos?

Supón que tu dimensión de producto tiene nombre, ID y subcategoría. Si manejas muchas subcategorías, el valor se repite muchas veces dentro de la tabla de productos, lo que pesa al filtrar.

La solución es crear una dimensión aparte para subcategorías. Así, la tabla de productos guarda solo el ID de la subcategoría, y la descripción vive en su propia tabla dimensional.

Ventajas concretas de este enfoque:

Reduces la cantidad de datos repetidos en la dimensión principal.
Los filtros por atributos agrupados son más eficientes.
Mantienes jerarquías limpias, como categoría y subcategoría separadas.

¿Cómo elegir entre modelo estrella y copo de nieve?

No hay una respuesta única. La decisión depende de tu negocio y de la naturaleza de los datos que manejas. Si tus dimensiones son simples y planas, el modelo estrella te va a dar velocidad y claridad. Si tus dimensiones tienen jerarquías profundas o muchos valores repetidos, el copo de nieve te ayuda a normalizar y optimizar.

La clave está en mirar cómo se comportan tus atributos: ¿se repiten mucho?, ¿tienen subniveles?, ¿necesitas filtrar por categorías agrupadas? Esas preguntas te orientan hacia el esquema correcto para tu toma de decisiones.

¿Qué modelo crees que se ajusta mejor a tu proyecto actual? Cuéntame en los comentarios cómo estás estructurando tus datos.

Mario Alexander Vargas Celis

Estudiante

En el contexto de Data Warehousing, los esquemas dimensionales son modelos de diseño utilizados para organizar los datos de forma que permitan un análisis eficiente. Los tipos principales de esquemas dimensionales son:

1. Esquema Estrella (Star Schema)

Descripción: Es el esquema dimensional más sencillo. En este diseño, una tabla central de hechos está conectada directamente a múltiples tablas de dimensiones.
Estructura:
- La tabla de hechos contiene datos numéricos (métricas o medidas) y claves que se relacionan con las dimensiones.
- Las tablas de dimensiones contienen atributos descriptivos (p. ej., nombres, categorías).
Ventajas:
- Fácil de entender e implementar.
- Consulta simple y eficiente.
Desventajas:
- Puede volverse poco eficiente para sistemas con muchas dimensiones o datos redundantes.
Ejemplo:
- Tabla de Hechos: Ventas (id_venta, id_tiempo, id_producto, cantidad, total_venta).
- Dimensiones: Producto, Tiempo, Cliente, Tienda.

2. Esquema Copo de Nieve (Snowflake Schema)

Descripción: Es una extensión del esquema estrella en el que las tablas de dimensiones están normalizadas (divididas en varias tablas relacionadas).
Estructura:
- La tabla de hechos se conecta con dimensiones, pero estas dimensiones pueden tener relaciones con otras tablas.
Ventajas:
- Menor redundancia de datos.
- Requiere menos espacio de almacenamiento.
Desventajas:
- Más complejo de diseñar y entender.
- Las consultas son más lentas debido a la necesidad de realizar más uniones (joins).
Ejemplo:
- Dimensión Producto puede dividirse en:
  - Categoría de Producto
  - Marca de Producto

3. Esquema Galaxia (Galaxy Schema o Fact Constellation)

Descripción: Es un esquema que utiliza múltiples tablas de hechos conectadas con dimensiones compartidas. También se llama constelación de hechos.
Estructura:
- Las dimensiones son reutilizables y pueden estar conectadas a diferentes tablas de hechos.
Ventajas:
- Permite soportar múltiples procesos de negocio dentro del mismo modelo.
- Más flexible y escalable.
Desventajas:
- Puede ser más complejo de gestionar y mantener.
Ejemplo:
- Una tabla de hechos para Ventas y otra para Inventario, ambas compartiendo las dimensiones Producto, Tiempo y Tienda.

4. Esquema Estrella Normalizado

Descripción: Similar al esquema estrella, pero las dimensiones son parcialmente normalizadas para reducir redundancias sin llegar a la complejidad del copo de nieve.
Ventajas:
- Compromiso entre simplicidad y optimización de almacenamiento.
Desventajas:
- Puede no ser tan eficiente como un esquema estrella puro para consultas complejas.

Comparación de los Esquemas:

CriterioEsquema EstrellaEsquema Copo de NieveEsquema GalaxiaComplejidadBajaMediaAltaRedundanciaAltaBajaVariableFacilidad de consultaAltaMediaMediaEspacio de almacenamientoMayorMenorVariableUso típicoAnálisis simplesSistemas optimizadosMulti-proceso o analítica compleja

Resumen:

Star Schema: Simplicidad y consultas rápidas; adecuado para escenarios pequeños o medianos.
Snowflake Schema: Menos redundancia, más eficiente para almacenamiento, pero más complejo.
Galaxy Schema: Ideal para empresas grandes con múltiples procesos de negocio que comparten dimensiones.

Modelo estrella vs copo de nieve en datos

Introducción a BI y Data Warehouse

Qué es Business Intelligence y Data Warehousing

Niveles de analítica y jerarquía de datos

Qué son data warehouse, data mart y dimensiones

OLTP vs OLAP: diferencias clave

Inmon, Kimball y Hefesto en BI

Modelos dimensionales

Data Warehouse, Data Lake y Lakehouse