Contenido del curso
Modelos dimensionales
- 6

Data Warehouse, Data Lake y Lakehouse
07:02 min - 7

Modelo estrella vs copo de nieve en datos
05:14 min - 8

Tipos de dimensiones lentamente cambiantes
04:32 min - 9

Dimensión tipo 1: sobrescribir sin guardar historia
07:13 min - 10

Dimensión tipo 2
06:05 min - 11

Dimensión tipo 3: historia en columnas
03:31 min - 12

Tabla de hechos (fact)
09:04 min - 13

Configuración de herramientas para Data Warehouse y ETL
03:22 min - 14

Cómo extraer dimensiones de preguntas de negocio
08:54 min - 15

Diseño de tablas en un modelo dimensional
11:23 min
ETL para inserción en Data Warehouse
- 16

Documento de mapeo en ETL para data warehouse
19:25 min - 17

Creando tablas dimensionales en Redshift
07:09 min - 18

Extracción: querys en SQL
17:28 min - 19

Cruce de fuentes en Pentaho con Stream Lookup
09:25 min - 20

Transformación ETL con Pentaho paso a paso
15:19 min - 21

Carga de datos transformados a Redshift con Pentaho
15:01 min - 22

Cómo cargar la tabla de hechos con Pentaho
12:21 min - 23

Cómo calcular MaxID y MaxDate en Pentaho
17:26 min - 24

Orquestar ETL en Pentaho: job
24:27 min - 25

Solución ETL con dimensiones en paralelo en Redshift
07:27 min
Cierre
Inmon, Kimball y Hefesto en BI
Resumen
Construir un modelo de datos sólido depende de la metodología que elijas. Las metodologías de business intelligence definen cómo conectar fuentes, dimensiones, modelos dimensionales y visualizaciones para que tu negocio tome decisiones con datos confiables. Aquí verás las tres más usadas y cuándo conviene cada una.
¿Qué propone la metodología de Bill Inmon?
Bill Inmon es considerado el precursor del business intelligence moderno y su enfoque parte de una arquitectura robusta y centralizada [0:14].
Su propuesta sigue este flujo:
- Llevar los datos desde las fuentes hasta un área de staging, una base de datos temporal que evita golpear las bases transaccionales.
- Mover esos datos mediante un proceso de ETL hacia un data warehouse centralizado.
- Construir data marts a partir del data warehouse para alimentar tableros y reportes.
El staging es clave porque permite hacer transformaciones pesadas sin afectar la operación del negocio [0:50]. Una vez procesados, los datos viajan al repositorio central y de ahí se segmentan en data marts especializados por área.
¿Qué es un área de staging? Es una base de datos temporal donde almacenas datos brevemente para hacer transformaciones pesadas sin afectar el rendimiento de las bases de datos transaccionales del negocio.
¿En qué se diferencia el enfoque de Ralph Kimball?
Ralph Kimball simplifica el flujo y elimina el paso intermedio del data warehouse como obligatorio [1:30]. Su propuesta lleva los datos desde el staging directamente a los data marts, que alimentan las visualizaciones.
No se trata de que una opción sea mejor que la otra. Puedes tener solo data warehouse, solo data marts o ambos, según el tamaño y necesidad del negocio.
¿Cuál es el flujo de Kimball para crear modelos de datos?
Kimball propone seis etapas claras para diseñar un proyecto de BI:
- Planificación del proyecto: define propósito, objetivos y alcance.
- Requerimientos de negocio: identifica las preguntas y necesidades de decisión mediante entrevistas.
- Modelo dimensional: determina la granularidad de los datos, elige el proceso de negocio a intervenir y define dimensiones y medidas.
- Diseño físico: define infraestructura, servidores locales o en la nube y dimensionamiento.
- Diseño e implementación del subsistema de ETL: construye el flujo que extrae, transforma y carga los datos al data warehouse.
- Implementación: despliega y divulga el proceso al negocio.
El modelo dimensional es donde se decide, por ejemplo, si vas a medir ventas por día, por producto o por región. Esa granularidad define el detalle máximo al que podrás llegar en tus análisis.
¿Qué aporta la metodología Hefesto?
Hefesto es una metodología alternativa relativamente nueva que muchos analistas combinan con Kimball para sacar lo mejor de ambas [3:51]. Su enfoque es más directo y práctico.
Sus etapas son:
- Análisis de requerimientos: entender qué necesita el negocio e identificar el nivel de granularidad.
- Análisis de los OLTP: conocer las fuentes de datos, su ubicación, nivel de detalle, datos faltantes y permisos necesarios para capturarlos.
- Modelo lógico del data warehouse: crear las tablas, dimensiones y tablas de hechos que almacenarán los datos.
- Integración de los datos: aplicar el proceso de ETL desde las fuentes hasta el destino final.
¿Qué es un sistema OLTP? Son las bases de datos transaccionales que soportan la operación diaria del negocio, como ventas, inventarios o registros de clientes, y son la fuente original de los datos que llevarás al data warehouse.
¿Qué arquitectura conviene en negocios pequeños?
Una arquitectura práctica combina lo mejor de las tres metodologías [5:00]. El flujo recomendado funciona así:
- Conectar las fuentes de datos a un área de staging para proteger el performance transaccional.
- Construir procesos de ETL que muevan la información del staging al data warehouse.
- Consumir los datos directamente desde el data warehouse para alimentar dashboards, cubos o reportes.
En negocios pequeños puedes prescindir de los data marts y centralizar todo en el data warehouse. Esto reduce complejidad sin perder capacidad analítica.
¿Necesito siempre un data warehouse y data marts? No. Puedes tener uno, otro o ambos. La decisión depende del tamaño del negocio, el volumen de datos y qué tan segmentado necesitas el consumo por áreas.
¿Qué metodología usas tú o cuál te ha funcionado mejor en tus proyectos? Déjalo en los comentarios.