Data Warehouse y Modelo Dimensional en Amazon Repsheet
Clase 2 de 33 • Curso de AWS Redshift para Manejo de Big Data
Resumen
¿Qué es un data warehouse?
Un data warehouse es un repositorio unificado de múltiples fuentes de datos diseñado para el análisis de datos, no para las operaciones diarias. A diferencia de una base de datos convencional que soporta transacciones y actualizaciones de datos del negocio, un data warehouse se enfoca en la recopilación y organización de datos para obtener información relevante para la toma de decisiones.
¿Cómo funcionan los data warehouses en las organizaciones?
En muchas empresas, los datos operativos y los financieros se almacenan en sistemas separados. Por ejemplo, una compañía podría usar Postgres para gestionar sus transacciones diarias, mientras que las áreas de finanzas y contabilidad manejan datos en CSVs o Excel. Otros datos, como los de plataformas de pago, pueden estar disponibles únicamente en JSON o a través de API.
Aquí es donde entra en juego el data warehouse, permitiendo consolidar datos de diferentes fuentes (bases de datos, archivos planos, API) en un solo lugar, preparándolos para el análisis integral del negocio.
¿Cómo se trasladan los datos al data warehouse?
¿Qué es el proceso ETL?
El proceso ETL (Extracción, Transformación y Carga), por sus siglas en inglés, es clave para llevar los datos a un data warehouse. Este proceso consta de:
- Extracción: Recuperar datos de múltiples fuentes, sean bases de datos, archivos planos o API.
- Transformación: Limpiar los datos eliminando duplicados y valores nulos, pivotear tablas, crear agrupaciones y columnas nuevas para obtener una estructura analítica eficaz.
- Carga: Transferir los datos transformados al data warehouse.
Este proceso es sencillo y puede realizarse de manera recurrente para asegurar que el data warehouse esté siempre actualizado con información útil para el negocio.
¿Qué es una estructura de datos analíticos?
No existe una receta mágica para una estructura analítica, ya que cada organización tiene diferentes necesidades y preguntas que responder. Sin embargo, el modelo dimensional es un estándar ampliamente utilizado para estructurar datos de manera que faciliten el análisis.
¿Qué es un modelo dimensional?
El modelo dimensional se compone de dos tipos clave de tablas:
- Tablas de hechos: Almacenan lo que se quiere medir (ej. ventas, cantidades, precios).
- Tablas de dimensiones: Definen cómo se quiere medir (ej. tiendas, productos, tiempo, clientes).
¿Cómo se aplica el modelo estrella en un negocio?
Supongamos que el núcleo de tu negocio son las ventas. Quieres analizar cómo estas varían según diversos factores. En un modelo estrella, la tabla de hechos contiene las ventas, mientras que las dimensiones incluyen tiendas, productos, períodos de tiempo, y segmentos de clientes. Esto permite examinar las ventas por trimestre, por tienda específica, o incluso por tipo de cliente, proporcionando una visualización clara del desempeño del negocio.
En este curso, nos centraremos en un modelo dimensional aplicado en Amazon Reptimit, que incluye tablas de hechos como "sales" y "listing", y dimensiones como "date", "user", "event", "category" y "venue". Este modelo robusto será una herramienta esencial para desarrollarse en el análisis de datos a lo largo del curso.
Mantente motivado y sigue aprendiendo para dominar la analítica de datos con data warehouses.