Data Warehouse y Modelo Dimensional en Amazon Repsheet

Clase 2 de 33 • Curso de AWS Redshift para Manejo de Big Data

Contenido del curso

Primeros pasos en la arquitectura no transaccional

Configura tu entorno de trabajo para Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

Manipular enormes cantidades de datos

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Análisis de comportamiento y descarga de datos con Redshift

Conclusiones

33
Gestión de Datos y Consultas en Repsheat
01:58 min

Tomar examen

Resumen

Cuando una organización crece, sus datos se dispersan entre bases de datos operativas, archivos CSV, respuestas de API y sistemas contables independientes. Unificar toda esa información para tomar decisiones estratégicas es exactamente el problema que resuelve un data warehouse, y entender su estructura es el primer paso para aprovechar herramientas como Amazon Redshift.

¿Por qué necesitas un data warehouse en tu organización?

Un data warehouse es un repositorio unificado que concentra datos provenientes de múltiples fuentes [0:12]. Aunque a primera vista se parece a una base de datos convencional, su propósito es completamente diferente: no está diseñado para mantener operaciones del negocio en tiempo real, sino que está orientado a la analítica de datos [0:30].

Imagina un escenario común en cualquier empresa:

La operativa del negocio corre sobre Postgres, soportando transacciones diarias.
El área financiera y contabilidad genera archivos en CSV o Excel desde un sistema separado.
Plataformas de pago entregan información en JSON o a través de una API.

Cuando necesitas analizar la organización como un todo, esos datos están aislados [1:05]. No puedes relacionar los archivos JSON con los CSV, ni cruzar lo que hay en Postgres con lo que existe en Oracle. Aunque existan soluciones como un DB Link, la mejor opción para consolidar toda esa información es precisamente un data warehouse [1:30].

¿Qué es el proceso ETL y por qué es fundamental?

Llevar datos de múltiples fuentes a un solo repositorio requiere un mecanismo claro. Ese mecanismo es el proceso de ETL: extracción, transformación y carga (Extract, Transform, Load) [1:52].

El flujo funciona así:

Extracción: se obtienen los datos de todas las fuentes disponibles, ya sean bases de datos, archivos planos o conexiones por API.
Transformación: se limpian y preparan los datos. Esto incluye eliminar duplicados, gestionar valores nulos, pivotear tablas, crear agrupaciones y generar nuevas columnas [2:10]. El objetivo es construir una estructura analítica sólida.
Carga (load): los datos transformados se depositan en el data warehouse, en este caso Amazon Redshift [2:30].

Estos procesos ETL funcionan de manera recurrente o total, alimentando constantemente el data warehouse con información actualizada de toda la organización.

¿Cómo se estructura la información con el modelo dimensional?

No existe una receta única para organizar datos analíticos, ya que cada organización tiene preguntas distintas. Sin embargo, hay un estándar ampliamente adoptado: el modelo dimensional [2:58].

Este modelo se compone de dos tipos de tablas:

Tablas de hechos (fact tables): contienen lo que quieres medir. Por ejemplo, ventas, cantidades y precios [3:12].
Tablas de dimensiones (dimension tables): definen cómo lo quieres medir. Por ejemplo, a través de tiendas, productos, tiempo o segmentos de clientes [3:25].

¿Cómo funciona el modelo estrella en la práctica?

Supongamos que el core de tu negocio son las ventas. Con un modelo dimensional puedes responder preguntas como:

¿Cuáles fueron las ventas del Q1 de 2020 en determinadas tiendas versus el Q2 del mismo año?
¿Cómo se desglosan esas ventas por productos específicos y segmentos de clientes premium?
¿Qué tendencias se observan al comparar semanas, meses o años?

Esta estructura recibe el nombre de modelo estrella porque la tabla de hechos se ubica en el centro y las dimensiones se disponen alrededor, formando una estrella visual [3:55].

¿Qué modelo dimensional se usa en el curso de Redshift?

A lo largo del curso se trabaja con un modelo dimensional en Amazon Redshift que incluye dos tablas de hechos — sales y listing — y cinco tablas de dimensiones: date, user, event, category y venue [4:18]. Este esquema permite practicar consultas analíticas reales sobre una estructura bien definida.

Si ya tienes curiosidad por saber cómo Redshift aprovecha este tipo de modelos gracias a su arquitectura columnar, comparte tus expectativas y dudas mientras avanzamos a la siguiente sesión.

Comentarios

Angello Villanueva Menichetti

student•

¿Que es un Data Warehouse?

Es una base de datos que recibe información de muchas fuentes de datos.
Su objetivo es unificar la información para ayudar a la analítica de la empresa.
Se usa el proceso de ETL (extract, transform, load) para alimentar el Data Warehouse.
Extraer: Obtener los datos de las distintas bases de datos
Transformar: Realizar una limpieza y modificación de los datos, creando una buena estructura analítica.
Cargar: Luego de transformar los datos, se cargar al DW

¿Que es una estructura analítica? Depende de la organización pero el estandar es el modelo dimensional, que posee:

Tabla de hechos: Que quiero medir
Tabla de dimensiones: Como medirlo, es decir, que variables son importante para generar los análisis

Otro ejemplo seria en una consulta médica, donde la tabla de hechos es la tabla de consultas.

Maria Cruz

teacher•

Cual es la diferencia entre data lake y un data warehouse?

Alarcon7a

student•

Si bien ambos sirven para almacenar datos de distintos repositorios el data lake suele tener datos raw pues su proposito puede que no este aun definido, el datawarehouse suele tener datos ya procesados con un proposito analitico especifico.

Grettel Katherine Camacho Aguilar

student•

hola. y una empresa podria tener los 2? tanto un datawarehouse como datalake ?

Usuario anónimo

user•

Qué es un Data Warehouse?

Un data Waterhouse es un repositorio unificado para todos los datos que recogen los diversos sistemas de una empresa.

Qué es un ETL? (Extract , Transform and Load) Extracción, transformación y Carga

Extracción : Extraemos los datos de todas las fuentes que tengamos.

Existen dos formas de extracción:

Totales: cada ejecución de extrae en un único llamado la totalidad de tus datos a procesar . Incremental: extrae los datos en pequeños lotes múltiples veces.

Transformación : Es importante porque aquí es donde damos formato a nuestra información ejemplo: Eliminar duplicados, eliminar ítem nulos, crear nuevas columnas, etc. Se trata de crear una estructura analística.

• Filtrar filas por ciertas características.
• Eliminar duplicados.
• Transformar datos (por ejemplo, si el país es Colombia, reemplázalo por 1) México, 2) Perú, 3) Ecuador, etc.).
• Calcular datos nuevos (por ejemplo, con la fecha de nacimiento calcular la edad).
• Agrupar datos (máximo valor, mínimo valor, promedios, conteos, etc.).
• Unir o combinar datos de distintas fuentes.
• Pivotar las tablas.
• Dividir columnas (nombre completo se puede transformar en primer nombre, segundo nombre, primer apellido y segundo apellido).

Carga: vamos a cargar la data a nuestro Data Warehouse.

Arquitectura de un data Warehouse

Tablas de hechos: contiene la información que queremos medir o analizar. Tablas de dimensiones: Contienen la información del "como# lo quiero medir.

Ejemplo: Quiero medir mi total de ventas. Y lo quiero medir a través de: Tiendas, productos, clientes y tiempo.

Nota: El tiempo es muy importante en analítica.

AWS tiene 2 tablas de hechos: Sales y Listing 5 tablas de dimensiones: date, users, event, category, venue,

Carlos Andres Morales Machuca

student•

a veces los procesos son ELT en lugar de ETL, cuando el data Warehouse utiliza un esquema mirror, la extracción se lleva tal cual hacia ese esquema, y después de estar dentro del dwh, se procede a realizar las transformaciones y llevar la data a otro esquema.

Juan David Amaya Cardenas

student•

Las tablas de hechos representan (como su nombre lo indica) un hecho del pasado (ej, ventas, consultas medicas, sesiones de entrenamiento) que se requiere analizar para obtener información, mientas que las tablas de dimensiones representan todos los demás datos que le dan contexto a este hecho (ej, tiempo, lugar, etc).

Mario Alexander Vargas Celis

student•

Un Data Warehouse (almacén de datos) es una base de datos especializada que centraliza y organiza información de múltiples sistemas o fuentes con el objetivo de apoyar la toma de decisiones empresariales. Está optimizado para consultas y análisis, en lugar de procesamiento de transacciones.

Características principales:

Integración: Combina datos de diversas fuentes (bases de datos transaccionales, archivos externos, sistemas ERP, CRM, etc.).
Orientación a temas: Los datos están organizados en torno a temas o áreas de interés, como ventas, clientes o finanzas.
Consistencia temporal: Los datos son históricos y se almacenan con marcadores de tiempo, permitiendo análisis a lo largo del tiempo.
No volátil: Los datos no se actualizan ni eliminan una vez almacenados, solo se agregan para conservar el historial.

Componentes clave:

ETL (Extract, Transform, Load): Procesos que extraen datos de fuentes, los transforman según necesidades específicas y los cargan en el Data Warehouse.
Base de datos del Data Warehouse: El repositorio central para almacenar datos organizados.
Herramientas de análisis y visualización: Software que permite a los usuarios explorar los datos y generar reportes.

Usos comunes:

Generar informes ejecutivos y dashboards.
Realizar análisis predictivo y minería de datos.
Tomar decisiones estratégicas basadas en patrones históricos.

Karla Verónica Álvarez Vázquez

student•

Miguel Juan Carlos Rojas Ortega

student•

En el proceso de ETL que herramientas recomiendan para extraer y transformar?

Alarcon7a

student•

Depende mucho de la empresa o industria donde trabajas... si son empresas grandes usualmente tiene herramientas como datastage y ODI, de IBM o Oracle...startups prefieren python directo o spoon y si es big data airfow, hay muchos frameworks para esto

Carlos Javier Guevara Contreras

student•

En el contexto de la informática, un almacén de datos (del inglés data warehouse) es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza.

Carlos Abraham Muñoz Mentado

student•

Existe la posibilidad de tener que Desnormalizar una estructura de datos para poder cargarlos en un Datawarehouse u otro tipo de Base de Datos?

Luis Fernandez

student•

Hola, entendi que un Data Warehouse es OLAP, mi pregunta es, podria ser tambien OLTP?

Carlos Alberto Novoa Sanabria

student•

Buen día, para hacer una precisión, según lo que veo en la arquitectura de datos del curso sería un copo de nieve más no una de estrella, ¿es correcto? por la dependencia de Category y Venue de Event

JOSE LUIS HERNANDEZ DIEGO

student•

al fin me quedo claro este tema.

Carlos Eduardo Bracho Rosales

student•

Que bueno que actualmente hay cursos que hablan de estos temas con mas profundidad:

Tambien, una charla en vivo:

Bases de datos OLAP para Business Intelligence y analítica

Manuel Sosa

student•

😖😖

Carlos Arturo

student•

Por cada data warehouse, significa que debo de crear una BD nueva ?

José Alberto Ortiz Vargas

student•

Por que no es sano usar la base de datos de producción, y por eso debes "crear una nueva" base de datos, que lo unico que es, en si, una copia de la base de datos de producción pero enfocada en la analitica y no en las transacciónes.

Dale un viztaso a los conceptos de: OLTP vs. OLAP

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS