Data Warehouse y Modelo Dimensional en Amazon Repsheet

Clase 2 de 33 • Curso de AWS Redshift para Manejo de Big Data

Resumen

¿Qué es un data warehouse?

Un data warehouse es un repositorio unificado de múltiples fuentes de datos diseñado para el análisis de datos, no para las operaciones diarias. A diferencia de una base de datos convencional que soporta transacciones y actualizaciones de datos del negocio, un data warehouse se enfoca en la recopilación y organización de datos para obtener información relevante para la toma de decisiones.

¿Cómo funcionan los data warehouses en las organizaciones?

En muchas empresas, los datos operativos y los financieros se almacenan en sistemas separados. Por ejemplo, una compañía podría usar Postgres para gestionar sus transacciones diarias, mientras que las áreas de finanzas y contabilidad manejan datos en CSVs o Excel. Otros datos, como los de plataformas de pago, pueden estar disponibles únicamente en JSON o a través de API.

Aquí es donde entra en juego el data warehouse, permitiendo consolidar datos de diferentes fuentes (bases de datos, archivos planos, API) en un solo lugar, preparándolos para el análisis integral del negocio.

¿Cómo se trasladan los datos al data warehouse?

¿Qué es el proceso ETL?

El proceso ETL (Extracción, Transformación y Carga), por sus siglas en inglés, es clave para llevar los datos a un data warehouse. Este proceso consta de:

Extracción: Recuperar datos de múltiples fuentes, sean bases de datos, archivos planos o API.
Transformación: Limpiar los datos eliminando duplicados y valores nulos, pivotear tablas, crear agrupaciones y columnas nuevas para obtener una estructura analítica eficaz.
Carga: Transferir los datos transformados al data warehouse.

Este proceso es sencillo y puede realizarse de manera recurrente para asegurar que el data warehouse esté siempre actualizado con información útil para el negocio.

¿Qué es una estructura de datos analíticos?

No existe una receta mágica para una estructura analítica, ya que cada organización tiene diferentes necesidades y preguntas que responder. Sin embargo, el modelo dimensional es un estándar ampliamente utilizado para estructurar datos de manera que faciliten el análisis.

¿Qué es un modelo dimensional?

El modelo dimensional se compone de dos tipos clave de tablas:

Tablas de hechos: Almacenan lo que se quiere medir (ej. ventas, cantidades, precios).
Tablas de dimensiones: Definen cómo se quiere medir (ej. tiendas, productos, tiempo, clientes).

¿Cómo se aplica el modelo estrella en un negocio?

Supongamos que el núcleo de tu negocio son las ventas. Quieres analizar cómo estas varían según diversos factores. En un modelo estrella, la tabla de hechos contiene las ventas, mientras que las dimensiones incluyen tiendas, productos, períodos de tiempo, y segmentos de clientes. Esto permite examinar las ventas por trimestre, por tienda específica, o incluso por tipo de cliente, proporcionando una visualización clara del desempeño del negocio.

En este curso, nos centraremos en un modelo dimensional aplicado en Amazon Reptimit, que incluye tablas de hechos como "sales" y "listing", y dimensiones como "date", "user", "event", "category" y "venue". Este modelo robusto será una herramienta esencial para desarrollarse en el análisis de datos a lo largo del curso.

Mantente motivado y sigue aprendiendo para dominar la analítica de datos con data warehouses.

Angello Villanueva Menichetti

student•

¿Que es un Data Warehouse?

Es una base de datos que recibe información de muchas fuentes de datos.
Su objetivo es unificar la información para ayudar a la analítica de la empresa.
Se usa el proceso de ETL (extract, transform, load) para alimentar el Data Warehouse.
Extraer: Obtener los datos de las distintas bases de datos
Transformar: Realizar una limpieza y modificación de los datos, creando una buena estructura analítica.
Cargar: Luego de transformar los datos, se cargar al DW

¿Que es una estructura analítica? Depende de la organización pero el estandar es el modelo dimensional, que posee:

Tabla de hechos: Que quiero medir
Tabla de dimensiones: Como medirlo, es decir, que variables son importante para generar los análisis

Otro ejemplo seria en una consulta médica, donde la tabla de hechos es la tabla de consultas.

Maria Cruz

teacher•

Cual es la diferencia entre data lake y un data warehouse?

Alarcon7a

student•

Si bien ambos sirven para almacenar datos de distintos repositorios el data lake suele tener datos raw pues su proposito puede que no este aun definido, el datawarehouse suele tener datos ya procesados con un proposito analitico especifico.

Grettel Katherine Camacho Aguilar

student•

hola. y una empresa podria tener los 2? tanto un datawarehouse como datalake ?

Usuario anónimo

user•

Qué es un Data Warehouse?

Un data Waterhouse es un repositorio unificado para todos los datos que recogen los diversos sistemas de una empresa.

Qué es un ETL? (Extract , Transform and Load) Extracción, transformación y Carga

Extracción : Extraemos los datos de todas las fuentes que tengamos.

Existen dos formas de extracción:

Totales: cada ejecución de extrae en un único llamado la totalidad de tus datos a procesar . Incremental: extrae los datos en pequeños lotes múltiples veces.

Transformación : Es importante porque aquí es donde damos formato a nuestra información ejemplo: Eliminar duplicados, eliminar ítem nulos, crear nuevas columnas, etc. Se trata de crear una estructura analística.

• Filtrar filas por ciertas características.
• Eliminar duplicados.
• Transformar datos (por ejemplo, si el país es Colombia, reemplázalo por 1) México, 2) Perú, 3) Ecuador, etc.).
• Calcular datos nuevos (por ejemplo, con la fecha de nacimiento calcular la edad).
• Agrupar datos (máximo valor, mínimo valor, promedios, conteos, etc.).
• Unir o combinar datos de distintas fuentes.
• Pivotar las tablas.
• Dividir columnas (nombre completo se puede transformar en primer nombre, segundo nombre, primer apellido y segundo apellido).

Carga: vamos a cargar la data a nuestro Data Warehouse.

Arquitectura de un data Warehouse

Tablas de hechos: contiene la información que queremos medir o analizar. Tablas de dimensiones: Contienen la información del "como# lo quiero medir.

Ejemplo: Quiero medir mi total de ventas. Y lo quiero medir a través de: Tiendas, productos, clientes y tiempo.

Nota: El tiempo es muy importante en analítica.

AWS tiene 2 tablas de hechos: Sales y Listing 5 tablas de dimensiones: date, users, event, category, venue,

Carlos Andres Morales Machuca

student•

a veces los procesos son ELT en lugar de ETL, cuando el data Warehouse utiliza un esquema mirror, la extracción se lleva tal cual hacia ese esquema, y después de estar dentro del dwh, se procede a realizar las transformaciones y llevar la data a otro esquema.

Juan David Amaya Cardenas

student•

Las tablas de hechos representan (como su nombre lo indica) un hecho del pasado (ej, ventas, consultas medicas, sesiones de entrenamiento) que se requiere analizar para obtener información, mientas que las tablas de dimensiones representan todos los demás datos que le dan contexto a este hecho (ej, tiempo, lugar, etc).

Mario Alexander Vargas Celis

student•

Un Data Warehouse (almacén de datos) es una base de datos especializada que centraliza y organiza información de múltiples sistemas o fuentes con el objetivo de apoyar la toma de decisiones empresariales. Está optimizado para consultas y análisis, en lugar de procesamiento de transacciones.

Características principales:

Integración: Combina datos de diversas fuentes (bases de datos transaccionales, archivos externos, sistemas ERP, CRM, etc.).
Orientación a temas: Los datos están organizados en torno a temas o áreas de interés, como ventas, clientes o finanzas.
Consistencia temporal: Los datos son históricos y se almacenan con marcadores de tiempo, permitiendo análisis a lo largo del tiempo.
No volátil: Los datos no se actualizan ni eliminan una vez almacenados, solo se agregan para conservar el historial.

Componentes clave:

ETL (Extract, Transform, Load): Procesos que extraen datos de fuentes, los transforman según necesidades específicas y los cargan en el Data Warehouse.
Base de datos del Data Warehouse: El repositorio central para almacenar datos organizados.
Herramientas de análisis y visualización: Software que permite a los usuarios explorar los datos y generar reportes.

Usos comunes:

Generar informes ejecutivos y dashboards.
Realizar análisis predictivo y minería de datos.
Tomar decisiones estratégicas basadas en patrones históricos.

Karla Verónica Álvarez Vázquez

student•

Miguel Juan Carlos Rojas Ortega

student•

En el proceso de ETL que herramientas recomiendan para extraer y transformar?

Alarcon7a

student•

Depende mucho de la empresa o industria donde trabajas... si son empresas grandes usualmente tiene herramientas como datastage y ODI, de IBM o Oracle...startups prefieren python directo o spoon y si es big data airfow, hay muchos frameworks para esto

Carlos Javier Guevara Contreras

student•

En el contexto de la informática, un almacén de datos (del inglés data warehouse) es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza.

Carlos Abraham Muñoz Mentado

student•

Existe la posibilidad de tener que Desnormalizar una estructura de datos para poder cargarlos en un Datawarehouse u otro tipo de Base de Datos?

Luis Fernandez

student•

Hola, entendi que un Data Warehouse es OLAP, mi pregunta es, podria ser tambien OLTP?

Carlos Alberto Novoa Sanabria

student•

Buen día, para hacer una precisión, según lo que veo en la arquitectura de datos del curso sería un copo de nieve más no una de estrella, ¿es correcto? por la dependencia de Category y Venue de Event

JOSE LUIS HERNANDEZ DIEGO

student•

al fin me quedo claro este tema.

Carlos Eduardo Bracho Rosales

student•

Que bueno que actualmente hay cursos que hablan de estos temas con mas profundidad:

Tambien, una charla en vivo:

Bases de datos OLAP para Business Intelligence y analítica

Manuel Sosa

student•

😖😖

Carlos Arturo

student•

Por cada data warehouse, significa que debo de crear una BD nueva ?

José Alberto Ortiz Vargas

student•

Por que no es sano usar la base de datos de producción, y por eso debes "crear una nueva" base de datos, que lo unico que es, en si, una copia de la base de datos de producción pero enfocada en la analitica y no en las transacciónes.

Dale un viztaso a los conceptos de: OLTP vs. OLAP

• Filtrar filas por ciertas características.
• Eliminar duplicados.
• Transformar datos (por ejemplo, si el país es Colombia, reemplázalo por 1) México, 2) Perú, 3) Ecuador, etc.).
• Calcular datos nuevos (por ejemplo, con la fecha de nacimiento calcular la edad).
• Agrupar datos (máximo valor, mínimo valor, promedios, conteos, etc.).
• Unir o combinar datos de distintas fuentes.
• Pivotar las tablas.
• Dividir columnas (nombre completo se puede transformar en primer nombre, segundo nombre, primer apellido y segundo apellido).

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Procesamiento de Datos con Repsheet y Clústeres SQL

Configura tu entorno de trabajo para Redshift

Configuración de IAM y S3 en AWS para Repsheet

Configuración de Clúster en Amazon Repsheet para Big Data

Conexión y Configuración de Repsheet con Clientes Externos

Carga de Datos a Redshift desde Amazon S3: Paso a Paso

Cómo diseñar tu base de datos para mejorar su desempeño

Compresión de Datos en Repsheet: Algoritmos y Aplicaciones

Algoritmos de Compresión de Datos: Musley y Otros Métodos Eficientes

Compresión de Datos en SQL: Evaluación y Comparación de Algoritmos

Compresión de Datos en Repsheet: Optimización y Análisis

Algoritmos de Distribución de Datos en Repsheet

Distribución de Datos en Tablas SQL con Repsheet

Llaves de Ordenamiento en Bases de Datos: Compuesta vs. Intercalada

Pruebas de Algoritmos de Ordenamiento en SQL con AWS S3 y Redshift

Consultas SQL y Algoritmos de Ordenamiento Avanzados

Optimización de Datos en Data Warehouses con Repsheet

Manejo de Tipos de Datos en Amazon Redshift

Optimización de Bases de Datos en Modelos Dimensionales

Manipular enormes cantidades de datos

Carga Masiva de Datos en Repshit con el Comando COPY

Cargar datos JSON a Redshift usando el comando Copy

Parámetros Comunes del Comando COPY en Amazon Redshift

Carga Masiva de Datos sin Delimitador en RedSheet

Inserción de Datos en Repsheet sin Archivos Planos

Actualización Eficiente de Datos en Repsheet con Tablas Auxiliares

Optimización de Bases de Datos con Analyze y Vacuum en Repsheet

Optimización de Bases de Datos: Estadísticas y Limpieza de Tablas

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Buenas prácticas de SQL en bases de datos columnares

Optimización de Consultas SQL con Plan de Ejecución y Llaves de Ordenamiento

Análisis de comportamiento y descarga de datos con Redshift

Exportación de Datos desde Repsheet a Amazon S3 con Unload

Tablas útiles para administración en Repsheet

Conclusiones

Gestión de Datos y Consultas en Repsheat