Primeros pasos en la arquitectura no transaccional

1

Objetivos y presentación del proyecto

2

Aprende qué es un Data Warehouse

3

Bases de datos columnares y arquitectura orientada a optimización de consultas

4

¿Cómo funciona AWS Redshift?

Configura tu entorno de trabajo para Redshift

5

Creando nuestro entorno de trabajo en AWS

6

Configura tu primer cluster

7

Consumiendo Redshift: empieza la magia

8

Sentencias SQL en Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

9

¿Qué es la compresión en Redshift?

10

Algoritmos de compresión con Redshift

11

Aplicando algoritmos de compresión

12

Análisis de desempeño con diferentes tipos de compresión

13

Estilos de distribución con Redshift

14

Evaluando los estilos de distribución

15

Llaves de ordenamiento para optimizar nuestras consultas

16

Aplicando ordenamiento de columnas

17

Evaluando algoritmos de ordenamiento

18

Buenas prácticas para diseñar tablas en Redshift

19

Tipos de datos en AWS Redshift

20

Reto: mejora el desempeño de tu base de datos

Manipular enormes cantidades de datos

21

Olvídate de los insert, el copy llego para quedarse

22

Cargando archivos tipo JSON

23

El comando copy a fondo

24

Manifiestos y uso de COMPUPDATE para carga con compresión automática

25

Métodos de carga alternativos al comando copy

26

¿Cómo ejecutar sentencias UPDATE y DELETE?

27

¿Cómo mantener el desempeño de tu base de datos?

28

Estadísticas y limpieza de las tablas

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

29

Agrupamiento, ordenamiento y subqueries

30

¿Qué es y cómo interpretar un explain plan?

Análisis de comportamiento y descarga de datos con Redshift

31

¿Cómo descargar datos eficientemente con UNLOAD?

32

Otras tablas útiles de Redshift para entender el comportamiento de nuestros datos

Conclusiones

33

Próximos pasos con AWS Redshift

Aprende qué es un Data Warehouse

2/33
Recursos

Aportes 8

Preguntas 0

Ordenar por:

Los aportes, preguntas y respuestas son vitales para aprender en comunidad. Regístrate o inicia sesión para participar.

¿Que es un Data Warehouse?

  • Es una base de datos que recibe información de muchas fuentes de datos.
  • Su objetivo es unificar la información para ayudar a la analítica de la empresa.
  • Se usa el proceso de ETL (extract, transform, load) para alimentar el Data Warehouse.
  • Extraer: Obtener los datos de las distintas bases de datos
  • Transformar: Realizar una limpieza y modificación de los datos, creando una buena estructura analítica.
  • Cargar: Luego de transformar los datos, se cargar al DW

¿Que es una estructura analítica?
Depende de la organización pero el estandar es el modelo dimensional, que posee:

  • Tabla de hechos: Que quiero medir
  • Tabla de dimensiones: Como medirlo, es decir, que variables son importante para generar los análisis

Otro ejemplo seria en una consulta médica, donde la tabla de hechos es la tabla de consultas.

Cual es la diferencia entre data lake y un data warehouse?

Qué es un Data Warehouse?

Un data Waterhouse es un repositorio unificado para todos los datos que recogen los diversos sistemas de una empresa.

Qué es un ETL?
(Extract , Transform and Load)
Extracción, transformación y Carga

Extracción : Extraemos los datos de todas las fuentes que tengamos.

Existen dos formas de extracción:

Totales: cada ejecución de extrae en un único llamado la totalidad de tus datos a procesar .
Incremental: extrae los datos en pequeños lotes múltiples veces.

Transformación : Es importante porque aquí es donde damos formato a nuestra información ejemplo: Eliminar duplicados, eliminar ítem nulos, crear nuevas columnas, etc. Se trata de crear una estructura analística.

• Filtrar filas por ciertas características.
• Eliminar duplicados.
• Transformar datos (por ejemplo, si el país es Colombia, reemplázalo por 1) México, 2) Perú, 3) Ecuador, etc.).
• Calcular datos nuevos (por ejemplo, con la fecha de nacimiento calcular la edad).
• Agrupar datos (máximo valor, mínimo valor, promedios, conteos, etc.).
• Unir o combinar datos de distintas fuentes.
• Pivotar las tablas.
• Dividir columnas (nombre completo se puede transformar en primer nombre, segundo nombre, primer apellido y segundo apellido).

Carga: vamos a cargar la data a nuestro Data Warehouse.

Arquitectura de un data Warehouse

Tablas de hechos: contiene la información que queremos medir o analizar.
Tablas de dimensiones: Contienen la información del "como# lo quiero medir.

Ejemplo:
Quiero medir mi total de ventas.
Y lo quiero medir a través de: Tiendas, productos, clientes y tiempo.

Nota: El tiempo es muy importante en analítica.

AWS tiene
2 tablas de hechos: Sales y Listing
5 tablas de dimensiones: date, users, event, category, venue,

Las tablas de hechos representan (como su nombre lo indica) un hecho del pasado (ej, ventas, consultas medicas, sesiones de entrenamiento) que se requiere analizar para obtener información, mientas que las tablas de dimensiones representan todos los demás datos que le dan contexto a este hecho (ej, tiempo, lugar, etc).

En el proceso de ETL que herramientas recomiendan para extraer y transformar?

En el contexto de la informática, un almacén de datos (del inglés data warehouse) es una colección de datos orientada a un determinado ámbito (empresa, organización, etc.), integrado, no volátil y variable en el tiempo, que ayuda a la toma de decisiones en la entidad en la que se utiliza.

Por cada data warehouse, significa que debo de crear una BD nueva ?