Primeros pasos en la arquitectura no transaccional

1

Objetivos y presentación del proyecto

2

Aprende qué es un Data Warehouse

3

Bases de datos columnares y arquitectura orientada a optimización de consultas

4

¿Cómo funciona AWS Redshift?

Configura tu entorno de trabajo para Redshift

5

Creando nuestro entorno de trabajo en AWS

6

Configura tu primer cluster

7

Consumiendo Redshift: empieza la magia

8

Sentencias SQL en Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

9

¿Qué es la compresión en Redshift?

10

Algoritmos de compresión con Redshift

11

Aplicando algoritmos de compresión

12

Análisis de desempeño con diferentes tipos de compresión

13

Estilos de distribución con Redshift

14

Evaluando los estilos de distribución

15

Llaves de ordenamiento para optimizar nuestras consultas

16

Aplicando ordenamiento de columnas

17

Evaluando algoritmos de ordenamiento

18

Buenas prácticas para diseñar tablas en Redshift

19

Tipos de datos en AWS Redshift

20

Reto: mejora el desempeño de tu base de datos

Manipular enormes cantidades de datos

21

Olvídate de los insert, el copy llego para quedarse

22

Cargando archivos tipo JSON

23

El comando copy a fondo

24

Manifiestos y uso de COMPUPDATE para carga con compresión automática

25

Métodos de carga alternativos al comando copy

26

¿Cómo ejecutar sentencias UPDATE y DELETE?

27

¿Cómo mantener el desempeño de tu base de datos?

28

Estadísticas y limpieza de las tablas

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

29

Agrupamiento, ordenamiento y subqueries

30

¿Qué es y cómo interpretar un explain plan?

Análisis de comportamiento y descarga de datos con Redshift

31

¿Cómo descargar datos eficientemente con UNLOAD?

32

Otras tablas útiles de Redshift para entender el comportamiento de nuestros datos

Conclusiones

33

Próximos pasos con AWS Redshift

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Convierte tus certificados en títulos universitarios en USA

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

18 Días
23 Hrs
57 Min
11 Seg

Algoritmos de compresión con Redshift

10/33
Recursos

Aportes 13

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

puede ejecutar el comando ANALYZE COMPRESSION en una tabla que ya tenga datos y utilizar los resultados para seleccionar las codificaciones de compresión.

Un pequeño resumen del final:

  • ID: Como el incremento por cada ID es de uno puedo comprimir cada registro en 1 byte.

  • Nombre: Es mejor dejar la data limpia. La compresión para estos datos tan variables puede que me genere problemas.

  • Género: Bytedict(diccionario de bytes) para decir hombre es 0, mujer 1 y desconocido 2. O text255, porque va a encontrar palabras muy frecuentes: Hombre , mujer o cualquier otro género.

  • País: Hay menos de 256 país o posiblemente la empresa contacta con cierta cantidad de países menores a 256. y también deben haber 255 palabras muy frecuentes.

  • Ciudades: En este caso si puede existir más de 256 ciudades entonces no podemos usar bytedict. Pero si se puede usar text255 porque van a existir ciudades muy repetitivas.

  • Suscripcion_promo: Si se repiten los registros y son repetitivos el runlength puede ayudar. Es igual que las suscripciones de Platzi, Expert, Expert+, Basic.

  • Fecha_creacion : Los registros pueden ser muy recurrentes o no. Pero la diferencia de registro en registro puede ser lo suficiente para que el delta32K funcione.

Como Data scientist o ingeniero de dato debemos conocer los datos , como se mueven y el negocio. La arquitectura va muy ligada a eso.

En el side uno dice “mejores” en vez de “menores” 😛

Mostly encoding
Encoding Compressed storage size Range of values that can be compressed (values outside the range are stored raw)
MOSTLY8 1 byte (8 bits) -128 to 127
MOSTLY16 2 bytes (16 bits) -32768 to 32767
MOSTLY32 4 bytes (32 bits) -2147483648 to +2147483647

Fuente: Link

Toda la base de datos tiene que estar compresa de la misma forma?

Sigo con la duda que en cuales casos es mejor con comprimir columnas que usar normalización 😦.
Por ejemplo con la codificación Runlength, siento que se podría resolver el mismo problema creando una tabla planes y haciendo referencia a los id en las otras tablas.

MOSTLY16 2 bytes (16 bits) De -32768 a 32767

me gusta por el tema columnar la facilidad en poder realizar este tipo de compresión.

Me encantan los algoritmos de compresión son muy ingeniosos
¿Tenemos un curso de estos en Platzi?

INTERESANTE