Primeros pasos en la arquitectura no transaccional

1

Objetivos y presentaci贸n del proyecto

2

Aprende qu茅 es un Data Warehouse

3

Bases de datos columnares y arquitectura orientada a optimizaci贸n de consultas

4

驴C贸mo funciona AWS Redshift?

Configura tu entorno de trabajo para Redshift

5

Creando nuestro entorno de trabajo en AWS

6

Configura tu primer cluster

7

Consumiendo Redshift: empieza la magia

8

Sentencias SQL en Redshift

C贸mo dise帽ar tu base de datos para mejorar su desempe帽o

9

驴Qu茅 es la compresi贸n en Redshift?

10

Algoritmos de compresi贸n con Redshift

11

Aplicando algoritmos de compresi贸n

12

An谩lisis de desempe帽o con diferentes tipos de compresi贸n

13

Estilos de distribuci贸n con Redshift

14

Evaluando los estilos de distribuci贸n

15

Llaves de ordenamiento para optimizar nuestras consultas

16

Aplicando ordenamiento de columnas

17

Evaluando algoritmos de ordenamiento

18

Buenas pr谩cticas para dise帽ar tablas en Redshift

19

Tipos de datos en AWS Redshift

20

Reto: mejora el desempe帽o de tu base de datos

Manipular enormes cantidades de datos

21

Olv铆date de los insert, el copy llego para quedarse

22

Cargando archivos tipo JSON

23

El comando copy a fondo

24

Manifiestos y uso de COMPUPDATE para carga con compresi贸n autom谩tica

25

M茅todos de carga alternativos al comando copy

26

驴C贸mo ejecutar sentencias UPDATE y DELETE?

27

驴C贸mo mantener el desempe帽o de tu base de datos?

28

Estad铆sticas y limpieza de las tablas

Buenas pr谩cticas para dise帽ar y ejecutar consultas en tu base de datos

29

Agrupamiento, ordenamiento y subqueries

30

驴Qu茅 es y c贸mo interpretar un explain plan?

An谩lisis de comportamiento y descarga de datos con Redshift

31

驴C贸mo descargar datos eficientemente con UNLOAD?

32

Otras tablas 煤tiles de Redshift para entender el comportamiento de nuestros datos

Conclusiones

33

Pr贸ximos pasos con AWS Redshift

No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Aprende Ingl茅s, Programaci贸n, AI, Ciberseguridad y m谩s a precio especial.

Antes: $249

Currency
$209
Suscr铆bete

Termina en:

2 D铆as
21 Hrs
48 Min
52 Seg

Algoritmos de compresi贸n con Redshift

10/33
Recursos

Aportes 13

Preguntas 0

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

puede ejecutar el comando ANALYZE COMPRESSION en una tabla que ya tenga datos y utilizar los resultados para seleccionar las codificaciones de compresi贸n.

Un peque帽o resumen del final:

  • ID: Como el incremento por cada ID es de uno puedo comprimir cada registro en 1 byte.

  • Nombre: Es mejor dejar la data limpia. La compresi贸n para estos datos tan variables puede que me genere problemas.

  • G茅nero: Bytedict(diccionario de bytes) para decir hombre es 0, mujer 1 y desconocido 2. O text255, porque va a encontrar palabras muy frecuentes: Hombre , mujer o cualquier otro g茅nero.

  • Pa铆s: Hay menos de 256 pa铆s o posiblemente la empresa contacta con cierta cantidad de pa铆ses menores a 256. y tambi茅n deben haber 255 palabras muy frecuentes.

  • Ciudades: En este caso si puede existir m谩s de 256 ciudades entonces no podemos usar bytedict. Pero si se puede usar text255 porque van a existir ciudades muy repetitivas.

  • Suscripcion_promo: Si se repiten los registros y son repetitivos el runlength puede ayudar. Es igual que las suscripciones de Platzi, Expert, Expert+, Basic.

  • Fecha_creacion : Los registros pueden ser muy recurrentes o no. Pero la diferencia de registro en registro puede ser lo suficiente para que el delta32K funcione.

Como Data scientist o ingeniero de dato debemos conocer los datos , como se mueven y el negocio. La arquitectura va muy ligada a eso.

En el side uno dice 鈥渕ejores鈥 en vez de 鈥渕enores鈥 馃槢

Mostly encoding
Encoding Compressed storage size Range of values that can be compressed (values outside the range are stored raw)
MOSTLY8 1 byte (8 bits) -128 to 127
MOSTLY16 2 bytes (16 bits) -32768 to 32767
MOSTLY32 4 bytes (32 bits) -2147483648 to +2147483647

Fuente: Link

Toda la base de datos tiene que estar compresa de la misma forma?

Sigo con la duda que en cuales casos es mejor con comprimir columnas que usar normalizaci贸n 馃槮.
Por ejemplo con la codificaci贸n Runlength, siento que se podr铆a resolver el mismo problema creando una tabla planes y haciendo referencia a los id en las otras tablas.

MOSTLY16 2 bytes (16 bits) De -32768 a 32767

me gusta por el tema columnar la facilidad en poder realizar este tipo de compresi贸n.

Me encantan los algoritmos de compresi贸n son muy ingeniosos
驴Tenemos un curso de estos en Platzi?

INTERESANTE