puede ejecutar el comando ANALYZE COMPRESSION en una tabla que ya tenga datos y utilizar los resultados para seleccionar las codificaciones de compresión.
Primeros pasos en la arquitectura no transaccional
Objetivos y presentación del proyecto
Aprende qué es un Data Warehouse
Bases de datos columnares y arquitectura orientada a optimización de consultas
¿Cómo funciona AWS Redshift?
Configura tu entorno de trabajo para Redshift
Creando nuestro entorno de trabajo en AWS
Configura tu primer cluster
Consumiendo Redshift: empieza la magia
Sentencias SQL en Redshift
Cómo diseñar tu base de datos para mejorar su desempeño
¿Qué es la compresión en Redshift?
Algoritmos de compresión con Redshift
Aplicando algoritmos de compresión
Análisis de desempeño con diferentes tipos de compresión
Estilos de distribución con Redshift
Evaluando los estilos de distribución
Llaves de ordenamiento para optimizar nuestras consultas
Aplicando ordenamiento de columnas
Evaluando algoritmos de ordenamiento
Buenas prácticas para diseñar tablas en Redshift
Tipos de datos en AWS Redshift
Reto: mejora el desempeño de tu base de datos
Manipular enormes cantidades de datos
Olvídate de los insert, el copy llego para quedarse
Cargando archivos tipo JSON
El comando copy a fondo
Manifiestos y uso de COMPUPDATE para carga con compresión automática
Métodos de carga alternativos al comando copy
¿Cómo ejecutar sentencias UPDATE y DELETE?
¿Cómo mantener el desempeño de tu base de datos?
Estadísticas y limpieza de las tablas
Buenas prácticas para diseñar y ejecutar consultas en tu base de datos
Agrupamiento, ordenamiento y subqueries
¿Qué es y cómo interpretar un explain plan?
Análisis de comportamiento y descarga de datos con Redshift
¿Cómo descargar datos eficientemente con UNLOAD?
Otras tablas útiles de Redshift para entender el comportamiento de nuestros datos
Conclusiones
Próximos pasos con AWS Redshift
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Convierte tus certificados en títulos universitarios en USA
Antes: $249
Paga en 4 cuotas sin intereses
Termina en:
Aportes 13
Preguntas 0
puede ejecutar el comando ANALYZE COMPRESSION en una tabla que ya tenga datos y utilizar los resultados para seleccionar las codificaciones de compresión.
Un pequeño resumen del final:
ID: Como el incremento por cada ID es de uno puedo comprimir cada registro en 1 byte.
Nombre: Es mejor dejar la data limpia. La compresión para estos datos tan variables puede que me genere problemas.
Género: Bytedict(diccionario de bytes) para decir hombre es 0, mujer 1 y desconocido 2. O text255, porque va a encontrar palabras muy frecuentes: Hombre , mujer o cualquier otro género.
País: Hay menos de 256 país o posiblemente la empresa contacta con cierta cantidad de países menores a 256. y también deben haber 255 palabras muy frecuentes.
Ciudades: En este caso si puede existir más de 256 ciudades entonces no podemos usar bytedict. Pero si se puede usar text255 porque van a existir ciudades muy repetitivas.
Suscripcion_promo: Si se repiten los registros y son repetitivos el runlength puede ayudar. Es igual que las suscripciones de Platzi, Expert, Expert+, Basic.
Fecha_creacion : Los registros pueden ser muy recurrentes o no. Pero la diferencia de registro en registro puede ser lo suficiente para que el delta32K funcione.
Como Data scientist o ingeniero de dato debemos conocer los datos , como se mueven y el negocio. La arquitectura va muy ligada a eso.
En el side uno dice “mejores” en vez de “menores” 😛
Mostly encoding
Encoding Compressed storage size Range of values that can be compressed (values outside the range are stored raw)
MOSTLY8 1 byte (8 bits) -128 to 127
MOSTLY16 2 bytes (16 bits) -32768 to 32767
MOSTLY32 4 bytes (32 bits) -2147483648 to +2147483647
Fuente: Link
Toda la base de datos tiene que estar compresa de la misma forma?
Sigo con la duda que en cuales casos es mejor con comprimir columnas que usar normalización 😦.
Por ejemplo con la codificación Runlength, siento que se podría resolver el mismo problema creando una tabla planes y haciendo referencia a los id en las otras tablas.
MOSTLY16 2 bytes (16 bits) De -32768 a 32767
me gusta por el tema columnar la facilidad en poder realizar este tipo de compresión.
Me encantan los algoritmos de compresión son muy ingeniosos
¿Tenemos un curso de estos en Platzi?
INTERESANTE
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?