Hola,
Les comparto R.A.G (Redshift Analyst Guide). Una guía de cosas que NO se recomienda hacer y buenas prácticas en Redshift 😃
Primeros pasos en la arquitectura no transaccional
Objetivos y presentación del proyecto
Aprende qué es un Data Warehouse
Bases de datos columnares y arquitectura orientada a optimización de consultas
¿Cómo funciona AWS Redshift?
Configura tu entorno de trabajo para Redshift
Creando nuestro entorno de trabajo en AWS
Configura tu primer cluster
Consumiendo Redshift: empieza la magia
Sentencias SQL en Redshift
Cómo diseñar tu base de datos para mejorar su desempeño
¿Qué es la compresión en Redshift?
Algoritmos de compresión con Redshift
Aplicando algoritmos de compresión
Análisis de desempeño con diferentes tipos de compresión
Estilos de distribución con Redshift
Evaluando los estilos de distribución
Llaves de ordenamiento para optimizar nuestras consultas
Aplicando ordenamiento de columnas
Evaluando algoritmos de ordenamiento
Buenas prácticas para diseñar tablas en Redshift
Tipos de datos en AWS Redshift
Reto: mejora el desempeño de tu base de datos
Manipular enormes cantidades de datos
Olvídate de los insert, el copy llego para quedarse
Cargando archivos tipo JSON
El comando copy a fondo
Manifiestos y uso de COMPUPDATE para carga con compresión automática
Métodos de carga alternativos al comando copy
¿Cómo ejecutar sentencias UPDATE y DELETE?
¿Cómo mantener el desempeño de tu base de datos?
Estadísticas y limpieza de las tablas
Buenas prácticas para diseñar y ejecutar consultas en tu base de datos
Agrupamiento, ordenamiento y subqueries
¿Qué es y cómo interpretar un explain plan?
Análisis de comportamiento y descarga de datos con Redshift
¿Cómo descargar datos eficientemente con UNLOAD?
Otras tablas útiles de Redshift para entender el comportamiento de nuestros datos
Conclusiones
Próximos pasos con AWS Redshift
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Aportes 9
Preguntas 4
Hola,
Les comparto R.A.G (Redshift Analyst Guide). Una guía de cosas que NO se recomienda hacer y buenas prácticas en Redshift 😃
CREATE TABLE dist_key (columna int)
diststyle key distkey (columna);
INSERT INTO dist_key VALUES (10);
CREATE TABLE dist_even (columna int)
diststyle even;
INSERT INTO dist_even VALUES (10);
CREATE TABLE dist_all (columna int)
diststyle all;
INSERT INTO dist_all VALUES (10);
CREATE TABLE dist_auto (columna int);
INSERT INTO dist_auto VALUES (10);
SELECT *
FROM pg_catalog.svv_table_info
LIMIT 10;
SELECT *
FROM pg_catalog.svv_table_info
WHERE "table" LIKE '%dist%'
LIMIT 10;
SELECT *
FROM pg_table_def
WHERE tablename = 'users';
SELECT *
FROM pg_catalog.svv_diskusage
LIMIT 10;
SELECT *
FROM pg_catalog.svv_diskusage
WHERE "name" = 'users'
AND col = 0;
SELECT distinct slice, col, num_values, "minvalue", "maxvalue"
FROM pg_catalog.svv_diskusage
WHERE "name" = 'users'
AND col = 0
AND num_values > 0
ORDER BY slice, col;
CREATE TABLE user_key_state distkey(state) AS (SELECT * FROM users)
SELECT distinct slice, col, num_values, "minvalue", "maxvalue"
FROM pg_catalog.svv_diskusage
WHERE "name" = 'user_key_state'
AND col = 0
AND num_values > 0
ORDER BY slice, col;
CREATE TABLE user_even_state diststyle even AS (SELECT * FROM users)
SELECT distinct slice, col, num_values, "minvalue", "maxvalue"
FROM pg_catalog.svv_diskusage
WHERE "name" = 'user_even_state'
AND col = 0
AND num_values > 0
ORDER BY slice, col;
CREATE TABLE user_all diststyle all AS (SELECT * FROM users)
SELECT distinct slice, col, num_values, "minvalue", "maxvalue"
FROM pg_catalog.svv_diskusage
WHERE "name" = 'user_all'
AND col = 0
AND num_values > 0
ORDER BY slice, col;
svv_diskusage permite ver la cantidad de espacio usado en disco por cada tabla
svv_table_info permite ver que tipo de distribución tienen las tablas creadas
pg_table_def permite ver como estan definidas las tablas
CREATE TABLE table_name (columns) distribution: diststyle key distkey (column_name) diststyle even diststyle all Si no se especifica ninguno, se aplica diststyle auto Luego los valores que se inserten en la tabla, se distribuiran en los nodos de acuerdo al tipo de distribución definida
Puedes compartir esos queries por fa
interesante
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?