Distribución de Datos en Tablas SQL con Repsheet

Clase 14 de 33 • Curso de AWS Redshift para Manejo de Big Data

Resumen

¿Cómo aplicar estilos de distribución en Repsheet?

Cuando trabajamos con Repsheet, es crucial entender cómo los estilos de distribución afectan la manera en que los datos se almacenan y procesan en la base de datos. Entender los estilos de distribución no solo puede mejorar el rendimiento de tus consultas, sino también la eficiencia en el uso del espacio. Veamos más a fondo cómo se implementan estos estilos directamente en el código SQL.

¿Qué implica distribuir por llave, modo 'key'?

Distribuir por llave garantiza que las filas que comparten el mismo valor en una columna específica estén localizadas en el mismo nodo, optimizando el rendimiento de operaciones como JOINs. Para definir una tabla con distribución por llave, utilizamos la cláusula diststyle key en el momento de su creación. Aquí tienes un ejemplo:

CREATE TABLE distribucion_por_llave (
    columna INTEGER
)
DISTSTYLE KEY
DISTKEY(columna);

INSERT INTO distribucion_por_llave VALUES(10);

Esta configuración asegura que todos los valores que coinciden en columna se encuentren en el mismo nodo, facilitando operaciones que dependen de esta columna.

¿Cómo funcionan los estilos 'even' y 'all'?

La distribución 'even', como su nombre indica, distribuye los datos uniformemente usando un método llamado 'Round Robin'. Esto es útil cuando no hay un patrón claro para los datos o cuando quieres evitar sesgos en la distribución:

CREATE TABLE distribucion_even (
    columna INTEGER
)
DISTSTYLE EVEN;

INSERT INTO distribucion_even VALUES(1, 2);

Por otro lado, la opción 'all' replica todos los datos en cada uno de los nodos. Es ideal para tablas pequeñas que se combinan frecuentemente con otras, pero puede conllevar un uso ineficiente del espacio en tablas grandes:

CREATE TABLE distribucion_all (
    columna INTEGER
)
DISTSTYLE ALL;

INSERT INTO distribucion_all VALUES(3);

¿Qué sucede cuando no se define un estilo de distribución?

Si decides omitir el tipo de distribución al crear una tabla, Repsheet automáticamente aplicará distribución 'auto all'. En tablas pequeñas, los datos se distribuyen en 'all', pero si la tabla crece significativamente, se cambian automáticamente a 'even'. Este ajuste dinámico es un mecanismo poderoso para mantener el equilibrio y el rendimiento de la base de datos.

CREATE TABLE distribucion_auto (
    columna INTEGER
);

¿Por qué es importante elegir el estilo de distribución adecuado?

Seleccionar el estilo de distribución correcto ayudará a equilibrar la carga de trabajo entre los nodos. Esto no solo garantiza un manejo eficiente del espacio, sino que también optimiza el rendimiento de las consultas. Revisar la distribución de tus datos mediante consultas a las tablas internas de Repsheet (svv_table_info, svv_disk_usage) te proporciona información valiosa para realizar ajustes informados:

SELECT
    table_id, diststyle
FROM
    svv_table_info
WHERE
    table_name LIKE 'dist%';

¿Cómo evaluar la distribución actual de tus datos?

Evaluar la distribución de tus datos es esencial para identificar cuellos de botella potenciales. Utiliza svv_disk_usage para investigar cómo se están distribuyendo los datos en los nodos:

SELECT
    slice, colname, num_values, min_value, max_value
FROM
    svv_disk_usage
WHERE
    table_id = (SELECT table_id FROM svv_table_info WHERE table_name = 'users');

Este comando te permite visualizar cuántos datos están presentes en cada nodo y si están equitativamente distribuidos.

Reflexiones finales y consejos prácticos

Conocer la estructura y el comportamiento de tus datos es la clave para escoger la mejor estrategia de distribución. Al optimizar cómo se distribuyen los datos en Repsheet, puedes mejorar notablemente el rendimiento de tu base de datos, especialmente en operaciones complejas. La comprensión y aplicación adecuada de estas configuraciones dependerá de tus conocimientos de arquitectura y de las necesidades específicas del negocio. ¡No dudes en experimentar y ajustar! Recuerda que la buena práctica se refina con el tiempo y la experiencia.

Isay Humberto Lucas Hernandez

student•

Hola,

Les comparto R.A.G (Redshift Analyst Guide). Una guía de cosas que NO se recomienda hacer y buenas prácticas en Redshift :)

The R.A.G

JAVIER SANTIAGO SALGADO

student•

CREATE TABLE dist_key (columna int)
diststyle key distkey (columna);
INSERT INTO dist_key VALUES (10);

CREATE TABLE dist_even (columna int)
diststyle even;
INSERT INTO dist_even VALUES (10);

CREATE TABLE dist_all (columna int)
diststyle all;
INSERT INTO dist_all VALUES (10);

CREATE TABLE dist_auto (columna int);
INSERT INTO dist_auto VALUES (10);

SELECT *
FROM pg_catalog.svv_table_info
LIMIT 10;

SELECT *
FROM pg_catalog.svv_table_info
WHERE "table" LIKE '%dist%'
LIMIT 10;

SELECT *
FROM pg_table_def
WHERE tablename = 'users';

SELECT *
FROM pg_catalog.svv_diskusage 
LIMIT 10;

SELECT *
FROM pg_catalog.svv_diskusage 
WHERE "name" = 'users'
AND col = 0;

SELECT distinct slice, col, num_values, "minvalue", "maxvalue"
FROM pg_catalog.svv_diskusage 
WHERE "name" = 'users'
AND col = 0
AND num_values > 0
ORDER BY slice, col;

CREATE TABLE user_key_state distkey(state) AS (SELECT * FROM users)

SELECT distinct slice, col, num_values, "minvalue", "maxvalue"
FROM pg_catalog.svv_diskusage 
WHERE "name" = 'user_key_state'
AND col = 0
AND num_values > 0
ORDER BY slice, col;

CREATE TABLE user_even_state diststyle even AS (SELECT * FROM users)

SELECT distinct slice, col, num_values, "minvalue", "maxvalue"
FROM pg_catalog.svv_diskusage 
WHERE "name" = 'user_even_state'
AND col = 0
AND num_values > 0
ORDER BY slice, col;

CREATE TABLE user_all diststyle all AS (SELECT * FROM users)

SELECT distinct slice, col, num_values, "minvalue", "maxvalue"
FROM pg_catalog.svv_diskusage 
WHERE "name" = 'user_all'
AND col = 0
AND num_values > 0
ORDER BY slice, col;

Mario Alexander Vargas Celis

student•

La evaluación de los estilos de distribución en Amazon Redshift implica analizar cómo cada estilo afecta el rendimiento de las consultas y el uso de los recursos del clúster. Esta evaluación se realiza considerando patrones de consultas, tamaño de las tablas y relaciones entre datos.

1. Factores a evaluar

a. Costo de transferencia de datos

Redshift puede mover datos entre nodos durante operaciones como JOIN, GROUP BY o agregaciones.
El estilo de distribución elegido puede minimizar (o maximizar) este movimiento.

b. Paralelismo

Una distribución bien diseñada utiliza eficientemente todos los nodos del clúster.
Distribuciones desequilibradas pueden sobrecargar ciertos nodos y subutilizar otros.

c. Tamaño y uso de tablas

Tablas pequeñas pueden replicarse (usando DISTSTYLE ALL) para mejorar consultas frecuentes.
Tablas grandes requieren distribuciones específicas para evitar cuellos de botella.

2. Comparación práctica de estilos

a. EVEN

Ventajas:
- Balancea uniformemente las filas entre nodos.
- Ideal para tablas que no tienen relaciones directas con otras.
Desventajas:
- Puede causar transferencias de datos significativas en operaciones JOIN.
Caso de uso:CREATE TABLE logs ( log_id INT, timestamp TIMESTAMP, message TEXT ) DISTSTYLE EVEN;

b. KEY

Ventajas:
- Optimiza operaciones JOIN y WHERE basadas en la clave de distribución.
- Reduce la transferencia de datos si las tablas relacionadas comparten la misma clave.
Desventajas:
- Si la clave tiene una distribución sesgada, puede sobrecargar ciertos nodos.
Caso de uso:CREATE TABLE pedidos ( pedido_id INT, cliente_id INT, fecha TIMESTAMP ) DISTSTYLE KEY DISTKEY(cliente_id);

c. ALL

Ventajas:
- Cada nodo tiene una copia completa de la tabla, eliminando transferencias de datos en JOIN.
- Perfecto para tablas pequeñas de referencia.
Desventajas:
- Aumenta el uso de almacenamiento.
- No es adecuado para tablas grandes.
Caso de uso:CREATE TABLE productos ( producto_id INT, nombre VARCHAR(100) ) DISTSTYLE ALL;

3. Métricas de evaluación

a. Análisis de consultas

Usa EXPLAIN para identificar movimientos de datos (indicador de distribución subóptima).

b. Métricas del sistema

Monitorea vistas del sistema como SVL_QUERY_REPORT y SVL_QUERY_SUMMARY para analizar el rendimiento.

c. Balance de nodos

Verifica la vista SVV_DISKUSAGE para confirmar que los nodos están utilizando un almacenamiento equilibrado.

4. Estrategia de evaluación

Define patrones de consultas principales:
- Identifica consultas frecuentes y operaciones críticas (JOIN, GROUP BY, etc.).
Asigna estilos de distribución a tablas:
- Usa DISTSTYLE ALL para tablas pequeñas relacionadas.
- Usa DISTSTYLE KEY para tablas relacionadas con claves frecuentes.
- Usa DISTSTYLE EVEN para tablas independientes.
Prueba y optimiza:
- Ejecuta consultas representativas y mide tiempos de ejecución.
- Ajusta estilos de distribución si las transferencias de datos son elevadas o si el paralelismo es bajo.

5. Ejemplo de evaluación

Escenario:

Tienes una tabla de ventas (ventas) y otra de clientes (clientes).
Las consultas frecuentes incluyen:

SELECT clientes.nombre, SUM(ventas.total) FROM ventas JOIN clientes ON ventas.cliente_id = clientes.cliente_id GROUP BY clientes.nombre;

Proceso:

Define ventas con DISTSTYLE KEY y DISTKEY(cliente_id):CREATE TABLE ventas ( venta_id INT, cliente_id INT, total DECIMAL(10, 2) ) DISTSTYLE KEY DISTKEY(cliente_id);
Configura clientes con DISTSTYLE ALL:CREATE TABLE clientes ( cliente_id INT, nombre VARCHAR(100) ) DISTSTYLE ALL;
Ejecuta la consulta y analiza:
- Usa EXPLAIN para verificar movimientos de datos.
- Monitorea vistas del sistema para confirmar mejoras en el rendimiento.

6. Conclusión

Evaluar los estilos de distribución en Redshift es una tarea iterativa. Comienza con configuraciones basadas en patrones de uso y ajusta en función de las métricas de rendimiento. Una configuración óptima maximiza el paralelismo, minimiza transferencias de datos y mejora los tiempos de respuesta de las consultas.

Santiago Ortiz Ceballos

student•

svv_diskusage permite ver la cantidad de espacio usado en disco por cada tabla

Santiago Ortiz Ceballos

student•

svv_table_info permite ver que tipo de distribución tienen las tablas creadas

Santiago Ortiz Ceballos

student•

pg_table_def permite ver como estan definidas las tablas

Jose Martin Rangel Espinoza

student•

Distribution Types

Santiago Ortiz Ceballos

student•

CREATE TABLE table_name (columns) distribution: diststyle key distkey (column_name) diststyle even diststyle all Si no se especifica ninguno, se aplica diststyle auto

Luego los valores que se inserten en la tabla, se distribuiran en los nodos de acuerdo al tipo de distribución definida

Jose Aladino Ospina López

student•

Que distribución de datos se recomienda cuando como usuario se consultan constantemente los datos recientes, es decir los datos del ultimo mes, con un campo fecha. Me explico, no quisiera que un nodo quedara muerto por que quedo con datos del año pasado y con muy poca frecuencia lo van a consultar.

Alarcon7a

student•

si los datos se mantienen constantes en el tiempo una distribucion por el campo de fecha... y ordenamiento por ese mismo campo... el ordenamiento ayudaria mucho

Leonardo Martin Mendez

student•

Minuto 05:57 se evaluan las caracteristicas de la tabla "users" en donde la columna "userid", pero si userid es incremental dada esta característica no tiene sentido que esa columna sea elegida para realizar la "distribution key", no hay forma de realizar agrupación posible si los datos de la columna son únicos e incrementales.

JAVIER SANTIAGO SALGADO

student•

La partición KEY el problema es que algunas veces no organiza equitativamente en los SLICE o por que no la usamos siempre? no me quedo tan claro este aspecto.

Alarcon7a

student•

Exacto, dado que los datos unicos de la columna a la que apliquemos el KEY puede que no esten balanceados equitativamente, tendriamos mas datos en un nodo que en otro y eso no es eficiente

Cesar Arturo Ochoa Sanchez

student•

hola,

En el minuto 15:15 se observa que a partir de la distribución ALL, la cantidad de registros (num_values) en el primer slide de cada nodo es el doble (99.980) de la cantidad de registros de la tabla (49.990). Es decir, es como si estuviera duplicando cada registro de la tabla en cada uno de los nodos. ¿Existe alguna explicación para este comportamiento?

Gracias.

LUIS ALEJANDRO BELTRAN ZAPATA

student•

Puedes compartir esos queries por fa

Cesar Augusto Morales Godoy

student•

Los queries de la clase:

create table dist_key (columna int)
diststyle key distkey (columna);
insert into dist_key values (10);

create table dist_even (columna int)
diststyle even;
insert into dist_even values (10);

create table dist_all (columna int)
diststyle all;
insert into dist_all values (10);

create table dist_auto (columna int);
insert into dist_auto values (10);

select * from pg_catalog.svv_table_info 
where "table" like '%dist%'
limit 10;

select * from pg_catalog.pg_table_def
where tablename = 'users';

select distinct slice, col, num_values, minvalue, maxvalue from svv_diskusage
where "name" = 'users'
and col = 0
and num_values > 0
order by slice, col;

create table user_key_state distkey(state) as (select * from users);

select distinct slice, col, num_values, minvalue, maxvalue from svv_diskusage
where "name" = 'user_key_state'
and col = 0
and num_values > 0
order by slice, col;

create table user_even diststyle even as (select * from users);

select distinct slice, col, num_values, minvalue, maxvalue from svv_diskusage
where "name" = 'user_even'
and col = 0
and num_values > 0
order by slice, col;

create table user_all diststyle all as (select * from users);

select distinct slice, col, num_values, minvalue, maxvalue from svv_diskusage
where "name" = 'user_all'
and col = 0
and num_values > 0
order by slice, col;

Alfonso Rodrigo Feria Cruz

student•

No me quedó muy claro, espero me puedan ayudar, entiendo que para la tabla de users distribuida por el campo userid se distribuyó de manera equitativa, y cuando distribuiste por state no fue tan bueno, mi conclusión es que userid por ser tipo de datos integer se distribuyó de mejor manera que state, ya que state es tipo varchar(2), eso es correcto ? agradecería mucho me resolvieran esta duda

Alarcon7a

student•

El campo de user_id es unico, de manera que no puede hacer grupos en el user_id, asi que lo distribuye equitativamente por cada nodo, dado el caso del state, hay mas usuarios con un state especifico que los demas states, de manera que no tienen un balance equitativo, y al no tenerlo este desbalance se distribuye asi en los nodos.

Carlos Javier Guevara Contreras

student•

interesante

Distribución de Datos en Tablas SQL con Repsheet

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Procesamiento de Datos con Repsheet y Clústeres SQL

Configura tu entorno de trabajo para Redshift

Configuración de IAM y S3 en AWS para Repsheet

Configuración de Clúster en Amazon Repsheet para Big Data

Conexión y Configuración de Repsheet con Clientes Externos

Carga de Datos a Redshift desde Amazon S3: Paso a Paso

Cómo diseñar tu base de datos para mejorar su desempeño

Compresión de Datos en Repsheet: Algoritmos y Aplicaciones

Algoritmos de Compresión de Datos: Musley y Otros Métodos Eficientes

Compresión de Datos en SQL: Evaluación y Comparación de Algoritmos

Compresión de Datos en Repsheet: Optimización y Análisis

Algoritmos de Distribución de Datos en Repsheet

Distribución de Datos en Tablas SQL con Repsheet

Llaves de Ordenamiento en Bases de Datos: Compuesta vs. Intercalada

Pruebas de Algoritmos de Ordenamiento en SQL con AWS S3 y Redshift

Consultas SQL y Algoritmos de Ordenamiento Avanzados

Optimización de Datos en Data Warehouses con Repsheet

Manejo de Tipos de Datos en Amazon Redshift

Optimización de Bases de Datos en Modelos Dimensionales

Manipular enormes cantidades de datos

Carga Masiva de Datos en Repshit con el Comando COPY

Cargar datos JSON a Redshift usando el comando Copy

Parámetros Comunes del Comando COPY en Amazon Redshift

Carga Masiva de Datos sin Delimitador en RedSheet

Inserción de Datos en Repsheet sin Archivos Planos

Actualización Eficiente de Datos en Repsheet con Tablas Auxiliares

Optimización de Bases de Datos con Analyze y Vacuum en Repsheet

Optimización de Bases de Datos: Estadísticas y Limpieza de Tablas

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Buenas prácticas de SQL en bases de datos columnares

Optimización de Consultas SQL con Plan de Ejecución y Llaves de Ordenamiento

Análisis de comportamiento y descarga de datos con Redshift

Exportación de Datos desde Repsheet a Amazon S3 con Unload

Tablas útiles para administración en Repsheet

Conclusiones

Gestión de Datos y Consultas en Repsheat