Distribución de Datos en Tablas SQL con Repsheet

Clase 14 de 33 • Curso de AWS Redshift para Manejo de Big Data

Contenido del curso

Primeros pasos en la arquitectura no transaccional

Configura tu entorno de trabajo para Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

Manipular enormes cantidades de datos

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Análisis de comportamiento y descarga de datos con Redshift

Conclusiones

33
Gestión de Datos y Consultas en Repsheat
01:58 min

Tomar examen

Resumen

Elegir correctamente el estilo de distribución en Amazon Redshift determina cómo se reparten los datos entre nodos y segmentos, lo que impacta directamente el rendimiento de tus consultas analíticas. Comprender las diferencias entre key, even y all —y saber verificar su comportamiento con tablas internas de Redshift— es fundamental para cualquier arquitecto de datos o ingeniero que trabaje con este data warehouse.

¿Cómo se define el estilo de distribución al crear una tabla?

La distribución se establece únicamente al momento de crear la tabla, no después. Esto significa que debes planificar con anticipación cómo se van a repartir tus datos. La instrucción clave es DISTSTYLE, que acepta tres valores posibles [0:38]:

Key: distribuye los datos según los valores de una columna específica, indicada con DISTKEY(nombre_columna).
Even: reparte los registros de forma equitativa mediante round-robin, sin considerar ninguna columna en particular.
All: copia la tabla completa en todos los nodos del clúster.

sql CREATE TABLE dist_key (columna INT) DISTSTYLE KEY DISTKEY(columna); CREATE TABLE dist_even (columna INT) DISTSTYLE EVEN; CREATE TABLE dist_all (columna INT) DISTSTYLE ALL;

¿Qué sucede cuando no se especifica ningún estilo?

Cuando omites el DISTSTYLE, Redshift asigna automáticamente la distribución auto [2:23]. Con pocos registros, el sistema elige ALL como estrategia inicial. Sin embargo, si la tabla crece de manera acelerada, Redshift es lo suficientemente inteligente para cambiarla automáticamente a EVEN. Puedes verificar esto consultando la tabla del sistema SVV_TABLE_INFO [2:05]:

sql SELECT * FROM svv_table_info WHERE "table" LIKE 'dist%';

Esta consulta devuelve el nombre de la tabla, el esquema y el estilo de distribución asignado.

¿Cómo verificar si la distribución de datos es equitativa?

Redshift ofrece tablas internas que permiten inspeccionar la distribución real de los datos. La tabla PG_TABLE_DEF muestra las columnas de cada tabla e indica cuál tiene la dist key y si posee ordenamiento [3:00]. Por ejemplo, la tabla users tiene distribución por la columna user_id.

Para un análisis más profundo, la tabla SVV_DISKUSAGE revela cómo se distribuyen los registros en cada slice o segmento [3:38]:

sql SELECT DISTINCT slice, col, num_values, minvalue, maxvalue FROM svv_diskusage WHERE name = 'users' AND col = 0 AND num_values > 0 ORDER BY slice, col;

Con la tabla users y distribución key por user_id, los cuatro slices muestran aproximadamente 12,500 filas cada uno [4:55]. Esto representa una distribución equitativa, donde todos los nodos y segmentos trabajan cooperativamente para resolver un mismo problema.

¿Qué ocurre con una mala elección de dist key?

Al crear una tabla distribuida por la columna state en lugar de user_id, el resultado cambia drásticamente [5:17]. Un slice puede terminar con 14,688 registros mientras otro acumula 32,900. Esta distribución desigual genera que ciertos nodos trabajen mucho más que otros, lo que se traduce en consultas más lentas cuando la información buscada reside en el segmento sobrecargado.

¿Cuál es la diferencia práctica entre even y all?

La distribución even reparte los datos equitativamente entre slices, pero de forma aleatoria [6:27]. No existe un criterio de rango: los mismos valores mínimos pueden aparecer en distintos segmentos. Aunque la cantidad de filas se balancea bien, al hacer un JOIN con otra tabla que tenga distribución key, Redshift podría necesitar redistribuir los datos en tiempo de ejecución, ya que los registros relacionados no estarán en el mismo segmento.

Por eso, even es la opción por defecto recomendada cuando no sabes cómo se comportarán tus datos, pero la distribución key resulta superior si conoces las columnas que se usarán frecuentemente en joins [7:07].

La distribución all, por su parte, replica la totalidad de los registros en cada nodo [7:22]. Esto garantiza que cada slice tenga exactamente la misma cantidad —aproximadamente 99,000 registros para la tabla de ejemplo—, pero el costo en almacenamiento se multiplica. Solo conviene para tablas de dimensiones pequeñas que se usan constantemente en joins.

Key: ideal cuando conoces la columna de join más frecuente y los valores están bien distribuidos.
Even: segura como opción predeterminada, balancea filas sin criterio de orden.
All: útil para tablas pequeñas de referencia que se consultan desde múltiples nodos.

Tu conocimiento del negocio y de la arquitectura es lo que te dará las claves para elegir el estilo correcto. Si tienes dudas sobre cuál aplicar en tu caso, compártelas en los comentarios.

Comentarios

Isay Humberto Lucas Hernandez

student•

Hola,

Les comparto R.A.G (Redshift Analyst Guide). Una guía de cosas que NO se recomienda hacer y buenas prácticas en Redshift :)

The R.A.G

JAVIER SANTIAGO SALGADO

student•

CREATE TABLE dist_key (columna int)
diststyle key distkey (columna);
INSERT INTO dist_key VALUES (10);

CREATE TABLE dist_even (columna int)
diststyle even;
INSERT INTO dist_even VALUES (10);

CREATE TABLE dist_all (columna int)
diststyle all;
INSERT INTO dist_all VALUES (10);

CREATE TABLE dist_auto (columna int);
INSERT INTO dist_auto VALUES (10);

SELECT *
FROM pg_catalog.svv_table_info
LIMIT 10;

SELECT *
FROM pg_catalog.svv_table_info
WHERE "table" LIKE '%dist%'
LIMIT 10;

SELECT *
FROM pg_table_def
WHERE tablename = 'users';

SELECT *
FROM pg_catalog.svv_diskusage 
LIMIT 10;

SELECT *
FROM pg_catalog.svv_diskusage 
WHERE "name" = 'users'
AND col = 0;

SELECT distinct slice, col, num_values, "minvalue", "maxvalue"
FROM pg_catalog.svv_diskusage 
WHERE "name" = 'users'
AND col = 0
AND num_values > 0
ORDER BY slice, col;

CREATE TABLE user_key_state distkey(state) AS (SELECT * FROM users)

SELECT distinct slice, col, num_values, "minvalue", "maxvalue"
FROM pg_catalog.svv_diskusage 
WHERE "name" = 'user_key_state'
AND col = 0
AND num_values > 0
ORDER BY slice, col;

CREATE TABLE user_even_state diststyle even AS (SELECT * FROM users)

SELECT distinct slice, col, num_values, "minvalue", "maxvalue"
FROM pg_catalog.svv_diskusage 
WHERE "name" = 'user_even_state'
AND col = 0
AND num_values > 0
ORDER BY slice, col;

CREATE TABLE user_all diststyle all AS (SELECT * FROM users)

SELECT distinct slice, col, num_values, "minvalue", "maxvalue"
FROM pg_catalog.svv_diskusage 
WHERE "name" = 'user_all'
AND col = 0
AND num_values > 0
ORDER BY slice, col;

Mario Alexander Vargas Celis

student•

La evaluación de los estilos de distribución en Amazon Redshift implica analizar cómo cada estilo afecta el rendimiento de las consultas y el uso de los recursos del clúster. Esta evaluación se realiza considerando patrones de consultas, tamaño de las tablas y relaciones entre datos.

1. Factores a evaluar

a. Costo de transferencia de datos

Redshift puede mover datos entre nodos durante operaciones como JOIN, GROUP BY o agregaciones.
El estilo de distribución elegido puede minimizar (o maximizar) este movimiento.

b. Paralelismo

Una distribución bien diseñada utiliza eficientemente todos los nodos del clúster.
Distribuciones desequilibradas pueden sobrecargar ciertos nodos y subutilizar otros.

c. Tamaño y uso de tablas

Tablas pequeñas pueden replicarse (usando DISTSTYLE ALL) para mejorar consultas frecuentes.
Tablas grandes requieren distribuciones específicas para evitar cuellos de botella.

2. Comparación práctica de estilos

a. EVEN

Ventajas:
- Balancea uniformemente las filas entre nodos.
- Ideal para tablas que no tienen relaciones directas con otras.
Desventajas:
- Puede causar transferencias de datos significativas en operaciones JOIN.
Caso de uso:CREATE TABLE logs ( log_id INT, timestamp TIMESTAMP, message TEXT ) DISTSTYLE EVEN;

b. KEY

Ventajas:
- Optimiza operaciones JOIN y WHERE basadas en la clave de distribución.
- Reduce la transferencia de datos si las tablas relacionadas comparten la misma clave.
Desventajas:
- Si la clave tiene una distribución sesgada, puede sobrecargar ciertos nodos.
Caso de uso:CREATE TABLE pedidos ( pedido_id INT, cliente_id INT, fecha TIMESTAMP ) DISTSTYLE KEY DISTKEY(cliente_id);

c. ALL

Ventajas:
- Cada nodo tiene una copia completa de la tabla, eliminando transferencias de datos en JOIN.
- Perfecto para tablas pequeñas de referencia.
Desventajas:
- Aumenta el uso de almacenamiento.
- No es adecuado para tablas grandes.
Caso de uso:CREATE TABLE productos ( producto_id INT, nombre VARCHAR(100) ) DISTSTYLE ALL;

3. Métricas de evaluación

a. Análisis de consultas

Usa EXPLAIN para identificar movimientos de datos (indicador de distribución subóptima).

b. Métricas del sistema

Monitorea vistas del sistema como SVL_QUERY_REPORT y SVL_QUERY_SUMMARY para analizar el rendimiento.

c. Balance de nodos

Verifica la vista SVV_DISKUSAGE para confirmar que los nodos están utilizando un almacenamiento equilibrado.

4. Estrategia de evaluación

Define patrones de consultas principales:
- Identifica consultas frecuentes y operaciones críticas (JOIN, GROUP BY, etc.).
Asigna estilos de distribución a tablas:
- Usa DISTSTYLE ALL para tablas pequeñas relacionadas.
- Usa DISTSTYLE KEY para tablas relacionadas con claves frecuentes.
- Usa DISTSTYLE EVEN para tablas independientes.
Prueba y optimiza:
- Ejecuta consultas representativas y mide tiempos de ejecución.
- Ajusta estilos de distribución si las transferencias de datos son elevadas o si el paralelismo es bajo.

5. Ejemplo de evaluación

Escenario:

Tienes una tabla de ventas (ventas) y otra de clientes (clientes).
Las consultas frecuentes incluyen:

SELECT clientes.nombre, SUM(ventas.total) FROM ventas JOIN clientes ON ventas.cliente_id = clientes.cliente_id GROUP BY clientes.nombre;

Proceso:

Define ventas con DISTSTYLE KEY y DISTKEY(cliente_id):CREATE TABLE ventas ( venta_id INT, cliente_id INT, total DECIMAL(10, 2) ) DISTSTYLE KEY DISTKEY(cliente_id);
Configura clientes con DISTSTYLE ALL:CREATE TABLE clientes ( cliente_id INT, nombre VARCHAR(100) ) DISTSTYLE ALL;
Ejecuta la consulta y analiza:
- Usa EXPLAIN para verificar movimientos de datos.
- Monitorea vistas del sistema para confirmar mejoras en el rendimiento.

6. Conclusión

Evaluar los estilos de distribución en Redshift es una tarea iterativa. Comienza con configuraciones basadas en patrones de uso y ajusta en función de las métricas de rendimiento. Una configuración óptima maximiza el paralelismo, minimiza transferencias de datos y mejora los tiempos de respuesta de las consultas.

Santiago Ortiz Ceballos

student•

svv_diskusage permite ver la cantidad de espacio usado en disco por cada tabla

Santiago Ortiz Ceballos

student•

svv_table_info permite ver que tipo de distribución tienen las tablas creadas

Santiago Ortiz Ceballos

student•

pg_table_def permite ver como estan definidas las tablas

Jose Martin Rangel Espinoza

student•

Distribution Types

Santiago Ortiz Ceballos

student•

CREATE TABLE table_name (columns) distribution: diststyle key distkey (column_name) diststyle even diststyle all Si no se especifica ninguno, se aplica diststyle auto

Luego los valores que se inserten en la tabla, se distribuiran en los nodos de acuerdo al tipo de distribución definida

Jose Aladino Ospina López

student•

Que distribución de datos se recomienda cuando como usuario se consultan constantemente los datos recientes, es decir los datos del ultimo mes, con un campo fecha. Me explico, no quisiera que un nodo quedara muerto por que quedo con datos del año pasado y con muy poca frecuencia lo van a consultar.

Alarcon7a

student•

si los datos se mantienen constantes en el tiempo una distribucion por el campo de fecha... y ordenamiento por ese mismo campo... el ordenamiento ayudaria mucho

Leonardo Martin Mendez

student•

Minuto 05:57 se evaluan las caracteristicas de la tabla "users" en donde la columna "userid", pero si userid es incremental dada esta característica no tiene sentido que esa columna sea elegida para realizar la "distribution key", no hay forma de realizar agrupación posible si los datos de la columna son únicos e incrementales.

JAVIER SANTIAGO SALGADO

student•

La partición KEY el problema es que algunas veces no organiza equitativamente en los SLICE o por que no la usamos siempre? no me quedo tan claro este aspecto.

Alarcon7a

student•

Exacto, dado que los datos unicos de la columna a la que apliquemos el KEY puede que no esten balanceados equitativamente, tendriamos mas datos en un nodo que en otro y eso no es eficiente

Cesar Arturo Ochoa Sanchez

student•

hola,

En el minuto 15:15 se observa que a partir de la distribución ALL, la cantidad de registros (num_values) en el primer slide de cada nodo es el doble (99.980) de la cantidad de registros de la tabla (49.990). Es decir, es como si estuviera duplicando cada registro de la tabla en cada uno de los nodos. ¿Existe alguna explicación para este comportamiento?

Gracias.

LUIS ALEJANDRO BELTRAN ZAPATA

student•

Puedes compartir esos queries por fa

Cesar Augusto Morales Godoy

student•

Los queries de la clase:

create table dist_key (columna int)
diststyle key distkey (columna);
insert into dist_key values (10);

create table dist_even (columna int)
diststyle even;
insert into dist_even values (10);

create table dist_all (columna int)
diststyle all;
insert into dist_all values (10);

create table dist_auto (columna int);
insert into dist_auto values (10);

select * from pg_catalog.svv_table_info 
where "table" like '%dist%'
limit 10;

select * from pg_catalog.pg_table_def
where tablename = 'users';

select distinct slice, col, num_values, minvalue, maxvalue from svv_diskusage
where "name" = 'users'
and col = 0
and num_values > 0
order by slice, col;

create table user_key_state distkey(state) as (select * from users);

select distinct slice, col, num_values, minvalue, maxvalue from svv_diskusage
where "name" = 'user_key_state'
and col = 0
and num_values > 0
order by slice, col;

create table user_even diststyle even as (select * from users);

select distinct slice, col, num_values, minvalue, maxvalue from svv_diskusage
where "name" = 'user_even'
and col = 0
and num_values > 0
order by slice, col;

create table user_all diststyle all as (select * from users);

select distinct slice, col, num_values, minvalue, maxvalue from svv_diskusage
where "name" = 'user_all'
and col = 0
and num_values > 0
order by slice, col;

Alfonso Rodrigo Feria Cruz

student•

No me quedó muy claro, espero me puedan ayudar, entiendo que para la tabla de users distribuida por el campo userid se distribuyó de manera equitativa, y cuando distribuiste por state no fue tan bueno, mi conclusión es que userid por ser tipo de datos integer se distribuyó de mejor manera que state, ya que state es tipo varchar(2), eso es correcto ? agradecería mucho me resolvieran esta duda

Alarcon7a

student•

El campo de user_id es unico, de manera que no puede hacer grupos en el user_id, asi que lo distribuye equitativamente por cada nodo, dado el caso del state, hay mas usuarios con un state especifico que los demas states, de manera que no tienen un balance equitativo, y al no tenerlo este desbalance se distribuye asi en los nodos.

Carlos Javier Guevara Contreras

student•

interesante

Distribución de Datos en Tablas SQL con Repsheet

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Procesamiento de Datos con Repsheet y Clústeres SQL

Configura tu entorno de trabajo para Redshift

Configuración de IAM y S3 en AWS para Repsheet

Configuración de Clúster en Amazon Repsheet para Big Data

Conexión y Configuración de Repsheet con Clientes Externos

Carga de Datos a Redshift desde Amazon S3: Paso a Paso

Cómo diseñar tu base de datos para mejorar su desempeño

Compresión de Datos en Repsheet: Algoritmos y Aplicaciones

Algoritmos de Compresión de Datos: Musley y Otros Métodos Eficientes

Compresión de Datos en SQL: Evaluación y Comparación de Algoritmos

Compresión de Datos en Repsheet: Optimización y Análisis

Algoritmos de Distribución de Datos en Repsheet