Pruebas de Algoritmos de Ordenamiento en SQL con AWS S3 y Redshift

Clase 16 de 33 • Curso de AWS Redshift para Manejo de Big Data

Contenido del curso

Primeros pasos en la arquitectura no transaccional

Configura tu entorno de trabajo para Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

Manipular enormes cantidades de datos

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Análisis de comportamiento y descarga de datos con Redshift

Conclusiones

33
Gestión de Datos y Consultas en Repsheat
01:58 min

Tomar examen

Resumen

¿Cómo crear y cargar datos comprimidos en AWS S3?

Para demostrar el impacto y la eficiencia de los algoritmos de ordenamiento en Repsheet, es esencial contar con un conjunto de datos significativo. Usamos un archivo comprimido en formato BZ2 para probar nuestros algoritmos. Siguendo estos pasos, podrás cargar datos en tu bucket de S3:

Descarga del archivo: Disponible en el repositorio de GitHub, se debe llevar a AWS S3, dentro de un bucket previamente creado.
Proceso de carga: La subida del archivo puede depender de tu conexión a Internet y el servidor se encuentra ubicado, en este caso, en Ohio, EEUU.
Preparación de la tabla en SQL: Creamos la tabla en SQL sin orden ni distribución, lista para recibir los datos del archivo comprimido.
Uso de comandos cruciales: El comando COPY es esencial aquí para especificar el tipo de compresión y asegurar que los datos se carguen de manera adecuada y eficiente.

COPY mytable
FROM 's3://my_bucket/costsalesdate.bz2'
IAM_ROLE 'myIAMrole'
REGION 'us-east-2'
BZIP2;

¿Cómo crear tablas para algoritmos de ordenamiento?

Con los datos comprimidos cargados, podemos crear tablas para examinar cada algoritmo de ordenamiento. Los algoritmos destacados incluyen el simple, el compuesto y el intercalado.

Creación de una tabla de ordenamiento simple

El algoritmo de ordenamiento simple utilizará una llave de ordenamiento específica. Para ejemplificar:

CREATE TABLE costSells_simple (
    c_cost_key INT SORTKEY
)
AS SELECT * FROM cost_sales_date;

La tabla creada incluirá una llave de ordenamiento y se poblará al momento:

Inserciones adicionales: Se incrementan el número de registros mediante combinaciones con tablas auxiliares, multiplicando los existentes.
Verificación de registros: Se comprueba el éxito de la operación de multiplicación de datos mediante una query de validación.

Creación de una tabla de ordenamiento compuesto

Un paso más allá, el algoritmo compuesto agrega múltiples columnas como llaves de ordenamiento:

CREATE TABLE costSells_compound (
    c_cost_key INT,
    c_region CHAR(2),
    c_date DATE SORTKEY (c_cost_key, c_region, c_date)
)
AS SELECT * FROM cost_sales_date;

Llaves adicionales: La operación aquí es más demandante, dado que incluye más columnas en el proceso de ordenamiento.
Verificación de la carga: Requiere tiempo y, generalmente, más recursos.

Creación de una tabla de ordenamiento intercalado

El ordenamiento intercalado ofrece optimización avanzada de consultas, aunque requiere más tiempo para la carga inicial de datos:

CREATE TABLE costSells_interleaved (
    c_cost_key INT,
    c_region CHAR(2),
    c_date DATE INTERLEAVED SORTKEY (c_cost_key, c_region, c_date)
)
AS SELECT * FROM cost_sales_date;

Eficiencia en consultas: A pesar del tiempo de carga, realiza consultas con notables mejoras en rendimiento.
Evaluación personalizada: Permite a los usuarios medir el tiempo de carga y analizar las ventajas específicas del algoritmo.

¿Cómo realizar consultas y evaluaciones?

Con las tablas creadas, se pueden realizar consultas para evaluar la efectividad de los algoritmos de ordenamiento. El análisis se puede enfocar en:

Filtros aplicados y tiempo de respuesta: Observa cómo cada algoritmo maneja condiciones de filtrado específicas.
Uso de recursos: Evalúa el impacto en los recursos utilizados durante las consultas.
Resultados obtenidos: Asegúrate de que los resultados sean precisos y eficientes.

Estas pruebas permiten juzgar el rendimiento de cada algoritmo de manera práctica. El proceso de evaluación es esencial para seleccionar el enfoque correcto de ordenamiento dependiendo del contexto y los requisitos del negocio.

Conclusión: ¡Experimenta con los algoritmos de ordenamiento y observa cómo afectan tus consultas en tiempo real! Si surge alguna duda, recuerda que los comentarios están allí para ayudarte.

Comentarios

JAVIER SANTIAGO SALGADO

student•

simple 30 segundos compuesta 45 segundos intercalada 193 segundos

CREATE TABLE public.cust_sales_date (
	c_custkey int4 NULL,
	c_nation varchar(15) NULL,
	c_region varchar(12) NULL,
	c_mktsegment varchar(10) NULL,
	d_date date NULL,
	lo_revenue int4 NULL
);

copy cust_sales_date from 's3://mybucketredshift/cust_sales_date.bz2' 
credentials 'aws_iam_role=arn:aws:iam::XXXX:role/MiRoleRedshift' 
BZIP2
region 'us-east-2';

SELECT COUNT(0) FROM cust_sales_date;
SELECT * FROM  cust_sales_date LIMIT 10;

CREATE TABLE cust_sales_simple
sortkey (c_custkey)
AS (
	SELECT c_custkey, c_nation, c_region, c_mktsegment, d_date, lo_revenue
	FROM cust_sales_date, auxiliar
	);

SELECT count(0) FROM cust_sales_simple;

CREATE TABLE auxiliar (col int);
INSERT INTO auxiliar VALUES (1), (2), (3), (4), (5);

SELECT * FROM auxiliar;

SELECT c_custkey, c_nation, c_region, c_mktsegment, d_date, lo_revenue
FROM cust_sales_date, auxiliar
LIMIT 10;

CREATE TABLE cust_sales_compuesto
compound sortkey (c_custkey, c_region, c_mktsegment, d_date)
AS (
	SELECT c_custkey, c_nation, c_region, c_mktsegment, d_date, lo_revenue
	FROM cust_sales_date, auxiliar
	);

CREATE TABLE cust_sales_intercalado
interleaved sortkey (c_custkey, c_region, c_mktsegment, d_date)
AS (
	SELECT c_custkey, c_nation, c_region, c_mktsegment, d_date, lo_revenue
	FROM cust_sales_date, auxiliar
	);
	
SELECT count(0) FROM cust_sales_compuesto;
SELECT count(0) FROM cust_sales_intercalado;

Angello Villanueva Menichetti

student•

Dejo el codigo

create table auxiliar (col int);
insert into auxiliar values (1),(2),(3),(4),(5);

create table cust_sales_simple
sortkey (c_custkey)
as (
select c_custkey, c_nation, c_region, c_mktsegment, d_date, lo_revenue
from cust_sales_date, auxiliar); 

create table cust_sales_compuesto
compound sortkey (c_custkey, c_region, c_mktsegment, d_date)
as (
select c_custkey, c_nation, c_region, c_mktsegment, d_date, lo_revenue
from cust_sales_date, auxiliar); 

create table cust_sales_intercalada
interleaved sortkey (c_custkey, c_region, c_mktsegment, d_date)
as (
select c_custkey, c_nation, c_region, c_mktsegment, d_date, lo_revenue
from cust_sales_date, auxiliar);

Mario Alexander Vargas Celis

student•

Aplicando Ordenamiento de Columnas en Amazon Redshift

El ordenamiento de columnas mediante llaves de ordenamiento (SORT KEYS) en Redshift permite optimizar el rendimiento de las consultas organizando físicamente los datos en disco. Este enfoque reduce el tiempo de escaneo de bloques y acelera las operaciones comunes como filtros, uniones y agregaciones.

1. Estrategia para Aplicar Llaves de Ordenamiento

Antes de implementar llaves de ordenamiento, sigue estos pasos:

a. Analiza los patrones de consulta

Identifica las columnas que se utilizan más frecuentemente en:

Cláusulas WHERE
Cláusulas JOIN
Cláusulas GROUP BY y ORDER BY

b. Evalúa el volumen de datos

El rendimiento mejora significativamente en tablas grandes donde la selección es crítica.

c. Define el tipo de llave de ordenamiento

COMPOUND SORTKEY: Útil para accesos secuenciales.
INTERLEAVED SORTKEY: Beneficioso para múltiples patrones de acceso.

2. Ejemplo Práctico: Implementación de Llaves de Ordenamiento

Escenario:

Tienes una tabla de transacciones llamada ventas con las siguientes columnas:
- venta_id
- fecha
- cliente_id
- total
Las consultas comunes incluyen filtros por fecha y cliente_id.

a. Llave de Ordenamiento Compuesta

Si las consultas filtran principalmente por fecha:

CREATE TABLE ventas ( venta_id INT, fecha DATE, cliente_id INT, total DECIMAL(10, 2) ) COMPOUND SORTKEY (fecha, cliente_id);

Redshift ordena físicamente los datos primero por fecha y luego por cliente_id.

b. Llave de Ordenamiento Entrelazada

Si las consultas filtran dinámicamente por fecha o cliente_id:

CREATE TABLE ventas ( venta_id INT, fecha DATE, cliente_id INT, total DECIMAL(10, 2) ) INTERLEAVED SORTKEY (fecha, cliente_id);

Redshift optimiza para acceder rápidamente a cualquier columna especificada en la llave entrelazada.

3. Cargando Datos con Llaves de Ordenamiento

Cuando cargas datos en una tabla con llaves de ordenamiento:

Utiliza la instrucción COPY para importar datos desde S3 u otra fuente.
Redshift aplicará automáticamente el orden especificado en las llaves durante la carga.

Ejemplo de carga:

COPY ventas FROM 's3://mi-bucket/ventas.csv' CREDENTIALS 'aws_access_key_id=XXX;aws_secret_access_key=YYY' CSV;

4. Verificando el Ordenamiento

Redshift proporciona vistas del sistema para evaluar el rendimiento de tus llaves de ordenamiento:

a. Verifica el uso de columnas en consultas

Consulta la vista SVL_QUERY_SUMMARY para ver cómo las consultas usan las columnas:

SELECT table_id, column, sum(scan_count) AS total_scans FROM svl_query_summary GROUP BY table_id, column ORDER BY total_scans DESC;

b. Evalúa la distribución de datos

Consulta la vista SVV_TABLE_INFO para revisar la distribución de datos:

SELECT table_id, diststyle, sortkey1, skew_sortkey1, rows FROM svv_table_info WHERE table_name = 'ventas';

5. Optimizando el Ordenamiento

a. Ajusta las claves según el uso

Si cambian los patrones de consulta, considera ajustar las llaves de ordenamiento:

Crea una nueva tabla con el nuevo esquema.
Copia los datos a la nueva tabla:INSERT INTO nueva_tabla SELECT * FROM ventas;
Renombra las tablas si es necesario.

b. Reclama espacio en disco

Usa VACUUM para reorganizar datos y aplicar el ordenamiento:

VACUUM ventas;

6. Consideraciones Adicionales

Costo de mantenimiento: INTERLEAVED SORTKEY tiene mayor costo en actualizaciones y cargas masivas.
Tamaño de las tablas: Las tablas pequeñas no suelen beneficiarse significativamente de llaves de ordenamiento.

Conclusión

Aplicar llaves de ordenamiento correctamente puede transformar el rendimiento de tu clúster Redshift. Evalúa cuidadosamente tus patrones de uso, selecciona el tipo de llave adecuado y monitorea el impacto para garantizar un rendimiento óptimo.

Ricardo Mazuera

student•

Cabe aclarar que ahora AWS sólo da 1 nodo en versión free

Simple: 43 segundos Compuesto: 1 minuto 3 segundos Intercalado: 3 minutos 43 segundos

CREATE TABLE public.cust_sales_date (
	c_custkey int4 NULL,
	c_nation varchar(15) NULL,
	c_region varchar(12) NULL,
	c_mktsegment varchar(10) NULL,
	d_date date NULL,
	lo_revenue int4 NULL
);

copy cust_sales_date from 's3://my-bucket-redshift-pueba-platzi/cust_sales_date_000.bz2' 
credentials 'aws_iam_role=arn:aws:iam::001294110265:role/MyRedshiftRole' 
BZIP2
region 'us-east-1';

select count(0) from cust_sales_date;
select * from cust_sales_date limit 10;


create table cust_sales_simple
sortkey (c_custkey)
as (select c_custkey, c_nation, c_region, c_mktsegment, d_date, lo_revenue 
from cust_sales_date , auxiliar);

create table cust_sales_compuesto
compound sortkey (c_custkey, c_region, c_mktsegment, d_date)
as (select c_custkey, c_nation, c_region, c_mktsegment, d_date, lo_revenue 
from cust_sales_date , auxiliar);


create table cust_sales_intercalado
interleaved sortkey (c_custkey, c_region, c_mktsegment, d_date)
as (select c_custkey, c_nation, c_region, c_mktsegment, d_date, lo_revenue 
from cust_sales_date , auxiliar);

select count(0) from cust_sales_simple

Angel Rosendo Mendoza Rodríguez

student•

En los otros proveedores de Dataware house( por ejemplo BigQuery), se deben considerar lo mismo, es decir el como vas a comprimir la información, distribuirla y ordernarla, aplicarían los mismo métodos o algorítmos?

Santiago Ortiz Ceballos

student•

Create table with sort key and popuate it at the same time: CREATE TABLE table_name sortkey (sort_column) as (query)

Carlos Javier Guevara Contreras

student•

interesante

Pruebas de Algoritmos de Ordenamiento en SQL con AWS S3 y Redshift

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Procesamiento de Datos con Repsheet y Clústeres SQL

Configura tu entorno de trabajo para Redshift

Configuración de IAM y S3 en AWS para Repsheet

Configuración de Clúster en Amazon Repsheet para Big Data

Conexión y Configuración de Repsheet con Clientes Externos

Carga de Datos a Redshift desde Amazon S3: Paso a Paso

Cómo diseñar tu base de datos para mejorar su desempeño

Compresión de Datos en Repsheet: Algoritmos y Aplicaciones

Algoritmos de Compresión de Datos: Musley y Otros Métodos Eficientes

Compresión de Datos en SQL: Evaluación y Comparación de Algoritmos

Compresión de Datos en Repsheet: Optimización y Análisis

Algoritmos de Distribución de Datos en Repsheet

Distribución de Datos en Tablas SQL con Repsheet

Llaves de Ordenamiento en Bases de Datos: Compuesta vs. Intercalada