Exportación de Datos desde Repsheet a Amazon S3 con Unload

Clase 31 de 33 • Curso de AWS Redshift para Manejo de Big Data

Contenido del curso

Primeros pasos en la arquitectura no transaccional

Configura tu entorno de trabajo para Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

Manipular enormes cantidades de datos

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Análisis de comportamiento y descarga de datos con Redshift

Conclusiones

33
Gestión de Datos y Consultas en Repsheat
01:58 min

Tomar examen

Resumen

¿Cómo descargar datos de Redshift de manera eficiente?

En el manejo de grandes volúmenes de datos, a menudo surge la necesidad de extraer información valiosa de Redshift para distintos propósitos. Ya sea para trabajar con un formato diferente o para mover la información a Amazon S3, el objetivo es siempre hacerlo de la manera más eficiente posible. Aquí abordaremos cómo lograrlo utilizando la sentencia UNLOAD.

¿Cuál es el propósito de la sentencia UNLOAD?

El comando UNLOAD se utiliza para exportar datos desde Amazon Redshift hacia un bucket de Amazon S3. Este proceso aprovecha el paralelismo, una característica que también tiene el comando COPY. ¿Por qué es importante?

Eficiencia: Permite trabajar con grandes conjuntos de datos sin saturar recursos.
Optimización: Exporta datos en un formato que puede ser minado fácilmente por científicos de datos e ingenieros.

¿Cómo crear una tabla para pruebas de exportación?

Antes de utilizar el comando UNLOAD, necesitas tener una tabla con datos que desees exportar. Aquí te mostramos cómo crear una tabla y duplicar registros para pruebas:

CREATE TABLE unload_test AS
SELECT * FROM source_table
UNION ALL
SELECT * FROM source_table;

Este comando duplicará los registros de source_table, evitando el uso óptimo de recursos pero proporcionando una buena cantidad de datos para la exportación.

¿Cómo emplear UNLOAD para exportar datos a S3?

El siguiente paso es utilizar UNLOAD para mover tus datos a un bucket de Amazon S3:

UNLOAD ('SELECT * FROM unload_test') 
TO 's3://tu-bucket-unload/unload_test' 
IAM_ROLE 'arn:aws:iam::tu_rol'
ALLOWOVERWRITE PARALLEL OFF;

IAM_ROLE: Aquí deberás especificar tu rol IAM que tiene acceso a S3.
ALLOWOVERWRITE: Permite sobrescribir archivos existentes.
PARALLEL OFF: Exporta los datos en un solo archivo (no recomendado para datos voluminosos).

¿Cómo configurar la exportación con UNLOAD?

Puedes ajustar varios parámetros en UNLOAD para personalizar la exportación:

Delimitadores y encabezados: Puedes establecer delimitadores de columna y añadir un encabezado.
```
DELIMITER ';'
ADDQUOTES;
```
Compresión: Mejora el manejo de datos grandes comprimiendo los archivos.
```
GZIP;
```
Tamaño máximo de archivo: Limita el tamaño de cada archivo exportado.
```
MAXFILESIZE 500 MB;
```

¿Cuáles son los retos y prácticas recomendadas?

Ejecutar UNLOAD sin optimización puede ser perjudicial; es relevante distribuir la carga. Aquí los mejores enfoques:

Utiliza PARALLEL ON: Aprovecha el paralelismo nativo para dividir los datos en varios archivos y reducir el tiempo de exportación.
Implementa un manifiesto: Este archivo facilita la gestión y carga de múltiples archivos.
```
MANIFEST;
```
Prueba particionado: Experimenta con particionar datos para mejorar la eficiencia.
```
PARTITION BY (nombre_columna);
```

Estas prácticas no solo optimizan el desempeño al manejar grandes volúmenes de datos, sino que además maximizan el aprovechamiento de recursos en Redshift y S3. ¡Te reto a experimentar con estos comandos y observar por ti mismo el poder del UNLOAD!

Siempre es emocionante mejorar tus habilidades usando herramientas avanzadas como Amazon Redshift. Sigue experimentando y explorando nuevas formas de hacer tus procesos más eficientes. ¡Te esperamos en la próxima clase para discutir estrategias avanzadas en tablas de Redshift!

Comentarios

Felipe Andres Torres Haro

student•

Super, he aprendido mucho... Explica super bien, sinceramente tome este curso para aprender y estoy conforme.

Alarcon7a

student•

me alegro mucho al leer esto!

Luis Lema

student•

Resultados

El parámetro MANIFEST crear un archivo en formato JSON con el detalle de las rutas y tamaño se los archivos creados, ejemplo:

Nombre de archivo: unload_test_3manifest

Contenido

{
  "entries": [
    {"url":"s3://almacenamiento/unload/unload_test_30000_part_00.zst", "meta": { "content_length": 7591016 }},
    {"url":"s3://almacenamiento/unload/unload_test_30001_part_00.zst", "meta": { "content_length": 7589291 }}
  ]
}

El parámetro PARTITION BY crea los archivos de acuerdo al resultado de la agrupación de la tabla por la columna o columnas indicadas (se creará una carpeta por cada grupo y se colocarán los archivos dentro) Por ejemplo para si en la partición de especifica la columna C_REGION de la siguiente forma:

unload ('select*from unload_test_2')
TO 's3://almacenamiento/unload/unload_test_4_'
credentials 'aws_iam_role=identificador_rol'
allowoverwrite --Sobreescribir archivos existentes
delimiter ';' --Delimitador de columnas
header --Incluir cabecera de columnas
maxfilesize 500 mb --limitar el tamaño de archivo a 500 MB
zstd --crear archivo comprimido
manifest 
partition by (c_region) include

Se creará la siguiente estructura de archivos en S3:

Carpetas: unload_test_4_ unload_test_4_/c_region=AFRICA unload_test_4_/c_region=AMERICA

Archivos: unload_test_4_/manifest unload_test_4_/c_region=AFRICA/0000_part_00.zst unload_test_4_/c_region=AFRICA/0001_part_00.zst unload_test_4_/c_region=AMERICA/0000_part_00.zst unload_test_4_/c_region=AMERICA/0001_part_00.zst

Alarcon7a

student•

excelentes resultados!

JAVIER SANTIAGO SALGADO

student•

CREATE TABLE unload_test AS (
SELECT * FROM cust_sales_intercalado 
UNION ALL
SELECT * FROM cust_sales_intercalado 
UNION ALL
SELECT * FROM cust_sales_intercalado 
);

SELECT COUNT(0) FROM cust_sales_intercalado; 

SELECT COUNT(0) FROM unload_test; 

unload ('select * from unload_test')
to 's3://mybucketredshiftsantiago/unload/unload_test_'
credentials 'aws_iam_role=arn:aws:iam::118590468211:role/MiRoleRedshift';


unload ('select * from unload_test')
to 's3://mybucketredshiftsantiago/unload/unload_test_'
credentials 'aws_iam_role=arn:aws:iam::118590468211:role/MiRoleRedshift'
parallel off
ALLOWOVERWRITE;

CREATE TABLE unload_test_2 AS (
	SELECT * 
	FROM unload_test
	LIMIT 2000000);

unload ('select * from unload_test_2')
to 's3://mybucketredshiftsantiago/unload/unload_test_4'
credentials 'aws_iam_role=arn:aws:iam::118590468211:role/MiRoleRedshift'
ALLOWOVERWRITE
delimiter ';'
header
maxfilesize 500 mb
ZSTD
manifest
partition by (c_nation) INCLUDE 
;

Jesús Guillén

student•

Al hacer manifest & partition by el comando unload me creo un folder

unload ('select * from unload_test_2')
to 's3://bucket-s3-de-.../unload/unload_test_'
credentials 'aws_iam_role=arn:'
allowoverwrite
delimiter ';' --Delimitador 
header --agrega el header
maxfilesize 500 mb -- El tamaño de archivo 
zstd --comprime el archivo: compresion estandar
manifest --crea archivo minifest
partition by (c_region) include --particiona los archivos de salida por esta columna
;

Camilo Granda Gómez

student•

Se cargó la tabla particionada por la columna c_mktsegment a S3:
Se creó un archivo manifest indicando la ubicación y el tamaño de cada partición:

José Rodrigo Navas Maldonado

student•

A alguien le dio problemas el crear archivos tan grandes? Porque a agosto 2021 la capa gratuita de AWS solo permite cargar 5 gb por mes a S3 y me dio miedo cargar archivos tan grandes como los del ejemplo del profe

Mario Alexander Vargas Celis

student•

¿Qué es el comando UNLOAD en Amazon Redshift?

El comando UNLOAD permite exportar datos desde una tabla en Amazon Redshift hacia un archivo en un bucket de Amazon S3. Es una forma eficiente de descargar datos para análisis externo, respaldo, o migración. Este proceso aprovecha la arquitectura paralela de Redshift para generar múltiples archivos en S3 simultáneamente, optimizando el tiempo de exportación.

Sintaxis básica del comando UNLOAD

UNLOAD ('consulta_SQL') TO 's3://ruta-del-bucket/nombre-archivo' CREDENTIALS 'aws_access_key_id=<ACCESS_KEY_ID>;aws_secret_access_key=<SECRET_ACCESS_KEY>' DELIMITER ',' ADDQUOTES ALLOWOVERWRITE PARALLEL OFF;

Parámetros importantes

Consulta SQL:
- Define los datos que deseas exportar. Puede ser desde una tabla o un subconjunto mediante una consulta SQL.
- Ejemplo: SELECT * FROM tabla_ventas WHERE fecha > '2024-01-01'.
TO:
- Especifica el bucket de S3 y el prefijo del archivo donde se exportarán los datos.
- Ejemplo: 's3://mi-bucket/redshift-export/ventas_'.
CREDENTIALS:
- Incluye las credenciales de AWS necesarias para que Redshift acceda al bucket de S3.
- También se puede usar un IAM Role:CREDENTIALS 'aws_iam_role=arn:aws:iam::123456789012:role/RedshiftRole'
DELIMITER:
- Define el separador entre columnas en el archivo resultante (por defecto es coma ,).
ADDQUOTES:
- Rodea los valores de texto con comillas para evitar problemas al cargar los datos posteriormente.
ALLOWOVERWRITE:
- Permite sobrescribir los archivos existentes en el bucket de S3.
PARALLEL:
- Si está activado (ON), Redshift genera múltiples archivos en paralelo.
- Si está desactivado (OFF), genera un único archivo.

Ejemplo práctico

Exportar datos de ventas mayores a $1000 a S3:

UNLOAD ('SELECT * FROM ventas WHERE total > 1000') TO 's3://mi-bucket/redshift-data/ventas_mayores_1000_' CREDENTIALS 'aws_iam_role=arn:aws:iam::123456789012:role/RedshiftRole' DELIMITER '|' ADDQUOTES ALLOWOVERWRITE PARALLEL ON;

Detalles del ejemplo:

Los datos se exportarán en archivos con el prefijo ventas_mayores_1000_.
Cada columna estará separada por el carácter |.
Los valores de texto estarán rodeados de comillas.
Los archivos serán generados en paralelo.

Buenas prácticas para usar UNLOAD

Dividir datos en archivos más pequeños:
- Usar PARALLEL ON para dividir los datos en múltiples archivos facilita la transferencia y el procesamiento en sistemas externos.
Optimizar la consulta SQL:
- Asegúrate de que la consulta tenga filtros adecuados para reducir la cantidad de datos exportados.
Uso de prefijos únicos:
- Utiliza prefijos únicos para evitar sobrescribir datos accidentalmente.
Definir delimitadores adecuados:
- Selecciona un delimitador que no exista en los datos para evitar errores al analizar los archivos.
Verificar el espacio en S3:
- Asegúrate de que el bucket tenga suficiente espacio para almacenar los datos exportados.
Seguridad:
- Usa IAM roles en lugar de credenciales de acceso para una mayor seguridad.

Verificación del proceso

Después de ejecutar el comando, verifica los archivos en el bucket de S3 para asegurarte de que se exportaron correctamente. Usa herramientas como AWS CLI para listar los archivos:

aws s3 ls s3://mi-bucket/redshift-data/

Raúl Ortega Larsen

student•

Una nota del comando "INCLUDE":

En algunos casos, el comando UNLOAD utiliza la opción INCLUDE como se muestra en la siguiente instrucción SQL.

unload ('select * from lineitem') to 's3://mybucket/lineitem/' iam_role 'arn:aws:iam::0123456789012:role/MyRedshiftRole' PARQUET PARTITION BY (l_shipdate) INCLUDE;

En estos casos, la columna l_shipdate también está en los datos de los archivos Parquet. De lo contrario, los datos de la columna l_shipdate no están en los archivos Parquet.

importante Si descarga archivos con la opción MANIFEST, debe utilizar la opción MANIFEST con el comando COPY cuando carga los archivos. Si utiliza el mismo prefijo para cargar los archivos y no especifica la opción MANIFEST, COPY produce un error porque supone que el archivo de manifiesto es un archivo de datos.

Carlos Javier Guevara Contreras

student•

interesante

{
  "entries": [
    {"url":"s3://almacenamiento/unload/unload_test_30000_part_00.zst", "meta": { "content_length": 7591016 }},
    {"url":"s3://almacenamiento/unload/unload_test_30001_part_00.zst", "meta": { "content_length": 7589291 }}
  ]
}

unload ('select*from unload_test_2')
TO 's3://almacenamiento/unload/unload_test_4_'
credentials 'aws_iam_role=identificador_rol'
allowoverwrite --Sobreescribir archivos existentes
delimiter ';' --Delimitador de columnas
header --Incluir cabecera de columnas
maxfilesize 500 mb --limitar el tamaño de archivo a 500 MB
zstd --crear archivo comprimido
manifest 
partition by (c_region) include 

CREATE TABLE unload_test AS (
SELECT * FROM cust_sales_intercalado 
UNION ALL
SELECT * FROM cust_sales_intercalado 
UNION ALL
SELECT * FROM cust_sales_intercalado 
);

SELECT COUNT(0) FROM cust_sales_intercalado; 

SELECT COUNT(0) FROM unload_test; 

unload ('select * from unload_test')
to 's3://mybucketredshiftsantiago/unload/unload_test_'
credentials 'aws_iam_role=arn:aws:iam::118590468211:role/MiRoleRedshift';


unload ('select * from unload_test')
to 's3://mybucketredshiftsantiago/unload/unload_test_'
credentials 'aws_iam_role=arn:aws:iam::118590468211:role/MiRoleRedshift'
parallel off
ALLOWOVERWRITE;

CREATE TABLE unload_test_2 AS (
	SELECT * 
	FROM unload_test
	LIMIT 2000000);

unload ('select * from unload_test_2')
to 's3://mybucketredshiftsantiago/unload/unload_test_4'
credentials 'aws_iam_role=arn:aws:iam::118590468211:role/MiRoleRedshift'
ALLOWOVERWRITE
delimiter ';'
header
maxfilesize 500 mb
ZSTD
manifest
partition by (c_nation) INCLUDE 
;

unload ('select * from unload_test_2')
to 's3://bucket-s3-de-.../unload/unload_test_'
credentials 'aws_iam_role=arn:'
allowoverwrite
delimiter ';' --Delimitador 
header --agrega el header
maxfilesize 500 mb -- El tamaño de archivo 
zstd --comprime el archivo: compresion estandar
manifest --crea archivo minifest
partition by (c_region) include --particiona los archivos de salida por esta columna
;

Exportación de Datos desde Repsheet a Amazon S3 con Unload

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Procesamiento de Datos con Repsheet y Clústeres SQL

Configura tu entorno de trabajo para Redshift

Configuración de IAM y S3 en AWS para Repsheet

Configuración de Clúster en Amazon Repsheet para Big Data

Conexión y Configuración de Repsheet con Clientes Externos

Carga de Datos a Redshift desde Amazon S3: Paso a Paso

Cómo diseñar tu base de datos para mejorar su desempeño

Compresión de Datos en Repsheet: Algoritmos y Aplicaciones

Algoritmos de Compresión de Datos: Musley y Otros Métodos Eficientes

Compresión de Datos en SQL: Evaluación y Comparación de Algoritmos

Compresión de Datos en Repsheet: Optimización y Análisis

Algoritmos de Distribución de Datos en Repsheet

Distribución de Datos en Tablas SQL con Repsheet

Llaves de Ordenamiento en Bases de Datos: Compuesta vs. Intercalada

Pruebas de Algoritmos de Ordenamiento en SQL con AWS S3 y Redshift

Consultas SQL y Algoritmos de Ordenamiento Avanzados

Optimización de Datos en Data Warehouses con Repsheet

Manejo de Tipos de Datos en Amazon Redshift

Optimización de Bases de Datos en Modelos Dimensionales

Manipular enormes cantidades de datos

Carga Masiva de Datos en Repshit con el Comando COPY

Cargar datos JSON a Redshift usando el comando Copy

Parámetros Comunes del Comando COPY en Amazon Redshift

Carga Masiva de Datos sin Delimitador en RedSheet

Inserción de Datos en Repsheet sin Archivos Planos

Actualización Eficiente de Datos en Repsheet con Tablas Auxiliares

Optimización de Bases de Datos con Analyze y Vacuum en Repsheet

Optimización de Bases de Datos: Estadísticas y Limpieza de Tablas

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Buenas prácticas de SQL en bases de datos columnares

Optimización de Consultas SQL con Plan de Ejecución y Llaves de Ordenamiento

Análisis de comportamiento y descarga de datos con Redshift

Exportación de Datos desde Repsheet a Amazon S3 con Unload

Tablas útiles para administración en Repsheet

Conclusiones

Gestión de Datos y Consultas en Repsheat