Carga de Datos a Redshift desde Amazon S3: Paso a Paso

Clase 8 de 33 • Curso de AWS Redshift para Manejo de Big Data

Contenido del curso

Primeros pasos en la arquitectura no transaccional

Configura tu entorno de trabajo para Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

Manipular enormes cantidades de datos

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Análisis de comportamiento y descarga de datos con Redshift

Conclusiones

33
Gestión de Datos y Consultas en Repsheat
01:58 min

Tomar examen

Resumen

¿Cómo crear un ambiente de trabajo para procesar grandes cantidades de datos?

Aprender a gestionar y procesar grandes volúmenes de datos es esencial en el mundo actual. Este proceso no solo implica crear las infraestructuras adecuadas, sino también entender cómo nuestros datos se distribuyen y almacenan para obtener el máximo rendimiento. En esta clase, exploraremos cómo configurar un entorno de trabajo eficiente para manejo de datos usando Amazon Redshift y S3.

¿Cómo se estructura un modelo dimensional?

Un modelo dimensional, utilizado ampliamente por Amazon en sus cursos y tutoriales, consta de cinco tablas de dimensiones y dos tablas de hechos. Este enfoque permite una mejor organización y optimización de la información, facilitando el proceso de consulta y análisis.

Tablas de Dimensiones: Proveen contexto y descriptores específicos (ej., usuario, ubicación).
Tablas de Hechos: Contienen medidas cuantitativas (ej., ventas, inventario).

¿Cómo cargar tablas en Amazon Redshift?

Para iniciar, necesitamos crear nuestras tablas en Amazon Redshift. Esto se realiza mediante la ejecución de un script de SQL que define las tablas y sus respectivos campos de datos. A continuación, los pasos para cargar estos datos:

CREATE TABLE users (
  user_id INT,
  name VARCHAR(50),
  email VARCHAR(50)
  ...
);

Llaves de Distribución y Ordenamiento: Estas llaves facilitan la segmentación eficiente de datos a lo largo del clúster, mejorando la velocidad de consulta.

¿Cómo transferir datos de S3 a Redshift?

Una vez nuestras tablas están listas, la siguiente fase es cargar los datos. Esto se hace fácilmente utilizando la integración entre S3 y Redshift:

Subir datos a S3: Los datos deben ser organizados y comprimidos en .zip. Una vez listos, se cargan en un bucket de S3 que ya hemos configurado.
Copiar datos a Redshift usando SQL: Utilizamos comandos SQL como COPY para transferir datos desde S3 a nuestras tablas de Redshift. Este proceso es rápido y eficiente para grandes volúmenes de datos.

COPY users
FROM 's3://my-bucket-redshift-path/users_data.txt'
CREDENTIALS 'aws_iam_role=role-arn'
DELIMITER '|';

¿Qué consideraciones de seguridad y permisos se deben tomar?

Para que Redshift pueda acceder a S3, es esencial configurar roles de IAM que proporcionen los permisos adecuados. Esto garantiza una transferencia segura de datos y evita accesos no autorizados.

Configurar un Rol IAM: De cara a un correcto funcionamiento, Redshift necesita asociarse a un rol IAM que permita el acceso a los buckets de S3.

¿Qué beneficios tiene el uso de Amazon Redshift?

Amazon Redshift está diseñado para gestionar grandes volúmenes de datos con numerosas ventajas:

Velocidad en carga y consulta: Gracias a su arquitectura y optimización, Redshift permite cargar y consultar millones de registros en segundos.
Eficiencia en distribución de datos: El uso de llaves de distribución permite una gestión eficaz de los recursos del clúster.
Soporte avanzado de analítica: La capacidad de realizar consultas complejas en grandes conjuntos de datos sin comprometer el rendimiento.

Para maximizar su uso, es esencial comprender cómo diseñar y estructurar adecuadamente nuestras tablas y procesos de carga de datos. A medida que avanzamos en el curso, exploraremos más sobre cómo aprovechar al máximo esta potente herramienta de análisis de datos.

Comentarios

Gustavo Medina

student•

Para agregar el Rol al Cluster en la nueva interfaz. Hay que ir a: AmazonRedshift > Clusters > Action > Manage IAM Roles Ahi se selecciona el rol y se agrega al cluster. Después se va a poder observar dicho rol y su ARN en propiedades del cluster

Cesar Augusto Morales Godoy

student•

Que buena persona! 👍🏼

Alexander Bolaño Cervantes

student•

Si no te carga los datos a la primera es por que debes usar iam_role en lugar de credentials :

copy users from 's3://<Reemplazar_con_la_ruta_del_bucket>/tickit/allusers_pipe.txt’ iam_role 'aws_iam_role=<Reemplazar_con_tu_iam_role_arn>' delimiter ‘|’ region ‘<Reemplazar_con_tu_aws_region>’;

Luis Alfonso Gómez Zúñiga

student•

Excelente!!

Cesar Augusto Morales Godoy

student•

Para que cargara los datos despues de crear las tablas tube que cerrar el script del SQL Editor, volverlo a abrir y listo 😃

Mayra Carolina Morataya Guerra

student•

jajaja la vieja confiable, si me paso igual, gracias por el tip.

Alarcon7a

student•

jajaj que loco

Mario Alexander Vargas Celis

student•

Amazon Redshift utiliza una variante de PostgreSQL para procesar consultas SQL. Puedes interactuar con Redshift escribiendo sentencias SQL para tareas como creación de tablas, manipulación de datos, y consultas. Aquí están algunos ejemplos comunes de sentencias SQL utilizadas en Redshift:

1. Creación de tablas

CREATE TABLE empleados ( id_empleado INT IDENTITY(1, 1), nombre VARCHAR(50), apellido VARCHAR(50), fecha_ingreso DATE, salario DECIMAL(10, 2) );

2. Cargar datos desde S3

Redshift permite cargar datos desde archivos almacenados en Amazon S3:

COPY empleados FROM 's3://mi-bucket/datos/empleados.csv' CREDENTIALS 'aws_access_key_id=TU_ACCESS_KEY;aws_secret_access_key=TU_SECRET_KEY' CSV IGNOREHEADER 1;

3. Consultas

Consulta básica:SELECT nombre, apellido, salario FROM empleados WHERE salario > 50000;
Ordenar resultados:SELECT * FROM empleados ORDER BY fecha_ingreso DESC;
Agrupación y funciones de agregación:SELECT fecha_ingreso, COUNT(*) AS total_empleados FROM empleados GROUP BY fecha_ingreso HAVING COUNT(*) > 1;

4. Actualizar datos

UPDATE empleados SET salario = salario * 1.10 WHERE fecha_ingreso < '2020-01-01';

5. Eliminar datos

DELETE FROM empleados WHERE fecha_ingreso < '2010-01-01';

6. Uniones (JOIN)

SELECT e.nombre, e.apellido, d.nombre AS departamento FROM empleados e JOIN departamentos d ON e.id_departamento = d.id_departamento;

7. Creación de vistas

CREATE VIEW vista_empleados_activos AS SELECT id_empleado, nombre, apellido FROM empleados WHERE estado = 'activo';

8. Funciones analíticas

SELECT nombre, apellido, salario, RANK() OVER (ORDER BY salario DESC) AS rank_salario FROM empleados;

9. Optimización de consultas

Para optimizar tus consultas en Redshift:

Sort Keys: Define claves de ordenamiento para optimizar consultas frecuentes.CREATE TABLE empleados ( id_empleado INT, nombre VARCHAR(50), salario DECIMAL(10, 2) ) SORTKEY (salario);
Dist Keys: Define claves de distribución para optimizar operaciones que implican varias nodos.CREATE TABLE ventas ( id_venta INT, id_producto INT, total DECIMAL(10, 2) ) DISTKEY (id_producto);

Amos Luna

student•

Para el COPY, ahora la estructura es:

copy users from 's3://mibucketredshift-al/tickitdb/allusers_pipe.txt' iam_role 'arn:aws:iam::562393340633:role/MiRoleRedshift' delimiter '|' region 'us-east-2';

en iam_role -> ya no va 'aws_iam_role...'..... sino que directamente va 'arn:aws:iam::........'

Rony Francisco Pacheco Elvir

student•

Conceptos de llaves de distribución y llaves de ordenamiento

José Alberto Ortiz Vargas

student•

Al intentar ejecutar solo el primer COPY del Script, este tarda mas de 600 segundos y me arroja el siguiente error:

Por que pasa esto?

Kevin Gabriel Salazar Selvas

student•

No tenés agregado el rol al cluster, Lo que tenés que hacer es entrar al cluster que creaste, ![](

l Clic en properties,

luego clic en Manage IAM roles buscás el rol que creaste y lo seleccionas, clic en Add IAM Role y luego Done

Javier Guevara

student•

Me arroja este error al cargar los datos:

SQL Error [500310] [XX000]: Amazon Invalid operation: User arn:aws:redshift:us-east-1:992219425114:dbuser:redshift-cluster-1/platzi is not authorized to assume IAM Role MiRoleRedshift.

Alarcon7a

student•

https://platzi.com/comentario/1785610/ mira la respuesta de un estudiante, de no funcionar hay que ver los permisos que tiene el role IAM deberia tener permisos para el cluster y s3

josefabian cardonahernandez

student•

para los que vemos el curso 2025, se puede usar el editor query de redshit directamente, solo hay que tener bien en cuenta estar conectado en la buena base datos para no crear tablas en otro lugar ya que despues tendras problemas con las credenaciales que claramento no encontara la tabla donde es y esto generara errores.

Sarah Camila Vieda Castro

student•

Me aparece este error alguien sabe que puede ser?

Sarah Camila Vieda Castro

student•

Solo me dejo cargar la tabla de allusers_pipe, para las otras me sale este error

Santiago Ortiz Ceballos

student•

distkey & sortkey en bases de datos columnares

Sandy Falcon

student•

Me quedo asi:

copy users from 's3://mibucketredshift1/tickitdb/allusers_pipe.txt' 
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift' 
delimiter '|' region 'us-east-1';

copy venue from 's3://mibucketredshift1/tickitdb/venue_pipe.txt' 
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift' 
delimiter '|' region 'us-east-1';

copy category from 's3://mibucketredshift1/tickitdb/category_pipe.txt' 
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift' 
delimiter '|' region 'us-east-1';

copy date from 's3://mibucketredshift1/tickitdb/date2008_pipe.txt' 
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift' 
delimiter '|' region 'us-east-1';

copy event from 's3://mibucketredshift1/tickitdb/allevents_pipe.txt' 
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift' 
delimiter '|' timeformat 'YYYY-MM-DD HH:MI:SS' region 'us-east-1';

copy listing from 's3://mibucketredshift1/tickitdb/listings_pipe.txt' 
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift' 
delimiter '|' region 'us-east-1';

copy sales from 's3://mibucketredshift1/tickitdb/sales_tab.txt'
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift'
delimiter '\t' timeformat 'MM/DD/YYYY HH:MI:SS' region 'us-east-1';




SELECT * FROM sales LIMIT 10;

SELECT COUNT(0) FROM listing;

Isay Humberto Lucas Hernandez

student•

Hola,

Les comparto la documentación del comando COPY con información muy valiosa así como ejemplos que demuestran el poder de dicho comando :)

AQUI!

Alejandro Olivera

student•

Muchas gracias por la información

Martin DAVILA

student•

SQL Error [500310] [XX000]: Amazon Invalid operation: Cannot COPY into nonexistent table users;

Alarcon7a

student•

¿creaste la tabla previamente?

Martin DAVILA

student•

Si las tablas las crre pero no las reconoce

Arturo Juárez Sánchez

student•

Hola comunidad, tampoco me pude conectar :(, voy hacer otro curso y regreso.

Alarcon7a

student•

¿Que problema te muestra?

Brenda Irene Suárez Posadas

student•

Hola no puedo cargar los datos :( ya lo intente varias veces borre y volvi a crear el cluster, el rol y volvi a cargar los datos pero me sigue saliendo el mismo error, espero que me puedan ayudar Esto es lo que me sale:

ERROR: S3CurlException: Connection timed out after 50001 milliseconds, CurlError 28, multiCurlError 0, CanRetry 1, UserError 0 Detail: ----------------------------------------------- error: S3CurlException: Connection timed out after 50001 milliseconds, CurlError 28, multiCurlError 0, CanRetry 1, UserError 0 code: 9002 context: Listing bucket=mibucketredshif prefix=tickitdb/allusers_pipe.txt query: 41280 location: s3_utility.cpp:657 process: padbmaster [pid=19178] -----------------------------------------------

Alarcon7a

student•

el rol IAM del cluster tiene acceso a S3?

Brenda Irene Suárez Posadas

student•

Si, si tiene

Alejandro Olivera

student•

He realizado el cargue de los diferentes archivos y me funcionan de forma correcta. Sin embargo el cargue del archivo de la información **users **siempre me genera problema. Incluso, recorte el archivo para cargar pocos registros y me genera el mismo error. Alguien más le ha pasado esto?

Alarcon7a

student•

Que error te muestra exactamente?

Alejandro Olivera

student•

Estuve revisando los errores y me di cuenta que el problema que tenía era que el timeout de la sentencia era muy corto(El clúster creado era muy pequeño por lo que algunas transacciones eran muy demoradas). Más adelante, configure el tiempo de la transacción en la herramienta de sql y todo funcionó correctamente. Muchas gracias

Carlos Javier Guevara Contreras

student•

me sale el siguiente error:

SQL Error [500310] [XX000]: Amazon Invalid operation: User arn:aws:redshift:us-east-2:949229795965:dbuser:redshiftcluster/platzi is not authorized to assume IAM Role arn:aws:iam::949229795965:role/MiRolRedshift. Details:

error: User arn:aws:redshift:us-east-2:949229795965:dbuser:redshiftcluster/platzi is not authorized to assume IAM Role arn:aws:iam::949229795965:role/MiRolRedshift. code: 8001 context: IAM Role=arn:aws:iam::949229795965:role/MiRolRedshift query: 39184 location: xen_aws_credentials_mgr.cpp:442 process: padbmaster [pid=22898] -----------------------------------------------;

Alarcon7a

student•

Ya se ha solucionado ?

JAVIER SANTIAGO SALGADO

student•

En properties esta la siguiente opción, para el ARN, di click en Manage, y añadí el rol con el ARN:

Carlos Javier Guevara Contreras

student•

interesante

copy users from 's3://mibucketredshift1/tickitdb/allusers_pipe.txt' 
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift' 
delimiter '|' region 'us-east-1';

copy venue from 's3://mibucketredshift1/tickitdb/venue_pipe.txt' 
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift' 
delimiter '|' region 'us-east-1';

copy category from 's3://mibucketredshift1/tickitdb/category_pipe.txt' 
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift' 
delimiter '|' region 'us-east-1';

copy date from 's3://mibucketredshift1/tickitdb/date2008_pipe.txt' 
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift' 
delimiter '|' region 'us-east-1';

copy event from 's3://mibucketredshift1/tickitdb/allevents_pipe.txt' 
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift' 
delimiter '|' timeformat 'YYYY-MM-DD HH:MI:SS' region 'us-east-1';

copy listing from 's3://mibucketredshift1/tickitdb/listings_pipe.txt' 
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift' 
delimiter '|' region 'us-east-1';

copy sales from 's3://mibucketredshift1/tickitdb/sales_tab.txt'
iam_role 'arn:aws:iam::701140430062:role/MyRolRedshift'
delimiter '\t' timeformat 'MM/DD/YYYY HH:MI:SS' region 'us-east-1';




SELECT * FROM sales LIMIT 10;

SELECT COUNT(0) FROM listing;

ERROR: S3CurlException: Connection timed out after 50001 milliseconds, CurlError 28, multiCurlError 0, CanRetry 1, UserError 0 Detail: ----------------------------------------------- error: S3CurlException: Connection timed out after 50001 milliseconds, CurlError 28, multiCurlError 0, CanRetry 1, UserError 0 code: 9002 context: Listing bucket=mibucketredshif prefix=tickitdb/allusers_pipe.txt query: 41280 location: s3_utility.cpp:657 process: padbmaster [pid=19178] -----------------------------------------------

Carga de Datos a Redshift desde Amazon S3: Paso a Paso

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Procesamiento de Datos con Repsheet y Clústeres SQL

Configura tu entorno de trabajo para Redshift

Configuración de IAM y S3 en AWS para Repsheet

Configuración de Clúster en Amazon Repsheet para Big Data

Conexión y Configuración de Repsheet con Clientes Externos