Carga de datos: subida de archivos a AWS Redshift

Clase 17 de 25 • Curso de Fundamentos de ETL con Python y Pentaho

Resumen

¿Cómo probar nuestra función para cargar archivos en RepSheet?

Para empezar, es importante asegurarnos de que nuestra función para cargar archivos en RepSheet funcione correctamente. Utilizaremos un archivo existente llamado gears.csv para realizar la prueba. Verificamos primero si hay errores en el código y corregimos cualquier problema, como comillas incorrectas en las sentencias. Es fundamental recargar la conexión en caso de errores antes de intentar nuevamente.

¿Cómo automatizar el proceso de carga?

La automatización es clave para gestionar grandes volúmenes de datos sin intervención manual. Para lograrlo, utilizamos os.listdir para seleccionar todos los archivos en un directorio específico. Estos archivos se almacenan en una lista llamada listfiles, que luego iteramos para cargar automáticamente cada archivo en su tabla correspondiente.

Aqui tienes un ejemplo del fragmento de código en Python para obtener los archivos:

import os

directory = os.listdir('target')
listfiles = [file for file in directory if file.endswith('.csv')]

¿Cómo manejar conexiones y errores?

Antes de ejecutar el script, debemos asegurarnos de que la tabla en RepSheet esté vacía, usando la sentencia truncadetruncatedtable.jers. Esto evita sobreescribir datos previos. Si se presentan errores, puede ser debido a conexiones abiertas no cerradas previamente. Debemos cerrar y volver a crear la conexión utilizando con.close() y, posteriormente, abrir una nueva conexión.

¿Cómo verificar los datos cargados?

Una vez finalizado el proceso de carga, es esencial validar que los datos se cargaron correctamente. Podemos hacerlo revisando la consola de RepSheet para verificar la presencia de las tablas como etl test.gears. Se recomiendan acciones adicionales, como el uso de commit para guardar cambios y asegurar que se cierre la conexión después de completar toda la operación.

¿Cómo crear un esquema estrella para analítica avanzada?

Con toda la información correctamente cargada, es posible construir un esquema estrella que permite hacer analíticas más robustas. Utilizando herramientas de BI, se podrá consultar las tablas para obtener insights valiosos, como analizar importaciones por región y año, y categorizaciones de productos basadas en códigos.

¿Qué herramientas adicionales son útiles?

El pipeline de ETL que hemos desarrollado es flexible, y aunque en esta ocasión usamos RepSheet, también podríamos utilizar otras bases de datos o repositorios, como BigQuery o Snowflake. Es importante tener en cuenta que el conocimiento de modelos BI y esquemas estrella enriquecerá significativamente el análisis de datos.

Cada proyecto y análisis es único, y siempre se pueden encontrar recursos adicionales en la documentación o cursos sugeridos para ampliar aún más los conocimientos sobre ETLs, modelos estrella y business intelligence. No dudes en indagar más para perfeccionar tu modelo de datos.

Bryan Carvajal

student•

El profe parece que esta hablando para el solamente, va muy rapido y se hace dificil seguir lo que esta haciendo... ojala mejoren estos cursos.

david.parra

student•

De acuedo. Se da por sentado que conocemos el contexto de la data y muchas técnicas/tecnologías que no se enseñan en los cursos requeridos para ver este.

Yeison Arias

student•

Por favor editar mejor el video en el minuto 3:46, ya que desaparece de la nada el ciclo que estaba intentando crear :/

Javier Hugo Noto Enriquez

student•

Ha sido un desafío seguir el curso, pero sin duda muy útil, he podido interiorizar conceptos, y analizar detalles en muchas partes del curso.

JONATHAN ALVAREZ LOPEZ

student•

Como menciona el profesor que hay distintos targets a los que podemos cargar la información, hubiera estado perfecto que se mostrara como se puedo ingestar la información a otras nubes o bases de datos y no solo "casarse" una tecnología...

David Arenas Zapata

student•

¿Por qué se opta por no hacer el cargue con el ciclo?

list_files = os.listdir('target/')
for _ in list_files:
    load_file(_)

Alarcon7a

student•

Podría perder la sesión de base de datos, pero si es posible también 👌👌👌

emperez

student•

En que herramienta esta trabajando?

Platzi

student•

Pentaho Data Integration y Pandas de Python.

Manuel Juarez

student•

Hola, estoy obteniendo el siguiente error:

“ProgrammingError: {‘S’: ‘ERROR’, ‘C’: ‘25P02’, ‘M’: ‘current transaction is aborted, commands ignored until end of transaction block’, ‘F’:”

Es un problema en el query pero no estoy pudiendo ubicarlo:

sentence=’’‘copy public.{} from ‘s3://curso-etl-platzi-manu/{}’ credentials ‘aws_access_key_id={};
aws_secret_access_key={}’ csv delimiter ‘|’ region ‘sa-east-1’ ignoreheader 1 ‘’’.format(table_name,file_name, os.environ.get(‘ETL_AWS_ACCESS_KEY_ID’),os.environ.get(‘ETL_AWS_SECRET_ACCESS_KEY’))

Cualquier ayuda se agradecería mucho

Mario Alexander Vargas Celis

student•

Subir datos a AWS Redshift implica un proceso que usualmente consta de los siguientes pasos:

Preparar los datos: Asegúrate de que los datos están en un formato compatible, como archivos CSV, JSON, Parquet, o Avro.
Subir los datos a S3: AWS Redshift carga datos desde Amazon S3, así que primero necesitas colocar tus archivos en un bucket de S3.
Cargar datos a Redshift: Usa la instrucción COPY para transferir los datos desde S3 a tu tabla de Redshift.

Prerrequisitos

Crear una base de datos y tablas en Redshift:
- Necesitas un clúster configurado y una tabla creada en Redshift donde cargar los datos.
Configurar un bucket en S3:
- Define un bucket donde alojarás los datos que serán importados.
Credenciales AWS:
- Necesitarás una IAM Role o Access Key/Secret Access Key con permisos para acceder a S3 y Redshift.

Proceso detallado

1. Preparar los datos y subirlos a S3

Puedes usar AWS CLI para subir datos a tu bucket de S3:

aws s3 cp /path/to/your/data.csv s3://your-bucket-name/data.csv

O, si estás usando Python, puedes emplear la librería boto3:

import boto3

# Configurar el cliente de S3 s3 = boto3.client('s3')

# Subir archivo s3.upload_file('data.csv', 'your-bucket-name', 'data.csv') print("Archivo subido exitosamente a S3.")

2. Configurar conexión a Redshift

Usa psycopg2 o SQLAlchemy para conectarte al clúster de Redshift:

from sqlalchemy import create_engine

# Datos de conexión DATABASE = "your_database" USER = "your_user" PASSWORD = "your_password" HOST = "your-cluster-endpoint" PORT = "5439"

# Crear la conexión engine = create_engine(f"postgresql+psycopg2://{USER}:{PASSWORD}@{HOST}:{PORT}/{DATABASE}") connection = engine.connect() print("Conexión exitosa a Redshift.")

3. Crear la tabla en Redshift

Define la estructura de tu tabla para que coincida con los datos que cargarás:

CREATE TABLE your_table ( column1 VARCHAR(50), column2 INT, column3 DATE );

4. Cargar datos desde S3 a Redshift

Usa la instrucción COPY para transferir datos desde S3 a tu tabla en Redshift:

# Comando SQL para copiar los datos copy_command = """ COPY your_table FROM 's3://your-bucket-name/data.csv' IAM_ROLE 'arn:aws:iam::your-account-id:role/your-redshift-role' FORMAT AS CSV IGNOREHEADER 1; """

# Ejecutar el comando connection.execute(copy_command) print("Datos cargados exitosamente en Redshift.")

Consideraciones importantes

Rol IAM:
- El rol asociado a tu clúster Redshift debe tener permisos para acceder al bucket S3.
- Política mínima necesaria:{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "s3:*", "Resource": "arn:aws:s3:::your-bucket-name/*" } ] }
Validación:
- Después de cargar los datos, verifica que se cargaron correctamente:SELECT COUNT(*) FROM your_table;
Formato del archivo:
- Asegúrate de que el archivo en S3 está correctamente formateado y coincide con las columnas de la tabla.
Errores comunes:
- Permisos insuficientes: Verifica que el rol IAM tiene acceso al bucket S3 y permisos COPY en Redshift.
- Formato incorrecto: Si el archivo CSV tiene delimitadores inconsistentes, podrías recibir errores.

Alternativa: Usar AWS Data Wrangler

La librería awswrangler simplifica el proceso de carga desde Pandas DataFrame a Redshift:

import awswrangler as wr import pandas as pd

# Crear DataFrame df = pd.read_csv('data.csv')

# Cargar el DataFrame a Redshift wr.redshift.copy_from_files( paths=["s3://your-bucket-name/data.csv"], con=engine.raw_connection(), schema="public", table="your_table", iam_role="arn:aws:iam::your-account-id:role/your-redshift-role", format="csv", mode="overwrite" )

Con este enfoque, puedes integrar Redshift con tus flujos de datos en Python de manera más sencilla.

Yhomira Alexandra Yupayccana Lopa

student•

A alguien le salio este error solo me sale cuando cargo trades

Aarón González

student•

Pude cargar todas las tablas menos la tabla "trades" intenté hacerlo por lotes y tampoco, la verdad no sé qué otra alternativa hay.