Carga masiva de CSVs a Redshift con Python

Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Carga masiva de CSVs a Redshift con Python

Resumen

Automatizar la carga de archivos CSV a Redshift con Python te permite cerrar el ciclo completo de un pipeline ETL sin escribir consultas manuales por cada tabla. Aquí pondrás a prueba la función de carga, iterarás sobre múltiples archivos y validarás los resultados directamente en la base de datos.

¿Cómo probar la función de carga en Redshift?

La primera validación se hace con un archivo conocido para confirmar que la sentencia SQL está bien formada antes de escalar el proceso.

Al ejecutar la carga sobre years.csv, aparece un error en la sentencia por una comilla mal ubicada. La estructura correcta del COPY exige comillas alrededor del nombre de la tabla, las credenciales y las opciones del CSV. Una vez corregida la sintaxis y recargada la conexión, la tabla queda poblada en Redshift [01:00].

¿Por qué falla la conexión al reejecutar el script? Porque la conexión anterior quedó abierta. Debes cerrarla con con.close() y volver a crearla antes de ejecutar nuevas cargas.

¿Cómo iterar sobre múltiples archivos CSV con os.listdir?

Para que el proceso sea automático, en lugar de cargar archivo por archivo, lees el contenido del directorio target y recorres la lista resultante.

El flujo queda así:

Usas os.listdir para obtener todos los archivos CSV almacenados en la carpeta destino.
Guardas el resultado en una lista llamada list_files.
Iteras con un for file in list_files y llamas a la función de carga por cada archivo.

Antes de la carga masiva conviene truncar la tabla con TRUNCATE TABLE etl_test.years para evitar duplicados de la prueba previa [02:30]. Esto deja la tabla vacía y lista para recibir la información sin sobrescribir registros parciales.

¿Qué archivos componen el modelo estrella?

El pipeline carga seis tablas que conforman un star schema sobre etl_test:

years: dimensión temporal con identificador único y año.
quantity: 12 tipos distintos de unidades de medida.
codes: tabla enriquecida con categorías y nombres de producto.
countries: dimensión geográfica con región y subregión.
flow: dirección del comercio (importación o exportación).
trades: tabla de hechos con aproximadamente seis millones de registros.

Después de cargar cada archivo al bucket S3 y de allí a Redshift, ejecutas commit para confirmar los cambios y cierras la conexión.

¿Cómo validar las cargas y aprovechar el modelo estrella?

La validación se hace con consultas directas en la consola de Redshift, revisando que cada tabla tenga su identificador único y los campos esperados.

La tabla trades tarda un poco más por su volumen y por no tener indexación total en Redshift, así que conviene aplicar un LIMIT durante la verificación [05:30]. Aun así, ya cuenta con las llaves foráneas hacia las dimensiones, lo que abre la puerta a análisis mucho más ricos.

¿Qué ventaja da un esquema estrella frente a una tabla plana? Permite cruzar la tabla de hechos con dimensiones como countries o codes para responder preguntas tipo: ¿qué subregión tuvo más importaciones en dólares en cierto año? Antes solo tenías códigos sueltos, ahora tienes nombres y categorías listas para BI.

Con countries puedes filtrar por región o subregión y comparar montos de importación. Con codes, gracias al enriquecimiento previo, consultas por categoría o por nombre de producto sin necesidad de joins externos.

¿Es Redshift la única opción de destino?

No. El pipeline está diseñado para ser portable. Los targets pueden cambiar sin reescribir toda la lógica:

BigQuery.
Snowflake.
Cualquier base de datos relacional o repositorio compatible.

Las fuentes también son intercambiables: archivos planos, APIs u otras bases. La función que construiste con Python y Pandas se adapta porque la lógica de extracción, transformación y carga vive separada de las credenciales y los destinos.

¿Qué hace commit al final del proceso? Confirma todas las inserciones realizadas en la sesión. Sin él, los cambios quedan en estado pendiente y se pierden al cerrar la conexión.

Con esto cierras el módulo de ETL con Python y Pandas, listo para replicar el mismo flujo en Pentaho. Si quieres profundizar en modelos estrella, BI o el funcionamiento interno de Redshift, revisa los recursos de la clase. ¿Qué fuente o destino vas a conectar tú primero?

Comentarios10

Bryan Carvajal

Estudiante

El profe parece que esta hablando para el solamente, va muy rapido y se hace dificil seguir lo que esta haciendo... ojala mejoren estos cursos.

david.parra

Estudiante

De acuedo. Se da por sentado que conocemos el contexto de la data y muchas técnicas/tecnologías que no se enseñan en los cursos requeridos para ver este.

Yeison Arias

Estudiante

Por favor editar mejor el video en el minuto 3:46, ya que desaparece de la nada el ciclo que estaba intentando crear :/

Javier Hugo Noto Enriquez

Estudiante

Ha sido un desafío seguir el curso, pero sin duda muy útil, he podido interiorizar conceptos, y analizar detalles en muchas partes del curso.

JONATHAN ALVAREZ LOPEZ

Estudiante

Como menciona el profesor que hay distintos targets a los que podemos cargar la información, hubiera estado perfecto que se mostrara como se puedo ingestar la información a otras nubes o bases de datos y no solo "casarse" una tecnología...

David Arenas Zapata

Estudiante

¿Por qué se opta por no hacer el cargue con el ciclo?

list_files = os.listdir('target/')
for _ in list_files:
    load_file(_)

Alarcon7a

Estudiante

Podría perder la sesión de base de datos, pero si es posible también 👌👌👌

emperez

Estudiante

En que herramienta esta trabajando?

Platzi

Estudiante

Pentaho Data Integration y Pandas de Python.

Manuel Juarez

Estudiante

Hola, estoy obteniendo el siguiente error:

“ProgrammingError: {‘S’: ‘ERROR’, ‘C’: ‘25P02’, ‘M’: ‘current transaction is aborted, commands ignored until end of transaction block’, ‘F’:”

Es un problema en el query pero no estoy pudiendo ubicarlo:

sentence=’’‘copy public.{} from ‘s3://curso-etl-platzi-manu/{}’ credentials ‘aws_access_key_id={};
aws_secret_access_key={}’ csv delimiter ‘|’ region ‘sa-east-1’ ignoreheader 1 ‘’’.format(table_name,file_name, os.environ.get(‘ETL_AWS_ACCESS_KEY_ID’),os.environ.get(‘ETL_AWS_SECRET_ACCESS_KEY’))

Cualquier ayuda se agradecería mucho

Mario Alexander Vargas Celis

Estudiante

Subir datos a AWS Redshift implica un proceso que usualmente consta de los siguientes pasos:

Preparar los datos: Asegúrate de que los datos están en un formato compatible, como archivos CSV, JSON, Parquet, o Avro.
Subir los datos a S3: AWS Redshift carga datos desde Amazon S3, así que primero necesitas colocar tus archivos en un bucket de S3.
Cargar datos a Redshift: Usa la instrucción COPY para transferir los datos desde S3 a tu tabla de Redshift.

Prerrequisitos

Crear una base de datos y tablas en Redshift:
- Necesitas un clúster configurado y una tabla creada en Redshift donde cargar los datos.
Configurar un bucket en S3:
- Define un bucket donde alojarás los datos que serán importados.
Credenciales AWS:
- Necesitarás una IAM Role o Access Key/Secret Access Key con permisos para acceder a S3 y Redshift.

Proceso detallado

1. Preparar los datos y subirlos a S3

Puedes usar AWS CLI para subir datos a tu bucket de S3:

aws s3 cp /path/to/your/data.csv s3://your-bucket-name/data.csv

O, si estás usando Python, puedes emplear la librería boto3:

import boto3

# Configurar el cliente de S3 s3 = boto3.client('s3')

# Subir archivo s3.upload_file('data.csv', 'your-bucket-name', 'data.csv') print("Archivo subido exitosamente a S3.")

2. Configurar conexión a Redshift

Usa psycopg2 o SQLAlchemy para conectarte al clúster de Redshift:

from sqlalchemy import create_engine

# Datos de conexión DATABASE = "your_database" USER = "your_user" PASSWORD = "your_password" HOST = "your-cluster-endpoint" PORT = "5439"

# Crear la conexión engine = create_engine(f"postgresql+psycopg2://{USER}:{PASSWORD}@{HOST}:{PORT}/{DATABASE}") connection = engine.connect() print("Conexión exitosa a Redshift.")

3. Crear la tabla en Redshift

Define la estructura de tu tabla para que coincida con los datos que cargarás:

CREATE TABLE your_table ( column1 VARCHAR(50), column2 INT, column3 DATE );

4. Cargar datos desde S3 a Redshift

Usa la instrucción COPY para transferir datos desde S3 a tu tabla en Redshift:

# Comando SQL para copiar los datos copy_command = """ COPY your_table FROM 's3://your-bucket-name/data.csv' IAM_ROLE 'arn:aws:iam::your-account-id:role/your-redshift-role' FORMAT AS CSV IGNOREHEADER 1; """

# Ejecutar el comando connection.execute(copy_command) print("Datos cargados exitosamente en Redshift.")

Consideraciones importantes

Rol IAM:
- El rol asociado a tu clúster Redshift debe tener permisos para acceder al bucket S3.
- Política mínima necesaria:{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "s3:*", "Resource": "arn:aws:s3:::your-bucket-name/*" } ] }
Validación:
- Después de cargar los datos, verifica que se cargaron correctamente:SELECT COUNT(*) FROM your_table;
Formato del archivo:
- Asegúrate de que el archivo en S3 está correctamente formateado y coincide con las columnas de la tabla.
Errores comunes:
- Permisos insuficientes: Verifica que el rol IAM tiene acceso al bucket S3 y permisos COPY en Redshift.
- Formato incorrecto: Si el archivo CSV tiene delimitadores inconsistentes, podrías recibir errores.

Alternativa: Usar AWS Data Wrangler

La librería awswrangler simplifica el proceso de carga desde Pandas DataFrame a Redshift:

import awswrangler as wr import pandas as pd

# Crear DataFrame df = pd.read_csv('data.csv')

# Cargar el DataFrame a Redshift wr.redshift.copy_from_files( paths=["s3://your-bucket-name/data.csv"], con=engine.raw_connection(), schema="public", table="your_table", iam_role="arn:aws:iam::your-account-id:role/your-redshift-role", format="csv", mode="overwrite" )

Con este enfoque, puedes integrar Redshift con tus flujos de datos en Python de manera más sencilla.

Yhomira Alexandra Yupayccana Lopa

Estudiante

A alguien le salio este error solo me sale cuando cargo trades

Aarón González

Estudiante

Pude cargar todas las tablas menos la tabla "trades" intenté hacerlo por lotes y tampoco, la verdad no sé qué otra alternativa hay.

sentence=’’‘copy public.{} from ‘s3://curso-etl-platzi-manu/{}’ credentials ‘aws_access_key_id={};
aws_secret_access_key={}’ csv delimiter ‘|’ region ‘sa-east-1’ ignoreheader 1 ‘’’.format(table_name,file_name, os.environ.get(‘ETL_AWS_ACCESS_KEY_ID’),os.environ.get(‘ETL_AWS_SECRET_ACCESS_KEY’))

Carga masiva de CSVs a Redshift con Python

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?

Conceptos clave de ETL: source, target y staging

Consideraciones clave antes de implementar ETL

Herramientas ETL: Pentaho, Pandas y más

Extracción de datos

Consideraciones clave al extraer datos en ETL

Configuración de base de datos source y entorno para ETL en Python

Extracción ETL con Pandas desde Postgres

Transformación de datos

Consideraciones clave antes de transformar datos ETL

Limpieza de códigos de productos con Pandas

Merge de países y productos con pandas

Cómo convertir un DataFrame en tabla de hechos

Carga de datos

Consideraciones clave antes de cargar a Redshift

Configuración de clúster en AWS Redshift

Crear tablas en AWS Redshift

Carga de CSV a Redshift con COPY

Estructurar sentence para carga de datos de S3 a Redshift