Carga de datos con Python

Clase 15 de 25 • Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Resumen

¿Cómo guardar datasets limpios en formato CSV?

Comenzar guardando nuestros datasets limpios y transformados en archivos CSV es crucial. Aquí usamos la función to_csv() de Pandas para realizar esta tarea. Guardamos los archivos en una carpeta llamada target, especificando el nombre del archivo como traits.csv. Para evitar problemas con caracteres comunes como las comas, utilizamos un separador más raro, el "pipe", con la opción sep='|'.

df_traits_clean_final.to_csv('target/traits.csv', index=False, sep='|')

Este proceso se repite para otros dataframes, como dfcountries, dfcode, dfquantity, dfflow, y dfyear, generando archivos CSV correspondientes.

¿Cómo conectar Python a servicios AWS S3?

El siguiente paso es configurar la conexión con AWS S3, utilizando la biblioteca Boto3, que facilita la interacción con los servicios de AWS. Inicialmente creamos un cliente de Boto3 especializado en S3, configurando la conexión mediante variables de entorno para asegurar nuestras credenciales.

import boto3
s3_client = boto3.client('s3', 
    aws_access_key_id=os.environ['AWSAccessKeyID'], 
    aws_secret_access_key=os.environ['AWSSecretAccessKey'])

Este método mantiene nuestras credenciales seguras. Las variables de entorno previenen que la información sensible esté directamente expuesta en el código.

¿Cómo hacer la conexión con una base de datos RefShed?

Conectar a una base de datos en RefShed requiere el uso de una librería específica, RefShedConnector. Configuramos detalles como host, puerto, y credenciales de usuario. Igual que antes, utilizamos variables de entorno para manejar la información sensible de la conexión.

connection = RefShedConnector.connect(
    host=os.environ['RefShedHost'], 
    database=os.environ['RefShedDatabase'], 
    port=5439, 
    user=os.environ['RefShedUser'], 
    password=os.environ['RefShedPassword'])

Estos pasos son cruciales para garantizar una conexión segura y confiable con las bases de datos que utilizamos.

¿Cómo subir archivos a S3 y copiar datos a RefShed?

Subir nuestras CSV a S3 y luego copiarlas a RefShed es esencial para manejar grandes volúmenes de datos eficientemente. Creamos una función cargar_archivo que recibe el nombre de un archivo y lleva a cabo la subida a S3. Luego, hacemos un COPY desde S3 a RefShed.

def cargar_archivo(fileName):
    tableName = fileName.split('.')[0]
    s3_client.upload_file(
        Filename=f'target/{fileName}',
        Bucket='platzi-etl',
        Key=f'course-etl-target/{fileName}'
    )

    copy_command = """
    COPY etl.table_name FROM 's3://platzi-etl/course-etl-target/{fileName}'
    CREDENTIALS 'aws_access_key_id={};aws_secret_access_key={}'
    DELIMITER '|' REGION 'us-west-2' IGNOREHEADER 1
    """.format(tableName, os.environ['AWSAccessKeyID'], os.environ['AWSSecretAccessKey'])

    cursor.execute(copy_command)

Esta función automatiza el proceso de carga, garantizando que los datos se transfieran de manera rápida y fiable desde S3 a nuestra base de datos en RefShed.

Mediante esta preparación, estamos listos para manipular y analizar nuestros datos en entornos controlados, maximizando seguridad y eficiencia. Continuar aprendiendo sobre estas herramientas y técnicas no solo refina tus habilidades de ETL, sino que te posiciona como un experto en manejo de datos.

Mario Alexander Vargas Celis

student•

Para el que giera meter mas seguridad.

Un archivo .env se utiliza para almacenar configuraciones sensibles o variables de entorno de un proyecto, como credenciales, configuraciones de conexión y otros parámetros que no deseas incluir directamente en tu código fuente. Es una práctica común para mantener tu código seguro y facilitar la configuración de entornos (desarrollo, pruebas, producción).

¿Qué puede contener un archivo .env?

Un archivo .env suele tener pares clave-valor separados por un signo igual =. Por ejemplo:

DB_HOST=localhost DB_PORT=5432 DB_NAME=my_database DB_USER=admin DB_PASSWORD=securepassword SECRET_KEY=mysecretkey123 DEBUG=True

¿Cómo usar un archivo .env en Python?

Python puede manejar archivos .env utilizando librerías como python-dotenv. Esta librería carga automáticamente las variables definidas en el archivo .env y las hace accesibles a través de os.environ.

1. Instalar python-dotenv

Primero, instala la librería usando pip:

pip install python-dotenv

2. Crear un archivo .env

Guarda tus credenciales y configuraciones en un archivo .env en el directorio raíz de tu proyecto:

DB_HOST=localhost DB_PORT=5432 DB_NAME=my_database DB_USER=admin DB_PASSWORD=securepassword

3. Cargar y usar las variables en Python

Carga las variables en tu código utilizando python-dotenv y el módulo os:

from dotenv import load_dotenv import os

# Cargar las variables del archivo .env load_dotenv()

# Obtener las variables db_host = os.getenv('DB_HOST') db_port = os.getenv('DB_PORT') db_name = os.getenv('DB_NAME') db_user = os.getenv('DB_USER') db_password = os.getenv('DB_PASSWORD')

# Usar las variables (ejemplo con SQLAlchemy) from sqlalchemy import create_engine

engine = create_engine(f"postgresql+psycopg2://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}") print("Conexión exitosa.")

Ventajas de usar .env:

Seguridad: Evita exponer credenciales sensibles en el código fuente.
Flexibilidad: Facilita la configuración de entornos diferentes (desarrollo, pruebas, producción).
Mantenibilidad: Centraliza las configuraciones del proyecto.

Buenas prácticas:

No incluir .env en el repositorio: Agrega el archivo .env a tu .gitignore para evitar subirlo a GitHub o a cualquier otro sistema de control de versiones:# .gitignore .env
Usar variables descriptivas: Nombres claros como DB_HOST o API_KEY ayudan a entender su propósito.

Con estas configuraciones, puedes manejar datos sensibles de manera segura y profesional en tus proyectos Python.

Carga de datos con Python

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?

Conceptos base de ETL

Consideraciones de ETL

Servicios y herramientas para ETL

Extracción de datos

Sources

Configuración de base de datos source y entorno para ETL en Python

Extracción de datos con Python y Pandas

Transformación de datos

Transformación

Transformación de datos con Python y Pandas

Transformación de datos de países

Transformación de datos de transacciones

Carga de datos

Carga

Configuración de clúster en AWS Redshift

Crear tablas en AWS Redshift