Fundamentos de ETL con Python: Extracción, Transformación y Carga de Datos

Clase 24 de 24 • Curso de ETL e ingesta de datos con Python

Contenido del curso

Fundamentos de ETL con Python

Técnicas Efectivas de Transformación de Datos

Carga de Datos y Proyecto Final

Resumen

¿Cómo se crea una base de datos y tablas en MySQL?

El proceso de creación de una base de datos y sus tablas es crucial en el manejo de datos, especialmente cuando se trata de proyectos ETL (Extract, Transform, Load). En este ejercicio, hemos usado MySQL junto con Python para demostrar cómo se puede automatizar esta tarea.

Primero, verificamos si la base de datos existe y, si no es así, la creamos. Usamos el siguiente comando SQL:

CREATE DATABASE IF NOT EXISTS Akila; USE Akila;

Una vez creada la base de datos, procedemos a la creación de las tablas. Por ejemplo, la tabla actor transformado con su llave primaria y campos personalizados: CREATE TABLE IF NOT EXISTS actor_transformado ( actor_id INT PRIMARY KEY, first_name VARCHAR(50), last_name VARCHAR(50), description TEXT );

Esta tabla almacenará transformaciones hechas sobre nuestros datos de actores, especificando campos como first_name y last_name.

¿Cómo ejecutamos las consultas SQL usando Python?

Para garantizar la integridad del proceso, Python ofrece herramientas que facilitan la conexión con bases de datos SQL, como MySQL Connector y SQLAlchemy. Aquí se explica cómo manejar estas operaciones en Python.

Conexión al servidor: Primeramente, establecemos la conexión al servidor de base de datos y creamos un cursor. import mysql.connector

conn = mysql.connector.connect( host="tu_host", user="tu_usuario", password="tu_contraseña", database="Akila" ) cursor = conn.cursor()

Ejecutar las consultas: Tanto para crear la base de datos como las tablas, ejecutamos las consultas con el cursor. cursor.execute("CREATE DATABASE IF NOT EXISTS Akila;") cursor.execute("USE Akila;") cursor.execute(""" CREATE TABLE IF NOT EXISTS actor_transformado ( actor_id INT PRIMARY KEY, first_name VARCHAR(50), last_name VARCHAR(50), description TEXT ); """)

Confirmar cambios y cerrar conexión: Después de ejecutar las consultas, confirmamos los cambios y cerramos la conexión. conn.commit() cursor.close() conn.close()

¿Cómo validar la carga y transformación de los datos con Python?

Una vez creadas las tablas, la carga de datos se realiza usando Pandas y SQLAlchemy. Este proceso recopila los datos, los transforma según necesidades y los guarda en las tablas SQL.

Conectar y cargar datos: Usamos pandas para leer y transformar datos, luego los cargamos a nuestras tablas con `SQLAlchemy. from sqlalchemy import create_engine import pandas as pd

engine = create_engine('mysql+mysqlconnector://tu_usuario:tu_contraseña@tu_host/Akila') df = pd.DataFrame({ 'actor_id': [1, 2], 'first_name': ['John', 'Jane'], 'last_name': ['Doe', 'Doe'], 'description': ['Actor principal', 'Actor secundario'] }) df.to_sql('actor_transformado', engine, if_exists='replace', index=False)`

Validar carga de datos: Validamos usando queries SQL para asegurar que los datos estén correctamente cargados. query = "SELECT * FROM actor_transformado;" df_result = pd.read_sql(query, engine) print(df_result)

Este proceso cautiva cómo utilizar la programación para gestionar bases de datos de manera eficiente. Además, al terminar el ejercicio, es una excelente práctica verificar manualmente los datos en MySQL para garantizar que todo esté en su lugar. ¿Has logrado ejecutar este proyecto? ¿Qué retos enfrentaste? ¡Cuéntanos en los comentarios para que podamos ayudarte! Sigue adelante, cada paso cuenta en tu proceso de aprendizaje.

Comentarios

Karla Verónica Álvarez Vázquez

student•

La ética y la privacidad en la gestión de datos son esenciales en el manejo de información sensible. Como futuros profesionales en ingeniería de datos, es crucial considerar cómo nuestras acciones afectan a las organizaciones. Debemos aplicar buenas prácticas para proteger la privacidad de los usuarios, asegurando que los datos sean utilizados de manera responsable. Además, es importante cumplir con regulaciones y normativas, como el GDPR, para garantizar la protección de datos personales. La integridad en la gestión de datos no solo aporta valor técnico, sino que también fomenta la confianza y el crecimiento sostenible de las empresas.

Layla Scheli

teacher•

Efectivamente Manuel :)

Antonio Ramón Molina Simancas

student•

Layla sos la mejor!!! No sabés lo que me ha ayudado tu curso, gracias

Layla Scheli

teacher•

Gracias Antonio, que bueno eso :)

Gaid Michael Navia Lara

student•

Miguel Andrés Ramírez Marinez

student•

He aprendido un montón con el curso, me queda repasar y poner en práctica con algún proyecto, muchas gracias profe.

Layla Scheli

teacher•

Gracias a vos :)

José Florentino Ramos

student•

Muchas gracias, el curso fue de gran ayuda para mi aprendizaje.

Saludos

Layla Scheli

teacher•

Gracias Jose, buen trabajo :)

Fundamentos de ETL con Python: Extracción, Transformación y Carga de Datos