Transformaciones de Datos con Python y SQL

Clase 21 de 24 • Curso de ETL e ingesta de datos con Python

Contenido del curso

Fundamentos de ETL con Python

Técnicas Efectivas de Transformación de Datos

Carga de Datos y Proyecto Final

Resumen

¿Cómo transformar datos en Python y MySQL?

Transformar datos es un proceso esencial en la manipulación de bases de datos. A menudo, es necesario manipular los datos mediante diversas transformaciones para adaptarse a los requerimientos específicos del análisis. En esta guía exploramos cómo llevar a cabo estas transformaciones tanto en Python como en MySQL, resaltando la importancia de obtener resultados coherentes y precisos en ambas plataformas.

¿Cómo se realiza el filtrado de datos?

La primera transformación que realizaremos es filtrar los actores cuyo primer nombre comienza con la letra 'A'. Este es un excelente ejemplo de la facilidad y potencia de las funciones de filtrado en Python.

# Filtrando actores con primer nombre que comienza con 'A'
actores_filtrados = datos_actores[datos_actores['first_name'].str.startswith('A')].copy()

En MySQL, el equivalente es usar la cláusula LIKE para seleccionar registros relevantes:

SELECT * FROM actor WHERE first_name LIKE 'A%';

Este proceso es crucial para verificar que las transformaciones logren el mismo resultado en ambas plataformas, lo cual es vital para la consistencia de los datos.

¿Cómo concatenar y calcular longitudes?

Para concatenar los nombres (first name y last name) y crear una nueva columna llamada full_name en Python, simplemente usamos:

# Concatenar nombre y apellido
datos_actores['full_name'] = datos_actores['first_name'] + " " + datos_actores['last_name']

En MySQL, esta tarea se realizaría con la función CONCAT:

SELECT CONCAT(first_name, ' ', last_name) AS full_name FROM actor;

Además, podemos calcular la longitud de full_name de la siguiente manera:

# Calcular la longitud del nombre completo
datos_actores['name_length'] = datos_actores['full_name'].apply(len)

Mientras que en MySQL usamos:

SELECT LENGTH(CONCAT(first_name, ' ', last_name)) AS name_length FROM actor;

¿Cómo aplicar transformaciones adicionales?

Existen diversas transformaciones que podemos realizar, tales como cambiar los nombres a mayúsculas o filtrar según la longitud del nombre completo. Estas transformaciones nos permiten manipular y entender mejor nuestros datos:

# Convertir a mayúsculas
datos_actores['first_name'] = datos_actores['first_name'].str.upper()
datos_actores['last_name'] = datos_actores['last_name'].str.upper()

# Filtrar por longitud del nombre
actores_filtrados = datos_actores[datos_actores['name_length'] > 10]

Para MySQL, utilizamos las funciones UPPER y cláusulas adicionales para el filtrado:

SELECT UPPER(first_name) AS first_name, UPPER(last_name) AS last_name FROM actor;
SELECT * FROM actor WHERE LENGTH(CONCAT(first_name, ' ', last_name)) > 10;

¿Cómo manejar datos temporales y agrupamientos?

Los métodos de transformación permiten manejar datos temporales, como calcular el año de registro de un actor:

# Calcular el año de registro
datos_actores['registration_year'] = pd.to_datetime(datos_actores['last_update']).dt.year

En MySQL, esto se consigue usando la función YEAR:

SELECT YEAR(last_update) AS registration_year FROM actor;

El agrupamiento y conteo por apellidos es otra transformación útil para analizar los datos:

# Agrupar por apellido y contar
apellido_conteo = datos_actores.groupby('last_name').size().reset_index(name='count')

Y en MySQL, utilizamos GROUP BY:

SELECT last_name, COUNT(actor_id) as count FROM actor GROUP BY last_name;

¿Cómo evaluar datos únicos y estado de actores?

Identificar si un nombre es único y evaluar el estado de un actor basado en su tiempo en la base de datos son transformaciones que pueden ofrecer información valiosa:

# Verificar nombres únicos
datos_actores['unique_name'] = datos_actores['full_name'].duplicated(False)

# Añadir estado del actor
datos_actores['actor_status'] = datos_actores['registration_year'].apply(lambda x: 'Activo' if 2023 - x > 10 else 'Inactivo')

Estos scripts demuestran cómo aprovechar las capacidades tanto de Python como de MySQL para gestionar y transformar datos de forma efectiva. Esta práctica nos permite tener un entendimiento más profundo de los datos y asegurarnos de que están listos para análisis y reportes. ¡Sigue practicando y observa cómo tus habilidades continúan desarrollándose!

Comentarios

Carlos Arteaga

student•

El calculo de si el actor tiene mas de 10 años en la base de datos no se debe abordar con este codigo.

df_filtered['actor_status'] = df_filtered['actor_id'].apply(lambda x: 'Active' if x > 10 else 'Inactive') df_filtered

CASE

WHEN actor_id > 10 THEN 'Active'

ELSE 'Inactive'

END AS actor_status

Ya que este enfoque determina si el actor_id es > 10.

Si se quiere abordar el tema de si es mayor a 10 años con la columna 'last_update' se debe abordar de la siguiente manera

Python.

df_filtered['actor_status'] = (datetime.now().year - df_filtered['registration_year']) > 10 # True si tiene mas de 10 años en la base de datosdf_filtered['actor_status'] = df_filtered['actor_status'].map({True:'Activo', False:'Inactivo'}) # Mapear los valores True y False a 'Activo' e 'Inactivo'df_filtered

Query MySQL

-- Ejercicio 9 Correccion

SELECT

actor_id,

UPPER(first_name) AS first_name,

UPPER(last_name) AS last_name,

last_update,

CONCAT(first_name, ' ', last_name) AS full_name,

CHAR_LENGTH(CONCAT(first_name, ' ', last_name)) AS name_length,

YEAR(last_update) AS registration_year,

CASE

WHEN COUNT(*) OVER (PARTITION BY CONCAT(first_name, ' ', last_name)) = 1 THEN 'TRUE'

ELSE 'FALSE'

END AS is_unique_name,

CASE

WHEN YEAR(CURDATE()) - YEAR(last_update) > 10 THEN 'Active'

ELSE 'Inactive'

END AS actor_status

FROM actor

WHERE first_name LIKE 'A%'

AND CHAR_LENGTH(CONCAT(first_name, ' ', last_name)) > 10;

Enrique Alexis Lopez Araujo

student•

En la clase se abordaron ocho ejercicios de transformación de datos en Python y SQL. A continuación, un resumen en orden:

Filtrar actores: Se filtran actores cuyo nombre empieza con "A".
- Ejemplo: df[df['first_name'].str.startswith('A')]
Crear columna full name: Se concatena el nombre y apellido.
- Ejemplo: df['full_name'] = df['first_name'] + ' ' + df['last_name']
Calcular longitud del nombre: Se crea una columna con la longitud del nombre completo.
- Ejemplo: df['name_length'] = df['full_name'].apply(len)
Convertir a mayúsculas: Se convierten los nombres en mayúsculas.
- Ejemplo: df['first_name'] = df['first_name'].str.upper()
Filtrar por longitud: Se filtran actores con nombres mayores a 10 caracteres.
- Ejemplo: df[df['name_length'] > 10]
Calcular año de registro: Se extrae el año de la fecha de registro.
- Ejemplo: df['registration_year'] = df['last_update'].dt.year
Agrupar por apellido: Se cuenta cuántos actores tienen cada apellido.
- Ejemplo: df.groupby('last_name').size()
Indicar nombre único: Se agrega una columna que indica si el nombre es único.
- Ejemplo: df['is_unique'] = df['full_name'].duplicated(keep=False)

Estos ejercicios son fundamentales para comprender las transformaciones y validaciones en los datos.

BALFRE VAZQUEZ CASTREJON

student•

Veo que hay varios compañeros que indican que es mas sencillo usando Python que SQL, personalmente creo que aplica para diferentes escenarios. Cuando seria mejor hacerlo de un lado o del otro?

Layla Scheli

teacher•

Es relativo :) todo depende de con que herramienta nos sentimos mejor. Saludos!

Karla Verónica Álvarez Vázquez

student•

La transformación de datos con Python implica varias técnicas clave, como filtrar, concatenar y calcular atributos de los datos. En el contexto del curso, empezamos filtrando registros, como aquellos cuyo primer nombre comienza con "A". Luego, creamos nuevas columnas, como "full name", concatenando "first name" y "last name". También calculamos la longitud de nombres y convertimos texto a mayúsculas. Cada transformación se valida con consultas en SQL para asegurar la consistencia de los resultados. Este proceso es fundamental en la ingeniería de datos y ETL.

Enrique Alexis Lopez Araujo

student•

Para realizar un ejercicio similar a los de la clase, aquí tienes un ejemplo en SQL basado en las transformaciones que se vieron:

Filtrar actores cuyo primer nombre comienza con 'A':

SELECT * FROM actor WHERE first_name LIKE 'A%';

Crear una columna full_name:

SELECT actor_id, CONCAT(first_name, ' ', last_name) AS full_name FROM actor;

Contar la longitud del nombre completo:

SELECT actor_id, CONCAT(first_name, ' ', last_name) AS full_name, LENGTH(CONCAT(first_name, ' ', last_name)) AS name_length FROM actor;

Filtrar por longitud del nombre completo mayor a 10:

SELECT * FROM actor WHERE LENGTH(CONCAT(first_name, ' ', last_name)) > 10;

Estos ejemplos reflejan las transformaciones de datos vistas en la clase de Python, adaptadas a SQL.

Enrique Alexis Lopez Araujo

student•

El desafío en la clase fue crear un script en SQL que replicara las transformaciones realizadas previamente en Python. Estas transformaciones incluían filtrar datos, concatenar columnas y calcular longitudes, entre otras.

La solución involucró el uso de consultas SQL como SELECT, JOIN, GROUP BY y funciones de agregación para lograr el mismo resultado que en Python. Por ejemplo:

SELECT 
    CONCAT(first_name, ' ', last_name) AS full_name,
    LENGTH(CONCAT(first_name, ' ', last_name)) AS name_length
FROM actor
WHERE LENGTH(CONCAT(first_name, ' ', last_name)) > 10;

Este código SQL consulta la tabla de actores, concatenando el nombre y apellido y filtrando aquellos que tienen un nombre completo mayor a 10 caracteres.

Mario Alexander Vargas Celis

student•

La transformación de datos es un paso esencial en un flujo ETL. En este proceso, se limpian, modifican y estructuran los datos para que sean útiles y consistentes para su análisis o carga en otro sistema. Python, con su ecosistema de bibliotecas como Pandas, facilita este proceso.

1. Etapas Principales de la Transformación de Datos

a. Limpieza de Datos

Manejo de valores nulos.
Eliminación de duplicados.
Corrección de valores erróneos.

b. Modificación y Estandarización

Cambios en el formato de columnas (fechas, texto, etc.).
Creación de nuevas columnas basadas en datos existentes.
Conversión de tipos de datos.

c. Filtrado y Reducción

Filtrar filas o columnas irrelevantes.
Agrupar y resumir datos.

d. Enriquecimiento

Combinación de datos con otras fuentes.
Cálculo de métricas adicionales.

2. Herramientas en Python para Transformación

La biblioteca Pandas es la herramienta más popular para la manipulación y transformación de datos en Python.

pip install pandas

3. Ejemplo Práctico de Transformación

Supongamos que tienes un conjunto de datos con las ventas de productos en un archivo CSV:

producto,cantidad,precio_unitario,fecha Laptop,2,700,2025-01-01 Mouse,10,20,2025-01-02 Teclado,,50,2025-01-03 Monitor,5,200,2025-01-01

a. Cargar los Datos

import pandas as pd

# Cargar el archivo CSV df = pd.read_csv("ventas.csv")

# Mostrar el DataFrame print(df)

b. Limpieza de Datos

Manejo de Valores Nulos

Reemplazar valores nulos con un valor por defecto:

df['cantidad'].fillna(0, inplace=True)

Eliminar filas con valores nulos:

df.dropna(inplace=True)

Eliminar Duplicados

df.drop_duplicates(inplace=True)

c. Creación de Nuevas Columnas

Agregar una columna total_venta calculada a partir de cantidad y precio_unitario:

df['total_venta'] = df['cantidad'] * df['precio_unitario']

d. Conversión de Tipos de Datos

Convertir la columna fecha a formato de fecha:

df['fecha'] = pd.to_datetime(df['fecha'])

e. Filtrado de Datos

Filtrar productos con un total_venta mayor a 500:

df_filtrado = df[df['total_venta'] > 500]

f. Agrupación y Resumen

Calcular las ventas totales por producto:

ventas_por_producto = df.groupby('producto')['total_venta'].sum() print(ventas_por_producto)

g. Ordenar Datos

Ordenar el DataFrame por total_venta en orden descendente:

df.sort_values(by='total_venta', ascending=False, inplace=True)

4. Transformación Avanzada

a. Aplicar Funciones Personalizadas

Transformar texto, por ejemplo, convertir los nombres de productos a mayúsculas:

df['producto'] = df['producto'].apply(lambda x: x.upper())

b. Combinar DataFrames

Unir datos de dos DataFrames (ejemplo: categorías de productos):

categorias = pd.DataFrame({ 'producto': ['Laptop', 'Mouse', 'Teclado', 'Monitor'], 'categoria': ['Electrónica', 'Accesorios', 'Accesorios', 'Electrónica'] })

df = pd.merge(df, categorias, on='producto', how='left')

c. Pivot Tables

Crear una tabla dinámica para analizar las ventas por fecha:

pivot = df.pivot_table( values='total_venta', index='fecha', columns='producto', aggfunc='sum', fill_value=0 ) print(pivot)

5. Guardar los Datos Transformados

Guarda el DataFrame transformado en un archivo CSV o Excel:

df.to_csv("ventas_transformadas.csv", index=False) df.to_excel("ventas_transformadas.xlsx", index=False)

6. Código Completo

import pandas as pd

# Cargar datos df = pd.read_csv("ventas.csv")

# Limpieza df['cantidad'].fillna(0, inplace=True) df['fecha'] = pd.to_datetime(df['fecha'])

# Transformaciones df['total_venta'] = df['cantidad'] * df['precio_unitario'] df.sort_values(by='total_venta', ascending=False, inplace=True)

# Agrupación ventas_por_producto = df.groupby('producto')['total_venta'].sum()

# Guardar df.to_csv("ventas_transformadas.csv", index=False)

7. Siguientes Pasos

Integración: Integra las transformaciones en un flujo ETL completo.
Optimización: Usa herramientas como Dask para manejar grandes volúmenes de datos.
Automatización: Configura tareas programadas con Python para automatizar la transformación.

Iris Aguilar

student•

Me encantó el desafío de generar el SQL equivalente a las transformaciones realizadas en Python.

Layla Scheli

teacher•

Es muy aplicativo :) Un saludo!

Carlos Francisco Contreras Ruiz

student•

Si queremos usar las fechas en lugar de los id para el actor_status podriamos hacerlo asi

def getActorStatus(datetime):
    actorYear = pd.to_datetime(datetime).year
    currentYear = datetime.now().year
    if(currentYear-actorYear > 10):
        return 'SENIOR'
    return 'ROOKIE'

df_filtered['actor_status'] = df_filtered['last_update'].apply(getActorStatus)
df_filtered

Sergio de Jesús Huesca Nieva

student•

Para los queries donde se ocupa: CASE WHEN COUNT(*) OVER (PARTITION BY CONCAT(first_name, ' ', last_name)) = 1 THEN 'TRUE' ELSE 'FALSE' END AS is_unique_name

Se hace de este modo para no realizar un group by sobre los demas campos y solo hacer el calculado dentro del case??

Layla Scheli

teacher•

Hola Sergio exactamente, es una alternativa. La mas simple de todas :) Saludos!

JEAN BERNAL

student•

Me pregunté:

¿Y si quiero saber la longitud real del nombre? Es decir, contar solo letras, sin espacios.

Y así obtuve este código:

import re
df_filtered['name_length'] = df_filtered['full_name'].apply(lambda x: len(re.sub(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑ]', '', x)))
df_filtered

Este código reemplaza cualquier carácter que NO sea una letra mayúscula o minúscula del alfabeto inglés o una vocal con tilde o la ñ/Ñ. Es un código útil para saber cuántas letras hay en especifico.

Sin embargo, hay otras formas de contar los caracteres de full_name sin contar los espacios, como:

df_filtered['name_length'] = df_filtered['full_name'].str.replace(' ', '').apply(len)
df_filtered

Pero con este código, si en la fila de full_name está un '.' o un '-' u otro carácter distinto a un espacio (' '), lo contará, por eso prefiero al primer código, además de que es editable, es decir, puedo especificarle qué carácter contar.

Ronald Reyes Largo

student•

Para el calcula en sql del ejercio 9

CASE

WHEN YEAR(last_update)-YEAR(sysdate()) > 10 THEN 'ACTIVE'

ELSE 'INACTIVE'

END AS actor_status

Heber Marin

student•

Un detalle, los nombres y apellidos ya estaban en mayusculas.

Ingrid Tatiana Bonilla Lara

student•

El código en python es mucho mas sencillo y corto, es muy interesante ver como se llega a los mismos resultados que en SQL de forma mas eficiente

Layla Scheli

teacher•

Gracias Ingrid :) enhorabuena!

def getActorStatus(datetime):
    actorYear = pd.to_datetime(datetime).year
    currentYear = datetime.now().year
    if(currentYear-actorYear > 10):
        return 'SENIOR'
    return 'ROOKIE'

df_filtered['actor_status'] = df_filtered['last_update'].apply(getActorStatus)
df_filtered

Transformaciones de Datos con Python y SQL

Fundamentos de ETL con Python

Procesos ETL: Extracción, Transformación y Carga de Datos

Manipulación de Datos con Python: De CSV a ETL Completo

Fuentes de Datos: Archivos, Bases de Datos y APIs en Análisis de Ventas

Instalación de Anaconda y Jupyter para Procesamiento de Datos

Técnicas Efectivas de Transformación de Datos

Lectura y Exploración de Archivos CSV con Pandas en Python

Manejo de Archivos Excel con Pandas para Procesos ETL

Ingesta de Datos desde APIs con Python

Conexión y consulta de bases de datos en Python con SQLite3 y SQLAlchemy

Series y DataFrames en Pandas: Diferencias y Usos Prácticos

Métricas Clave en el Perfilado de Datos para Análisis de Calidad

Limpieza de Datos en Python con Pandas

Filtrado, Selección y Transformación de Datos con Pandas

Agrupación y Resumen de Datos con Pandas

Manipulación Avanzada de Datos con Python y Pandas

Carga de Datos y Proyecto Final

Exportación de DataFrames a CSV con Pandas paso a paso

Gestión de Datos: Carga Completa vs. Carga Incremental en Python

Partición de Datos en Archivos CSV con Pandas

Carga Incremental de Datos en Archivos Excel con Python

Importación de la Base de Datos Sakila en MySQL Workbench

Transformaciones de Datos ETL con Python y MySQL

Transformaciones de Datos con Python y SQL

Buenas prácticas y errores comunes en procesos ETL

Carga y Validación de Datos en Sakila ETL con Python y SQL

Fundamentos de ETL con Python: Extracción, Transformación y Carga de Datos