Transformación de datos de países

Clase 10 de 25 • Curso de Fundamentos de ETL con Python y Pentaho

Contenido del curso

Introducción a ETL

Extracción de datos

Transformación de datos

Carga de datos

ETL con Pentaho

Conclusión

Tomar examen

Resumen

¿Cómo transformamos y limpiamos datos de países en ETL?

En el ámbito de transformación de datos, las ETL (Extracción, Transformación y Carga) permiten mejorar la calidad y la coherencia de los datos antes de utilizarlos para análisis. Hoy exploraremos cómo transformar y limpiar los datos relacionados con países, y cómo integrar esta información en DataFrames para enriquecer el análisis.

¿Cómo creamos un identificador único para los registros?

Un paso crucial en la organización de datos es la asignación de identificadores únicos. Este proceso garantiza que cada registro sea distinto y fácil de identificar en un dataset extenso. Aquí se realizó de la siguiente manera:

df_codes['id_code'] = df_codes.index + 1

Asignación de índice: Se utiliza el índice del DataFrame incrementado en uno para evitar problemas cuando los índices comienzan desde cero.
Conversion a entero: Transformamos los códigos a un formato numérico, asegurando el uso de enteros de 64 bits para mantener la consistencia.

¿Cómo limpiamos los datos de países?

Una vez que tenemos identificadores únicos, se aborda la limpieza de datos para garantizar que solo la información relevante se retenga:

Selección de columnas importantes: De un dataset de países, se seleccionan las columnas como alfa3, country, región y subregión que son relevantes para el análisis.
Filtrado de datos nulos: Los registros donde alfa3 es nulo se eliminan ya que esta columna es fundamental para cruce de datos.

df_countries = df_countries[['alfa3', 'country', 'region', 'subregion']]
df_countries = df_countries[df_countries['alfa3'].notnull()]

¿Cómo realizamos un merge de DataFrames en Postgres?

Para una integración efectiva, se llevó a cabo el merge entre los DataFrames de productos y países con los datos de transacciones, utilizando pandas.merge. Esto permite enriquecer información e interrelacionar datasets.

df_trace_clean = df_trace.merge(
  df_codes[['cleanCode', 'id']],
  how='left',
  left_on='comCode',
  right_on='cleanCode'
)

Merge de productos: Utilizando cleanCode y id para sincronizar códigos.
Merge de países: Similarmente, las columnas alfa3 e idCountry son cruciales.

La clave está en utilizar un left join para combinar los DataFrames, asegurando que todos los valores de df_trace se mantengan, y ubicando información relevante adicional desde los DataFrames de códigos y países.

¿Por qué es importante enriquecer los registros?

El enriquecimiento de datos es esencial para mejorar la calidad de los análisis posteriores. En este caso, tener identificadores únicos y filtrar registros relevantes permite:

Asociar cada transacción a un producto y un país específico.
Acceder a información enriquecida como el nombre del país, región, subregión y la categoría de los productos.
Facilitar consultas y análisis más profundos y precisos.

La transformación y limpieza de datos es un paso fundamental para refinar y preparar datasets antes de cualquier análisis avanzado. Esta técnica respalda la toma de decisiones informada basada en datos estructurados y accesibles. Continúa aprendiendo sobre técnicas avanzadas de ETL y cómo pueden optimizar tus procesos de análisis de datos. ¡Adelante y sigue transformando los datos en valor!

Comentarios

Edwin Uldarico Hernandez Osorio

student•

No debería atender a los Warnings que le saltan en pantalla ? al menos leerlo y decir por que en ese caso lo puede ignorar

Alberto Fleitas

student•

Estoy de acuerdo

Jorge Alain Garcia Chavero

student•

nah

Carlos Eduardo Bracho Rosales

student•

Clase del curso de pandas Merge y Concat
Merge en la documentacion de pandas

Juan Sebastián Vargas Castañeda

student•

Merge

df_trades_clean = df_trades.merge(df_codes[['clean_code', 'id_code']], how='left', left_on='comm_code', right_on='clean_code')

Equivaldría (excepto por el SELECT que trae todo, df_codes solo trae dos columnas):

SELECT *
FROM df_trades
LEFT JOIN df_codes
ON df_trades.comm_code = df_codes.clean_code

Juan Sebastián Vargas Castañeda

student•

Al hacer df_codes.index te retorna una arreglo de los índices actuales del data frame.

Por tanto al hacer:

df_codes['id_code'] = df_codes.index + 1

Crea una nueva columna con estos índices pero +1.

Nicolás Muriel

student•

En data warehousing es muy comun la creacion de identificadores unicos, sin embargo en SQL esto es mas complicado que utilizar los indeces de pandas.

Yo recomiendo mucho utilizar surrogate keys, que es pasar una llave natural, o si no hay, pasar una concatenacion de las columnas y convertirlo a un string como llave artificial.

Aqui un poco mas de informacion de esto https://docs.getdbt.com/blog/sql-surrogate-keys

Esto es muy importante cuando estamos haciendo data modeling.

Jorge Eliécer Cárdenas Cruz

student•

Considero que la forma de generar el código único no es escalable para soluciones donde existen cargas incrementales incluso en dimensiones o dimensiones que se alimentan de dos fuentes diferentes, ¿Cual técnica se puede emplear para generar estos id únicos respetando lo que ya se tiene en las tablas del destino?

Andres Giraldo Maya

student•

Hola, repito a moto de pregunta, se puede hacer el proceso de ETL con SQL fuera de un motor de base de datos? muchas gracias! 🙏?

Andres Giraldo Maya

student•

Hola, tengo una consulta, todo este proceso de transformacion que sigue y hacemos con Python, también se podría hacer con SQL? estando así fuera de un motor de base de datos. saludos, muchas gracias!

Camilo Granda Gómez

student•

No puedo hacer el merge. Se queda cargando infinitamente :(

Javier Hugo Noto Enriquez

student•

A fines prácticos, te recomiendo solo cargar 50mil o 100mil columnas de postgres, en total me parece que tiene 12millones de registros, y todo eso se va cargando en la RAM. Con menos registros seguro que las ejecuciones si darán

Cristhian Eduardo Ninanya Cerron

student•

Buen dato, solo para fines didácticos, importe 10K desde PostgreSQL.

Enrique Alexis Lopez Araujo

student•

En el contexto de transformación de datos y ETL, los comandos más importantes de la clase se resumen a continuación:

DataFrame: Estructura de datos en pandas que almacena datos en forma de tabla, similar a una hoja de cálculo.
index: Hace referencia al índice de cada fila en el DataFrame. Se utiliza para identificar registros únicos.
astype(): Método que cambia el tipo de datos de una columna, por ejemplo, convertir un código a entero.
merge(): Combina dos DataFrames basándose en columnas comunes, lo que permite relacionar diferentes conjuntos de datos.
left join: Tipo de combinación que incluye todos los registros del DataFrame izquierdo y solo los coincidentes del derecho.

Estos comandos son esenciales para limpiar, transformar y combinar datos en la preparación para análisis o modelado.

Camilo Castañeda

student•

En la clase se abordó la transformación de datos de países en un flujo ETL. Se creó un identificador único para un DataFrame y se filtraron columnas relevantes. Se realizó un merge entre el DataFrame de transacciones y los códigos de productos y países, enriqueciendo los datos con información adicional como nombres de países y regiones.

Transformación de datos de países

Introducción a ETL

¿Qué es un ETL en ingeniería de datos?

Conceptos base de ETL

Consideraciones de ETL

Servicios y herramientas para ETL

Extracción de datos

Sources

Configuración de base de datos source y entorno para ETL en Python

Extracción de datos con Python y Pandas

Transformación de datos

Transformación

Transformación de datos con Python y Pandas

Transformación de datos de países

Transformación de datos de transacciones

Carga de datos

Carga

Configuración de clúster en AWS Redshift

Crear tablas en AWS Redshift

Carga de datos con Python

Estructurar sentence para carga de datos de S3 a Redshift

Carga de datos: subida de archivos a AWS Redshift

ETL con Pentaho

Instalación de Pentaho

Extracción de datos con Pentaho

Transformación de datos con Pentaho

Transformación de datos con Pentaho: parte 2

Transformación de datos con Pentaho: parte 3

Carga de datos con Pentaho

Conclusión

Siguientes pasos

Comparte tu proyecto de ETL y obtén tu certificado