Rol y Funciones del Data Engineer en Procesos ETL

Clase 11 de 15Guía para Empezar una Carrera en Data Science e Inteligencia Artificial

Resumen

La Data Engineer es la encargada de tomar los datos crudos, pero de valor, para transformarlos, organizarlos y almacenarlos en las bases de datos, por medio de la producción de pipelines ETL, que tienen como objetivo abastecer de materia prima o datos a los demás roles, para que ejecuten su trabajo.

Multiples conexiones de luz en un fondo violeta oscuro.

Día a día de una Data Engineer

Los procesos que más se repiten en el rol de una Data Engineer son los siguientes:

  • Desarrolla y mantiene pipelines de ETL y bases de datos, para transformar los datos crudos
  • Extraer datos de diferentes fuentes, ya sean internas o externas. Lo importante es que sean de valor para el negocio
  • Transformar los datos crudos para el análisis, ya que estos en su forma original no se pueden analizar
  • Almacenar datos limpios en bases de datos especializadas para el análisis. Debido a que las bases de datos usadas en producción suelen ser OLTP (Online Transactional Processing) y si se hacen análisis en estas se pueden romper. Por lo tanto, los datos se deben transportar a bases de datos OLAP (Online Analytical Procesing)
  • Crear automatizaciones para que los datos estén constantemente actualizados

Proceso ETL

Extract, Transorm and Load o Extraer, Transformar y Cargar, es uno de los procesos más utilizados para la transformación de los datos, es como el proceso de tomar un diamante en bruto y convertirlo en uno procesado y listo para vender.

Extract o extracción

Importar datos de diversas fuentes, ya sea internas como externas, mientras sean de valor para la organización. Estos puede venir con distintas estructuras y formatos.

Transform o transformación

Todos los datos ya recopilados deben de situarse en una estructura común y limpia que facilite su análisis.

Load o carga

Luego de que los datos se encuentren limpios, estos deben almacenarse en bases de datos OLAP que faciliten la consulta y análisis de los mismos.

Roles relacionados

Dentro del mundo de la Data hay ciertas variaciones en el rol de Data Engineer, que se enfocan o especializan en ciertas actividades clave para el flujo de datos, como por ejemplo:

Data Architect

Se encarga de plantear estrategias de datos dentro de la organización, mediante la revisión de estándares de calidad, tratamiento de flujo de los datos y seguridad de estos.

Big Data Architect

Trabaja con Big Data, las 5V’s de los datos.

Conclusión

A modo de cierre, diremos que una Data Engineer se encarga de saber dónde está la información valiosa para el negocio, entender las herramientas con las cuales se debe hacer el transporte de los datos y hacer las conexiones para abastecer de información al resto del equipo de Data.

Contribución creada por: Ismael H.