Rol y Funciones del Data Engineer en Procesos ETL
Clase 11 de 15 • Guía para Empezar una Carrera en Data Science e Inteligencia Artificial
Resumen
La Data Engineer es la encargada de tomar los datos crudos, pero de valor, para transformarlos, organizarlos y almacenarlos en las bases de datos, por medio de la producción de pipelines ETL, que tienen como objetivo abastecer de materia prima o datos a los demás roles, para que ejecuten su trabajo.

Día a día de una Data Engineer
Los procesos que más se repiten en el rol de una Data Engineer son los siguientes:
- Desarrolla y mantiene pipelines de ETL y bases de datos, para transformar los datos crudos
- Extraer datos de diferentes fuentes, ya sean internas o externas. Lo importante es que sean de valor para el negocio
- Transformar los datos crudos para el análisis, ya que estos en su forma original no se pueden analizar
- Almacenar datos limpios en bases de datos especializadas para el análisis. Debido a que las bases de datos usadas en producción suelen ser OLTP (Online Transactional Processing) y si se hacen análisis en estas se pueden romper. Por lo tanto, los datos se deben transportar a bases de datos OLAP (Online Analytical Procesing)
- Crear automatizaciones para que los datos estén constantemente actualizados
Proceso ETL
Extract, Transorm and Load o Extraer, Transformar y Cargar, es uno de los procesos más utilizados para la transformación de los datos, es como el proceso de tomar un diamante en bruto y convertirlo en uno procesado y listo para vender.
Extract o extracción
Importar datos de diversas fuentes, ya sea internas como externas, mientras sean de valor para la organización. Estos puede venir con distintas estructuras y formatos.
Transform o transformación
Todos los datos ya recopilados deben de situarse en una estructura común y limpia que facilite su análisis.
Load o carga
Luego de que los datos se encuentren limpios, estos deben almacenarse en bases de datos OLAP que faciliten la consulta y análisis de los mismos.
Roles relacionados
Dentro del mundo de la Data hay ciertas variaciones en el rol de Data Engineer, que se enfocan o especializan en ciertas actividades clave para el flujo de datos, como por ejemplo:
Data Architect
Se encarga de plantear estrategias de datos dentro de la organización, mediante la revisión de estándares de calidad, tratamiento de flujo de los datos y seguridad de estos.
Big Data Architect
Trabaja con Big Data, las 5V’s de los datos.
Conclusión
A modo de cierre, diremos que una Data Engineer se encarga de saber dónde está la información valiosa para el negocio, entender las herramientas con las cuales se debe hacer el transporte de los datos y hacer las conexiones para abastecer de información al resto del equipo de Data.
Contribución creada por: Ismael H.