No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

¿Qué hace una Data Engineer?

11/15
Recursos

La Data Engineer es la encargada de tomar los datos crudos, pero de valor, para transformarlos, organizarlos y almacenarlos en las bases de datos, por medio de la producción de pipelines ETL, que tienen como objetivo abastecer de materia prima o datos a los demás roles, para que ejecuten su trabajo.

Multiples conexiones de luz en un fondo violeta oscuro.

Día a día de una Data Engineer

Los procesos que más se repiten en el rol de una Data Engineer son los siguientes:

  • Desarrolla y mantiene pipelines de ETL y bases de datos, para transformar los datos crudos
  • Extraer datos de diferentes fuentes, ya sean internas o externas. Lo importante es que sean de valor para el negocio
  • Transformar los datos crudos para el análisis, ya que estos en su forma original no se pueden analizar
  • Almacenar datos limpios en bases de datos especializadas para el análisis. Debido a que las bases de datos usadas en producción suelen ser OLTP (Online Transactional Processing) y si se hacen análisis en estas se pueden romper. Por lo tanto, los datos se deben transportar a bases de datos OLAP (Online Analytical Procesing)
  • Crear automatizaciones para que los datos estén constantemente actualizados

Proceso ETL

Extract, Transorm and Load o Extraer, Transformar y Cargar, es uno de los procesos más utilizados para la transformación de los datos, es como el proceso de tomar un diamante en bruto y convertirlo en uno procesado y listo para vender.

Extract o extracción

Importar datos de diversas fuentes, ya sea internas como externas, mientras sean de valor para la organización. Estos puede venir con distintas estructuras y formatos.

Transform o transformación

Todos los datos ya recopilados deben de situarse en una estructura común y limpia que facilite su análisis.

Load o carga

Luego de que los datos se encuentren limpios, estos deben almacenarse en bases de datos OLAP que faciliten la consulta y análisis de los mismos.

Roles relacionados

Dentro del mundo de la Data hay ciertas variaciones en el rol de Data Engineer, que se enfocan o especializan en ciertas actividades clave para el flujo de datos, como por ejemplo:

Data Architect

Se encarga de plantear estrategias de datos dentro de la organización, mediante la revisión de estándares de calidad, tratamiento de flujo de los datos y seguridad de estos.

Big Data Architect

Trabaja con Big Data, las 5V’s de los datos.

Conclusión

A modo de cierre, diremos que una Data Engineer se encarga de saber dónde está la información valiosa para el negocio, entender las herramientas con las cuales se debe hacer el transporte de los datos y hacer las conexiones para abastecer de información al resto del equipo de Data.

Contribución creada por: Ismael H.

Aportes 259

Preguntas 20

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Encontré dos que me resultaron muy interesantes:

Me pareció genial esta imagen que encontre para tener un mapeo de las habilidades que se requieren en los diferentes roles del DS:

“ETL describe el proceso de extremo a extremo mediante el cual una empresa toma la totalidad de los datos, estructurados y no estructurados administrados por cualquier cantidad de equipos en cualquier parte del mundo, y los lleva a un estado útil para los fines empresariales” (Google Cloud)
.
ETL architecture for cloud-native data warehousing on GCP

Dia a día de una Data Engineer

  • Data pipelines de ETL y bases de datos (mantiene, crea y desarrolla).

  • Extrae datos de diferentes fuentes (internas o externas de la organización).

  • Transforma los datos (limpieza).

  • Los almacena en bases de datos especializadas para análisis.

No podemos utlizar las bases de datos que funcionan en los sistemas de producción de software (usados por la empresa para trabajar o usados por clientes) porque estas son transaccionales (OLTP) y no están diseñadas para consultar o extraer datos de manera muy frecuente. Si las usamos para buscar datos como Data Scientist y/o Data Analyst vamos a causar que el sistema deje de funcionar.
Para este fin podemos usar bases de datos especializadas (OLAP)

Información resumida de esta clase
#EstudiantesDePlatzi

  • La Data Engineer toma los datos, los organiza y los limpia para el análisis

  • La Data Engineer busca automatizar los procesos de ETL = Extraer, Transformar y Cargar (Load)

Me gusta que los profes hablen con terminaciones “AS” a modo inclusivo. ejem: Ingenieras, científicas, etc 😃

El lenguaje también construye!

Mis apuntes #15 (Notion)

un dia a dia del Data Engineer

Ok… he sido un Data Analyst 5 años sin saberlo 😂😂😂😂😂

Me parece que cada fase del proceso ETL implica mas trabajo de lo que pense…

Mis Apuntes Notion, Data Engineer

accede aquí

¿Qué hace?

Datos crudos → Data Engineer → Datos limpios para análisis

Trabaja para que el equipo tenga datos para análisis

Crea pipelines ETL: Extracción, transformación y carga

Día a día

  • Data pipelines, ETL y bases de datos.
  • Extraer datos de diferentes fuentes.
  • Transformar los datos para análisis.
  • Bases de datos especializadas para análisis.
  • Crear automatizaciones para ETL.

Roles relacionados

  • Data Architect
  • Big Data Architect.

Yo les paso no solo una imagen, sino un artículo para complementar la clase 😃
Procesos ETL: cómo obtener valor de los datos

Qué hace un Data Engineer?

  • Desarrolla y mantiene pipelines de ETL y bases de datos, para transformar los datos crudos.
  • Extraer datos de diferentes fuentes, ya sean internas o externas. Lo importante es que sean de valor para el negocio.
  • Transformar los datos crudos para el análisis, ya que estos en su forma original no se pueden analizar.
  • Almacenar datos limpios en bases de datos especializadas par el análisis. Debido a que las bases de datos usadas en producción suelen ser OLTP (Online Transactional Processing) y si se hacen análisis es estas se pueden romper. Por lo tanto, los datos se deben transportar a bases de datos OLAP (Online Analytical Processing).
  • Crear automatizaciones para que los datos estén constantemente actualizados.

Proceso ETL (Extract, Transform and Load)

  • Extract: Importar datos de diversas fuentes, ya sea internas o externas, mientras sean de valor para la organización. Estos pueden venir en diferentes formatos y estructuras.
  • Transform: Todos los datos ya recopilados deben situarse en una estructura común y limpia que facilite su análisis.
  • Load: Luego de que los datos se encuentren limpios, estos deben almacenarse en bases de datos OLAP que faciliten la consulta y análisis de los mismos.

Una Data Engineer es un profesional que se encarga de diseñar, construir, mantener y optimizar la infraestructura de datos que se utiliza para recopilar, almacenar y procesar grandes cantidades de datos. Su trabajo se centra en garantizar que los datos sean accesibles, confiables, seguros y escalables para que los científicos de datos y analistas puedan trabajar con ellos de manera efectiva.

Las responsabilidades de un Data Engineer pueden incluir:

  1. Recopilación de datos: diseñar y construir sistemas y procesos para recopilar datos de diferentes fuentes, como bases de datos, archivos, sensores, redes sociales, entre otros.

  2. Almacenamiento de datos: implementar y mantener sistemas de almacenamiento de datos como bases de datos, data lakes o data warehouses, asegurando que sean escalables, seguros y eficientes.

  3. Procesamiento de datos: crear pipelines de procesamiento de datos que permitan limpiar, transformar y combinar los datos de diferentes fuentes para que sean utilizables en el análisis.

  4. Monitoreo y mantenimiento de la infraestructura: garantizar que la infraestructura de datos esté en funcionamiento, sea segura y esté disponible para los usuarios en todo momento. Esto puede incluir el monitoreo del rendimiento, la resolución de problemas y la implementación de medidas de seguridad.

  5. Optimización de la infraestructura: buscar maneras de mejorar la eficiencia y escalabilidad de la infraestructura de datos, como la implementación de nuevas tecnologías o el ajuste de la configuración existente.

En resumen, el trabajo de un Data Engineer es crucial para garantizar que los científicos de datos y analistas tengan acceso a datos de calidad, seguros y escalables que puedan utilizar para generar información valiosa y tomar decisiones informadas.

Entonces, toda organización que pretenda implementar el análisis de datos deberá en primera instancia tener un ingeniero de datos para que estructure el sistema de recolección de datos y luego puedan ser utilizados por los demás roles en Data. Es así, o me estoy equivocando? Agradezco muchísimo sus comentarios.

Encontré un diagrama de ETL usado para una planta de procesamiento y me parece muy interesante:

Esta es una manera de cargar datos a través de la industria de manufacturación.

Les dejo por aquí una página donde explica muy bien todo este proceso de ETL (Proceso de extracción, trasformación y carga). Me pareció muy interesante como es todo este proceso, espero que les sirva.

https://docs.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl

me pareció interesante esta gráfica de ETL:

Las 5 V de los datos: * Volumen * Velocidad * Variedad * Veracidad * Valor
Un Data Engineer es responsable de diseñar, construir y mantener los sistemas de datos y pipelines que permiten a una organización almacenar, procesar y acceder a grandes volúmenes de datos de manera eficiente y escalable. Algunas de las tareas específicas que realiza un Data Engineer incluyen: 1. **Diseño de arquitecturas de datos:** Desarrollar y mantener arquitecturas de datos escalables y eficientes para satisfacer las necesidades de la empresa en términos de almacenamiento y procesamiento de datos. 2. **Desarrollo de pipelines de datos:** Crear y mantener pipelines de datos que transfieren, transforman y cargan datos desde diversas fuentes a sistemas de almacenamiento como bases de datos o data lakes. 3. **Integración de datos:** Asegurar la integridad y la calidad de los datos al integrar y limpiar datos de diferentes fuentes y formatos. 4. **Optimización de rendimiento:** Mejorar el rendimiento de los sistemas de datos mediante la optimización de consultas, la gestión de índices y la configuración de sistemas de almacenamiento. 5. **Seguridad de datos:** Garantizar la seguridad y privacidad de los datos mediante el uso de técnicas de encriptación y control de acceso. 6. **Colaboración con equipos de data science y analytics:** Trabajar en estrecha colaboración con equipos de data science y analytics para comprender y satisfacer sus necesidades de datos.

Las 5V del Big data:

  1. Volumen: Las técnicas de Big Data se caracterizan por el tratamiento de grandes cantidades de datos. Esta técnica permite recopilar y analizar grandes bolsas de datos, incluso con millones de registros

  2. Velocidad: Los datos se generan a una gran velocidad. Muchos de ellos quedarán obsoletos en poco tiempo y perderán su valor cuando aparezcan otros más recientes. El reto para las empresas será reaccionar lo más rápido posible y almacenar esos datos antes de que pierdan valor.

  3. Variedad: Existen múltiples fuentes de datos digitales que responden a distintos tipos de formato: datos numéricos, direcciones postales, teléfonos, patrones, ubicaciones geográficas, productos de interés en texto, etc. Esta gran variedad en cuanto a la naturaleza de los datos hace que sea necesario unificarlos y ponerlos en común para que sean fácilmente analizables.

  4. Veracidad: El objetivo último del Big Data es que la toma de decisiones del negocio esté basada en datos reales. De ahí que la veracidad sea uno de los pilares fundamentales del Big Data.

  5. Valor: Se refiere a obtener la verdadera utilidad de los datos adecuados para enfocarlos al negocio. Esto significa que es necesario elegir cuáles son los registros más apropiados para su tratamiento, ser selectivos y tener en cuenta su vinculación real.

Esta me pareció interesante


Encontré este diagrama

imagino que en la parte del ordenamiento, todos deben de cumplir con la misma cantidad de características, por ejemplo las columnas donde se ordene cada característica

y Me surgen mil dudas, como la diferenciación de los datos confidenciales, no confidenciales, personales, delicados, etc…
el indexamiento de cada uno, son datos de personas? de transacciones?

ordenamiento? a la hora de extraerlos como ordenarlos, como ocultar nombres de personas para no relacionar los datos personales con caras o nombres y trabajar con datos anónimos?

cláusulas de confidencialidad y uso o manejo de datos, cómo ligan los contratos de los usuarios o los avisos de privacidad para que el data engineer los tengaa en consideración…

y maaas…
ya me llegó la sed y curiosidad de aprender, lo que creo es bueno para continuar con el curso y espero ir respondiendo a las preguntas más adelante…

Me pareció interesante lo que publican en IBM respecto al tema.
https://www.ibm.com/cloud/learn/etl

Segun microsoft,

“Extracción, transformación y carga (ETL) es una canalización de datos que se usa para recopilar datos de varios orígenes. A continuación, transforma los datos según las reglas de negocio y los carga en un almacén de datos de destino. El trabajo de transformación en ETL tiene lugar en un motor especializado y, a menudo, implica el uso de tablas de almacenamiento provisional para conservar los datos temporalmente a medida que estos se transforman y, finalmente, se cargan en su destino.”

La Data Engineer transforma, organiza y almacena datos crudos a través de pipelines ETL para que otros roles puedan analizarlos. Sus tareas incluyen extraer datos de diversas fuentes, limpiarlos, almacenarlos en bases OLAP y automatizar procesos para mantenerlos actualizados. Usa el proceso ETL (Extraer, Transformar y Cargar) para estructurar datos y facilitar su análisis. Roles relacionados incluyen el Data Architect, que define estrategias de datos, y el Big Data Architect, especializado en grandes volúmenes de datos. En resumen, la Data Engineer gestiona y optimiza el flujo de datos para la toma de decisiones.
![](https://static.platzi.com/media/user_upload/image-b63d7ef8-8aa0-4468-a054-950d9fe9418f.jpg) ![](https://static.platzi.com/media/user_upload/image-e34aa795-f71b-4bb2-8a75-96d50be33037.jpg)
Los **pipelines** son secuencias de procesos que transforman datos desde su forma cruda hasta un formato utilizable para análisis. En el contexto de una **Data Engineer**, los pipelines ETL (Extracción, Transformación y Carga) son fundamentales. Estos se encargan de extraer datos de diversas fuentes, procesarlos para limpiarlos y transformarlos, y finalmente cargarlos en bases de datos especializadas (OLAP) para su análisis. Esto permite que otros miembros del equipo de Data Science trabajen con datos limpios y estructurados.
En el video min 4:04 y en el resumen hacen referencia a las 5V's de los Datos, sin embargo no se enuncian hasta el resumen del final del curso. Como solucion rapida sugiero agregarla en el resumen de este modulo. Sin embargo aqui las señalo para quienes les pueda ser de utilidad: ¿Qué es Big Data?  Una gran cantidad de datos que deben cumplir con las 5V’s: * Volumen * Velocidad * Variedad * Veracidad * Valor
![](https://static.platzi.com/media/user_upload/image-2dfde030-bcd3-4da8-b11b-dc3e34468f73.jpg)
Tienen que leer este artículo: <https://aws.amazon.com/what-is/etl/>
![](https://static.platzi.com/media/user_upload/image-c4df7321-9837-4ed4-aaf1-33bf98a96712.jpg) Este diagrama me parece que resume muchas cosas de ETL
Mi aporte: * **Data Engineer**: Diseña, construye y mantiene la infraestructura de datos, asegurando que los datos estén disponibles, limpios y accesibles para su análisis y modelado. * **Data Analyst**: Analiza los datos mediante herramientas y técnicas estadísticas para extraer insights y generar reportes que ayuden en la toma de decisiones empresariales. * **Data Scientist**: Desarrolla y aplica modelos de machine learning y técnicas avanzadas de análisis para resolver problemas complejos, haciendo predicciones y generando valor a partir de los datos.
En ejemplo de Microsoft se puede observar la misma similitud del diagrama ETL, solo que no específica el tipo de datos que se extraen ni el load. ![](https://static.platzi.com/media/user_upload/etl-fe181ef0-4b3e-4f88-a451-d3d351296eac.jpg)
En resumen, las bases de datos transaccionales no son adecuadas para el análisis de Big Data debido a su falta de escalabilidad, flexibilidad y eficiencia para procesar grandes conjuntos de datos. La expresión "romper la base de datos" puede referirse tanto a un error en una base de datos transaccional como a la necesidad de adoptar nuevas tecnologías para el análisis de Big Data.
![](https://static.platzi.com/media/user_upload/image-3113bcbe-7978-45b8-b36c-86c01d671264.jpg) <https://www.astera.com/es/type/blog/etl-batch-processing/>
<https://www.informatica.com/resources/articles/what-is-etl.html> ![](https://www.informatica.com/content/dam/informatica-com/en/images/misc/etl-process-explained-diagram.png)
![](https://static.platzi.com/media/user_upload/image-3d8a5f62-51e7-4ad9-9e8e-e08befd40185.jpg)
Además de los procesos de ETL, un Data Engineer también puede desempeñarse en los siguientes roles: * **Construcción y mantenimiento de almacenes de datos**: Crean la arquitectura que permite almacenar y gestionar grandes volúmenes de datos. * **Desarrollo de pipelines de datos**: Automatizan el flujo de datos entre sistemas. * **Optimización del rendimiento**: Mejoran la eficiencia y velocidad de las consultas y procesos de datos. * **Gestión de metadatos**: Aseguran que la información sobre los datos sea accesible y comprensible. * **Seguridad de los datos**: Implementan medidas para proteger los datos contra accesos no autorizados. Y encontré una imagen que está bastante interesante. Es simple y se puede ver claramente los roles que cumple un D.E dentro de una empresa. La dejo a continuación: ![](https://static.platzi.com/media/user_upload/Data%20Engineer%20Role-7654352e-56e9-4a3f-b144-a43e511d45e9.jpg)
Las 5 V's o 5 B's en big data son un marco de trabajo conceptual que describe las características principales y los desafíos que implica trabajar con grandes volúmenes de datos. Estas 5 V's son: 1. Volumen (Volume): Se refiere a la gran cantidad de datos que se generan y procesan, que puede llegar a petabytes o exabytes. El volumen masivo de datos es uno de los principales impulsores del big data. 2. Velocidad (Velocity): Hace referencia a la velocidad a la que se generan, procesan y analizan los datos. Los datos pueden ser generados en tiempo real y deben ser procesados y analizados rápidamente. 3. Variedad (Variety): Los datos pueden provenir de diversas fuentes y presentarse en diferentes formatos estructurados (bases de datos), semi-estructurados (archivos XML, JSON, etc.) y no estructurados (correos electrónicos, documentos, imágenes, videos, etc.). 4. Veracidad (Veracity): Se refiere a la calidad, precisión e integridad de los datos. Los datos pueden contener errores, inconsistencias o estar incompletos, por lo que es necesario realizar procesos de limpieza y validación. 5. Valor (Value): Alude al valor que se puede extraer de los datos mediante el análisis y la obtención de información útil y conocimientos que aporten una ventaja competitiva para la toma de decisiones.
![](https://static.platzi.com/media/user_upload/image-79aa3a3d-07e9-4542-abcb-22a70bc8b73e.jpg) Un diagrama ETL aplicado a open Source
E. T. L. para dumies: 1. **Extracción (Extract)**: Imagina que estás en un huerto lleno de frutas. Quieres recolectar manzanas, peras y plátanos. El primer paso es **extraer** estas frutas del árbol. En el mundo de los datos, esto significa tomar información de diferentes fuentes, como bases de datos, archivos o incluso redes sociales. 2. **Transformación (Transform)**: Ahora, tienes una canasta llena de frutas mezcladas. Pero no puedes comerlas así. Necesitas **transformar** las manzanas en jugo, las peras en mermelada y los plátanos en batidos. En el contexto de datos, esto implica limpiar, combinar y dar forma a los datos para que sean útiles. Por ejemplo, convertir fechas en formatos comprensibles o eliminar información innecesaria. 3. **Carga (Load)**: Finalmente, llevas tus jugos, mermeladas y batidos a casa. Aquí es donde **cargas** tus datos transformados en un lugar seguro, como una base de datos o un almacén de datos. Esto es como poner tus frutas en la nevera para que estén listas cuando las necesites. En resumen, un **pipeline ETL** es como un proceso de cocina para los datos. Toma información de diferentes lugares, la prepara y la almacena para que los científicos de datos puedan usarla fácilmente. Es como hacer una deliciosa ensalada de datos.
Las 5V de los datos: -------------------- Las 5V de los datos son un marco que se utiliza para describir las características clave de los grandes volúmenes de datos (Big Data). Las 5V son: **1. Volumen:** * Se refiere a la **cantidad de datos** que se generan. * El volumen de datos está creciendo exponencialmente debido al aumento de la digitalización. **2. Velocidad:** * Se refiere a la **rapidez con la que se generan los datos**. * La velocidad de los datos está aumentando debido a la proliferación de sensores y dispositivos conectados a Internet. **3. Variedad:** * Se refiere a la **diversidad de tipos de datos** que se generan. * La variedad de datos está aumentando debido a la adopción de nuevas tecnologías como el Internet de las cosas (IoT), la inteligencia artificial (IA) y el aprendizaje automático (ML). **4. Veracidad:** * Se refiere a la **exactitud y confiabilidad** de los datos. * La veracidad de los datos es crucial para tomar decisiones precisas. **5. Valor:** * Se refiere a la **utilidad** de los datos para la toma de decisiones. * El valor de los datos se puede desbloquear mediante el análisis de datos y la visualización de datos. **Las 5V de los datos son importantes porque ayudan a las empresas a comprender los desafíos y oportunidades que presenta Big Data.** Al comprender las 5V, las empresas pueden desarrollar estrategias para gestionar y analizar Big Data de manera efectiva.
**Los tres pasos del proceso ETL son:** **1. Extracción:** * **Identificar las fuentes de datos** que se van a utilizar. * **Extraer los datos** de las fuentes. * **Limpiar y preparar los datos** para su transformación. **2. Transformación:** * **Aplicar reglas de negocio** a los datos. * **Transformar los datos** para que sean compatibles con el formato del almacén de datos. * **Normalizar los datos** para eliminar redundancias e inconsistencias. **3. Carga:** * **Cargar los datos** en el almacén de datos o data mart. * **Indexar los datos** para que se puedan buscar y recuperar de forma eficiente. * **Garantizar la calidad de los datos** cargados. **Beneficios del proceso ETL:** * **Mejora la calidad de los datos.** * **Aumenta la eficiencia del análisis de datos.** * **Facilita la toma de decisiones.** * **Proporciona una vista unificada de los datos.**
![](https://static.platzi.com/media/user_upload/image-c4c8e5d6-4213-4c22-9ee4-6485b78d50e7.jpg)
![](https://static.platzi.com/media/user_upload/image-3ec70703-5a9d-446e-8464-c7d475d4fd34.jpg)
COGNODATA asi presenta su modelo ETL ![](https://static.platzi.com/media/user_upload/image-10e58449-b00f-4d37-856b-0b4bb82742f8.jpg)
Localice una referencia de herramientas de ETL **Herramienta ETL** Los gigantes de la industria * Informatica Powercenter - el ETL por excelencia. * IBM Infosphere Datastage - Gigante de la información. * SAP Data Services - consolidado entre los ERP y *Business Intelligence*. * Microsoft SSIS - con un pie en la nube Azure. * Oracle Data Integrator - ETL por excelencia. Los recién llegados * Qlik Replicate - integración por *Business Intelligence*. * Denodo - la virtualización de la data. Los ETL *open source* * Talend Open Studio for Data Integration - ETL y ELT al mismo tiempo. * TIBCO Jaspersoft - ETL y Reporting. * Pentaho Data Integration. *Cloud based y No-code* * Xplenty - Orientation Cloud y especialización en Salesforce. * Skyvia - No-code y BigData. * Hevo - No-code y BigData. Por si alguien busca alternativas.
**Pasos de ETL** ![](https://static.platzi.com/media/user_upload/image-1c971f08-47d2-4561-9c59-bf777b56aba2.jpg)**Fuente:** Infobelpro. (25 de agosto de 2023). *ETL Process: Understanding Steps and Techniques in 2023*. Recuperado el 6 de febrero de 2024, de <https://www.infobelpro.com/en/blog/etl-process>
![](https://static.platzi.com/media/user_upload/image-6fb986d7-b3f5-45da-bd00-61f0fb549956.jpg)
![]()Diagrama del proceso ***ETL***: ![](https://static.platzi.com/media/user_upload/image-cd53b4b2-2d4d-492e-be01-2184b5d89776.jpg)
![](https://www.cognodata.com/wp-content/uploads/2019/05/Screenshot-2019-07-18-at-13.34.26-min.png) Estuve mirando los diferentes procesos y en mi caso me parecio muy acertado este modelo, por la variedad en las entradas de la informacion y la definicion en los resultados que se brindaran como solucion al cliente.
Las cinco V de los datos son un marco conceptual que se utiliza para describir los desafíos que plantea el manejo de grandes cantidades de datos. Las cinco V son: * **Volumen:** El volumen se refiere a la cantidad de datos que se recopilan. * **Velocidad:** La velocidad se refiere a la rapidez con la que se generan los datos. * **Variedad:** La variedad se refiere a los diferentes tipos de datos que se recopilan. * **Veracidad:** La veracidad se refiere a la calidad de los datos. * **Valor:** El valor se refiere al beneficio que se puede obtener de los datos.
![](https://static.platzi.com/media/user_upload/image-fda003dc-d10d-4936-a2fe-d359c63747ad.jpg)![]()
Encontré![](https://blog.datath.com/wp-content/uploads/2020/03/data-etl-extract-transform-load.jpg) esta imagen que a mi parecer es muy concreta
![](https://publish-01.obsidian.md/access/e5408ef24c9251b993f742b19645ad44/Assets/lakehouse-medallion-architecture.jpeg)![](https://miro.medium.com/v2/resize:fit:1200/0*H10xmRN7E4jWDKgr.png)
también se pueden hacer procesos ELT en donde se extrae la información original de nuestra fuente de datos y se deja la raw data como llega de nuestro sistema origen para poder realizar diferentes transformaciones después y también que sirva como insumo a diferentes roles de la organización, arquitecturas como medallón permiten tener este comportamiento o librerías como dbt
Esta me pareció muy acertada pues aborda lo expuesto de manera un poco más detallada ![](https://static.platzi.com/media/user_upload/image-d3ec5f76-af22-4ce0-9055-2818d35d4d7f.jpg)
5 Vs de los datos: Veracidad Volumen Velocidad Valor Variedad
![](https://static.platzi.com/media/user_upload/image-70a52e85-602f-44fc-b914-a3bd1e2c7152.jpg)
![](https://2.bp.blogspot.com/-dSnbfUATfoU/U7opdrbBKTI/AAAAAAAACkU/EAnBsiIyPaY/s1600/ETL-process-flow.jpeg) ```js ```
![](https://static.platzi.com/media/user_upload/image-8f4188a3-3686-4816-9e81-46781f592c95.jpg)
![](https://static.platzi.com/media/user_upload/6-43846f8c-de1a-4f13-a987-15144721b547.jpg)
![](https://static.platzi.com/media/user_upload/image-7a39b926-9020-48d9-b253-cb31090885d7.jpg)
![]()
![](https://static.platzi.com/media/user_upload/image-5288452c-eddb-4afe-b8c7-3ededbff4e19.jpg) Este me parece muy interesante, pues allí también se pueden apreciar las funciones de un Data Enginner, quizá es el trabajo más dispendioso pero a su vez se puede encontrar soluciones o alternativas para generar una alternativa de negocio
Vi uno en el hay uno llamado staging area despues de extracción y otro llamado DWH después de carga. ```txt ```
![](https://static.platzi.com/media/user_upload/f251c60c5c6eca48935eff79a62850da-75dca0df-94db-44e9-b740-25a30f1077f9.jpg)
![]()![](https://editor.analyticsvidhya.com/uploads/47661ETL-Process-for-linkedin3-1024x535.jpg)
### Ejemplo: ETL para Análisis de Redes Sociales **Extracción**. Se extraen datos de diversas redes sociales, incluyendo publicaciones, comentarios y perfiles de usuarios. **Transformación**. Se realiza un análisis de sentimiento en los comentarios para determinar la satisfacción del cliente. **Carga**. Los resultados del análisis se cargan en un sistema de visualización para el seguimiento en tiempo real.
Chat GPT 3.5 >> El proceso de ETL (Extract, Transform, Load) es fundamental en el manejo de datos para su análisis y almacenamiento en sistemas de información. A continuación, te presento un diagrama de flujo del proceso de ETL con sus elementos y características desglosados a un nivel intermedio: +---------------------+ | \*\*Extracción\*\* | +---------------------+ | v +---------------------+ | \*\*Transformación\*\* | +---------------------+ | v +---------------------+ | \*\*Carga\*\* | +---------------------+ **Extracción (Extract):** * **Descripción**: En esta etapa, los datos se extraen de múltiples fuentes, como bases de datos, archivos planos, servicios web, registros de aplicaciones, etc. * **Elementos y características**: * Conexiones a fuentes de datos. * Consultas SQL u otras técnicas para extraer datos. * Filtrado y selección de datos relevantes. * Manejo de datos en tiempo real o por lotes. **Transformación (Transform):** * **Descripción**: En esta etapa, los datos extraídos se someten a diversas transformaciones para limpiarlos, estructurarlos y prepararlos para su análisis. También puede incluir la agregación de datos, la creación de características nuevas y la estandarización. * **Elementos y características**: * Limpieza de datos (eliminación de valores nulos, corrección de errores). * Normalización y estandarización de datos. * Transformaciones matemáticas y estadísticas. * Generación de características (feature engineering). * Aplicación de reglas de negocio. * Manejo de datos no estructurados (texto, imágenes, etc.). * Uso de herramientas como Python, Apache Spark, pandas, etc. **Carga (Load):** * **Descripción**: En esta etapa, los datos transformados se cargan en un almacén de datos o base de datos de destino. Esto puede ser un almacén de datos relacional, un data lake o cualquier otro sistema de almacenamiento adecuado. * **Elementos y características**: * Definición de esquema de destino. * Integración con sistemas de destino. * Validación de datos antes de la carga. * Programación de cargas programadas o en tiempo real. * Manejo de errores y registros de auditoría. Es importante destacar que el proceso de ETL es iterativo y continuo. Los datos se extraen, transforman y cargan de manera regular para garantizar la actualización y la integridad de los datos en el sistema de destino. Además, se pueden implementar prácticas de monitoreo y gestión de calidad de datos en cada etapa para asegurarse de que el proceso funcione de manera eficiente y que los datos sean confiables y precisos. \_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_\_} El proceso de ETL (Extract, Transform, Load) a nivel avanzado implica un enfoque más detallado y completo en cada etapa. A continuación, se presenta un diagrama de flujo del proceso de ETL a nivel avanzado con sus elementos y características desglosados: +---------------------+ | \*\*Extracción\*\* | +---------------------+ | v +------------------------------+ | \*\*Selección de Datos Fuente\*\* | +------------------------------+ | v +-----------------------------+ | \*\*Mapeo de Datos a Modelos\*\* | +-----------------------------+ | v +---------------------+ | \*\*Limpieza de Datos\*\*| +---------------------+ | v +---------------------+ | \*\*Transformación\*\* | +---------------------+ | v +------------------------------+ | \*\*Enriquecimiento de Datos\*\* | +------------------------------+ | v +-----------------------------+ | \*\*Generación de Características\*\* | +-----------------------------+ | v +---------------------+ | \*\*Validación de Datos\*\*| +---------------------+ | v +---------------------+ | \*\*Carga de Datos\*\* | +---------------------+ **Extracción (Extract):** * **Selección de Datos Fuente**: Identificar y seleccionar las fuentes de datos, como bases de datos, archivos, APIs, registros de aplicaciones, sensores, etc. * **Mapeo de Datos a Modelos**: Mapear los datos extraídos a modelos de datos definidos previamente para su comprensión y estandarización. **Limpieza de Datos**: * Eliminar valores nulos y duplicados. * Corregir errores y valores atípicos. * Estandarizar y normalizar datos. * Validar la integridad de los datos. **Transformación (Transform):** * **Enriquecimiento de Datos**: Complementar datos con información adicional de fuentes externas. * **Generación de Características**: Crear nuevas características a partir de los datos existentes (ingeniería de características). * Aplicar reglas de negocio y lógica de transformación. * Realizar análisis avanzados, incluyendo machine learning y estadísticas. **Validación de Datos**: * Verificar que los datos transformados cumplan con criterios de calidad y reglas de negocio. * Realizar pruebas y validaciones para asegurar la precisión y confiabilidad de los datos. **Carga de Datos (Load):** * **Definición de Esquema de Destino**: Establecer la estructura de la base de datos de destino. * **Integración con Sistemas de Destino**: Cargar datos en almacenes de datos, data lakes, sistemas de BI u otras plataformas de destino. * **Programación y Orquestación**: Planificar y programar la carga de datos de acuerdo con horarios y necesidades específicas. * **Auditoría y Registro**: Registrar información de auditoría para el seguimiento y la trazabilidad de los datos cargados. * **Gestión de Errores**: Manejar y registrar errores, implementando mecanismos de recuperación. Este enfoque avanzado en el proceso de ETL garantiza una gestión detallada de los datos y una alta calidad en la transformación y carga de los mismos. Además, puede involucrar tecnologías y herramientas específicas para cada etapa, como Apache Spark, Apache NiFi, Python, SQL, herramientas de BI, entre otras, según los requisitos del proyecto y las necesidades del negocio.
Fuente, Chat GPT >> "Aquí tienes una jerarquía de roles en el campo de la ciencia de datos, que incluye Data Analyst, Data Scientist y Data Engineer, junto con las herramientas y el grado de matemáticas que suelen requerir: 1. **Data Analyst**: * **Responsabilidades**: * Analizar datos para proporcionar información y tomar decisiones basadas en datos. * Crear informes, paneles de control y visualizaciones de datos. * **Herramientas**: * Excel, SQL (para consultas de bases de datos), Tableau, Power BI, Python o R (para análisis de datos y visualización). * **Matemáticas**: * Conocimiento sólido de estadísticas descriptivas, probabilidad básica y álgebra. 2. **Data Scientist**: * **Responsabilidades**: * Realizar análisis más avanzados, incluyendo modelado predictivo y de machine learning. * Desarrollar algoritmos y modelos para resolver problemas específicos. * **Herramientas**: * Python o R (para análisis y modelado), Jupyter Notebook, bibliotecas de machine learning (scikit-learn, TensorFlow, PyTorch), SQL, herramientas de big data como Hadoop o Spark. * **Matemáticas**: * Álgebra lineal, cálculo, estadísticas inferenciales, y un profundo conocimiento de técnicas de machine learning y estadísticas. 3. **Data Engineer**: * **Responsabilidades**: * Diseñar, construir y mantener la infraestructura de datos y las pipelines de datos. * Garantizar la disponibilidad y calidad de los datos. * **Herramientas**: * SQL, Python (para scripting), herramientas de ETL (Extract, Transform, Load) como Apache NiFi o Airflow, bases de datos como SQL Server, PostgreSQL, MongoDB, herramientas de big data (Hadoop, Spark), y contenedores como Docker. * **Matemáticas**: * Conocimiento básico de matemáticas aplicadas, enfoque en diseño de bases de datos y optimización de consultas. Es importante destacar que estas descripciones son generales y las responsabilidades y herramientas pueden variar según la empresa y el proyecto específico. Además, la ciencia de datos es un campo en constante evolución, por lo que es esencial mantenerse actualizado con las tendencias y tecnologías emergentes en cada uno de estos roles. Los profesionales de la ciencia de datos también pueden colaborar estrechamente en equipos interdisciplinarios para abordar problemas complejos y aprovechar sus habilidades complementarias."
Mas alla de encontrar una variacion a ETL encontre una variacion en su orden usando un orden ELT. Ventajas en velocidad ETL las herramientas de transformación evaluan registro por registro y en E-LT la transformación se hace en la base de datos que evalua los registros en lotes. ELT usa mejor los recursos de memoria y velocidad en disco mientras que ETL ya que sus transformaciones son temporales y reduntantes

Clase 11 - ¿Qué hace una Data Engineer?


Repaso de la clase


¿Qué hace un Data Engineer?

  • Es el encargado de tomar datos crudos (datos sucios y/o incompletos), pero con valor en la organización, los cuales transforma, organiza y almacena en bases de datos.

¿Cuáles son los objetivos del Data Engineer?

  • Proveer los datos al equipo de Data Science e inteligencia artificial para que estos sean analizados.
  • Crea Pipelines ETL.

¿Qué significan las siglas ETL?

  • Según sus siglas en inglés significa extract, transform and load o en español extraer, transformar y cargar.

¿Cuáles son las actividades que realiza un Data Engineer en su día a día?

  • Mantiene, crea y desarrolla Data Pipelines y bases de datos.
  • Extrae datos de diferentes fuentes, ya sean internas o externas a la organización.
  • Transforma y limpia datos para un posterior análisis.
  • Almacena datos en bases especializadas para el análisis.
  • Crea automatizaciones ETL.

¿El Data Engineer puede usar las mismas bases de datos que usamos en la producción de software y por qué?

  • No, porque estas bases de datos son transaccionales, es decir, son bases de datos OLTP. En el momento en el que un Data Engineer usa este tipo de bases de datos se rompen.

¿Qué tipo de bases de datos debe usar un Data Engineer?

  • Bases de datos OLAP.

¿Qué significan las siglas OLTP y OLAP?

  • OLTP: Online Transactional Processing.
  • OLAP: Online Analytical Processing.

¿Cómo funciona el proceso ETL?

  • Por sus siglas en inglés sabemos que tiene 3 pasos y en cada uno de ellos ocurre lo siguiente:
    • Extract o extracción: En este paso se importan datos de diversas fuentes, por ejemplo desde archivos, bases de datos OLTP y API Web. Estos archivos pueden venir en diferentes formatos.
    • Transform o transformar: En este paso se debe crear una estructura común y limpia para el análisis de los datos.
    • Load o cargar: En este paso se almacenan los datos en un Data Warehouse (Base de datos OLAP), para que la consulta y análisis sea fácil.

¿En qué formatos de archivo podemos extraer datos?

  • CCV.
  • Archivos de Excel.
  • JSON.

¿Cuáles son los roles que están relacionados con el rol de Data Engineer?

  • Data Architect.
  • Big Data Architect.

¿Qué hace el rol de Data Architect?

  • Plantea estrategias de daros dentro de la organización. Para ello hace revisiones de estándares de calidad, tratamiento de flujo de los datos y seguridad en los datos.

¿Qué hace un Big Data Architect?

  • Trabaja con las 5 V 's de los datos.

Me gustó esta gráfica porque muestra el proceso ETL en su entorno, de dónde salen los datos a transformar y lo que se logra con ellos.

El ingeniero de datos transforma los datos que no han sido limpiado y datos faltantes en información de valor para las empresas.

Flujo ETL

Me identifico con esta oración:
En pocas palabras, el proceso ETL extrae y reúne datos sin procesar, los transforma para que sean comprensibles y los carga en un sistema de destino, como una base de datos o un almacén de datos, para facilitar el acceso y el análisis.

¡Demasiado movimiento de brazos vertical, parece robot (IA)!

bueno en la imagen se puede presentar el proceso que realiza un science, como se ve en la parte izquierda se observa los diferentes sitios o objetos los cuales pueden ser utilizados como extractor de informacion, bueno basicamente es lo que necesitamos, esto dependera del ambito laboral en el que te encuentras, por lo que seria malo decir que la informacion solo la encontraras en un archivo excel o csv o xml. Esto claramente dificulta mas el proceso, pero tambien es requerido segun la empresa.

Qué bueno como seperaron estas carreras, Muy buena explicación tenía conceptos cruzados.

Encontre este de “Microsoft Learn”

![](

INTERESANTE:(

Le pregunté a ChatGPT sobre las diferencias entre las bases de datos OLTP y las OLAP. La diferencia principal es en el propósito, puesto que las OLAP tiene como fin un motivo analítico mientras que las OLTP es transaccional.
.
Aquí una tabla:

Base de Datos OLAP Base de Datos OLTP
Propósito - Analizar datos para obtener información y tomar decisiones. - Procesar transacciones diarias en tiempo real.
Datos - Contiene datos históricos y agregados. - Contiene datos actuales y detallados de transacciones.
Uso - Diseñada para análisis complejo y generación de informes. - Optimizada para procesamiento rápido y confiable de transacciones.
Consultas - Admite consultas complejas y agregaciones. - Se enfoca en consultas transaccionales rápidas y eficientes.
Rendimiento - Se enfoca en el rendimiento de consultas. - Prioriza la integridad transaccional y la velocidad.
Volumen de Datos - Maneja grandes volúmenes de datos. - Maneja alta concurrencia transaccional y actualizaciones frecuentes.
Estructura de Datos - Típicamente utiliza estructuras desnormalizadas para un análisis eficiente. - Utiliza estructuras normalizadas para una consistencia transaccional.
Usuarios - Utilizada por analistas de negocios y tomadores de decisiones. - Accedida por usuarios finales y personal operativo.

Los datos han de quedar limpísimos, ya van 3 roles que los limpian. Se podría comer en esos datos.