Encontré dos que me resultaron muy interesantes:
Importancia y usos de data science e inteligencia artificial
Oportunidades laborales en Data Science e inteligencia artificial
Glosario para entender el mundo de Data Science e inteligencia artificial
¿Qué es Data Science?
¿Qué es inteligencia artificial? ¿Cuál es su diferencia con Data Science?
¿Qué es Big Data? ¿Cuál es su diferencia con Data Science?
¿Qué NO es Data Science? ¿Por qué aprenderla?
Áreas de aplicación de Data Science e inteligencia artificial
Roles en la industria: cómo funcionan los equipos de datos e inteligencia artificial
Quiz: Importancia y usos de data science e inteligencia artificial
Data Analyst
¿Qué hace una Data Analyst?
Herramientas y tecnologías para Data Analysts
La experiencia de un Data Analyst: entrevista a Demian Arenas
Quiz: Data Analyst
Data Scientist
¿Qué hace una Data Scientist?
Herramientas y tecnologías para Data Scientists
La experiencia de una Data Scientist: entrevista a Nazly Santos
Quiz: Data Scientist
Data Engineer
¿Qué hace una Data Engineer?
Herramientas y tecnologías para Data Engineers
La experiencia de un Data Engineer: entrevista a Alexis Araujo
Quiz: Data Engineer
Machine Learning Engineer
¿Qué hace una Machine Learning Engineer?
Herramientas y tecnologías para Machine Learning Engineers
La experiencia de un Machine Learning Engineer: entrevista a Gerson Perdomo
Quiz: Machine Learning Engineer
Ser profesional en el mundo de los datos e IA
Soft skills para Data Science
¡En sus marcas, listos, fuera!
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
La Data Engineer es la encargada de tomar los datos crudos, pero de valor, para transformarlos, organizarlos y almacenarlos en las bases de datos, por medio de la producción de pipelines ETL, que tienen como objetivo abastecer de materia prima o datos a los demás roles, para que ejecuten su trabajo.
Los procesos que más se repiten en el rol de una Data Engineer son los siguientes:
Extract, Transorm and Load o Extraer, Transformar y Cargar, es uno de los procesos más utilizados para la transformación de los datos, es como el proceso de tomar un diamante en bruto y convertirlo en uno procesado y listo para vender.
Importar datos de diversas fuentes, ya sea internas como externas, mientras sean de valor para la organización. Estos puede venir con distintas estructuras y formatos.
Todos los datos ya recopilados deben de situarse en una estructura común y limpia que facilite su análisis.
Luego de que los datos se encuentren limpios, estos deben almacenarse en bases de datos OLAP que faciliten la consulta y análisis de los mismos.
Dentro del mundo de la Data hay ciertas variaciones en el rol de Data Engineer, que se enfocan o especializan en ciertas actividades clave para el flujo de datos, como por ejemplo:
Se encarga de plantear estrategias de datos dentro de la organización, mediante la revisión de estándares de calidad, tratamiento de flujo de los datos y seguridad de estos.
Trabaja con Big Data, las 5V’s de los datos.
A modo de cierre, diremos que una Data Engineer se encarga de saber dónde está la información valiosa para el negocio, entender las herramientas con las cuales se debe hacer el transporte de los datos y hacer las conexiones para abastecer de información al resto del equipo de Data.
Contribución creada por: Ismael H.
Aportes 191
Preguntas 15
Encontré dos que me resultaron muy interesantes:
Me pareció genial esta imagen que encontre para tener un mapeo de las habilidades que se requieren en los diferentes roles del DS:
“ETL describe el proceso de extremo a extremo mediante el cual una empresa toma la totalidad de los datos, estructurados y no estructurados administrados por cualquier cantidad de equipos en cualquier parte del mundo, y los lleva a un estado útil para los fines empresariales” (Google Cloud)
.
ETL architecture for cloud-native data warehousing on GCP
Dia a día de una Data Engineer
Data pipelines de ETL y bases de datos (mantiene, crea y desarrolla).
Extrae datos de diferentes fuentes (internas o externas de la organización).
Transforma los datos (limpieza).
Los almacena en bases de datos especializadas para análisis.
No podemos utlizar las bases de datos que funcionan en los sistemas de producción de software (usados por la empresa para trabajar o usados por clientes) porque estas son transaccionales (OLTP) y no están diseñadas para consultar o extraer datos de manera muy frecuente. Si las usamos para buscar datos como Data Scientist y/o Data Analyst vamos a causar que el sistema deje de funcionar.
Para este fin podemos usar bases de datos especializadas (OLAP)
Me gusta que los profes hablen con terminaciones “AS” a modo inclusivo. ejem: Ingenieras, científicas, etc 😃
El lenguaje también construye!
Información resumida de esta clase
#EstudiantesDePlatzi
La Data Engineer toma los datos, los organiza y los limpia para el análisis
La Data Engineer busca automatizar los procesos de ETL = Extraer, Transformar y Cargar (Load)
Ok… he sido un Data Analyst 5 años sin saberlo 😂😂😂😂😂
Me parece que cada fase del proceso ETL implica mas trabajo de lo que pense…
un dia a dia del Data Engineer
Yo les paso no solo una imagen, sino un artículo para complementar la clase 😃
Procesos ETL: cómo obtener valor de los datos
Mis Apuntes Notion, Data Engineer
Encontré un diagrama de ETL usado para una planta de procesamiento y me parece muy interesante:
Esta es una manera de cargar datos a través de la industria de manufacturación.
Les dejo por aquí una página donde explica muy bien todo este proceso de ETL (Proceso de extracción, trasformación y carga). Me pareció muy interesante como es todo este proceso, espero que les sirva.
https://docs.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl
me pareció interesante esta gráfica de ETL:
¿Qué hace?
Datos crudos → Data Engineer → Datos limpios para análisis
Trabaja para que el equipo tenga datos para análisis
Crea pipelines ETL: Extracción, transformación y carga
Día a día
Roles relacionados
Una Data Engineer es un profesional que se encarga de diseñar, construir, mantener y optimizar la infraestructura de datos que se utiliza para recopilar, almacenar y procesar grandes cantidades de datos. Su trabajo se centra en garantizar que los datos sean accesibles, confiables, seguros y escalables para que los científicos de datos y analistas puedan trabajar con ellos de manera efectiva.
Las responsabilidades de un Data Engineer pueden incluir:
Recopilación de datos: diseñar y construir sistemas y procesos para recopilar datos de diferentes fuentes, como bases de datos, archivos, sensores, redes sociales, entre otros.
Almacenamiento de datos: implementar y mantener sistemas de almacenamiento de datos como bases de datos, data lakes o data warehouses, asegurando que sean escalables, seguros y eficientes.
Procesamiento de datos: crear pipelines de procesamiento de datos que permitan limpiar, transformar y combinar los datos de diferentes fuentes para que sean utilizables en el análisis.
Monitoreo y mantenimiento de la infraestructura: garantizar que la infraestructura de datos esté en funcionamiento, sea segura y esté disponible para los usuarios en todo momento. Esto puede incluir el monitoreo del rendimiento, la resolución de problemas y la implementación de medidas de seguridad.
Optimización de la infraestructura: buscar maneras de mejorar la eficiencia y escalabilidad de la infraestructura de datos, como la implementación de nuevas tecnologías o el ajuste de la configuración existente.
En resumen, el trabajo de un Data Engineer es crucial para garantizar que los científicos de datos y analistas tengan acceso a datos de calidad, seguros y escalables que puedan utilizar para generar información valiosa y tomar decisiones informadas.
Qué hace un Data Engineer?
Proceso ETL (Extract, Transform and Load)
Esta me pareció interesante
Encontré este diagrama
imagino que en la parte del ordenamiento, todos deben de cumplir con la misma cantidad de características, por ejemplo las columnas donde se ordene cada característica
y Me surgen mil dudas, como la diferenciación de los datos confidenciales, no confidenciales, personales, delicados, etc…
el indexamiento de cada uno, son datos de personas? de transacciones?
ordenamiento? a la hora de extraerlos como ordenarlos, como ocultar nombres de personas para no relacionar los datos personales con caras o nombres y trabajar con datos anónimos?
cláusulas de confidencialidad y uso o manejo de datos, cómo ligan los contratos de los usuarios o los avisos de privacidad para que el data engineer los tengaa en consideración…
y maaas…
ya me llegó la sed y curiosidad de aprender, lo que creo es bueno para continuar con el curso y espero ir respondiendo a las preguntas más adelante…
Me pareció interesante lo que publican en IBM respecto al tema.
https://www.ibm.com/cloud/learn/etl
Segun microsoft,
“Extracción, transformación y carga (ETL) es una canalización de datos que se usa para recopilar datos de varios orígenes. A continuación, transforma los datos según las reglas de negocio y los carga en un almacén de datos de destino. El trabajo de transformación en ETL tiene lugar en un motor especializado y, a menudo, implica el uso de tablas de almacenamiento provisional para conservar los datos temporalmente a medida que estos se transforman y, finalmente, se cargan en su destino.”
Excelente 👌
Un data engineer es un profesional que se encarga de diseñar, construir y mantener la infraestructura tecnológica necesaria para manejar grandes volúmenes de datos. Su trabajo incluye desarrollar sistemas de almacenamiento, procesamiento y transmisión de datos, así como asegurar su calidad y seguridad. El objetivo principal del data engineer es garantizar que los datos estén disponibles, sean confiables y se puedan acceder fácilmente por los data scientists, analistas y otros usuarios finales. En resumen, el data engineer es responsable de la construcción y gestión de la infraestructura de datos que soporta la analítica empresarial.
Gracias
.
Hace tiempo tome una posicion como Data Engineer, les recomiendo mucho si les gusta usar mucho sql y/o python.
Para soluciones en la nube prefiero usar Azure Data Factory.
Este me parecio muy completo e interesante:
Diagrama ETL
**Data Engineer **
Su función principal es, además de limpiar los datos, almacenarlos en una BBDD para poder tener un fácil acceso.
Algo importante es que esa BBDD no puede ser la misma que se usa en producción. No puede ser de tipo transaccional, o sea OLTP (Procesamiento de Transacciones en Línea), porque sino se rompería. Ya que su función principal no recibir consultas constantemente. Para esto se utilizan BBDD de tipo OLAP (Procesamiento Analítico en Línea).
En términos sencillos, las Base de Datos en producción están ideadas para añadir información o actualizarla, no para hacer consultas de una forma asidua.
Así pues, el Data Engineer es el profesional que se encarga de extraer y preparar los datos para que más tarde sean tratados. De este modo, el ingeniero de datos tiene las siguientes funciones:
Extraer grandes cantidades de datos.
Depurar los datos extraídos.
Clasificación y organización de los datos.
De este modo, sin el ingeniero de datos no existiría el Data Scientist. Pues, sin la extracción y organización de los datos del Data Engineering no sería posible definir y entrenar el modelo necesario para analizar los datasets o dataframes

En este diagrama muestra algo de integración.
Que hace un Data Engineer
Toma los datos crudos, sucios, con info faltante.
y los limpia los procesa y los almacena en Bases de Datos en Pipelines
Este proceso se me hizo interesante.
Hola, encontré este modelo.
Roles relacionados con DE.
Qué es el ETL?
Día a día de DE.
Que hace una Data Engineer?
Me parrece una imagen que de manera muy resumida explica el proceso ETL.
No se que es Data Marts?
que grande es el mundo de la data… y como se dijo en la entrevista,es imposible aprender todo, hay que enfocarse en un rol… Data Analyst + Data science = i need!
Buena información sobre este rol, solo falta en próximos cursos profundizar el los conceptos de OLTP y OLAP.
ETL: extraer tramformar y cargar
Los 3 pasos esenciales: extracción, transformación y carga de datos.
bueno en la imagen se puede presentar el proceso que realiza un science, como se ve en la parte izquierda se observa los diferentes sitios o objetos los cuales pueden ser utilizados como extractor de informacion, bueno basicamente es lo que necesitamos, esto dependera del ambito laboral en el que te encuentras, por lo que seria malo decir que la informacion solo la encontraras en un archivo excel o csv o xml. Esto claramente dificulta mas el proceso, pero tambien es requerido segun la empresa.
Le eche una revisada a la pagina de microsoft y ellos lo plantean interesante mente:
https://learn.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl
Me gustó este diagrama, más enfocado al BI.
Encontre este diagrama que me parecio interesante.
Este esquema me pareció interesante
encontré esta
Un pequeno recordatorio
Muy interesante
Enconte este
En la búsqueda que hice la única diferencia que se encuentra es que en el proceso de LOAD se detalla un poco mas dicho proceso, agregándole testeo de calidad e los datos y prueba de errores
Estas son algunas cosas que hace la gestión de datos o ETL.
El Proccesamiento Analítico en Linea (OLAP) es una tecnología que organiza grandes bases de datos empresariales y proporciona análisis complejo. Se puede utilizar para realizar consultas analíticas complejas sin afectar negativamente los sistemas transaccionales. Las bases de datos que utiliza una empresa para almacenar todas sus transacciones y registros se llaman bases de datos de procesamiento de transacciones en línea (OLTP).
Fuente: Microsoft (La palabra en azul está linkeada con la página web de microsoft con la información necesaria)
ELT (Extract, Load, Transform) es un proceso utilizado en el mundo de la informática para transferir datos de una fuente a otra. El proceso se divide en tres etapas:
El proceso ETL es comúnmente utilizado en el contexto de la gestión de bases de datos y la integración de sistemas. Se trata de una técnica importante para asegurarse de que los datos sean consistentes y estén disponibles en el sistema de destino de manera rápida y eficiente.
Un Data Engineer es una persona que se encarga de diseñar, construir, mantener y administrar sistemas de bases de datos y de procesamiento de datos a gran escala. Su trabajo consiste en asegurarse de que los datos estén disponibles, accesibles y en formato adecuado para su uso por parte de los Data Scientists, los analistas de negocio y otros interesados. Esto puede incluir tareas como la limpieza y transformación de datos, la creación de pipelines de procesamiento de datos, la definición de estructuras de almacenamiento de datos y la implementación de herramientas de monitorización y optimización de sistemas de bases de datos.
Proceso ETL
Lo cierto es que al data analyst le toca hacer la extracción y limpieza
ETL
-Extraer
-Transformar
-Cargar (load)
❤️
Fuente: https://www.cognodata.com/procesos-etl/
Me gustó esta imagen ya que aparecen estos tres niveles como Tier 1, 2 y 3, lo cual me da un poco más de perspectiva del que y el para qué 😉
Ampliando ETL, OLTP, OLAP:
Bases de datos OLAP
Encontre esta y se me hizo simple y entendible
No tengo ni idea que es, pero estoy seguro de que es complicado 😉
Esta imagen explica de que manera se le da valor a los datos en los procesos ETL
no se si asi se adjunten los pantallazos pero bueno encontré un diagrama
https://www.google.com/url?sa=i&url=http%3A%2F%2Fcarlosproal.com%2Fdw%2Fdw05.html&psig=AOvVaw3j0dDeTltaBtmteYU-qEcs&ust=1668556268943000&source=images&cd=vfe&ved=0CBAQjRxqFwoTCMCDws3urvsCFQAAAAAdAAAAABBa
Extracto de: Que hace un data engineer?
Un ingeniero de datos obtiene datos crudos, los limpia, los procesa y los almacena en bases de datos. Su objetivo es que el equipo tenga datos para el análisis por medio de la creación de ETL’s
Tareas frecuentes de un data engineer
Proceso ETL
Roles relacionados
Me gustaron estos dos:
Vine solo para tener una noción de que trata, y me doy cuenta que es lo que necesitaba.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?
o inicia sesión.