Encontré dos que me resultaron muy interesantes:
Importancia y usos de data science y machine learning
Oportunidades laborales en Data Science e inteligencia artificial
¿Qué es Data Science?
Diferencia entre inteligencia artificial y Data Science
Roles en la industria: cómo funcionan los equipos de datos e inteligencia artificial
¿Qué NO es Data Science? ¿Por qué aprenderla?
Quiz: Importancia y usos de data science y machine learning
Data Analyst
¿Qué hace una Data Analyst?
Herramientas y tecnologías para Data Analysts
Quiz: Data Analyst
Data Scientist
¿Qué hace una Data Scientist?
Herramientas y tecnologías para Data Scientists
La experiencia de una Data Scientist: entrevista a Nazly Santos
Quiz: Data Scientist
Data Engineer
¿Qué hace una Data Engineer?
Herramientas y tecnologías para Data Engineers
La experiencia de un Data Engineer: entrevista a Alexis Araujo
Quiz: Data Engineer
Ser profesional en el mundo de los datos y machine learning
Soft skills para Data Science
¡En sus marcas, listos, fuera!
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
La Data Engineer es la encargada de tomar los datos crudos, pero de valor, para transformarlos, organizarlos y almacenarlos en las bases de datos, por medio de la producción de pipelines ETL, que tienen como objetivo abastecer de materia prima o datos a los demás roles, para que ejecuten su trabajo.
Los procesos que más se repiten en el rol de una Data Engineer son los siguientes:
Extract, Transorm and Load o Extraer, Transformar y Cargar, es uno de los procesos más utilizados para la transformación de los datos, es como el proceso de tomar un diamante en bruto y convertirlo en uno procesado y listo para vender.
Importar datos de diversas fuentes, ya sea internas como externas, mientras sean de valor para la organización. Estos puede venir con distintas estructuras y formatos.
Todos los datos ya recopilados deben de situarse en una estructura común y limpia que facilite su análisis.
Luego de que los datos se encuentren limpios, estos deben almacenarse en bases de datos OLAP que faciliten la consulta y análisis de los mismos.
Dentro del mundo de la Data hay ciertas variaciones en el rol de Data Engineer, que se enfocan o especializan en ciertas actividades clave para el flujo de datos, como por ejemplo:
Se encarga de plantear estrategias de datos dentro de la organización, mediante la revisión de estándares de calidad, tratamiento de flujo de los datos y seguridad de estos.
Trabaja con Big Data, las 5V’s de los datos.
A modo de cierre, diremos que una Data Engineer se encarga de saber dónde está la información valiosa para el negocio, entender las herramientas con las cuales se debe hacer el transporte de los datos y hacer las conexiones para abastecer de información al resto del equipo de Data.
Contribución creada por: Ismael H.
Aportes 259
Preguntas 20
Encontré dos que me resultaron muy interesantes:
Me pareció genial esta imagen que encontre para tener un mapeo de las habilidades que se requieren en los diferentes roles del DS:
“ETL describe el proceso de extremo a extremo mediante el cual una empresa toma la totalidad de los datos, estructurados y no estructurados administrados por cualquier cantidad de equipos en cualquier parte del mundo, y los lleva a un estado útil para los fines empresariales” (Google Cloud)
.
ETL architecture for cloud-native data warehousing on GCP
Dia a día de una Data Engineer
Data pipelines de ETL y bases de datos (mantiene, crea y desarrolla).
Extrae datos de diferentes fuentes (internas o externas de la organización).
Transforma los datos (limpieza).
Los almacena en bases de datos especializadas para análisis.
No podemos utlizar las bases de datos que funcionan en los sistemas de producción de software (usados por la empresa para trabajar o usados por clientes) porque estas son transaccionales (OLTP) y no están diseñadas para consultar o extraer datos de manera muy frecuente. Si las usamos para buscar datos como Data Scientist y/o Data Analyst vamos a causar que el sistema deje de funcionar.
Para este fin podemos usar bases de datos especializadas (OLAP)
Información resumida de esta clase
#EstudiantesDePlatzi
La Data Engineer toma los datos, los organiza y los limpia para el análisis
La Data Engineer busca automatizar los procesos de ETL = Extraer, Transformar y Cargar (Load)
Me gusta que los profes hablen con terminaciones “AS” a modo inclusivo. ejem: Ingenieras, científicas, etc 😃
El lenguaje también construye!
un dia a dia del Data Engineer
Ok… he sido un Data Analyst 5 años sin saberlo 😂😂😂😂😂
Me parece que cada fase del proceso ETL implica mas trabajo de lo que pense…
Mis Apuntes Notion, Data Engineer
¿Qué hace?
Datos crudos → Data Engineer → Datos limpios para análisis
Trabaja para que el equipo tenga datos para análisis
Crea pipelines ETL: Extracción, transformación y carga
Día a día
Roles relacionados
Yo les paso no solo una imagen, sino un artículo para complementar la clase 😃
Procesos ETL: cómo obtener valor de los datos
Qué hace un Data Engineer?
Proceso ETL (Extract, Transform and Load)
Una Data Engineer es un profesional que se encarga de diseñar, construir, mantener y optimizar la infraestructura de datos que se utiliza para recopilar, almacenar y procesar grandes cantidades de datos. Su trabajo se centra en garantizar que los datos sean accesibles, confiables, seguros y escalables para que los científicos de datos y analistas puedan trabajar con ellos de manera efectiva.
Las responsabilidades de un Data Engineer pueden incluir:
Recopilación de datos: diseñar y construir sistemas y procesos para recopilar datos de diferentes fuentes, como bases de datos, archivos, sensores, redes sociales, entre otros.
Almacenamiento de datos: implementar y mantener sistemas de almacenamiento de datos como bases de datos, data lakes o data warehouses, asegurando que sean escalables, seguros y eficientes.
Procesamiento de datos: crear pipelines de procesamiento de datos que permitan limpiar, transformar y combinar los datos de diferentes fuentes para que sean utilizables en el análisis.
Monitoreo y mantenimiento de la infraestructura: garantizar que la infraestructura de datos esté en funcionamiento, sea segura y esté disponible para los usuarios en todo momento. Esto puede incluir el monitoreo del rendimiento, la resolución de problemas y la implementación de medidas de seguridad.
Optimización de la infraestructura: buscar maneras de mejorar la eficiencia y escalabilidad de la infraestructura de datos, como la implementación de nuevas tecnologías o el ajuste de la configuración existente.
En resumen, el trabajo de un Data Engineer es crucial para garantizar que los científicos de datos y analistas tengan acceso a datos de calidad, seguros y escalables que puedan utilizar para generar información valiosa y tomar decisiones informadas.
Encontré un diagrama de ETL usado para una planta de procesamiento y me parece muy interesante:
Esta es una manera de cargar datos a través de la industria de manufacturación.
Les dejo por aquí una página donde explica muy bien todo este proceso de ETL (Proceso de extracción, trasformación y carga). Me pareció muy interesante como es todo este proceso, espero que les sirva.
https://docs.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl
me pareció interesante esta gráfica de ETL:
Volumen: Las técnicas de Big Data se caracterizan por el tratamiento de grandes cantidades de datos. Esta técnica permite recopilar y analizar grandes bolsas de datos, incluso con millones de registros
Velocidad: Los datos se generan a una gran velocidad. Muchos de ellos quedarán obsoletos en poco tiempo y perderán su valor cuando aparezcan otros más recientes. El reto para las empresas será reaccionar lo más rápido posible y almacenar esos datos antes de que pierdan valor.
Variedad: Existen múltiples fuentes de datos digitales que responden a distintos tipos de formato: datos numéricos, direcciones postales, teléfonos, patrones, ubicaciones geográficas, productos de interés en texto, etc. Esta gran variedad en cuanto a la naturaleza de los datos hace que sea necesario unificarlos y ponerlos en común para que sean fácilmente analizables.
Veracidad: El objetivo último del Big Data es que la toma de decisiones del negocio esté basada en datos reales. De ahí que la veracidad sea uno de los pilares fundamentales del Big Data.
Valor: Se refiere a obtener la verdadera utilidad de los datos adecuados para enfocarlos al negocio. Esto significa que es necesario elegir cuáles son los registros más apropiados para su tratamiento, ser selectivos y tener en cuenta su vinculación real.
Esta me pareció interesante
Encontré este diagrama
imagino que en la parte del ordenamiento, todos deben de cumplir con la misma cantidad de características, por ejemplo las columnas donde se ordene cada característica
y Me surgen mil dudas, como la diferenciación de los datos confidenciales, no confidenciales, personales, delicados, etc…
el indexamiento de cada uno, son datos de personas? de transacciones?
ordenamiento? a la hora de extraerlos como ordenarlos, como ocultar nombres de personas para no relacionar los datos personales con caras o nombres y trabajar con datos anónimos?
cláusulas de confidencialidad y uso o manejo de datos, cómo ligan los contratos de los usuarios o los avisos de privacidad para que el data engineer los tengaa en consideración…
y maaas…
ya me llegó la sed y curiosidad de aprender, lo que creo es bueno para continuar con el curso y espero ir respondiendo a las preguntas más adelante…
Me pareció interesante lo que publican en IBM respecto al tema.
https://www.ibm.com/cloud/learn/etl
Segun microsoft,
“Extracción, transformación y carga (ETL) es una canalización de datos que se usa para recopilar datos de varios orígenes. A continuación, transforma los datos según las reglas de negocio y los carga en un almacén de datos de destino. El trabajo de transformación en ETL tiene lugar en un motor especializado y, a menudo, implica el uso de tablas de almacenamiento provisional para conservar los datos temporalmente a medida que estos se transforman y, finalmente, se cargan en su destino.”
¿Qué hace un Data Engineer?
¿Cuáles son los objetivos del Data Engineer?
¿Qué significan las siglas ETL?
¿Cuáles son las actividades que realiza un Data Engineer en su día a día?
¿El Data Engineer puede usar las mismas bases de datos que usamos en la producción de software y por qué?
¿Qué tipo de bases de datos debe usar un Data Engineer?
¿Qué significan las siglas OLTP y OLAP?
¿Cómo funciona el proceso ETL?
¿En qué formatos de archivo podemos extraer datos?
¿Cuáles son los roles que están relacionados con el rol de Data Engineer?
¿Qué hace el rol de Data Architect?
¿Qué hace un Big Data Architect?
Me gustó esta gráfica porque muestra el proceso ETL en su entorno, de dónde salen los datos a transformar y lo que se logra con ellos.
El ingeniero de datos transforma los datos que no han sido limpiado y datos faltantes en información de valor para las empresas.
Flujo ETL
Me identifico con esta oración:
En pocas palabras, el proceso ETL extrae y reúne datos sin procesar, los transforma para que sean comprensibles y los carga en un sistema de destino, como una base de datos o un almacén de datos, para facilitar el acceso y el análisis.
Información sobre las funciones: https://www.springboard.com/blog/data-science/what-is-a-data-engineer/
¡Demasiado movimiento de brazos vertical, parece robot (IA)!
bueno en la imagen se puede presentar el proceso que realiza un science, como se ve en la parte izquierda se observa los diferentes sitios o objetos los cuales pueden ser utilizados como extractor de informacion, bueno basicamente es lo que necesitamos, esto dependera del ambito laboral en el que te encuentras, por lo que seria malo decir que la informacion solo la encontraras en un archivo excel o csv o xml. Esto claramente dificulta mas el proceso, pero tambien es requerido segun la empresa.
Qué bueno como seperaron estas carreras, Muy buena explicación tenía conceptos cruzados.
![](
INTERESANTE:(
Le pregunté a ChatGPT sobre las diferencias entre las bases de datos OLTP y las OLAP. La diferencia principal es en el propósito, puesto que las OLAP tiene como fin un motivo analítico mientras que las OLTP es transaccional.
.
Aquí una tabla:
Base de Datos OLAP | Base de Datos OLTP | |
---|---|---|
Propósito | - Analizar datos para obtener información y tomar decisiones. | - Procesar transacciones diarias en tiempo real. |
Datos | - Contiene datos históricos y agregados. | - Contiene datos actuales y detallados de transacciones. |
Uso | - Diseñada para análisis complejo y generación de informes. | - Optimizada para procesamiento rápido y confiable de transacciones. |
Consultas | - Admite consultas complejas y agregaciones. | - Se enfoca en consultas transaccionales rápidas y eficientes. |
Rendimiento | - Se enfoca en el rendimiento de consultas. | - Prioriza la integridad transaccional y la velocidad. |
Volumen de Datos | - Maneja grandes volúmenes de datos. | - Maneja alta concurrencia transaccional y actualizaciones frecuentes. |
Estructura de Datos | - Típicamente utiliza estructuras desnormalizadas para un análisis eficiente. | - Utiliza estructuras normalizadas para una consistencia transaccional. |
Usuarios | - Utilizada por analistas de negocios y tomadores de decisiones. | - Accedida por usuarios finales y personal operativo. |
Los datos han de quedar limpísimos, ya van 3 roles que los limpian. Se podría comer en esos datos.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?