Encontré dos que me resultaron muy interesantes:
Importancia y usos de data science y machine learning
Oportunidades laborales en Data Science e inteligencia artificial
¿Qué es Data Science?
Diferencia entre inteligencia artificial y Data Science
Roles en la industria: cómo funcionan los equipos de datos e inteligencia artificial
¿Qué NO es Data Science? ¿Por qué aprenderla?
Quiz: Importancia y usos de data science y machine learning
Data Analyst
¿Qué hace una Data Analyst?
Herramientas y tecnologías para Data Analysts
Quiz: Data Analyst
Data Scientist
¿Qué hace una Data Scientist?
Herramientas y tecnologías para Data Scientists
La experiencia de una Data Scientist: entrevista a Nazly Santos
Quiz: Data Scientist
Data Engineer
¿Qué hace una Data Engineer?
Herramientas y tecnologías para Data Engineers
La experiencia de un Data Engineer: entrevista a Alexis Araujo
Quiz: Data Engineer
Ser profesional en el mundo de los datos y machine learning
Soft skills para Data Science
¡En sus marcas, listos, fuera!
You don't have access to this class
Keep learning! Join and start boosting your career
The Data Engineer is in charge of taking the raw data, but of value, to transform, organize and store it in the databases, by means of the production of ETL pipelines, which aim to supply raw material or data to the other roles, so that they can execute their work.
The most recurring processes in the role of a Data Engineer are the following:
Extract, Transorm and Load is one of the most used processes for data transformation, it is like the process of taking a diamond in the rough and turning it into a processed and ready to sell one.
Import data from various sources, both internal and external, as long as they are of value to the organization. This can come in a variety of structures and formats.
All the data already collected should be placed in a common and clean structure that facilitates its analysis.
After the data is clean, it should be stored in OLAP databases for easy query and analysis.
Within the Data world there are certain variations on the role of Data Engineer, which focus or specialize in certain key activities for data flow, such as:
In charge of proposing data strategies within the organization, through the review of quality standards, data flow treatment and data security.
Works with Big Data, the 5V's of data.
In closing, we will say that a Data Engineer is in charge of knowing where the valuable information is for the business, understanding the tools with which the data must be transported and making the connections to provide information to the rest of the Data team.
Contribution created by: Ismael H.
Contributions 270
Questions 20
Encontré dos que me resultaron muy interesantes:
Me pareció genial esta imagen que encontre para tener un mapeo de las habilidades que se requieren en los diferentes roles del DS:
“ETL describe el proceso de extremo a extremo mediante el cual una empresa toma la totalidad de los datos, estructurados y no estructurados administrados por cualquier cantidad de equipos en cualquier parte del mundo, y los lleva a un estado útil para los fines empresariales” (Google Cloud)
.
ETL architecture for cloud-native data warehousing on GCP
Dia a día de una Data Engineer
Data pipelines de ETL y bases de datos (mantiene, crea y desarrolla).
Extrae datos de diferentes fuentes (internas o externas de la organización).
Transforma los datos (limpieza).
Los almacena en bases de datos especializadas para análisis.
No podemos utlizar las bases de datos que funcionan en los sistemas de producción de software (usados por la empresa para trabajar o usados por clientes) porque estas son transaccionales (OLTP) y no están diseñadas para consultar o extraer datos de manera muy frecuente. Si las usamos para buscar datos como Data Scientist y/o Data Analyst vamos a causar que el sistema deje de funcionar.
Para este fin podemos usar bases de datos especializadas (OLAP)
Información resumida de esta clase
#EstudiantesDePlatzi
La Data Engineer toma los datos, los organiza y los limpia para el análisis
La Data Engineer busca automatizar los procesos de ETL = Extraer, Transformar y Cargar (Load)
Me gusta que los profes hablen con terminaciones “AS” a modo inclusivo. ejem: Ingenieras, científicas, etc 😃
El lenguaje también construye!
un dia a dia del Data Engineer
Ok… he sido un Data Analyst 5 años sin saberlo 😂😂😂😂😂
Me parece que cada fase del proceso ETL implica mas trabajo de lo que pense…
Mis Apuntes Notion, Data Engineer
¿Qué hace?
Datos crudos → Data Engineer → Datos limpios para análisis
Trabaja para que el equipo tenga datos para análisis
Crea pipelines ETL: Extracción, transformación y carga
Día a día
Roles relacionados
Yo les paso no solo una imagen, sino un artículo para complementar la clase 😃
Procesos ETL: cómo obtener valor de los datos
Qué hace un Data Engineer?
Proceso ETL (Extract, Transform and Load)
Una Data Engineer es un profesional que se encarga de diseñar, construir, mantener y optimizar la infraestructura de datos que se utiliza para recopilar, almacenar y procesar grandes cantidades de datos. Su trabajo se centra en garantizar que los datos sean accesibles, confiables, seguros y escalables para que los científicos de datos y analistas puedan trabajar con ellos de manera efectiva.
Las responsabilidades de un Data Engineer pueden incluir:
Recopilación de datos: diseñar y construir sistemas y procesos para recopilar datos de diferentes fuentes, como bases de datos, archivos, sensores, redes sociales, entre otros.
Almacenamiento de datos: implementar y mantener sistemas de almacenamiento de datos como bases de datos, data lakes o data warehouses, asegurando que sean escalables, seguros y eficientes.
Procesamiento de datos: crear pipelines de procesamiento de datos que permitan limpiar, transformar y combinar los datos de diferentes fuentes para que sean utilizables en el análisis.
Monitoreo y mantenimiento de la infraestructura: garantizar que la infraestructura de datos esté en funcionamiento, sea segura y esté disponible para los usuarios en todo momento. Esto puede incluir el monitoreo del rendimiento, la resolución de problemas y la implementación de medidas de seguridad.
Optimización de la infraestructura: buscar maneras de mejorar la eficiencia y escalabilidad de la infraestructura de datos, como la implementación de nuevas tecnologías o el ajuste de la configuración existente.
En resumen, el trabajo de un Data Engineer es crucial para garantizar que los científicos de datos y analistas tengan acceso a datos de calidad, seguros y escalables que puedan utilizar para generar información valiosa y tomar decisiones informadas.
Encontré un diagrama de ETL usado para una planta de procesamiento y me parece muy interesante:
Esta es una manera de cargar datos a través de la industria de manufacturación.
Les dejo por aquí una página donde explica muy bien todo este proceso de ETL (Proceso de extracción, trasformación y carga). Me pareció muy interesante como es todo este proceso, espero que les sirva.
https://docs.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl
me pareció interesante esta gráfica de ETL:
Volumen: Las técnicas de Big Data se caracterizan por el tratamiento de grandes cantidades de datos. Esta técnica permite recopilar y analizar grandes bolsas de datos, incluso con millones de registros
Velocidad: Los datos se generan a una gran velocidad. Muchos de ellos quedarán obsoletos en poco tiempo y perderán su valor cuando aparezcan otros más recientes. El reto para las empresas será reaccionar lo más rápido posible y almacenar esos datos antes de que pierdan valor.
Variedad: Existen múltiples fuentes de datos digitales que responden a distintos tipos de formato: datos numéricos, direcciones postales, teléfonos, patrones, ubicaciones geográficas, productos de interés en texto, etc. Esta gran variedad en cuanto a la naturaleza de los datos hace que sea necesario unificarlos y ponerlos en común para que sean fácilmente analizables.
Veracidad: El objetivo último del Big Data es que la toma de decisiones del negocio esté basada en datos reales. De ahí que la veracidad sea uno de los pilares fundamentales del Big Data.
Valor: Se refiere a obtener la verdadera utilidad de los datos adecuados para enfocarlos al negocio. Esto significa que es necesario elegir cuáles son los registros más apropiados para su tratamiento, ser selectivos y tener en cuenta su vinculación real.
Esta me pareció interesante
Encontré este diagrama
imagino que en la parte del ordenamiento, todos deben de cumplir con la misma cantidad de características, por ejemplo las columnas donde se ordene cada característica
y Me surgen mil dudas, como la diferenciación de los datos confidenciales, no confidenciales, personales, delicados, etc…
el indexamiento de cada uno, son datos de personas? de transacciones?
ordenamiento? a la hora de extraerlos como ordenarlos, como ocultar nombres de personas para no relacionar los datos personales con caras o nombres y trabajar con datos anónimos?
cláusulas de confidencialidad y uso o manejo de datos, cómo ligan los contratos de los usuarios o los avisos de privacidad para que el data engineer los tengaa en consideración…
y maaas…
ya me llegó la sed y curiosidad de aprender, lo que creo es bueno para continuar con el curso y espero ir respondiendo a las preguntas más adelante…
Me pareció interesante lo que publican en IBM respecto al tema.
https://www.ibm.com/cloud/learn/etl
Segun microsoft,
“Extracción, transformación y carga (ETL) es una canalización de datos que se usa para recopilar datos de varios orígenes. A continuación, transforma los datos según las reglas de negocio y los carga en un almacén de datos de destino. El trabajo de transformación en ETL tiene lugar en un motor especializado y, a menudo, implica el uso de tablas de almacenamiento provisional para conservar los datos temporalmente a medida que estos se transforman y, finalmente, se cargan en su destino.”
¿Qué hace un Data Engineer?
¿Cuáles son los objetivos del Data Engineer?
¿Qué significan las siglas ETL?
¿Cuáles son las actividades que realiza un Data Engineer en su día a día?
¿El Data Engineer puede usar las mismas bases de datos que usamos en la producción de software y por qué?
¿Qué tipo de bases de datos debe usar un Data Engineer?
¿Qué significan las siglas OLTP y OLAP?
¿Cómo funciona el proceso ETL?
¿En qué formatos de archivo podemos extraer datos?
¿Cuáles son los roles que están relacionados con el rol de Data Engineer?
¿Qué hace el rol de Data Architect?
¿Qué hace un Big Data Architect?
Me gustó esta gráfica porque muestra el proceso ETL en su entorno, de dónde salen los datos a transformar y lo que se logra con ellos.
El ingeniero de datos transforma los datos que no han sido limpiado y datos faltantes en información de valor para las empresas.
Flujo ETL
Want to see more contributions, questions and answers from the community?