Importancia y usos de data science e inteligencia artificial

1

Oportunidades laborales en Data Science e inteligencia artificial

2

Glosario para entender el mundo de Data Science e inteligencia artificial

3

¿Qué es Data Science?

4

¿Qué es inteligencia artificial? ¿Cuál es su diferencia con Data Science?

5

¿Qué es Big Data? ¿Cuál es su diferencia con Data Science?

6

¿Qué NO es Data Science? ¿Por qué aprenderla?

7

Áreas de aplicación de Data Science e inteligencia artificial

8

Roles en la industria: cómo funcionan los equipos de datos e inteligencia artificial

Quiz: Importancia y usos de data science e inteligencia artificial

Data Analyst

9

¿Qué hace una Data Analyst?

10

Herramientas y tecnologías para Data Analysts

11

La experiencia de un Data Analyst: entrevista a Demian Arenas

Quiz: Data Analyst

Data Scientist

12

¿Qué hace una Data Scientist?

13

Herramientas y tecnologías para Data Scientists

14

La experiencia de una Data Scientist: entrevista a Nazly Santos

Quiz: Data Scientist

Data Engineer

15

¿Qué hace una Data Engineer?

16

Herramientas y tecnologías para Data Engineers

17

La experiencia de un Data Engineer: entrevista a Alexis Araujo

Quiz: Data Engineer

Machine Learning Engineer

18

¿Qué hace una Machine Learning Engineer?

19

Herramientas y tecnologías para Machine Learning Engineers

20

La experiencia de un Machine Learning Engineer: entrevista a Gerson Perdomo

Quiz: Machine Learning Engineer

Ser profesional en el mundo de los datos e IA

21

Soft skills para Data Science

22

¡En sus marcas, listos, fuera!

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

¿Qué hace una Data Engineer?

15/22
Recursos

La Data Engineer es la encargada de tomar los datos crudos, pero de valor, para transformarlos, organizarlos y almacenarlos en las bases de datos, por medio de la producción de pipelines ETL, que tienen como objetivo abastecer de materia prima o datos a los demás roles, para que ejecuten su trabajo.

Multiples conexiones de luz en un fondo violeta oscuro.

Día a día de una Data Engineer

Los procesos que más se repiten en el rol de una Data Engineer son los siguientes:

  • Desarrolla y mantiene pipelines de ETL y bases de datos, para transformar los datos crudos
  • Extraer datos de diferentes fuentes, ya sean internas o externas. Lo importante es que sean de valor para el negocio
  • Transformar los datos crudos para el análisis, ya que estos en su forma original no se pueden analizar
  • Almacenar datos limpios en bases de datos especializadas para el análisis. Debido a que las bases de datos usadas en producción suelen ser OLTP (Online Transactional Processing) y si se hacen análisis en estas se pueden romper. Por lo tanto, los datos se deben transportar a bases de datos OLAP (Online Analytical Procesing)
  • Crear automatizaciones para que los datos estén constantemente actualizados

Proceso ETL

Extract, Transorm and Load o Extraer, Transformar y Cargar, es uno de los procesos más utilizados para la transformación de los datos, es como el proceso de tomar un diamante en bruto y convertirlo en uno procesado y listo para vender.

Extract o extracción

Importar datos de diversas fuentes, ya sea internas como externas, mientras sean de valor para la organización. Estos puede venir con distintas estructuras y formatos.

Transform o transformación

Todos los datos ya recopilados deben de situarse en una estructura común y limpia que facilite su análisis.

Load o carga

Luego de que los datos se encuentren limpios, estos deben almacenarse en bases de datos OLAP que faciliten la consulta y análisis de los mismos.

Roles relacionados

Dentro del mundo de la Data hay ciertas variaciones en el rol de Data Engineer, que se enfocan o especializan en ciertas actividades clave para el flujo de datos, como por ejemplo:

Data Architect

Se encarga de plantear estrategias de datos dentro de la organización, mediante la revisión de estándares de calidad, tratamiento de flujo de los datos y seguridad de estos.

Big Data Architect

Trabaja con Big Data, las 5V’s de los datos.

Conclusión

A modo de cierre, diremos que una Data Engineer se encarga de saber dónde está la información valiosa para el negocio, entender las herramientas con las cuales se debe hacer el transporte de los datos y hacer las conexiones para abastecer de información al resto del equipo de Data.

Contribución creada por: Ismael H.

Aportes 191

Preguntas 15

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Encontré dos que me resultaron muy interesantes:

Me pareció genial esta imagen que encontre para tener un mapeo de las habilidades que se requieren en los diferentes roles del DS:

“ETL describe el proceso de extremo a extremo mediante el cual una empresa toma la totalidad de los datos, estructurados y no estructurados administrados por cualquier cantidad de equipos en cualquier parte del mundo, y los lleva a un estado útil para los fines empresariales” (Google Cloud)
.
ETL architecture for cloud-native data warehousing on GCP

Dia a día de una Data Engineer

  • Data pipelines de ETL y bases de datos (mantiene, crea y desarrolla).

  • Extrae datos de diferentes fuentes (internas o externas de la organización).

  • Transforma los datos (limpieza).

  • Los almacena en bases de datos especializadas para análisis.

No podemos utlizar las bases de datos que funcionan en los sistemas de producción de software (usados por la empresa para trabajar o usados por clientes) porque estas son transaccionales (OLTP) y no están diseñadas para consultar o extraer datos de manera muy frecuente. Si las usamos para buscar datos como Data Scientist y/o Data Analyst vamos a causar que el sistema deje de funcionar.
Para este fin podemos usar bases de datos especializadas (OLAP)

Me gusta que los profes hablen con terminaciones “AS” a modo inclusivo. ejem: Ingenieras, científicas, etc 😃

El lenguaje también construye!

Información resumida de esta clase
#EstudiantesDePlatzi

  • La Data Engineer toma los datos, los organiza y los limpia para el análisis

  • La Data Engineer busca automatizar los procesos de ETL = Extraer, Transformar y Cargar (Load)

Ok… he sido un Data Analyst 5 años sin saberlo 😂😂😂😂😂

Me parece que cada fase del proceso ETL implica mas trabajo de lo que pense…

un dia a dia del Data Engineer

Mis apuntes #15 (Notion)

Yo les paso no solo una imagen, sino un artículo para complementar la clase 😃
Procesos ETL: cómo obtener valor de los datos

Mis Apuntes Notion, Data Engineer

accede aquí

Entonces, toda organización que pretenda implementar el análisis de datos deberá en primera instancia tener un ingeniero de datos para que estructure el sistema de recolección de datos y luego puedan ser utilizados por los demás roles en Data. Es así, o me estoy equivocando? Agradezco muchísimo sus comentarios.

Encontré un diagrama de ETL usado para una planta de procesamiento y me parece muy interesante:

Esta es una manera de cargar datos a través de la industria de manufacturación.

Les dejo por aquí una página donde explica muy bien todo este proceso de ETL (Proceso de extracción, trasformación y carga). Me pareció muy interesante como es todo este proceso, espero que les sirva.

https://docs.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl

me pareció interesante esta gráfica de ETL:

¿Qué hace?

Datos crudos → Data Engineer → Datos limpios para análisis

Trabaja para que el equipo tenga datos para análisis

Crea pipelines ETL: Extracción, transformación y carga

Día a día

  • Data pipelines, ETL y bases de datos.
  • Extraer datos de diferentes fuentes.
  • Transformar los datos para análisis.
  • Bases de datos especializadas para análisis.
  • Crear automatizaciones para ETL.

Roles relacionados

  • Data Architect
  • Big Data Architect.

Una Data Engineer es un profesional que se encarga de diseñar, construir, mantener y optimizar la infraestructura de datos que se utiliza para recopilar, almacenar y procesar grandes cantidades de datos. Su trabajo se centra en garantizar que los datos sean accesibles, confiables, seguros y escalables para que los científicos de datos y analistas puedan trabajar con ellos de manera efectiva.

Las responsabilidades de un Data Engineer pueden incluir:

  1. Recopilación de datos: diseñar y construir sistemas y procesos para recopilar datos de diferentes fuentes, como bases de datos, archivos, sensores, redes sociales, entre otros.

  2. Almacenamiento de datos: implementar y mantener sistemas de almacenamiento de datos como bases de datos, data lakes o data warehouses, asegurando que sean escalables, seguros y eficientes.

  3. Procesamiento de datos: crear pipelines de procesamiento de datos que permitan limpiar, transformar y combinar los datos de diferentes fuentes para que sean utilizables en el análisis.

  4. Monitoreo y mantenimiento de la infraestructura: garantizar que la infraestructura de datos esté en funcionamiento, sea segura y esté disponible para los usuarios en todo momento. Esto puede incluir el monitoreo del rendimiento, la resolución de problemas y la implementación de medidas de seguridad.

  5. Optimización de la infraestructura: buscar maneras de mejorar la eficiencia y escalabilidad de la infraestructura de datos, como la implementación de nuevas tecnologías o el ajuste de la configuración existente.

En resumen, el trabajo de un Data Engineer es crucial para garantizar que los científicos de datos y analistas tengan acceso a datos de calidad, seguros y escalables que puedan utilizar para generar información valiosa y tomar decisiones informadas.

Qué hace un Data Engineer?

  • Desarrolla y mantiene pipelines de ETL y bases de datos, para transformar los datos crudos.
  • Extraer datos de diferentes fuentes, ya sean internas o externas. Lo importante es que sean de valor para el negocio.
  • Transformar los datos crudos para el análisis, ya que estos en su forma original no se pueden analizar.
  • Almacenar datos limpios en bases de datos especializadas par el análisis. Debido a que las bases de datos usadas en producción suelen ser OLTP (Online Transactional Processing) y si se hacen análisis es estas se pueden romper. Por lo tanto, los datos se deben transportar a bases de datos OLAP (Online Analytical Processing).
  • Crear automatizaciones para que los datos estén constantemente actualizados.

Proceso ETL (Extract, Transform and Load)

  • Extract: Importar datos de diversas fuentes, ya sea internas o externas, mientras sean de valor para la organización. Estos pueden venir en diferentes formatos y estructuras.
  • Transform: Todos los datos ya recopilados deben situarse en una estructura común y limpia que facilite su análisis.
  • Load: Luego de que los datos se encuentren limpios, estos deben almacenarse en bases de datos OLAP que faciliten la consulta y análisis de los mismos.

Esta me pareció interesante


Encontré este diagrama

imagino que en la parte del ordenamiento, todos deben de cumplir con la misma cantidad de características, por ejemplo las columnas donde se ordene cada característica

y Me surgen mil dudas, como la diferenciación de los datos confidenciales, no confidenciales, personales, delicados, etc…
el indexamiento de cada uno, son datos de personas? de transacciones?

ordenamiento? a la hora de extraerlos como ordenarlos, como ocultar nombres de personas para no relacionar los datos personales con caras o nombres y trabajar con datos anónimos?

cláusulas de confidencialidad y uso o manejo de datos, cómo ligan los contratos de los usuarios o los avisos de privacidad para que el data engineer los tengaa en consideración…

y maaas…
ya me llegó la sed y curiosidad de aprender, lo que creo es bueno para continuar con el curso y espero ir respondiendo a las preguntas más adelante…

Me pareció interesante lo que publican en IBM respecto al tema.
https://www.ibm.com/cloud/learn/etl

Segun microsoft,

“Extracción, transformación y carga (ETL) es una canalización de datos que se usa para recopilar datos de varios orígenes. A continuación, transforma los datos según las reglas de negocio y los carga en un almacén de datos de destino. El trabajo de transformación en ETL tiene lugar en un motor especializado y, a menudo, implica el uso de tablas de almacenamiento provisional para conservar los datos temporalmente a medida que estos se transforman y, finalmente, se cargan en su destino.”

Excelente 👌

Un data engineer es un profesional que se encarga de diseñar, construir y mantener la infraestructura tecnológica necesaria para manejar grandes volúmenes de datos. Su trabajo incluye desarrollar sistemas de almacenamiento, procesamiento y transmisión de datos, así como asegurar su calidad y seguridad. El objetivo principal del data engineer es garantizar que los datos estén disponibles, sean confiables y se puedan acceder fácilmente por los data scientists, analistas y otros usuarios finales. En resumen, el data engineer es responsable de la construcción y gestión de la infraestructura de datos que soporta la analítica empresarial.

Gracias

.

Hace tiempo tome una posicion como Data Engineer, les recomiendo mucho si les gusta usar mucho sql y/o python.

Para soluciones en la nube prefiero usar Azure Data Factory.

Este me parecio muy completo e interesante:

Diagrama ETL

**Data Engineer **

Su función principal es, además de limpiar los datos, almacenarlos en una BBDD para poder tener un fácil acceso.

Algo importante es que esa BBDD no puede ser la misma que se usa en producción. No puede ser de tipo transaccional, o sea OLTP (Procesamiento de Transacciones en Línea), porque sino se rompería. Ya que su función principal no recibir consultas constantemente. Para esto se utilizan BBDD de tipo OLAP (Procesamiento Analítico en Línea).

En términos sencillos, las Base de Datos en producción están ideadas para añadir información o actualizarla, no para hacer consultas de una forma asidua.

Así pues, el Data Engineer es el profesional que se encarga de extraer y preparar los datos para que más tarde sean tratados. De este modo, el ingeniero de datos tiene las siguientes funciones:

Extraer grandes cantidades de datos.
Depurar los datos extraídos.
Clasificación y organización de los datos.
De este modo, sin el ingeniero de datos no existiría el Data Scientist. Pues, sin la extracción y organización de los datos del Data Engineering no sería posible definir y entrenar el modelo necesario para analizar los datasets o dataframes

data:image/jpeg;base64,/9j/4AAQSkZJRgABAQAAAQABAAD/2wCEAAoHCBYWFRgWFBUZGBYYGBwaGRoaGhgaGhgZGBoZHBgVGBkkIDwlHB4rIxgZJzgoLC8xNTU1GiQ7QDszPy40NTQBDAwMEA8QHBISHjUsJCs2NDUxMT80NzQ3PzQ0NDQ9NDY1NjU6NDY0OjQ2NDQ0NDQ0NDQ0NTQ0NDQ0NDQ1NDQ0NP/AABEIAJgBTAMBIgACEQEDEQH/xAAbAAEAAgMBAQAAAAAAAAAAAAAABAUBAwYCB//EAEkQAAEDAQQFBggLBgcBAQAAAAEAAhEDBBIhMQUiQVGRExQyYXGxBhUzUoGhstEjNEJTYnJzkpOzwVSCg9Ph8BYkY6LCw9JDRP/EABkBAQADAQEAAAAAAAAAAAAAAAABAwQCBf/EACYRAQEAAgEEAgEEAwAAAAAAAAABAhEDBBIhMTJBcUJhkfAFE1H/2gAMAwEAAhEDEQA/APsyIiAiIgIiICIiAiIgIiICIiAiIgIiICIiAiIgIiICIiAiIgIiICIiAiIgIiICIiAiIgIiII9qtLKbbz3Boy7TuAzJ6gonjB7vJ0HuG9xbTHbjj6l6tg+HofxPZGKmGqN89mJ4BBCv2k5Not7XPcfU0JFq30OFT3qYao3O+6f1Czyn0TwHvQQptI2UD6ajf0KG1129KheG9j2n1OAU7lfou4Lzyw6x2hw9ZCCLR0oxzgw3mPOTXtLSew5H0FT1WaacDSkEGH08cDHwjMVONob5w4hTpFsnttWVHFqYTF5snISJK3qNWeyWX0yiIiRERAREQEREBERAREQEREBERAREQEREBERBhEUavag0xBOE4Qpkt8RFsk3UhZVRW06xubXf7feqep4WxVENPJxDgYvAycRBxwjBW49PyZeozcnWcPHqZZOkt1oLGSI9OOABJwnHAb1y/wDjpm534Y/mq9t9obUoXmEFrgYI+q71r5CMlVrXitMss3H0H/HLNzvwx/NT/HLNzvwx/NXLPstn1SHiA4l+uCSwXiCBE33QBAmCclE0iyk2G0nFxE3nSLpHyY6+CJd/orwoFd9xgxADjeZd1S9jTBDzjrjZsXUr5Z4E/GHfZj86gvqagVtuaDXoAiR8J7IViq62ia9DGPKZfVCm8i3aJ7ZPegVXYGCAYMTv2KgdTf8ABXZF1kVJfrB9+jecNaHOgPxxBxzmD0ApgZAD0BbEHO6Gs1Rj6bqlVz28i4FpdNxznU3Q7WN903wHbGtA3k9CsXRuXk0W+aOAQV2nmA0jgJv0xPbUYtFfRbzkW8T7lv00yKeBPTp4TI8ozerRd453H0rz4pn7cWyiW2hjTEh4mMth/VdmuTtnxsfaN7mrrFd1F3239mXopJeST6r0iKBWqFpkFZm5PRV9LSTcn6p37P6Ka1wIkGRvCD2iIgIiICIiAiIgIiICIiAiqzpFzyRQp3wCRfc66yRhgYJd6AvXI2l2dVjOptMu9bnfogskVabDUOdoqehtMf8AFZ8Xv/aanCn/AOEFiireaVxlaJ6nU2HuhYNW0N6TGVB9Bxa77rsDxQWSrNI9L0DvKlWO1tqAlsggw5rhDmncQo2kc/QO8rvj+Srm+LzU0NTdne4/0VXU8E2GoDMUwJImS50nCdgiF04RdY8/Jj6qvPpOHPXdjFbpOm1lG60BrQCABgALrsl8v0XbWU2m+y+S5pkhpi4QWgA5yZB6l9btNnDxdJIxmRdPohwII9Co7RoOyMBL7oiJ+DoTiQBhyc7Qq9tGtOIraRoOY5jaRZLRDoa4tMAGMpGqzbvO3HLNLMzNMYYgBjIDiyHucJ1hfJIGEA4EZLrqFisUG8KfSN2WUpu7CYbG89hG1eWWCxueW/BgFwDIp0oIuyZJZgZDurJEqDwSeHWp7mghpYCJz8tQz/vivpypLHoOiw36boyksbREgOa66S1kxLRt2K7UCn0zVcx1OoGyG3g4wSG3gACQMYwUIaTc7KrPUC0d2Ku7XbGUwC90SYAgkk9QAkqur1qL87LUfO3ko9boQRTUdtc49rnH9V5k7zxK9mx0zlYqg/fa3/sWPF4/ZKv44/mIPN47zxKzzhzfluHa8x3r0LAwZ2Op+KHf9i2MpUW52J/3GP8A+RQRn291WKTXXyXsJgSWhr2uJLhgBhtXUqsoaSpAtZDqZJhrXMcwEnIDCJVmg5K2fGx9o3uausC5O2fGx9o3uausC0c/rH8MXSfLk/NZVdalYqutSztqotChMtr6Zlro3jMHtCm2hVVoRLpNEaZFY3C268CcMWkCAY2jPJT69taw3TMxOAXJeDody5u53Hd7Vb24Ova2cD9VOvG3O/Oll4zZ18E8Zs6+CpUUJXXjNnXwWWaQYSAJkmMt6pF7ozebGciO2UF7aLU1kXpxmIG6PetPjNnXwUC3h2re64y6pVRbzVEckJ1Xg9Hpatw6xy6XEKdaukS7m3TeM2dfBPGbOvguKe61zg03cQINK/AdLXEHVktdB62YATJuKcwL0TAmMp2x1KEulqVQ1pcTDQJJ3ACSV6Y4ESDIOI3GVxekRbrr5nkoM40ujBnry9K3+BorwZ8jjdvZz9Dq37PWtN6fXHc+6fy8/DrrlzTj7LN/di/0B8XZ+97blZKt0B8XZ+97blZLM9ARazUG0jiE5VvnDiEGxF5DgcivSCt0f5W0fXb+WxY0jn6B3lZ0f5W0fXb+WxY0jn6B3ld4fJVy/FZLKwsrhaKvpaPuiBUfmTlSJJJJJJuYkklS6tUNEmc4wBJnsC08+Z9L7rvcgxzI/OP+7S/8JzI/OP8Au0v/AAs8+Z9L7rvcnPmfS+673IFnslxxdfc4kAGQwDAkgw1oxxKlqJz1mHSxIHRdmSANmGJCloK+1+XofxPZCnFwGZVfbmg16AP+p7IU4UmjJo4BANZvnDiFjl2ecOIWwBc6/TFUMY8tAvsc8AsJEi5daSH6rZdi90AZmBKC+5dvnDiF6FQHIjiq/Rtqe8ulouhz2ghpbiyo9obidbBoJIgT2wLAsBzA4IIGmejT+2pfmNViqnTbQ1jC0AEVaeQ+mFHr6ReMnDgF3hx3L0q5OWYe0C2fGx9o3uauqlcLbbU6/wApIvAgzAiRlh6FBtmnK1Roa54wIcCMCCJggjtW7Lps+SY6vqPIw6/j4Ms9y227j6Wq+1KH4NaQqVqc1GkRgHYAP64/sLxpmpVDgGDUuPJIAJvi7cbBGIOttblnvwZ43C2X6ezxck5MZlPVR7Qqq0LRbatrgFrReLWFzdW61xFblA0xLgC2nG8OzEy2I+pXLnBzbrdcsLQDuuNdORi8T1xjv5WL3wW8ufqO9pit9LdP90d5VB4LB3KDzuTM5DGWT1Zq005ykOuzfui70TtyxwU68Od+dPKKlZXtUmWAgPdGUlgcWt3Q6CHR9A46wA10q9sgXmC9qtMQ0DFgfU2i6QXkCZbGIdshK+W2y9Nn1h3hUD61qvgBgLL+sTGDb7hIw1tS47ZiTiIuqboJ9oMcuGh+oRcEaxaL4MnO9PUJjHNB1NtNPV5TrjPqnL0KNNn3e2tFvDtW91xl1Sqe3mrhyWOq8Ho9LVuO1tg1uIU2aqJdza/mz7vbWJs+721yTza5wBu4gQaV+A6WuIOrJa6DjmzACZNwyYF6JgTGUxjHUoS6G03OTdf6F03pyuxjPoWyiQQLsXYwiIjZEbFxukaVtuvm9yV1040+jBnbOSkeBtOuJJwo4wHZzvZuHqWnLgk47l3T+XnYdZcuacf+uzf3Z/fC70GwmgyXGNbAYfLdtzU/kG+aD24niVTWO3to2ek54N1xeDEkyOUcAGgaxN0iN5Cw7whF8NDWkEVDN+DqGqGQ2MQ7kKkmcNXOcMz0WutpOoGkMu3nuqsp6pcGuZX5Jpc1pl4u3nEYH4N3oVdK1C0lkBzqdAsa5hcWvrOe119o1nBoYSWiDqux3SLNpQOeGhg1i832hxDrnJgnBuBmoWknIsPo8WPTPKFgbTAc+nTfrXmgGo2q4jFskC5EjO+d2MizsT21KbX3QL7Q4gjEEjFp6wcPQt3JDZI7Ce44Kqp6YLmNe2kTevENBkw0AzAGJgkwMcMJW+waSFVzg3JsC8A6CSxrjjENi9EHGQcFAzo7ytok/Lb1f/NixpE63oHeVrs1MmraI89n5bFi0sIwKt45N7U8tutaWt8bxxUR2kaYqCkSA4tlu44kQDvwyVLatD1XZNbxC5+toKtyophovEXpBwa2SJJ9Cuw4OO73mxc/Wc2Fnbx2+Xc6W8mex3sOXxkNEZL69XouZQDXPL3BrgXHM6jv73r5TYGMc9oqEtZDpIicGkiJwmQB6Vl1renoy2yWzSc3QDzJDmQC0Ew7NzrsdHZmepRLbo51MMLoIeCWkA7I3jcWnscFdmjZzcPOnzAOtUEgGARlqHWy3Xtyh6QstEMJZWvkSYdUEiDcADY1iQ0ZbGg5EBHSV4DD/MO+oPzqC+pL5d4DfGHfUH51BfUUorba2a9D+JkSPkhTOT3Od6j3hR7bZXPLXNfccyYN0OGsIII/qtV60j5NF3Y57Dwgj1qBOuHzjwb7lqFlAmIF6Z1W4znOGMqObTaB/wDnB7Krf1anPK/7MfxGIJgpEZOI7A307Fnkz5zv9vuULndf9n41GfoE5a0nKlTb9ao49zEHjS7IazEn4almT843ZkrSFVuslV5byr2gNc111jTiWmRLiZiRsCtUHJWwf5sfaN7mq/t1gZVAa8SA4OjYSJgHqxVBbPjY+0b3NXVrTzWyYa/4wdLjjleSWbm6wxoAgCAMMFBtSsFX2pZm+Ki0KqtCtbQqq0IlL8FvjB+o72mK30t0/wB0d5VH4OtJrmDBuO6trVcW9pDtYyYHXvU68bc786RkRFCRbbL02fWHeFqXuiCXNjORHFBcW2qxt2+29MxgMMp/RROdUfmzwb71qtzHC7eM5xjO6VT2/lcOS814PR6Ru3Ha26HcRgp1qol3Nr3nVH5s8G+9OdUfmzwb71yj+dzhN3ECDSvQHS1xkXZLXQcYlmAGZuKcwL0TAmMp2x1KEugtT2Cm4vGoGkkZ6sYiNuC2UKjXNBYQWkYEZQuO0jo21Br3moeTAcS2+7owScOzYpPgdYq7QXOJbScMGnMnY4D5I7+BWnLhxnHcu6PPw6vO88wvHZL9rXRNma6hTnG64uAIBAc1zocAciOpS2WBjWXBTp3YAgC6Ib0REHJeNAfF2fve25WSzPQQubCb1wB0zLXEE4NBkgCcGsEHzRuXk2JkAck0Q1rRBiGsDg1oIxAAc4djiNqnoghc2EkhjQSIkOIgYDCBh0W4jzRuCzSsgaZbDd92RPWZMOPWRKmIgrNHNiraB9NueP8A82JpHP0DvKzo/wAraPrt/LYsaRz9A7yu8Pkq5fiskhFlcLUS30S9t0enGMCCD3rkB4CN8+pxZ7l3Sp6tmrOBDnGCcWtdTujGQ0TSkjLM4oOYp+BTHXofU1XFubMSM4w9HaCs0/AlhLhfqS0wcWbWh0jq1vUV0A0U7++b/wAlZZot4IcJDgZBBoA5EZij1lSIOh/Bfm777XOcSA03i2AL7Hk4DPU9a6tQbI2qCb5lsCCS0uBxkarQIiOvP0TlArNL2p7LjaYF597EguuhokkNGZxVM4vd0qzz1B1wcGq7trgK9CTHlPZCmvpNd0mg9oBQco6ysOd49rnn9V45hT8wetdSbDT8xo7BHcvPi+n5vrd70HMiwsGTY7CR+q2NpEdF9RvZUf3Ewui5hT831u969NsdMfIbwBQUVG3VmEEv5Rl5rXXmiRecGzeG3HaumVZpuBSAwGvTgfxGZKyQcnbPjY+0b3NXWLk7Z8bH2je5q6wLRz+sfwxdJ8uT81lV1qViodSgXHDDrWdtUdoWmjol9TZdb5zv0GZXSUbG1uMSd5/QKUgrdHaJp0cRJcRBcd24DIDBTH0GuMloJ6wtyII/NGeY3gnNGeY3gpCII/NGeY3gsizMBkNbPYt6INVSk13SaDGUrxzRnmN4KQiCPzRnmN4JzRnmN4KQiDW5gIggEERByjdC9rKIKWw2ptBopVtQgm689BwLiQQ7IHHIq3p1A4SCCN4MhHNBEESNxUJ+h6JMhl072FzPZIQWCKt8VDZWrD+I498p4q/16/4n9EFkodp0jSZg54vbGjWceoNGK0+J6Z6Re/61R59UqTZ7Gyn0GNb2AAntO1BG0ZTdNSo5pbyjw4NOYa1rWi9uJiY2LGkc/QO8qyVbpHP0DvK74/kq5fiskRaeXbeuXhei9G27MT2SuNLNyPdSo1olzgBvJAHFaufU/nGfeb71o0u4inIwIkg7iGugr5SNM2j9orfiP96JfXefU/nGfeb7059T+cZ95vvXyLxzaf2it+JU96eObT+0VvxKnvU6H10WymTAewk4ABzcTuzUlfNfBK31X1nNqVXvbcBh73OEitRAME54nivpSgV1sHw9DsqeyFKfZ2kERgRBAJAg9QUS2tmvQ/iZGPkhTbjtjuIB7oQcgbJUIDatdk0wzAPp3mxWpXmQ4Ri2i062bqhGSn2Gwlldz78Ay/E0QSw06bA7VbOBYZ+Tu2KdabBUc9xD2tl1MggYi5enAgicVXVNBVS10OYHGkaOZi4acZ3Z6etGUKRGOjZa5t9hYaFdlMPdSvHlBSu3y0Q4A036+cNEyZJt7BZGitVIMguEXSy60BjG3DGs03mOMZY70tOjajjVIcNem1gkk4tNQku1fpjLcpdhoPY0McWw0QCJJcBtM5HioGnTTWtpEgAa9Od/lGLZU0qwZg8B71q03T+CxJOvT9dRmwLa/RTDmTxHuXeHb9q+Tv8A0ueqVg60tcJg1GxOewfouxVTT0HTDmuBdLSCMREjfgrVd82eOWu36inpuLLDuuX3dvSIipahERAREQEREBERAREQEREBERAREQEREBERBhV9vYScAThsHarBIU45dt25yx7ppytr5fZynovLnbRzjlm+U5X5EzMSd+zPqzX0srSaDb1+6L0XZ2xnHFasOp7f0x5/P/j7yWWZ2eVfar/NxysX4N6MpuuXzuzc0uMv9KG355XPUvxG3p7h1HAr6ZpVhLIAOcYAuiQRMAExjuXz4eB9bz2/ctH8tZfd29CTUkRrO+yHF7bogYfCl16SCcDF2LpiZmdizZzYz0xd6GLeVMG8L5xzEdmGWMKQzwQqmYezAwdWvgcDB+D6wsf4RqyRfYSDBhlcwYBjye4jijpJ8GBT5yeSILeSGADwR/mKUBxdm6IJjDHBfSVwXg9oF9CqXuMhzWtAaysMeUpuklzAAIYdq71QIVushfdLXlj2klpgEYiCCDmCtPL2hvSpMf1sfdP3Xe9WaIK3xoR0qFYfuBw4tcU8bN+brfhP9yskQVvjQbKNY/wyO+ENtqu6Fnd2vcxnqBJVkiCqNkq1COWe0NBDrjAcS0gi884xIGQCtURAREQEREBERAREQEREBERAREQEREBERAREQEREBERAREQEREBU1W1VHAgFzJOHwNZzgAdrhhJA2ZTtzVyiCgp3mjBzsSSfgbViTiSddYZfa68HuEmXDkLSQ6BGMuPV90LoEQQLHaXOcQ4HAAh1x7AZJBEO2iAfT1KeiICIiAiIgIiICIiAiIgIiICIiAiIgIiICIiAiIgIiICIiAiIgIiICIiAiIgIiICIiAiIgIiIP//Z

En este diagrama muestra algo de integración.

Que hace un Data Engineer
Toma los datos crudos, sucios, con info faltante.
y los limpia los procesa y los almacena en Bases de Datos en Pipelines

Este proceso se me hizo interesante.

Hola, encontré este modelo.

Roles relacionados con DE.

Qué es el ETL?

Día a día de DE.

Que hace una Data Engineer?

Me parrece una imagen que de manera muy resumida explica el proceso ETL.

No se que es Data Marts?

que grande es el mundo de la data… y como se dijo en la entrevista,es imposible aprender todo, hay que enfocarse en un rol… Data Analyst + Data science = i need!

Buena información sobre este rol, solo falta en próximos cursos profundizar el los conceptos de OLTP y OLAP.

ETL: extraer tramformar y cargar

Los 3 pasos esenciales: extracción, transformación y carga de datos.

bueno en la imagen se puede presentar el proceso que realiza un science, como se ve en la parte izquierda se observa los diferentes sitios o objetos los cuales pueden ser utilizados como extractor de informacion, bueno basicamente es lo que necesitamos, esto dependera del ambito laboral en el que te encuentras, por lo que seria malo decir que la informacion solo la encontraras en un archivo excel o csv o xml. Esto claramente dificulta mas el proceso, pero tambien es requerido segun la empresa.

Le eche una revisada a la pagina de microsoft y ellos lo plantean interesante mente:
https://learn.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl

Me gustó este diagrama, más enfocado al BI.

Encontre este diagrama que me parecio interesante.

Este esquema me pareció interesante

encontré esta

Un pequeno recordatorio

Muy interesante

Enconte este

ETL son las siglas de Extract, Transform y Load. Son tres funciones que combinadas entre sí y ejecutadas de forma secuencial nos permitirán extraer datos de una fuente de datos, transformarlos para que tengan el formato deseado y guardarlos en otra base de datos. Extract: es el proceso de leer datos de una o varias bases de datos. En este punto, los datos son recogidos para su posterior tratamiento y pueden tener su origen en diferentes fuentes. Transform: es el proceso que convierte el formato de los datos extraídos en el paso previo a otro formato que necesitemos y que pueda ser almacenado en la base de datos de destino. La transformación puede ser un filtrado de los datos, agrupación, unión entre diferentes tablas o cualquier operación que se nos ocurra. Load: es el proceso de almacenamiento de los datos transformados en la base

En la búsqueda que hice la única diferencia que se encuentra es que en el proceso de LOAD se detalla un poco mas dicho proceso, agregándole testeo de calidad e los datos y prueba de errores

Estas son algunas cosas que hace la gestión de datos o ETL.

El Proccesamiento Analítico en Linea (OLAP) es una tecnología que organiza grandes bases de datos empresariales y proporciona análisis complejo. Se puede utilizar para realizar consultas analíticas complejas sin afectar negativamente los sistemas transaccionales. Las bases de datos que utiliza una empresa para almacenar todas sus transacciones y registros se llaman bases de datos de procesamiento de transacciones en línea (OLTP).

Fuente: Microsoft (La palabra en azul está linkeada con la página web de microsoft con la información necesaria)


ELT (Extract, Load, Transform) es un proceso utilizado en el mundo de la informática para transferir datos de una fuente a otra. El proceso se divide en tres etapas:

  1. Extract: se extraen los datos de la fuente.
  2. Load: se cargan los datos en un sistema de destino.
  3. Transform: se transforman los datos para que puedan ser utilizados de manera adecuada en el sistema de destino.

El proceso ETL es comúnmente utilizado en el contexto de la gestión de bases de datos y la integración de sistemas. Se trata de una técnica importante para asegurarse de que los datos sean consistentes y estén disponibles en el sistema de destino de manera rápida y eficiente.

Un Data Engineer es una persona que se encarga de diseñar, construir, mantener y administrar sistemas de bases de datos y de procesamiento de datos a gran escala. Su trabajo consiste en asegurarse de que los datos estén disponibles, accesibles y en formato adecuado para su uso por parte de los Data Scientists, los analistas de negocio y otros interesados. Esto puede incluir tareas como la limpieza y transformación de datos, la creación de pipelines de procesamiento de datos, la definición de estructuras de almacenamiento de datos y la implementación de herramientas de monitorización y optimización de sistemas de bases de datos.

Proceso ETL

Lo cierto es que al data analyst le toca hacer la extracción y limpieza

ETL
-Extraer
-Transformar
-Cargar (load)
❤️

Fuente: https://www.cognodata.com/procesos-etl/
Me gustó esta imagen ya que aparecen estos tres niveles como Tier 1, 2 y 3, lo cual me da un poco más de perspectiva del que y el para qué 😉

Ampliando ETL, OLTP, OLAP:

Bases de datos OLAP

Encontre esta y se me hizo simple y entendible


No tengo ni idea que es, pero estoy seguro de que es complicado 😉

Esta imagen explica de que manera se le da valor a los datos en los procesos ETL

Extracto de: Que hace un data engineer?

Un ingeniero de datos obtiene datos crudos, los limpia, los procesa y los almacena en bases de datos. Su objetivo es que el equipo tenga datos para el análisis por medio de la creación de ETL’s

Tareas frecuentes de un data engineer

  • Creación y mantenimiento de Data pipelines ETL
  • Extracción de datos
  • Transformación y limpieza de datos
  • Carga de datos en bases de datos especializadas (OLAP)
  • Creación de automatizaciones ETL

Proceso ETL

  1. Extracción (Fuentes: Archivos, APIs o Bases de datos)
  2. Transformación (Separación y tratamiento de datos)
  3. Cargar (En bases de datos especializadas para análisis OLAP)

Roles relacionados

  • Data Architect (Plantea estrategia de datos de la organización)
  • Big Data Architect (Aplicacion de 5vs de big data)

Me gustaron estos dos:

Vine solo para tener una noción de que trata, y me doy cuenta que es lo que necesitaba.