Importancia y usos de data science e inteligencia artificial

1

Oportunidades laborales en Data Science e inteligencia artificial

2

Glosario para entender el mundo de Data Science e inteligencia artificial

3

¿Qué es Data Science?

4

¿Qué es inteligencia artificial? ¿Cuál es su diferencia con Data Science?

5

¿Qué es Big Data? ¿Cuál es su diferencia con Data Science?

6

¿Qué NO es Data Science? ¿Por qué aprenderla?

7

Áreas de aplicación de Data Science e inteligencia artificial

8

Roles en la industria: cómo funcionan los equipos de datos e inteligencia artificial

Quiz: Importancia y usos de data science e inteligencia artificial

Data Analyst

9

¿Qué hace una Data Analyst?

10

Herramientas y tecnologías para Data Analysts

11

La experiencia de un Data Analyst: entrevista a Demian Arenas

Quiz: Data Analyst

Data Scientist

12

¿Qué hace una Data Scientist?

13

Herramientas y tecnologías para Data Scientists

14

La experiencia de una Data Scientist: entrevista a Nazly Santos

Quiz: Data Scientist

Data Engineer

15

¿Qué hace una Data Engineer?

16

Herramientas y tecnologías para Data Engineers

17

La experiencia de un Data Engineer: entrevista a Alexis Araujo

Quiz: Data Engineer

Machine Learning Engineer

18

¿Qué hace una Machine Learning Engineer?

19

Herramientas y tecnologías para Machine Learning Engineers

20

La experiencia de un Machine Learning Engineer: entrevista a Gerson Perdomo

Quiz: Machine Learning Engineer

Ser profesional en el mundo de los datos e IA

21

Soft skills para Data Science

22

¡En sus marcas, listos, fuera!

Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

¿Qué hace una Data Engineer?

15/22
Recursos

La Data Engineer es la encargada de tomar los datos crudos, pero de valor, para transformarlos, organizarlos y almacenarlos en las bases de datos, por medio de la producción de piplines ETL, que tienen como objetivo abastecer de materia prima o datos a los demás roles, para que ejecuten su trabajo.

Multiples conexiones de luz en un fondo violeta oscuro.

Día a día de una Data Engineer

Los procesos que más se repiten en el rol de una Data Engineer son los siguientes:

  • Desarrolla y mantiene pipelines de ETL y bases de datos, para transformar los datos crudos.
  • Extraer datos de diferentes fuentes, ya sean internas o externas. Lo importante es que sean de valor para el negocio.
  • Transformar los datos crudos para el análisis, ya que estos en su forma original no se pueden analizar.
  • Almacenar datos limpios en bases de datos especializadas para el análisis. Debido a que las bases de datos usadas en producción suelen ser OLTP (Online Transactional Processing) y si se hacen análisis en estas se pueden romper. Por lo tanto, los datos se deben transportar a bases de datos OLAP (Online Analytical Procesing).
  • Crear automatizaciones para que los datos estén constantemente actualizados.

Proceso ETL

Extract, Transorm and Load o Extraer, Transformar y Cargar, es uno de los procesos más utilizados para la transformación de los datos, es como el proceso de tomar un diamante en bruto y convertirlo en uno procesado y listo para vender.

Extract o extracción

Importar datos de diversas fuentes, ya sea internas como externas, mientras sean de valor para la organización. Estos puede venir con distintas estructuras y formatos.

Transform o transformación

Todos los datos ya recopilados deben de situarse en una estructura común y limpia que facilite su análisis.

Load o carga

Luego de que los datos se encuentren limpios, estos deben almacenarse en bases de datos OLAP que faciliten la consulta y análisis de los mismos.

Roles relacionados

Dentro del mundo de la Data hay ciertas variaciones en el rol de Data Engineer, que se enfocan o especializan en ciertas actividades clave para el flujo de datos, como por ejemplo:

Data Architect

Se encarga de plantear estrategias de datos dentro de la organización, mediante la revisión de estándares de calidad, tratamiento de flujo de los datos y seguridad de estos.

Big Data Architect

Trabaja con Big Data, las 5V’s de los datos.

Conoce la experiencia real de un Data Engineer.

Conclusión

A modo de cierre, diremos que una Data Engineer se encarga de saber dónde está la información valiosa para el negocio, entender las herramientas con las cuales se debe hacer el transporte de los datos y hacer las conexiones para abastecer de información al resto del equipo de Data.

Contribución creada por Ismael H.

Aportes 50

Preguntas 7

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Encontré dos que me resultaron muy interesantes:

“ETL describe el proceso de extremo a extremo mediante el cual una empresa toma la totalidad de los datos, estructurados y no estructurados administrados por cualquier cantidad de equipos en cualquier parte del mundo, y los lleva a un estado útil para los fines empresariales” (Google Cloud)
.
ETL architecture for cloud-native data warehousing on GCP

Información resumida de esta clase
#EstudiantesDePlatzi

  • La Data Engineer toma los datos, los organiza y los limpia para el análisis

  • La Data Engineer busca automatizar los procesos de ETL = Extraer, Transformar y Cargar (Load)

Dia a día de una Data Engineer

  • Data pipelines de ETL y bases de datos (mantiene, crea y desarrolla).

  • Extrae datos de diferentes fuentes (internas o externas de la organización).

  • Transforma los datos (limpieza).

  • Los almacena en bases de datos especializadas para análisis.

No podemos utlizar las bases de datos que funcionan en los sistemas de producción de software (usados por la empresa para trabajar o usados por clientes) porque estas son transaccionales (OLTP) y no están diseñadas para consultar o extraer datos de manera muy frecuente. Si las usamos para buscar datos como Data Scientist y/o Data Analyst vamos a causar que el sistema deje de funcionar.
Para este fin podemos usar bases de datos especializadas (OLAP)

un dia a dia del Data Engineer

Me pareció genial esta imagen que encontre para tener un mapeo de las habilidades que se requieren en los diferentes roles del DS:

Me gusta que los profes hablen con terminaciones “AS” a modo inclusivo. ejem: Ingenieras, científicas, etc 😃

El lenguaje también construye!

Les dejo por aquí una página donde explica muy bien todo este proceso de ETL (Proceso de extracción, trasformación y carga). Me pareció muy interesante como es todo este proceso, espero que les sirva.

https://docs.microsoft.com/es-es/azure/architecture/data-guide/relational-data/etl

Ok… he sido un Data Analyst 5 años sin saberlo 😂😂😂😂😂

Me pareció interesante lo que publican en IBM respecto al tema.
https://www.ibm.com/cloud/learn/etl

Segun microsoft,

“Extracción, transformación y carga (ETL) es una canalización de datos que se usa para recopilar datos de varios orígenes. A continuación, transforma los datos según las reglas de negocio y los carga en un almacén de datos de destino. El trabajo de transformación en ETL tiene lugar en un motor especializado y, a menudo, implica el uso de tablas de almacenamiento provisional para conservar los datos temporalmente a medida que estos se transforman y, finalmente, se cargan en su destino.”

**Bases de datos OLTP y OLAP

OLTP - On-Line Transactional Processing**

Los sistemas OLTP son bases de datos orientadas al procesamiento de transacciones. Una transacción genera un proceso atómico (que debe ser validado con un commit, o invalidado con un rollback), y que puede involucrar operaciones de inserción, modificación y borrado de datos. El proceso transaccional es típico de las bases de datos operacionales.

  • El acceso a los datos está optimizado para tareas frecuentes de lectura y escritura. (Por ejemplo, la enorme cantidad de transacciones que tienen que soportar las BD de bancos o hipermercados diariamente).

  • Los datos se estructuran según el nivel aplicación (programa de gestión a medida, ERP o CRM implantado, sistema de información departamental…).

  • Los formatos de los datos no son necesariamente uniformes en los diferentes departamentos (es común la falta de compatibilidad y la existencia de islas de datos).

  • El historial de datos suele limitarse a los datos actuales o recientes.

**
OLAP - On-Line Analytical Processing**

Los sistemas OLAP son bases de datos orientadas al procesamiento analítico. Este análisis suele implicar, generalmente, la lectura de grandes cantidades de datos para llegar a extraer algún tipo de información útil: tendencias de ventas, patrones de comportamiento de los consumidores, elaboración de informes complejos… etc. Este sistema es típico de los datamarts.

  • El acceso a los datos suele ser de sólo lectura. La acción más común es la consulta, con muy pocas inserciones, actualizaciones o eliminaciones.

  • Los datos se estructuran según las áreas de negocio, y los formatos de los datos están integrados de manera uniforme en toda la organización.

  • El historial de datos es a largo plazo, normalmente de dos a cinco años.

  • Las bases de datos OLAP se suelen alimentar de información procedente de los sistemas operacionales existentes, mediante un proceso de extracción, transformación y carga (ETL).

ETL = Excract, Transform, Load

Alguien que sepa porque no me deja subir imagen, les paso la dirección de un diagrama que encontre. Saludos. https://www.cognodata.com/procesos-etl/

No conocía este concepto de bases de datos OLTP y OLAP, que interesante este mundo de las bases de datos

Este diagrama interesante encontre en la web.

Toma datos crudos, los limpia, los transforma y los almacena en bases de datos OLAP

ETL: extracción, transformación, carga extracción: archivos tabulares, son, Apis, bases OLTP Transformación: Cambiar el formato de los datos, limpiar, segmentar, crear columnas. Carga: subir los datos a warehouse una base de datos OLAP

Roles Relacionados:

Data Architect: se encarga de plantear estrategias de datos de la organización para ello revisa estándares de calidad, tratamiento de flujos de los datos y la seguridad de los mismos.

Big Data Architect: que trabaja precisamente con Big Data, con las 5 V de los datos.

Un Ingeniero de Datos no guarda los datos extraidos en los sistemas de producción de software de la empresa ya sea de trabajo o de clientes, ya que estan son bases de datos transaccionales OLTP (Procesamiento de Transacciones en Línea) y son usadas por ejemplo para crear registros y actualizarlos, pero no sirven para consultar o extraer datos de forma tan frecuente, si esto ocurre las bases de datos pueden dañarse y el sistema dejar de funcionar. En cambio para un Ingeniero de Datos lo ideal son las bases de datos OLAP (Procesamiento Analitico en Linea).

Este mi rol 😊

Toda una infraestructura!

Generalmente los procesos ETL se realizan en la madrugada, en donde garantizan que hay menos flujo de transacciones en el sistema OLTP por ende es mas eficiente realizar actualizaciones sin tumbar los servicios de transaccionalidad con una extraccion masiva de datos.

Creo que hay un spelling mistake en el quizz:

https://imgur.com/Yu1HTqp

Les comparto el modelo original de ETL junto al modelo ELT, el cual es el mismo proceso de Exportar, Transportar y Cargar, sólo que en este proceso se invierte el orden del Transporte con la Carga, ya que según la información obtenida, dice que en el proceso, una vez que los datos hayana sido exportados, serán cargados a un tipo de repositorio llamado “Lago de Datos”, el cual nos permite almacenar los datos y dentro de él, poder transformar y limpiar los datos.
'
Y el hecho de usar estos repositorios, nos permite aprovechar del uso del procesamiento distribuido para acelerar las transformaciones.

Bueno al final, estos datos son utilizados en analítica.

Este diagrama muestra las actividades de cada rol Data Engineer - Data Scientist de acuerdo con la etapa de los Datos.

Proceso de ETL

I wanted to share some info I found from another source, comparing an ETL and Data Pipeline: https://www.astera.com/type/blog/etl-pipeline-vs-data-pipeline/#:~:text=Data ETL pipeline is a,%2C data mart%2C or database.

Para el caso de ETL, podría aplicar el modulo Power Query que se encuentra en Excel y PowerBI?

Gracias, no conocía quienes eran los data engineers

ETL