Guía de retos para convertirte en Data Engineer

2/25

Lectura

¡Hola! Qué emoción tenerte en este curso donde comenzarás a formarte como toda una o un Data Engineer.

Durante las clases compartiré varios retos que son preguntas o actividades sencillas donde tendrás que investigar o compartir tu opinión o perspectiva. Para ello llevarás una guía de retos, un documento donde escribirás tus respuestas…

Para continuar con el curso descarga aquí la Guía de retos del Curso de Fundamentos de Ingeniería de Datos. ⬅️

En este documento responderás las preguntas y actividades de los retos que aparecen al final de cada clase. Además, al terminar cada módulo tendrás un espacio donde dejarás tus propias reflexiones sobre lo que has aprendido. Siéntete libre de investigar, buscar y escribir lo que hayas encontrado.

Bonus: anatomía Data Engineer

Las y los Data Engineer o Ingenieros de Datos se encargan de tomar los datos crudos de valor, para transformarlos y almacenarlos en bases de datos de analítica y disponibilizarlos a software que funciona en sistemas de producción. Para ello crean pipelines ETL y utilizan bases de datos especializadas, con los que abastecen de datos a los demás roles de un equipo de data y a sistemas de software que funcionan con datos y machine learning.

Recuerda esto que es la base de la definición de un Data Engineer. Descarga la infografía de su anatomía para que te empieces a familiarizar en el perfil en el que te convertirás. 💪🏽

data_engineer.png

Al terminar el curso comparte todos tus aprendizajes en los comentarios de la clase final. Así podrás intercambiar ideas y soluciones con toda la comunidad de data de Platzi. 🙌🏽

Aportes 36

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Genial, me gusta la idea de reforzar lo aprendido con retos.

Esto fue lo que encontré sobre los conceptos de la imagen, espero sea útil 😄

  • Pipeline de Datos: Una pipeline de datos es una construcción lógica que representa un proceso dividido en fases. Las pipelines de datos se caracterizan por definir el conjunto de pasos o fases y las tecnologías involucradas en un proceso de movimiento o procesamiento de datos. Las pipelines de datos son necesarias ya que no debemos analizar los datos en los mismos sistemas donde se crean.

  • Data Warehouse: Un Data Warehouse es un almacén electrónico donde generalmente una empresa u organización mantiene una gran cantidad de información. Los datos de un data warehouse deben almacenarse de forma segura, fiable, fácil de recuperar y fácil de administrar.

  • Data Lake: Es un sistema o biblioteca de datos almacenados en su formato bruto, ​ usualmente blobs o ficheros

  • ETL: es el proceso que permite a las organizaciones mover datos desde múltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.

### VOCABULARIO 1. **ETL:** (Extract, Transform, Load) 2. **Data lake:** (se refiere a un sistema de almacenamiento centralizado que permite almacenar grandes cantidades de datos en bruto, en su formato nativo, sin necesidad de estructurarlos previamente) 3. **Pipeline de datos:** (un pipeline de datos simplifica y automatiza el flujo de datos, desde su origen hasta su destino, garantizando la coherencia y la calidad a lo largo de todo el proceso.) 4. **Data Warehouse:**(es un sistema de almacenamiento centralizado y optimizado para el análisis y la consulta eficiente de grandes volúmenes de datos.) Programación con Python y bases solidas de ingeniería de Software 5. Manejo de datos estructurados y no estructurados 6. Computo, almacenamiento y bases de datos en la nube 7. ETL con herramientas como SQL, Apache Spark y airflow 1. **Apache Airflow:** es una plataforma de orquestación de código abierto diseñada para programar, monitorear y gestionar flujos de trabajo (workflows) de datos 2. **Apache Spark:** es un framework de procesamiento de datos de código abierto diseñado para el procesamiento distribuido y rápido de grandes conjuntos de datos ![](https://static.platzi.com/media/user_upload/image-ff29e79f-a6d5-4401-b6c1-6fe1b74ff566.jpg)

Cool! Me gusta esta metodologia de los ultimos cursos de Platzi, más interactivos y que te incita a expandir el concoimiento que te da el curso 0.0

Los retos desarrollan habilidades. Excelente comienzo de curso!

Muy instructiva la infografía. El Data Engineer es todo un ***Rambo*** de la data.
Lo que más me gusta de la ingeniería de datos es que es una profesión donde después de dominar la parte técnica se debe pensar para transformar los datos en información útil para la sociedad y se puede aplicar en cualquier área. esto está emocionante

UN nuevo vocabulario en esta travesía:
pipeline de datos es un conjunto de pasos y procesos secuenciales diseñados para mover, transformar y procesar datos de manera automatizada desde una fuente hasta un destino final. Es una estructura que permite la orquestación y ejecución ordenada de diversas tareas relacionadas con el flujo de datos
ETL: ETC(EXTRACT, TRANSFORM Y LOAD)
**DATALAKE: **Es un repositorio centralizado y escalable que almacena grandes volúmenes de datos en su forma original y sin procesar.
data warehouse se centra en el análisis a gran escala y la generación de informes utilizando datos consolidados de diversas fuentes. El data warehouse está diseñado para facilitar el análisis empresarial y proporcionar una vista unificada de los datos para una toma de decisiones informada.

Reto aceptado.

El obstáculo es el camino

Infografia muy util para recordar
![](https://static.platzi.com/media/user_upload/image-be0c40fb-a32c-4fc1-8c57-ba45a2962885.jpg)
Muuuy bueno
Maravillosa la infografía "Anatomía de un Data Engineer". Aún me falta mucho de esos elementos, pero espero en la ruta adquirirlos y afianzarlos.

Gracias

Se ve muy prometedor este curso
iniciando¡¡¡
Me encantó la infografía que resume perfectamente en lo que nos estamos adentrando.
Los pipelines ETL son sistemas o procesos diseñados para extraer, transformar y cargar datos de una fuente a un destino. Estas tres fases representan las acciones clave realizadas en el manejo de datos en muchos entornos empresariales y de análisis de datos. Aquí está el significado de cada una de las fases: 1. **Extracción (Extract):** En esta fase, los datos se extraen de una o varias fuentes de datos, que pueden ser bases de datos, archivos, servicios web, entre otros. La idea es recopilar la información necesaria para el análisis o almacenamiento posterior. 2. **Transformación (Transform):** Después de la extracción, los datos se someten a procesos de transformación. Durante esta fase, los datos pueden ser limpiados, filtrados, reestructurados, agregados o de alguna manera modificados para satisfacer los requisitos del sistema de destino o del análisis que se va a realizar. 3. **Carga (Load):** Una vez que los datos han sido extraídos y transformados según sea necesario, se cargan en el sistema de destino. Este destino puede ser un almacén de datos, un sistema de gestión de bases de datos, una aplicación analítica, o cualquier otro lugar donde los datos sean utilizados para la toma de decisiones o el análisis. Los pipelines ETL son fundamentales en el contexto de la integración de datos y el análisis de datos a gran escala. Se utilizan en diversas industrias y aplicaciones, como la inteligencia empresarial, la analítica de datos, la gestión de relaciones con el cliente (CRM), la planificación de recursos empresariales (ERP) y más. Estos pipelines permiten automatizar y gestionar eficientemente el flujo de datos a lo largo de su ciclo de vida, desde su origen hasta su destino final. -ChatGPT-
Me encanta como unen cada elemtento, haciendolo ver el todo en uno. Love it!
Me gusta el data analyst, pero voy a probar con esto, tengo demasiada curiosidad
Le pregunte a Bard sobre el tema y esto me dijo Recuerda que el aprendizaje es un proceso continuo, así que sigue practicando y explorando nuevos temas relacionados con el análisis de datos. Además de los cursos gratuitos, hay muchos recursos en línea, como blogs, tutoriales y libros, que pueden complementar tu formación. ¡Disfruta tu camino de aprendizaje hacia el análisis de datos!
quizas es muy temprano el comentario, pero respecto de las ETL, me sorprendí que ya hay algunas tecnologías que proponen este proceso más como un ELT que como lo que tradicionalmente pensamos que debemos hacer para dejar disponibles los datos para los usuarios que los exploten
Excelente aporte, en cuanto a los retos me parece un buen inicio para ejecutar bien el plan que es ser data engineer
Este ejemplo nos puede ayudar. ![]()![]()![]()![]()![](https://media.licdn.com/dms/image/C4D22AQGrvMBs71ZTJQ/feedshare-shrink_800/0/1650541798966?e=1699488000\&v=beta\&t=qMEVrP6MOWoTNQy0hiesimIixy5PWpAt9ejsNvi1S2g)

Un mar de conocimientos los de los Data Engineer pero de eso se trata de ser master en la materia.

vgcjmckl

Me esta gustando demasiado este curso****

Hermosa aventura la de ser Data Engineer.

A por ello.

No encontré en LinkedIn algo relacionado con un monto de percepción monetaria (puede ser que no sepa buscar esto). Pero si vi bastante demanda. Piden eventualmente un mar de conocimientos entre los que siempre destaca Inglés fluido y SQL parejo.

Acepto el reto, siento que el curso me va a servir para complementar todo lo que he aprendido de forma empírica en este mundo de la Ingeniería de Datos

Te amo mucho profe que esta pendiente de todos y dice “chi”

A convertirnos en Ingenieros de Datos! 🛠

Muy buena la incorporación de la guía de retos