Aprende Ingl茅s, Programaci贸n, AI, Ciberseguridad y m谩s a precio especial.

Antes: $249

Currency
$209
Suscr铆bete

Termina en:

1 D铆as
23 Hrs
50 Min
21 Seg

Gu铆a de retos para convertirte en Data Engineer

2/25

Lectura

隆Hola! Qu茅 emoci贸n tenerte en este curso donde comenzar谩s a formarte como toda una o un Data Engineer.

Durante las clases compartir茅 varios retos que son preguntas o actividades sencillas donde tendr谩s que investigar o compartir tu opini贸n o perspectiva. Para ello llevar谩s una gu铆a de retos, un documento donde escribir谩s tus respuestas鈥

Para continuar con el curso descarga aqu铆 la Gu铆a de retos del Curso de Fundamentos de Ingenier铆a de Datos. 猬咃笍

En este documento responder谩s las preguntas y actividades de los retos que aparecen al final de cada clase. Adem谩s, al terminar cada m贸dulo tendr谩s un espacio donde dejar谩s tus propias reflexiones sobre lo que has aprendido. Si茅ntete libre de investigar, buscar y escribir lo que hayas encontrado.

Bonus: anatom铆a Data Engineer

Las y los Data Engineer o Ingenieros de Datos se encargan de tomar los datos crudos de valor, para transformarlos y almacenarlos en bases de datos de anal铆tica y disponibilizarlos a software que funciona en sistemas de producci贸n. Para ello crean pipelines ETL y utilizan bases de datos especializadas, con los que abastecen de datos a los dem谩s roles de un equipo de data y a sistemas de software que funcionan con datos y machine learning.

Recuerda esto que es la base de la definici贸n de un Data Engineer. Descarga la infograf铆a de su anatom铆a para que te empieces a familiarizar en el perfil en el que te convertir谩s. 馃挭馃徑

data_engineer.png

Al terminar el curso comparte todos tus aprendizajes en los comentarios de la clase final. As铆 podr谩s intercambiar ideas y soluciones con toda la comunidad de data de Platzi. 馃檶馃徑

Aportes 32

Preguntas 1

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

Genial, me gusta la idea de reforzar lo aprendido con retos.

Esto fue lo que encontr茅 sobre los conceptos de la imagen, espero sea 煤til 馃槃

  • Pipeline de Datos: Una pipeline de datos es una construcci贸n l贸gica que representa un proceso dividido en fases. Las pipelines de datos se caracterizan por definir el conjunto de pasos o fases y las tecnolog铆as involucradas en un proceso de movimiento o procesamiento de datos. Las pipelines de datos son necesarias ya que no debemos analizar los datos en los mismos sistemas donde se crean.

  • Data Warehouse: Un Data Warehouse es un almac茅n electr贸nico donde generalmente una empresa u organizaci贸n mantiene una gran cantidad de informaci贸n. Los datos de un data warehouse deben almacenarse de forma segura, fiable, f谩cil de recuperar y f谩cil de administrar.

  • Data Lake: Es un sistema o biblioteca de datos almacenados en su formato bruto, 鈥 usualmente blobs o ficheros

  • ETL: es el proceso que permite a las organizaciones mover datos desde m煤ltiples fuentes, reformatearlos y limpiarlos, y cargarlos en otra base de datos, data mart, o data warehouse para analizar, o en otro sistema operacional para apoyar un proceso de negocio.

### VOCABULARIO 1. **ETL:** (Extract, Transform, Load) 2. **Data lake:** (se refiere a un sistema de almacenamiento centralizado que permite almacenar grandes cantidades de datos en bruto, en su formato nativo, sin necesidad de estructurarlos previamente) 3. **Pipeline de datos:** (un pipeline de datos simplifica y automatiza el flujo de datos, desde su origen hasta su destino, garantizando la coherencia y la calidad a lo largo de todo el proceso.) 4. **Data Warehouse:**(es un sistema de almacenamiento centralizado y optimizado para el an谩lisis y la consulta eficiente de grandes vol煤menes de datos.) Programaci贸n con Python y bases solidas de ingenier铆a de Software 5. Manejo de datos estructurados y no estructurados 6. Computo, almacenamiento y bases de datos en la nube 7. ETL con herramientas como SQL, Apache Spark y airflow 1. **Apache Airflow:** es una plataforma de orquestaci贸n de c贸digo abierto dise帽ada para programar, monitorear y gestionar flujos de trabajo (workflows) de datos 2. **Apache Spark:** es un framework de procesamiento de datos de c贸digo abierto dise帽ado para el procesamiento distribuido y r谩pido de grandes conjuntos de datos ![](https://static.platzi.com/media/user_upload/image-ff29e79f-a6d5-4401-b6c1-6fe1b74ff566.jpg)

Cool! Me gusta esta metodologia de los ultimos cursos de Platzi, m谩s interactivos y que te incita a expandir el concoimiento que te da el curso 0.0

Los retos desarrollan habilidades. Excelente comienzo de curso!

UN nuevo vocabulario en esta traves铆a:
pipeline de datos es un conjunto de pasos y procesos secuenciales dise帽ados para mover, transformar y procesar datos de manera automatizada desde una fuente hasta un destino final. Es una estructura que permite la orquestaci贸n y ejecuci贸n ordenada de diversas tareas relacionadas con el flujo de datos
ETL: ETC(EXTRACT, TRANSFORM Y LOAD)
**DATALAKE: **Es un repositorio centralizado y escalable que almacena grandes vol煤menes de datos en su forma original y sin procesar.
data warehouse se centra en el an谩lisis a gran escala y la generaci贸n de informes utilizando datos consolidados de diversas fuentes. El data warehouse est谩 dise帽ado para facilitar el an谩lisis empresarial y proporcionar una vista unificada de los datos para una toma de decisiones informada.

Reto aceptado.

El obst谩culo es el camino

Maravillosa la infograf铆a "Anatom铆a de un Data Engineer". A煤n me falta mucho de esos elementos, pero espero en la ruta adquirirlos y afianzarlos.

Gracias

Se ve muy prometedor este curso
iniciando隆隆隆
Me encant贸 la infograf铆a que resume perfectamente en lo que nos estamos adentrando.
Los pipelines ETL son sistemas o procesos dise帽ados para extraer, transformar y cargar datos de una fuente a un destino. Estas tres fases representan las acciones clave realizadas en el manejo de datos en muchos entornos empresariales y de an谩lisis de datos. Aqu铆 est谩 el significado de cada una de las fases: 1. **Extracci贸n (Extract):** En esta fase, los datos se extraen de una o varias fuentes de datos, que pueden ser bases de datos, archivos, servicios web, entre otros. La idea es recopilar la informaci贸n necesaria para el an谩lisis o almacenamiento posterior. 2. **Transformaci贸n (Transform):** Despu茅s de la extracci贸n, los datos se someten a procesos de transformaci贸n. Durante esta fase, los datos pueden ser limpiados, filtrados, reestructurados, agregados o de alguna manera modificados para satisfacer los requisitos del sistema de destino o del an谩lisis que se va a realizar. 3. **Carga (Load):** Una vez que los datos han sido extra铆dos y transformados seg煤n sea necesario, se cargan en el sistema de destino. Este destino puede ser un almac茅n de datos, un sistema de gesti贸n de bases de datos, una aplicaci贸n anal铆tica, o cualquier otro lugar donde los datos sean utilizados para la toma de decisiones o el an谩lisis. Los pipelines ETL son fundamentales en el contexto de la integraci贸n de datos y el an谩lisis de datos a gran escala. Se utilizan en diversas industrias y aplicaciones, como la inteligencia empresarial, la anal铆tica de datos, la gesti贸n de relaciones con el cliente (CRM), la planificaci贸n de recursos empresariales (ERP) y m谩s. Estos pipelines permiten automatizar y gestionar eficientemente el flujo de datos a lo largo de su ciclo de vida, desde su origen hasta su destino final. -ChatGPT-
Me encanta como unen cada elemtento, haciendolo ver el todo en uno. Love it!
![](https://static.platzi.com/media/user_upload/image-be0c40fb-a32c-4fc1-8c57-ba45a2962885.jpg)
Me gusta el data analyst, pero voy a probar con esto, tengo demasiada curiosidad
Le pregunte a Bard sobre el tema y esto me dijo Recuerda que el aprendizaje es un proceso continuo, as铆 que sigue practicando y explorando nuevos temas relacionados con el an谩lisis de datos. Adem谩s de los cursos gratuitos, hay muchos recursos en l铆nea, como blogs, tutoriales y libros, que pueden complementar tu formaci贸n. 隆Disfruta tu camino de aprendizaje hacia el an谩lisis de datos!
quizas es muy temprano el comentario, pero respecto de las ETL, me sorprend铆 que ya hay algunas tecnolog铆as que proponen este proceso m谩s como un ELT que como lo que tradicionalmente pensamos que debemos hacer para dejar disponibles los datos para los usuarios que los exploten
Excelente aporte, en cuanto a los retos me parece un buen inicio para ejecutar bien el plan que es ser data engineer
Este ejemplo nos puede ayudar. ![]()![]()![]()![]()![](https://media.licdn.com/dms/image/C4D22AQGrvMBs71ZTJQ/feedshare-shrink_800/0/1650541798966?e=1699488000\&v=beta\&t=qMEVrP6MOWoTNQy0hiesimIixy5PWpAt9ejsNvi1S2g)

Un mar de conocimientos los de los Data Engineer pero de eso se trata de ser master en la materia.

vgcjmckl

Me esta gustando demasiado este curso****

Hermosa aventura la de ser Data Engineer.

A por ello.

No encontr茅 en LinkedIn algo relacionado con un monto de percepci贸n monetaria (puede ser que no sepa buscar esto). Pero si vi bastante demanda. Piden eventualmente un mar de conocimientos entre los que siempre destaca Ingl茅s fluido y SQL parejo.

Acepto el reto, siento que el curso me va a servir para complementar todo lo que he aprendido de forma emp铆rica en este mundo de la Ingenier铆a de Datos

Te amo mucho profe que esta pendiente de todos y dice 鈥渃hi鈥

A convertirnos en Ingenieros de Datos! 馃洜

Muy buena la incorporaci贸n de la gu铆a de retos