Stack de herramientas esenciales para Data Engineers

Guía para Empezar una Carrera en Data Science e Inteligencia Artificial

Contenido del curso

Importancia y usos de data science y machine learning

Data Analyst

Data Scientist

Data Engineer

Ser profesional en el mundo de los datos y machine learning

Tomar examen

Stack de herramientas esenciales para Data Engineers

Resumen

Convertirte en Data Engineer requiere dominar un stack específico de herramientas y tecnologías que cubren desde la programación hasta la nube. Aquí encontrarás el mapa completo de lo que necesitas aprender, por qué importa cada pieza y por dónde empezar si vienes desde cero.

¿Qué lenguajes de programación necesita un Data Engineer?

El lenguaje principal es Python, y junto a él debes manejar el paradigma de programación orientada a objetos para escribir código mantenible y escalable. Como alternativa o complemento, Scala también aparece en muchas vacantes del rol.

Más allá del lenguaje, necesitas bases sólidas de ingeniería de software. No basta con que el código funcione: tiene que seguir buenas prácticas, ser legible y reusable.

¿Por qué Python es el lenguaje principal para Data Engineering? Porque concentra el ecosistema más amplio de librerías para procesar datos, automatizar tareas y conectarse con bases de datos y servicios en la nube.

¿Qué papel juegan Linux, la automatización y los editores de código?

Linux te da agilidad porque la mayoría de herramientas de datos corren mejor ahí, y entenderlo te ayuda a saber cómo funcionan por dentro. La automatización con cron o shell scripting te libera de tareas repetitivas de limpieza y transformación.

Para el día a día, las Jupyter Notebooks son el espacio donde empiezas a construir tus ETL, y editores como Visual Studio Code te acompañan cuando el proyecto crece.

¿Qué bases de datos y librerías debe dominar un Data Engineer?

Vas a trabajar con bases de datos SQL y NoSQL, así que el lenguaje SQL, el modelado de datos y la administración de motores tipo OLAP y OLTP son indispensables. Cada tipo responde a un propósito distinto: las OLTP están pensadas para transacciones y las OLAP para análisis.

Para procesar datos, las librerías cambian según el volumen:

Pandas para conjuntos pequeños que caben en memoria.
Apache Spark para volúmenes de gigabytes o terabytes con cómputo paralelo.
Dask como alternativa para escalar Python a datos grandes.

¿Cuándo usar Pandas y cuándo Spark? Usa Pandas para datasets pequeños que caben en memoria; cambia a Spark o Dask cuando trabajes con gigabytes o terabytes y necesites cómputo distribuido.

¿Cómo se automatizan y orquestan los workflows de datos?

Una vez creado el ETL, toca agendarlo para que se ejecute de manera periódica sin intervención manual. La herramienta estándar para esto es Apache Airflow, que te permite definir, programar y monitorear flujos de trabajo complejos.

La idea es simple: si ya escribiste la lógica una vez, no deberías estar corriéndola a mano cada día.

¿Qué tecnologías cloud y de contenedores necesitas aprender?

No vas a trabajar con datos solo en tu computadora. Vas a usar bases de datos y servidores en la nube, así que necesitas conocer al menos uno de los tres grandes proveedores: AWS, Google Cloud o Azure.

Después entran los contenedores con Docker. La razón es práctica: con Docker creas software reproducible que corre igual en cualquier máquina, lo empaquetas una vez y lo replicas donde lo necesites.

Cuando ya manejas un contenedor, el siguiente paso es Kubernetes como orquestador para coordinar varios contenedores en paralelo. Esto te permite escalar y trabajar con múltiples máquinas haciendo cómputo distribuido.

¿Para qué sirve Docker en Data Engineering? Para empaquetar tus pipelines y dependencias en contenedores reproducibles que funcionan igual en tu laptop, en un servidor o en la nube.

¿Cuántas matemáticas necesita realmente un Data Engineer?

Menos de las que imaginas. Lo recomendable es aprender estadística descriptiva para entender mejor los datos con los que trabajas y para comunicarte con los demás roles del equipo de data science e inteligencia artificial.

No necesitas el nivel matemático de un científico de datos, pero sí el suficiente para hablar el mismo idioma que ellos.

¿Por dónde empezar a aprender Data Engineering desde cero?

El orden importa. Si arrancas hoy, esta es la ruta que te permite construir sobre bases firmes:

Aprende a programar con Python y construye bases sólidas de ingeniería de software.
Suma automatización y scripting con cron o shell.
Domina las librerías de transformación de datos: Pandas y Apache Spark.
Estudia bases de datos SQL y NoSQL: consultas, almacenamiento y modelado.

Con ese fundamento puedes crear tus primeros ETL y después robustecer el conocimiento con cloud, Docker, Kubernetes y Airflow.

Como reto, entra a portales de vacantes y busca ofertas para el rol de Data Engineer. Identifica qué habilidades se repiten más y comparte tus hallazgos en los comentarios. ¿Qué herramienta de esta lista te emociona más aprender primero?

Comentarios186

Hugo Montoya Diaz

Estudiante

Data Engineer

Felipe Bernardo González Barranco

Estudiante

:clap: :clap: :clap: :clap:

Lucas Mateo Aldana Briceño

Estudiante

☜(ﾟヮﾟ☜) Gracias

Carlos Angeles

Estudiante

no entiendo ni madres :(

Marius Lungu

Estudiante

😂😂😂😂, tranquilo, sigue las rutas, cuando lleves unos 10-15 cursos, te ubicarás mucho mejor, pero primero necesitas forjar la base con unos pocos meses de estudio

Kin Orozco Takamura

Estudiante

jajaja... yo a veces me pierdo tambíen, pero supongo que hay que ser paciente

Sara María Mejia Sánchez

Estudiante

Herramientas y tecnologías para Data Engineer

Python
Scala
Bases sólidas de ingeniería de software (creación de software con buenas prácticas).
Automatización y scripting
Jypyter Notebooks y editores de código como Visual Studio Code.
Manejo avanzado de bases de datos SQL y NoSQL
Administrar bases de datos como OLAP y OLTP
Librerías para procesar datos: Pandas (pequeña cantidad), Dask y Apache (datos de más de gigabyte o terabytes).
Automatizar y agendar workflows para que se ejecuten de manera periódica (Apache Airflow)
Tecnologías cloud (AWS, Google Cloud o Azure)
Contenedores Docker, para crear software reproducible en diferentes máquinas.
Orquestadores Kubernetes para utilizar varios de estos contenedores a la vez, porque se trabaja con diferentes máquinas de cómputo paralelo.

Matemáticas para Data Engineer

Estadística descriptiva, para lograr entender mejor los datos con los que trabajas y para mejorar la comunicación con el resto del equipo de Data Scientist e IA

Juan Pablo Cuenca Ludeña

Estudiante

Comparto mis apuntes #16 (Notion)

Nestor Jesus Rodriguez Rodriguez

Estudiante

Importante multinacional española del sector tecnológico busca para su equipo del área de sistemas, técnico, tecnología , estudiante de 6to semestre o profesional en ingeniería de sistemas, telecomunicaciones, telemática, electrónica o carreras afines a las TICs, interesado/a en trabajar con nosotros, generando crecimiento personal y profesional.- Con conocimientos en desarrollo de software, bases de datos , ETL, análisis de requerimientos y Python.- Sin experiencia o inferior a los 2 años.Creamos y fomentamos un lugar de trabajo diverso, inclusivo y libre de acoso donde todos pueden alcanzar su potencial. Todos los solicitantes serán considerados para el empleo independientemente de su raza, color, religión, sexo, orientación sexual, identidad de género, origen nacional, edad o estado de discapacidad.

Luis Brea

Estudiante

¿Cuál es el Linkdn de la empresa o enlace de contacto estimado Nestor? Gracias de antemano.

Nestor Jesus Rodriguez Rodriguez

Estudiante

Que pena compañero, no la encontré :cry: Si era de Linkedin, en el buscador coloqué: Data Engineer. Pero hay muchas más actualizadas :thumbsup:

Antonio Demarco Bonino

Estudiante

Encontré una búsqueda en el únicornio uruguayo d-local:

Sergio Brandon De Lucio Chavero

Estudiante

Está bien, pero lo mejor es acercarse a la empresa y preguntar de primera mano, debido a que a veces Recursos Humanos puede ser un muro.

Kin Orozco Takamura

Estudiante

Me pregunto si las empresas contratantes no tendrán problemas en tomarnos viniendo de un programa de estudio y no de una carrera, ya que en las ofertas de trabajo muchas veces veo que piden un título :(

Osvaldo Olguín

Estudiante

Prepara un portafolio con proyectos. Para los proyectos practica lo que vas aprendiendo en los cursos. Te servirá para aprender y mostrar lo aprendido a reclutadores.

Wilmer Diaz

Estudiante

No es una limitante, solo es un plus. En los grupos de trabajo actual, la mayoría de sus integrantes no tienen una formación académica universitaria. Ser autodidacta también es un buen Soft Skill actualmente. Ánimo que lo lograrás

DANIEL ALBERTO PRADA HERRERA

Estudiante

Yin Mendoza Obregón

Estudiante

Storylling y comunicación son del Data Analyst, de hecho... por eso se diferencia de Data Scientist, a parte del Maching Learning.por qué subestiman tanto aún Data Analyst?

Yin Mendoza Obregón

Estudiante

StoryTelling y Comunicación son habilidades del Data Analyst, de hecho, por eso se diferencia del Data Scientist, a parte del Maching Learning. Por qué subestiman tanto a un Data Analyst?

Nayibe Parra Castillo

Estudiante

Ofertas:

https://g.co/kgs/Xq3hT6

wilmer meza rodriguez

Estudiante

estoy empezando en este mundo desde cero y me parece que este es el perfil en el que me centrare

Giancarlo Zevallos Lecca

Estudiante

Faltó mencionar SQL Server Integration Services (SSIS), que es lo más utilizado en la industria para los ETLs

Miguel Angel Lara Hurtado

Estudiante

Donde esta la seccion de recursos? por favor.

Joalin Pineda

Estudiante

¡Hola, Eduardo! 👋 La encuentras justo debajo del reproductor de la clase.

Te dejo los enlaces que se comparten aca: https://platzi.com/dataengineer/ https://www.getonbrd.com/jobs/data-science-analytics

Eduardo Montaña

Estudiante

Diferencia entre OLAP y OLTP

OLAP (On-Line Analytical Processing) es un tipo de sistema de base de datos diseñado para soportar la toma de decisiones y el análisis de datos multidimensionales. Los sistemas OLAP permiten a los usuarios analizar grandes cantidades de datos de diferentes maneras y desde diferentes perspectivas. Por ejemplo, un usuario puede usar un sistema OLAP para analizar ventas por región, por producto y por año.

Por otro lado, OLTP (On-Line Transaction Processing) es un tipo de sistema de base de datos diseñado para soportar el procesamiento de transacciones en línea. Los sistemas OLTP están optimizados para manejar grandes cantidades de transacciones rápidamente, como las realizadas en una tienda en línea o un banco. En general, los sistemas OLTP son más rápidos y están optimizados para manejar grandes cantidades de transacciones en lugar de para el análisis de datos.

En resumen, la principal diferencia entre OLAP y OLTP es el enfoque. Los sistemas OLAP están diseñados para apoyar el análisis y la toma de decisiones, mientras que los sistemas OLTP están diseñados para manejar transacciones en línea de manera eficiente.

Leidy Diana

Estudiante

En mi país (Perú) no hay muchas vacantes sobre DI, encontré algunas y a continuación presento la que tiene mayor detalle.

Catalina Alvarez Morales

Estudiante

Me gusta que es una escuela que va mas enfocada a la ingeniería de software

Yari Ivan Taft

Estudiante

Es bueno utilizar linux, automatización y scripting y tambien buenas practicas de desarrollo. Spark y Dask para big data. Para poca data Pandas.

Y utilizar docker para hacer env facilmente reproducibles.

Claudia Cecilia Ruiz Duque

Estudiante

Data Engineer habilidades más solicitadas:

Python + SQL
ETL y pipelines de datos
Big Data (Spark, Hadoop)
Cloud (AWS, Azure, GCP)

Clave: construir sistemas que procesen y entreguen datos listos para análisis.

REY RENZO GARCIA LINARES

Estudiante

Data Engineers need to learn Python and Scala Also, Linux is flexible and light.

Tools: Jupyter Notebooks, SQL, NoSQL Library: Pandas, Dask, Apache Spark Automation: Apache Airflow, google cloud, was Docker, kuberneter

sofia.goico

Estudiante

En mi opinión este capitulo me confundió un poco, entiendo la finalidad de entender que hace un Data Engineer, pero quizás para esta instancia de curso, fue mucho más allá en las herramientas y tecnologías.

Wilmer Diaz

Estudiante

Te comprendo, pero la verdad por experiencia, es bueno dejar claro y limitar las herramientas, pues cuando inicias a estudiar te atormenta tanta herramientas-tecnologías-conceptos que te desubica. Te recomiendo tener en mente y prioridad lo siguiente: Linux(uso en la terminal y servidores cloud)- Python (aquí profundizar en POO)- SQL (PostgreSQL) - AWS - Pandas

Cualquier tema, aquí estamos para ayudarte-guiarte con lo poco o mucho que sé.

Carmen Liliana Barrios Ayasta

Estudiante

En la misma situación me he sentido. Si bien este es un curso preámbulo para entrar al mundo del DS e IA, lo entienden aquellos que ya están inmersos en el tema.

Juan Velayos

Estudiante

Para convertirte en un Data Engineer, debes aprender las siguientes herramientas según la clase:

Lenguajes de programación: Enfócate en Python y Scala.
Scripting y automatización: Aprende a usar Cron o Shell Scripting.
Jupyter Notebooks: Para crear tus ETL.
Bases de datos: Conoce SQL y NoSQL, así como el modelado de datos.
Librerías de procesamiento de datos: Familiarízate con Pandas, Spark y Dask.
Apache Airflow: Para automatizar y agendar workflows.
Tecnologías en la nube: Aprende sobre AWS, Google Cloud o Azure.
Docker y Kubernetes: Para gestionar contenedores y orquestación.

Esto te dará una base sólida para iniciar tu carrera en Data Engineering.

Stack de herramientas esenciales para Data Engineers

Importancia y usos de data science y machine learning

Oportunidades laborales en Data Science hoy

Qué es Data Science y cómo funciona

Qué es inteligencia artificial y machine learning

Roles clave en equipos de data science

Qué no es Data Science y por qué aprenderlo

Data Analyst

Qué hace un data analyst día a día

Habilidades y herramientas esenciales para ser Data Analyst

Data Scientist

Qué hace una data scientist día a día

Python, R y las herramientas del data scientist

Qué hace un data scientist en la industria

Data Engineer

Qué hace un data engineer y cómo funciona ETL