Profe, siento que a la ruta de Data Engineer le falta un curso usando todo el stack completo (hadoop, airflow, kafka, pyspark ) los cursos son buenos pero no veo ninguno que use todas estas herramientas para llevar a cabo un proyecto real.
Introducción a la ingeniería de datos
¿Qué es ingeniería de datos? ¿Qué es Data Engineer?
Guía de retos para convertirte en Data Engineer
¿Cómo convertirte en Data Engineer?
¿Dónde ejercer como Data Engineer?
Tareas de Data Engineer: DataOPs
Quiz: Introducción a la ingeniería de datos
Herramientas del ciclo de DataOps
Agile en ingeniería de datos
Lenguajes de programación e ingeniería de software
¿Dónde y cómo escribir tu código en ingeniería de datos?
Automatización y scripting
Fuentes de datos: SQL, NoSQL, API y web scraping
Procesamiento de datos: pipelines, Apache Spark y cómputo paralelo
Automatizar los pipelines: Airflow
Containers y empaquetamiento: Docker y Kubernetes
Manejo de ambientes para datos
Testing de software y de datos
CI/CD basico
Servidores y computación en la nube para data
Reentrenamiento y control de salud de servicios
Medición de indicadores y seguimiento a proyectos
Quiz: Herramientas del ciclo de DataOps
Ejerciendo como Data Engineer
Buscando Oportunidades como Data Engineer
Evolución en el rol: ganando seniority como Data Engineer
Evolución en el rol: manager, architect, pivot
Trabajando en equipo como Data Engineer
Quiz: Ejerciendo como Data Engineer
Conclusiones
Compartir con la comunidad y seguir creciendo
Completa tu guía con los retos y certifícate
No tienes acceso a esta clase
¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera
Convierte tus certificados en títulos universitarios en USA
Antes: $249
Paga en 4 cuotas sin intereses
Termina en:
Ricardo Alanis
Aportes 26
Preguntas 3
Profe, siento que a la ruta de Data Engineer le falta un curso usando todo el stack completo (hadoop, airflow, kafka, pyspark ) los cursos son buenos pero no veo ninguno que use todas estas herramientas para llevar a cabo un proyecto real.
Yo conocí Spark en mi primer trabajo como Data Scientist, es todo un mundo eso de los clusters y el procesamiento paralelo, de verdad notas una diferencia al trabajar con grandes cantidades de datos; nosotros lo usamos con la integración de Databricks, y si es crítico para trabaja con los datos que tenemos
Also, me gustaría hacer algún proyecto sea personal o profesional con datos en streaming, creo que eso es otra ondaa
¿Qué es Apache Spark?
Spark es un motor de código abierto para el procesamiento y análisis de información a gran escala. Ofrece un motor unificado con un sistema de procesamiento paralelo o distribuido a través de clusters de computadoras que permite realizar una variedad de tareas a una mayor velocidad debido, entre otras razones, al conjunto de bibliotecas que incluye y que pueden usarse en combinación.
Características de Apache Spark
Stack de Apache Spark
Pipeline resultado de hacer ETL (extraer, tranformar y cargar)
Apache Spark, es una herramienta que nos ayuda a construir o soportar grandes pipelines mediante dos metodologías, la primera es llamada HDFS, este es un proceso donde se alimenta de diversas fuentes como archivos, servidores de archivos para llevarlos a sus sistema y procesarlos con el motor de Spark. El segundo enfoque es el de Streamig que se encarga de alimentarse de diferentes servicios en tiempo real (Twiter, kafka, kinesis) para procesarlas y posteriormente llevarlas a su destino.
En Spark estos procesos se soportan en el procesamiento paralelo, el cual distribuye su carga en diferentes nodos llamados Worker Node.
Spark en:
Referencia: Transformando el mundo del Big Data con Spark
| Project and product names using “Spark”
Son la mayoria de empresas que requieren el manejo de bigdata:
MercadoLibre, Instagram, Linkedin, etc.
Pinterest. Por medio de Spark Streaming, Pinterest puede conocer el modo en que los usuarios de todo el mundo reaccionan ante ciertos “pins” en tiempo real. De esta manera, el algoritmo puede hacer recomendaciones personalizadas que se basan en las interacciones previas de cada usuario y les ofrecen productos cuya probabilidad de compra es más alta debido a este análisis de metadatos.
Conviva. Se trata de la segunda compañía de transmisión de videos, después de YouTube. Conviva utiliza Spark para optimizar el tráfico de videos en vivo y reducir la rotación de los mismos, mejorando la experiencia de visualización de los usuarios.
Uber. Todos los días esta empresa reúne terabytes de información de los viajes de sus usuarios. Con Kafka, HDFS y Spark Streaming logra procesar todos esos datos no estructurados y transformarlos en datos estructurados que luego son sujetos a análisis más complejos mediante Spark.
Yelp. Para orientar adecuadamente su publicidad, el equipo de Yelp crea modelos de predicción que les permiten determinar la probabilidad de que un usuario interactúe con sus anuncios. Utilizan Apache Spark para procesar grandes cantidades de información para crear modelos de Machine Learning con los que han incrementado no sólo los clics a su anuncios, sino sus ingresos.
Encontre varios empleos que tienen en sus requerimientos el manejo de Spark
En la propia página de Apache spark podemos saber qué empresas lo utilizan:
https://spark.apache.org/powered-by.html
Gracias
✅
El escenario de datos
Pipeline de datos
Muy interesante para entender un poco más de spark
Utilizan SparK:
En conclusión y realizando un poco más de investigación sobre la herramienta, Spark facilita la configuración de clústeres de servidores para poder realizar el procesamiento en pararelo y el análisis de grandes volúmenes de datos, herramienta muy utilizada en Big Data.
Encontre este articuló de Apache Spark que esta interesante. Dentro de las cosas que rescato son estas:
“Actualmente esta herramienta forma parte de los procesos internos de algunas de las empresas más grandes del mundo con una cultura data-driven, tales como Amazon, IBM, Groupon, Ebay, TripAdvisor, NASA, Yahoo y Shopify, entre muchas otras.”
https://www.crehana.com/blog/transformacion-digital/apache-spark-big-data/
Encontré esta información publicada por Google donde viene más a detalle qué es Spark y cómo es utilizado por los diferentes miembros del negocio.
Buena explicacion.
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?