No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Procesamiento de datos: pipelines, Apache Spark y c贸mputo paralelo

11/25
Recursos

Aportes 14

Preguntas 1

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

Profe, siento que a la ruta de Data Engineer le falta un curso usando todo el stack completo (hadoop, airflow, kafka, pyspark ) los cursos son buenos pero no veo ninguno que use todas estas herramientas para llevar a cabo un proyecto real.

Yo conoc铆 Spark en mi primer trabajo como Data Scientist, es todo un mundo eso de los clusters y el procesamiento paralelo, de verdad notas una diferencia al trabajar con grandes cantidades de datos; nosotros lo usamos con la integraci贸n de Databricks, y si es cr铆tico para trabaja con los datos que tenemos

Also, me gustar铆a hacer alg煤n proyecto sea personal o profesional con datos en streaming, creo que eso es otra ondaa

Spark en:

  • Pinterest: por medio de Spark Streaming
  • Conviva
  • Uber
  • Yelp
  • Autodesk
  • Databricks
  • eBay Inc.
  • Elsevier Labs

Referencia: Transformando el mundo del Big Data con Spark
| Project and product names using 鈥淪park鈥

Pipeline resultado de hacer ETL (extraer, tranformar y cargar)

Apache Spark, es una herramienta que nos ayuda a construir o soportar grandes pipelines mediante dos metodolog铆as, la primera es llamada HDFS, este es un proceso donde se alimenta de diversas fuentes como archivos, servidores de archivos para llevarlos a sus sistema y procesarlos con el motor de Spark. El segundo enfoque es el de Streamig que se encarga de alimentarse de diferentes servicios en tiempo real (Twiter, kafka, kinesis) para procesarlas y posteriormente llevarlas a su destino.

En Spark estos procesos se soportan en el procesamiento paralelo, el cual distribuye su carga en diferentes nodos llamados Worker Node.

  • 驴Qu茅 es Apache Spark?

    Spark es un motor de c贸digo abierto para el procesamiento y an谩lisis de informaci贸n a gran escala. Ofrece un motor unificado con un sistema de procesamiento paralelo o distribuido a trav茅s de clusters de computadoras que permite realizar una variedad de tareas a una mayor velocidad debido, entre otras razones, al conjunto de bibliotecas que incluye y que pueden usarse en combinaci贸n.

  • Caracter铆sticas de Apache Spark

    • Velocidad
    • Cache Poderoso
    • Despliegue
    • Tiempo real
    • Poliglota (Varios lenguajes de programaci贸n)
    • Escalable
  • Stack de Apache Spark

    • Spark SQL (Se centra en el procesamiento de datos estructurados y permite consultar macrodatos desde otras fuentes)
    • Spark Streaming (Permite procesar flujos de datos escalables y tolerantes a fallas en tiempo real)
    • MLib ( biblioteca de algoritmos para realizar operaciones enfocadas a ML)
    • GraphX (ofrece operaciones para la manipulaci贸n de grafos)
    • Spark Core (la base funcional de las anteriores)
    • Standalone Scheduler
    • YARN
    • Mesos

En la propia p谩gina de Apache spark podemos saber qu茅 empresas lo utilizan:
https://spark.apache.org/powered-by.html

Encontre varios empleos que tienen en sus requerimientos el manejo de Spark

Son la mayoria de empresas que requieren el manejo de bigdata:
MercadoLibre, Instagram, Linkedin, etc.

Pinterest. Por medio de Spark Streaming, Pinterest puede conocer el modo en que los usuarios de todo el mundo reaccionan ante ciertos 鈥減ins鈥 en tiempo real. De esta manera, el algoritmo puede hacer recomendaciones personalizadas que se basan en las interacciones previas de cada usuario y les ofrecen productos cuya probabilidad de compra es m谩s alta debido a este an谩lisis de metadatos.

Conviva. Se trata de la segunda compa帽铆a de transmisi贸n de videos, despu茅s de YouTube. Conviva utiliza Spark para optimizar el tr谩fico de videos en vivo y reducir la rotaci贸n de los mismos, mejorando la experiencia de visualizaci贸n de los usuarios.

Uber. Todos los d铆as esta empresa re煤ne terabytes de informaci贸n de los viajes de sus usuarios. Con Kafka, HDFS y Spark Streaming logra procesar todos esos datos no estructurados y transformarlos en datos estructurados que luego son sujetos a an谩lisis m谩s complejos mediante Spark.

Yelp. Para orientar adecuadamente su publicidad, el equipo de Yelp crea modelos de predicci贸n que les permiten determinar la probabilidad de que un usuario interact煤e con sus anuncios. Utilizan Apache Spark para procesar grandes cantidades de informaci贸n para crear modelos de Machine Learning con los que han incrementado no s贸lo los clics a su anuncios, sino sus ingresos.

En conclusi贸n y realizando un poco m谩s de investigaci贸n sobre la herramienta, Spark facilita la configuraci贸n de cl煤steres de servidores para poder realizar el procesamiento en pararelo y el an谩lisis de grandes vol煤menes de datos, herramienta muy utilizada en Big Data.

Encontre este articul贸 de Apache Spark que esta interesante. Dentro de las cosas que rescato son estas:
鈥淎ctualmente esta herramienta forma parte de los procesos internos de algunas de las empresas m谩s grandes del mundo con una cultura data-driven, tales como Amazon, IBM, Groupon, Ebay, TripAdvisor, NASA, Yahoo y Shopify, entre muchas otras.鈥

https://www.crehana.com/blog/transformacion-digital/apache-spark-big-data/

Encontr茅 esta informaci贸n publicada por Google donde viene m谩s a detalle qu茅 es Spark y c贸mo es utilizado por los diferentes miembros del negocio.

Buena explicacion.