No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Procesamiento de datos: pipelines, Apache Spark y cómputo paralelo

11/25
Recursos

Aportes 14

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

o inicia sesión.

Profe, siento que a la ruta de Data Engineer le falta un curso usando todo el stack completo (hadoop, airflow, kafka, pyspark ) los cursos son buenos pero no veo ninguno que use todas estas herramientas para llevar a cabo un proyecto real.

Yo conocí Spark en mi primer trabajo como Data Scientist, es todo un mundo eso de los clusters y el procesamiento paralelo, de verdad notas una diferencia al trabajar con grandes cantidades de datos; nosotros lo usamos con la integración de Databricks, y si es crítico para trabaja con los datos que tenemos

Also, me gustaría hacer algún proyecto sea personal o profesional con datos en streaming, creo que eso es otra ondaa

Spark en:

  • Pinterest: por medio de Spark Streaming
  • Conviva
  • Uber
  • Yelp
  • Autodesk
  • Databricks
  • eBay Inc.
  • Elsevier Labs

Referencia: Transformando el mundo del Big Data con Spark
| Project and product names using “Spark”

Pipeline resultado de hacer ETL (extraer, tranformar y cargar)

Apache Spark, es una herramienta que nos ayuda a construir o soportar grandes pipelines mediante dos metodologías, la primera es llamada HDFS, este es un proceso donde se alimenta de diversas fuentes como archivos, servidores de archivos para llevarlos a sus sistema y procesarlos con el motor de Spark. El segundo enfoque es el de Streamig que se encarga de alimentarse de diferentes servicios en tiempo real (Twiter, kafka, kinesis) para procesarlas y posteriormente llevarlas a su destino.

En Spark estos procesos se soportan en el procesamiento paralelo, el cual distribuye su carga en diferentes nodos llamados Worker Node.

  • ¿Qué es Apache Spark?

    Spark es un motor de código abierto para el procesamiento y análisis de información a gran escala. Ofrece un motor unificado con un sistema de procesamiento paralelo o distribuido a través de clusters de computadoras que permite realizar una variedad de tareas a una mayor velocidad debido, entre otras razones, al conjunto de bibliotecas que incluye y que pueden usarse en combinación.

  • Características de Apache Spark

    • Velocidad
    • Cache Poderoso
    • Despliegue
    • Tiempo real
    • Poliglota (Varios lenguajes de programación)
    • Escalable
  • Stack de Apache Spark

    • Spark SQL (Se centra en el procesamiento de datos estructurados y permite consultar macrodatos desde otras fuentes)
    • Spark Streaming (Permite procesar flujos de datos escalables y tolerantes a fallas en tiempo real)
    • MLib ( biblioteca de algoritmos para realizar operaciones enfocadas a ML)
    • GraphX (ofrece operaciones para la manipulación de grafos)
    • Spark Core (la base funcional de las anteriores)
    • Standalone Scheduler
    • YARN
    • Mesos

En la propia página de Apache spark podemos saber qué empresas lo utilizan:
https://spark.apache.org/powered-by.html

Encontre varios empleos que tienen en sus requerimientos el manejo de Spark

Son la mayoria de empresas que requieren el manejo de bigdata:
MercadoLibre, Instagram, Linkedin, etc.

Pinterest. Por medio de Spark Streaming, Pinterest puede conocer el modo en que los usuarios de todo el mundo reaccionan ante ciertos “pins” en tiempo real. De esta manera, el algoritmo puede hacer recomendaciones personalizadas que se basan en las interacciones previas de cada usuario y les ofrecen productos cuya probabilidad de compra es más alta debido a este análisis de metadatos.

Conviva. Se trata de la segunda compañía de transmisión de videos, después de YouTube. Conviva utiliza Spark para optimizar el tráfico de videos en vivo y reducir la rotación de los mismos, mejorando la experiencia de visualización de los usuarios.

Uber. Todos los días esta empresa reúne terabytes de información de los viajes de sus usuarios. Con Kafka, HDFS y Spark Streaming logra procesar todos esos datos no estructurados y transformarlos en datos estructurados que luego son sujetos a análisis más complejos mediante Spark.

Yelp. Para orientar adecuadamente su publicidad, el equipo de Yelp crea modelos de predicción que les permiten determinar la probabilidad de que un usuario interactúe con sus anuncios. Utilizan Apache Spark para procesar grandes cantidades de información para crear modelos de Machine Learning con los que han incrementado no sólo los clics a su anuncios, sino sus ingresos.

En conclusión y realizando un poco más de investigación sobre la herramienta, Spark facilita la configuración de clústeres de servidores para poder realizar el procesamiento en pararelo y el análisis de grandes volúmenes de datos, herramienta muy utilizada en Big Data.

Encontre este articuló de Apache Spark que esta interesante. Dentro de las cosas que rescato son estas:
“Actualmente esta herramienta forma parte de los procesos internos de algunas de las empresas más grandes del mundo con una cultura data-driven, tales como Amazon, IBM, Groupon, Ebay, TripAdvisor, NASA, Yahoo y Shopify, entre muchas otras.”

https://www.crehana.com/blog/transformacion-digital/apache-spark-big-data/

Encontré esta información publicada por Google donde viene más a detalle qué es Spark y cómo es utilizado por los diferentes miembros del negocio.

Buena explicacion.