No tienes acceso a esta clase

隆Contin煤a aprendiendo! 脷nete y comienza a potenciar tu carrera

Procesamiento de datos: pipelines, Apache Spark y c贸mputo paralelo

11/25
Recursos

Aportes 23

Preguntas 2

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

Profe, siento que a la ruta de Data Engineer le falta un curso usando todo el stack completo (hadoop, airflow, kafka, pyspark ) los cursos son buenos pero no veo ninguno que use todas estas herramientas para llevar a cabo un proyecto real.

Yo conoc铆 Spark en mi primer trabajo como Data Scientist, es todo un mundo eso de los clusters y el procesamiento paralelo, de verdad notas una diferencia al trabajar con grandes cantidades de datos; nosotros lo usamos con la integraci贸n de Databricks, y si es cr铆tico para trabaja con los datos que tenemos

Also, me gustar铆a hacer alg煤n proyecto sea personal o profesional con datos en streaming, creo que eso es otra ondaa

  • 驴Qu茅 es Apache Spark?

    Spark es un motor de c贸digo abierto para el procesamiento y an谩lisis de informaci贸n a gran escala. Ofrece un motor unificado con un sistema de procesamiento paralelo o distribuido a trav茅s de clusters de computadoras que permite realizar una variedad de tareas a una mayor velocidad debido, entre otras razones, al conjunto de bibliotecas que incluye y que pueden usarse en combinaci贸n.

  • Caracter铆sticas de Apache Spark

    • Velocidad
    • Cache Poderoso
    • Despliegue
    • Tiempo real
    • Poliglota (Varios lenguajes de programaci贸n)
    • Escalable
  • Stack de Apache Spark

    • Spark SQL (Se centra en el procesamiento de datos estructurados y permite consultar macrodatos desde otras fuentes)
    • Spark Streaming (Permite procesar flujos de datos escalables y tolerantes a fallas en tiempo real)
    • MLib ( biblioteca de algoritmos para realizar operaciones enfocadas a ML)
    • GraphX (ofrece operaciones para la manipulaci贸n de grafos)
    • Spark Core (la base funcional de las anteriores)
    • Standalone Scheduler
    • YARN
    • Mesos

Pipeline resultado de hacer ETL (extraer, tranformar y cargar)

Apache Spark, es una herramienta que nos ayuda a construir o soportar grandes pipelines mediante dos metodolog铆as, la primera es llamada HDFS, este es un proceso donde se alimenta de diversas fuentes como archivos, servidores de archivos para llevarlos a sus sistema y procesarlos con el motor de Spark. El segundo enfoque es el de Streamig que se encarga de alimentarse de diferentes servicios en tiempo real (Twiter, kafka, kinesis) para procesarlas y posteriormente llevarlas a su destino.

En Spark estos procesos se soportan en el procesamiento paralelo, el cual distribuye su carga en diferentes nodos llamados Worker Node.

Spark en:

  • Pinterest: por medio de Spark Streaming
  • Conviva
  • Uber
  • Yelp
  • Autodesk
  • Databricks
  • eBay Inc.
  • Elsevier Labs

Referencia: Transformando el mundo del Big Data con Spark
| Project and product names using 鈥淪park鈥

Son la mayoria de empresas que requieren el manejo de bigdata:
MercadoLibre, Instagram, Linkedin, etc.

Pinterest. Por medio de Spark Streaming, Pinterest puede conocer el modo en que los usuarios de todo el mundo reaccionan ante ciertos 鈥減ins鈥 en tiempo real. De esta manera, el algoritmo puede hacer recomendaciones personalizadas que se basan en las interacciones previas de cada usuario y les ofrecen productos cuya probabilidad de compra es m谩s alta debido a este an谩lisis de metadatos.

Conviva. Se trata de la segunda compa帽铆a de transmisi贸n de videos, despu茅s de YouTube. Conviva utiliza Spark para optimizar el tr谩fico de videos en vivo y reducir la rotaci贸n de los mismos, mejorando la experiencia de visualizaci贸n de los usuarios.

Uber. Todos los d铆as esta empresa re煤ne terabytes de informaci贸n de los viajes de sus usuarios. Con Kafka, HDFS y Spark Streaming logra procesar todos esos datos no estructurados y transformarlos en datos estructurados que luego son sujetos a an谩lisis m谩s complejos mediante Spark.

Yelp. Para orientar adecuadamente su publicidad, el equipo de Yelp crea modelos de predicci贸n que les permiten determinar la probabilidad de que un usuario interact煤e con sus anuncios. Utilizan Apache Spark para procesar grandes cantidades de informaci贸n para crear modelos de Machine Learning con los que han incrementado no s贸lo los clics a su anuncios, sino sus ingresos.

Encontre varios empleos que tienen en sus requerimientos el manejo de Spark

Spark es una plataforma de procesamiento de datos de c贸digo abierto que es ampliamente utilizada por muchas empresas para an谩lisis de datos, procesamiento en tiempo real y aprendizaje autom谩tico. Aqu铆 tienes un listado de cinco empresas que utilizan Apache Spark: 1. **Netflix**: Netflix utiliza Apache Spark para una variedad de casos de uso, incluida la recomendaci贸n de contenido personalizado, la optimizaci贸n de la infraestructura de transmisi贸n y el an谩lisis de datos para mejorar la experiencia del usuario. 2. **Uber**: Uber utiliza Spark para realizar an谩lisis en tiempo real de datos de viajes, procesar grandes vol煤menes de datos de ubicaci贸n de conductores y pasajeros, y optimizar su plataforma de transporte compartido. 3. **Amazon**: Amazon utiliza Spark en diferentes 谩reas de su negocio, incluido Amazon Web Services (AWS), donde proporciona soporte para Spark en su plataforma de servicios en la nube. 4. **Adobe**: Adobe utiliza Apache Spark para procesar grandes vol煤menes de datos de clientes y realizar an谩lisis de datos en tiempo real para impulsar sus productos de marketing digital y creatividad. 5. **Airbnb**: Airbnb utiliza Spark para procesar datos de usuarios y reservas, realizar an谩lisis de datos para mejorar la experiencia del cliente y optimizar la recomendaci贸n de alojamientos.
estoy de cero con el mundo tecnol贸gico. Estoy pensando seriamente con toda esta terminolog铆a que esto est谩 fuera de mi alcance ?

En la propia p谩gina de Apache spark podemos saber qu茅 empresas lo utilizan:
https://spark.apache.org/powered-by.html

Gracias

Pipeline = ETL. 6 a帽os trabajando con ellas y hasta ahora me entero ajajjaja. En Claro Colombia, Spark se utiliza para el flujo de informacion de trafico de telecomunicaciones. Y suele usarse streaming puro o en semi batch con latencias de hasta maximo 5 minutos. Dado que los archicos de trafico suelen ser tan extensos y pesados. Es la mejor herramienta con la que se puede capturar ese tipo de informacion.

11. Procesamiento de datos: pipelines, Apache Spark y c贸mputo paralelo

El escenario de datos

Pipeline de datos

  • ETL

Muy interesante para entender un poco m谩s de spark

https://datascientest.com/es/apache-spark-que-es

  1. Instagram: Utiliza Apache Spark para procesar y analizar grandes vol煤menes de datos, como im谩genes y metadatos, con el fin de proporcionar recomendaciones personalizadas a los usuarios. Tambi茅n puede utilizar Spark para realizar an谩lisis de datos en tiempo real.
  2. Netflix: Utiliza Apache Spark para procesamiento y an谩lisis de datos. Lo utiliza para procesar y analizar datos de los usuarios con el fin de ofrecer recomendaciones personalizadas de contenido. Tambi茅n puede utilizar Spark para optimizar el rendimiento de sus algoritmos de recomendaci贸n y para realizar an谩lisis en tiempo real de datos de transmisi贸n y visualizaci贸n.
  3. WhatsApp: Utiliza Apache Spark en sus sistemas de back-end para realizar diversas tareas de procesamiento de datos. Lo utiliza para analizar y procesar grandes vol煤menes de mensajes y metadatos con el fin de proporcionar funciones como b煤squeda de mensajes, an谩lisis de tendencias y recomendaciones de contenido.
  4. Twitter: Utiliza Apache Spark para diversas tareas de procesamiento y an谩lisis de datos. Lo utiliza para analizar grandes vol煤menes de datos generados por los usuarios, realizar an谩lisis de sentimiento en tiempo real, detectar eventos y tendencias, y para mejorar la relevancia de los tweets y personalizar la experiencia del usuario.
  5. Airbnb: Utiliza Apache Spark para analizar datos de usuarios y propiedades con el fin de ofrecer recomendaciones personalizadas y mejorar la experiencia de reserva. Lo utiliza para procesar grandes vol煤menes de datos y realizar an谩lisis en tiempo real, lo que permite ofrecer a los usuarios sugerencias relevantes y actualizadas de alojamientos y experiencias.
  6. Pinterest: Utiliza Apache Spark para an谩lisis y procesamiento de datos. Lo utiliza para realizar an谩lisis en tiempo real de los intereses de los usuarios, recomendaciones de contenido personalizadas, detecci贸n de patrones y tendencias emergentes, y para mejorar la eficiencia y rendimiento de su plataforma en general.
  7. Lyft: Utiliza Apache Spark para el procesamiento y an谩lisis de grandes vol煤menes de datos generados por los usuarios y los veh铆culos en su plataforma de transporte compartido. Lo utiliza para optimizar las rutas de los conductores, analizar la demanda y la oferta en tiempo real, y para proporcionar a los conductores informaci贸n relevante y actualizada sobre el tr谩fico y las condiciones del viaje.
  8. Hulu: Utiliza Apache Spark para diversas tareas de an谩lisis de datos. Lo utiliza para analizar el comportamiento de visualizaci贸n de los usuarios, generar recomendaciones de contenido personalizadas, realizar pruebas A/B y optimizar la experiencia de usuario en general.

Utilizan SparK:

  • Cisco
  • Ebay
  • Facebook
    -IBM
  • Microsoft
  • Nasa
  • Netflix
  • Nokia
  • Samsung
  • Shopify
  • Tripadvisor
  • Yahoo

En conclusi贸n y realizando un poco m谩s de investigaci贸n sobre la herramienta, Spark facilita la configuraci贸n de cl煤steres de servidores para poder realizar el procesamiento en pararelo y el an谩lisis de grandes vol煤menes de datos, herramienta muy utilizada en Big Data.

Encontre este articul贸 de Apache Spark que esta interesante. Dentro de las cosas que rescato son estas:
鈥淎ctualmente esta herramienta forma parte de los procesos internos de algunas de las empresas m谩s grandes del mundo con una cultura data-driven, tales como Amazon, IBM, Groupon, Ebay, TripAdvisor, NASA, Yahoo y Shopify, entre muchas otras.鈥

https://www.crehana.com/blog/transformacion-digital/apache-spark-big-data/

Encontr茅 esta informaci贸n publicada por Google donde viene m谩s a detalle qu茅 es Spark y c贸mo es utilizado por los diferentes miembros del negocio.

Buena explicacion.