No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Convierte tus certificados en títulos universitarios en USA

Antes: $249

Currency
$209

Paga en 4 cuotas sin intereses

Paga en 4 cuotas sin intereses
Suscríbete

Termina en:

17 Días
6 Hrs
46 Min
2 Seg

Procesamiento de datos: pipelines, Apache Spark y cómputo paralelo

11/25
Recursos

Aportes 26

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Profe, siento que a la ruta de Data Engineer le falta un curso usando todo el stack completo (hadoop, airflow, kafka, pyspark ) los cursos son buenos pero no veo ninguno que use todas estas herramientas para llevar a cabo un proyecto real.

Yo conocí Spark en mi primer trabajo como Data Scientist, es todo un mundo eso de los clusters y el procesamiento paralelo, de verdad notas una diferencia al trabajar con grandes cantidades de datos; nosotros lo usamos con la integración de Databricks, y si es crítico para trabaja con los datos que tenemos

Also, me gustaría hacer algún proyecto sea personal o profesional con datos en streaming, creo que eso es otra ondaa

  • ¿Qué es Apache Spark?

    Spark es un motor de código abierto para el procesamiento y análisis de información a gran escala. Ofrece un motor unificado con un sistema de procesamiento paralelo o distribuido a través de clusters de computadoras que permite realizar una variedad de tareas a una mayor velocidad debido, entre otras razones, al conjunto de bibliotecas que incluye y que pueden usarse en combinación.

  • Características de Apache Spark

    • Velocidad
    • Cache Poderoso
    • Despliegue
    • Tiempo real
    • Poliglota (Varios lenguajes de programación)
    • Escalable
  • Stack de Apache Spark

    • Spark SQL (Se centra en el procesamiento de datos estructurados y permite consultar macrodatos desde otras fuentes)
    • Spark Streaming (Permite procesar flujos de datos escalables y tolerantes a fallas en tiempo real)
    • MLib ( biblioteca de algoritmos para realizar operaciones enfocadas a ML)
    • GraphX (ofrece operaciones para la manipulación de grafos)
    • Spark Core (la base funcional de las anteriores)
    • Standalone Scheduler
    • YARN
    • Mesos

Pipeline resultado de hacer ETL (extraer, tranformar y cargar)

Apache Spark, es una herramienta que nos ayuda a construir o soportar grandes pipelines mediante dos metodologías, la primera es llamada HDFS, este es un proceso donde se alimenta de diversas fuentes como archivos, servidores de archivos para llevarlos a sus sistema y procesarlos con el motor de Spark. El segundo enfoque es el de Streamig que se encarga de alimentarse de diferentes servicios en tiempo real (Twiter, kafka, kinesis) para procesarlas y posteriormente llevarlas a su destino.

En Spark estos procesos se soportan en el procesamiento paralelo, el cual distribuye su carga en diferentes nodos llamados Worker Node.

Spark en:

  • Pinterest: por medio de Spark Streaming
  • Conviva
  • Uber
  • Yelp
  • Autodesk
  • Databricks
  • eBay Inc.
  • Elsevier Labs

Referencia: Transformando el mundo del Big Data con Spark
| Project and product names using “Spark”

Son la mayoria de empresas que requieren el manejo de bigdata:
MercadoLibre, Instagram, Linkedin, etc.

Pinterest. Por medio de Spark Streaming, Pinterest puede conocer el modo en que los usuarios de todo el mundo reaccionan ante ciertos “pins” en tiempo real. De esta manera, el algoritmo puede hacer recomendaciones personalizadas que se basan en las interacciones previas de cada usuario y les ofrecen productos cuya probabilidad de compra es más alta debido a este análisis de metadatos.

Conviva. Se trata de la segunda compañía de transmisión de videos, después de YouTube. Conviva utiliza Spark para optimizar el tráfico de videos en vivo y reducir la rotación de los mismos, mejorando la experiencia de visualización de los usuarios.

Uber. Todos los días esta empresa reúne terabytes de información de los viajes de sus usuarios. Con Kafka, HDFS y Spark Streaming logra procesar todos esos datos no estructurados y transformarlos en datos estructurados que luego son sujetos a análisis más complejos mediante Spark.

Yelp. Para orientar adecuadamente su publicidad, el equipo de Yelp crea modelos de predicción que les permiten determinar la probabilidad de que un usuario interactúe con sus anuncios. Utilizan Apache Spark para procesar grandes cantidades de información para crear modelos de Machine Learning con los que han incrementado no sólo los clics a su anuncios, sino sus ingresos.

estoy de cero con el mundo tecnológico. Estoy pensando seriamente con toda esta terminología que esto está fuera de mi alcance ?

Encontre varios empleos que tienen en sus requerimientos el manejo de Spark

Spark es una plataforma de procesamiento de datos de código abierto que es ampliamente utilizada por muchas empresas para análisis de datos, procesamiento en tiempo real y aprendizaje automático. Aquí tienes un listado de cinco empresas que utilizan Apache Spark: 1. **Netflix**: Netflix utiliza Apache Spark para una variedad de casos de uso, incluida la recomendación de contenido personalizado, la optimización de la infraestructura de transmisión y el análisis de datos para mejorar la experiencia del usuario. 2. **Uber**: Uber utiliza Spark para realizar análisis en tiempo real de datos de viajes, procesar grandes volúmenes de datos de ubicación de conductores y pasajeros, y optimizar su plataforma de transporte compartido. 3. **Amazon**: Amazon utiliza Spark en diferentes áreas de su negocio, incluido Amazon Web Services (AWS), donde proporciona soporte para Spark en su plataforma de servicios en la nube. 4. **Adobe**: Adobe utiliza Apache Spark para procesar grandes volúmenes de datos de clientes y realizar análisis de datos en tiempo real para impulsar sus productos de marketing digital y creatividad. 5. **Airbnb**: Airbnb utiliza Spark para procesar datos de usuarios y reservas, realizar análisis de datos para mejorar la experiencia del cliente y optimizar la recomendación de alojamientos.

En la propia página de Apache spark podemos saber qué empresas lo utilizan:
https://spark.apache.org/powered-by.html

Estuve leyendo sobre por lo usan y quienes lo usan, lo que pude entender, es que cada día crece la preocupación de las empresas por capturar datos en tiempo real, no se si sea la palabra correcta, pero en el articulo que leí explican por que Apache Spark es una gran herramienta cuando se trata de Big data, y que para los data engineer, los ayuda para crear tareas de procesamiento de datos. respecto a grandes empresas pude ver APPLE o VISA
Uber: Uber guarda la informacion en Data lake y usa spark para procesar la informacion. Netflix: procesa la informacion del Pipeline usando Apache Spark Disney+: Usa Apache Spark
Considero que entender qué es un pipeline de datos es fundamental para en algún momento llegar a integrar todo el conocimiento en un proyecto de tu trabajo o de práctica.

Gracias

Pipeline = ETL. 6 años trabajando con ellas y hasta ahora me entero ajajjaja. En Claro Colombia, Spark se utiliza para el flujo de informacion de trafico de telecomunicaciones. Y suele usarse streaming puro o en semi batch con latencias de hasta maximo 5 minutos. Dado que los archicos de trafico suelen ser tan extensos y pesados. Es la mejor herramienta con la que se puede capturar ese tipo de informacion.

11. Procesamiento de datos: pipelines, Apache Spark y cómputo paralelo

El escenario de datos

Pipeline de datos

  • ETL

Muy interesante para entender un poco más de spark

https://datascientest.com/es/apache-spark-que-es

  1. Instagram: Utiliza Apache Spark para procesar y analizar grandes volúmenes de datos, como imágenes y metadatos, con el fin de proporcionar recomendaciones personalizadas a los usuarios. También puede utilizar Spark para realizar análisis de datos en tiempo real.
  2. Netflix: Utiliza Apache Spark para procesamiento y análisis de datos. Lo utiliza para procesar y analizar datos de los usuarios con el fin de ofrecer recomendaciones personalizadas de contenido. También puede utilizar Spark para optimizar el rendimiento de sus algoritmos de recomendación y para realizar análisis en tiempo real de datos de transmisión y visualización.
  3. WhatsApp: Utiliza Apache Spark en sus sistemas de back-end para realizar diversas tareas de procesamiento de datos. Lo utiliza para analizar y procesar grandes volúmenes de mensajes y metadatos con el fin de proporcionar funciones como búsqueda de mensajes, análisis de tendencias y recomendaciones de contenido.
  4. Twitter: Utiliza Apache Spark para diversas tareas de procesamiento y análisis de datos. Lo utiliza para analizar grandes volúmenes de datos generados por los usuarios, realizar análisis de sentimiento en tiempo real, detectar eventos y tendencias, y para mejorar la relevancia de los tweets y personalizar la experiencia del usuario.
  5. Airbnb: Utiliza Apache Spark para analizar datos de usuarios y propiedades con el fin de ofrecer recomendaciones personalizadas y mejorar la experiencia de reserva. Lo utiliza para procesar grandes volúmenes de datos y realizar análisis en tiempo real, lo que permite ofrecer a los usuarios sugerencias relevantes y actualizadas de alojamientos y experiencias.
  6. Pinterest: Utiliza Apache Spark para análisis y procesamiento de datos. Lo utiliza para realizar análisis en tiempo real de los intereses de los usuarios, recomendaciones de contenido personalizadas, detección de patrones y tendencias emergentes, y para mejorar la eficiencia y rendimiento de su plataforma en general.
  7. Lyft: Utiliza Apache Spark para el procesamiento y análisis de grandes volúmenes de datos generados por los usuarios y los vehículos en su plataforma de transporte compartido. Lo utiliza para optimizar las rutas de los conductores, analizar la demanda y la oferta en tiempo real, y para proporcionar a los conductores información relevante y actualizada sobre el tráfico y las condiciones del viaje.
  8. Hulu: Utiliza Apache Spark para diversas tareas de análisis de datos. Lo utiliza para analizar el comportamiento de visualización de los usuarios, generar recomendaciones de contenido personalizadas, realizar pruebas A/B y optimizar la experiencia de usuario en general.

Utilizan SparK:

  • Cisco
  • Ebay
  • Facebook
    -IBM
  • Microsoft
  • Nasa
  • Netflix
  • Nokia
  • Samsung
  • Shopify
  • Tripadvisor
  • Yahoo

En conclusión y realizando un poco más de investigación sobre la herramienta, Spark facilita la configuración de clústeres de servidores para poder realizar el procesamiento en pararelo y el análisis de grandes volúmenes de datos, herramienta muy utilizada en Big Data.

Encontre este articuló de Apache Spark que esta interesante. Dentro de las cosas que rescato son estas:
“Actualmente esta herramienta forma parte de los procesos internos de algunas de las empresas más grandes del mundo con una cultura data-driven, tales como Amazon, IBM, Groupon, Ebay, TripAdvisor, NASA, Yahoo y Shopify, entre muchas otras.”

https://www.crehana.com/blog/transformacion-digital/apache-spark-big-data/

Encontré esta información publicada por Google donde viene más a detalle qué es Spark y cómo es utilizado por los diferentes miembros del negocio.

Buena explicacion.