Uso de Apache Spark en Big Data: Procesamiento y Análisis

Clase 4 de 25 • Curso de Databricks: Arquitectura Delta Lake

Resumen

¿Qué es Apache Hadoop y cómo funciona?

Apache Hadoop fue desarrollado alrededor del año 2005 y se reconoce como la primera herramienta de Big Data. Su desarrollo permitió el procesamiento y el almacenamiento distribuido de grandes volúmenes de datos gracias a dos componentes principales:

Capa de Procesamiento: Usa el algoritmo de MapReduce, desarrollado en Java, para procesar datos de manera distribuida.
Capa de Almacenamiento: Utiliza el Hadoop Distributed File System (HDFS), que almacena datos a través de múltiples nodos, lo que permite escalabilidad y redundancia.

Hadoop revolucionó el procesamiento de datos al ofrecer una plataforma de código abierto que podía manejar y almacenar enormes cantidades de datos de manera distribuida.

¿Cómo Apache Spark mejora el procesamiento de Big Data?

Apache Spark fue concebido como la evolución natural de Hadoop, proporcionando una mejora significativa en el manejo del Big Data. Mientras que Hadoop se centra en el procesamiento y almacenamiento distribuido, Spark introduce un marco adicional que permite análisis y procesamiento de datos más rápido y eficiente.

Ejecución más rápida: Apache Spark maximiza el uso de la memoria RAM en vez de depender únicamente del disco, acelerando drásticamente el procesamiento en comparación con Hadoop.
Compatibilidad multi-lenguaje: Spark es compatible con lenguajes de programación como R, Python, SQL y Scala.
Escalabilidad y tolerancia a fallos: Hereda componentes de Hadoop, favoreciendo la interoperabilidad entre ambas herramientas.
Procesamiento en tiempo real: Spark tiene un componente específico para el procesamiento en tiempo real, útil en escenarios donde la velocidad del análisis de datos es crítica.

¿Cuáles son los componentes clave de Apache Spark?

Apache Spark se compone de varios bloques fundamentales que potencian su capacidad para manejar múltiples tipos de análisis y procesamiento de datos:

Spark SQL: Facilita la ejecución de consultas SQL sobre DataFrames o estructuras como RDDs sin requerir otros lenguajes.
Spark Streaming: Permite el procesamiento de datos en tiempo real.
MLlib: Una librería para crear, entrenar y desplegar modelos de Machine Learning distribuidos.
GraphX: Diseñado para el trabajo con grafos y análisis de datos relacionales.

Estos componentes pueden ser utilizados en conjunto para crear soluciones eficientes para el manejo y análisis de grandes conjuntos de datos.

¿Cuáles son las diferencias clave entre Spark y Hadoop?

Con sus mejoras significativas, Spark supera varios de los límites de Hadoop:

Velocidad de procesamiento: Spark opera principalmente en RAM, siendo notablemente más rápido que Hadoop, que se basa en el almacenamiento en disco.
Compatibilidad de lenguaje: Spark soporta múltiples lenguajes, ofreciendo flexibilidad integrativa superior a Hadoop, centrado principalmente en Java.
Integración con servicios en la nube: Spark se integra fácilmente con servicios como Azure, AWS y Google Cloud, ofreciendo más opciones en comparación con Hadoop.

El futuro del Big Data parece inclinarse hacia Apache Spark gracias a estas ventajas, especialmente en entornos que requieren procesamiento en tiempo real y un manejo de datos más ágil.

Apache Spark es un elemento clave que todos los interesados en el mundo del Big Data deben conocer. Sus atributos y capacidades lo posicionan como una herramienta esencial para ejecutar y gestionar procesamientos y análisis de datos eficientes en entornos empresariales modernos. Siempre es recomendable profundizar en los recursos disponibles para extraer el máximo provecho de estas tecnologías y compartir experiencias y conocimientos adquiridos.

Carlos Eduardo Bracho Rosales

student•

Apache Hadoop

Marco de software de código abierto, se divide en dos capas.

capa de procesamiento en donde se utiliza el algoritmo de MapReduce
capa de almacenamiento llamada HDFS (Hadoop distributed file system)

la primera herramienta de Big Data

Apache Spark

La evolución de Apache Hadoop
Marco de procesamiento de datos y análisis
Desarrollado en Scala
Objetivo Principal: Ejecutar procesos lo más rápido posible

Características de Spark

Procesamiento en RAM
APIs en R, Python, Scala y SQL
Escalabilidad y tolerancia a fallos
Interoperabilidad con Hadoop
Procesamiento de datos en tiempo real.

Componentes de Spark

4 componentes principales

Spark SQL (Interactuar con Spark usando SQL)
Spark Streaming (Tiempo real)
Mllib (Modelos de ML distribuidos)
Graph X (Trabajar con grafos)

Todo se monta sobre Spark Core, el ABC de Spark.
Se recomienda hacer foco en Spark SQL y en MLLIB

Spark vs Hadoop

Spark procesa en Ram y Hadoop en disco. Spark es más rápido debido a su procesamiento en RAM.
Integración: Spark se integra con Python, R, Scala… Hadoop se integra con JAVA
Spark tiene muchas integraciones con tecnologías en la nube como Azure GCP y AWS, Hadoop no tiene tantas integraciones.

Victor Hugo Roumieu

student•

Falto java, en la lista de apis disponibles

Wagner Fernández

student•

la verdad Apache Hadoop es muy obsoleto, porque gestiona los datos en disco, y Apache Spark gestiona datos en memoria, lo que hace que sea más potente.

Layla Scheli

teacher•

Eso es correcto Wagner :) gracias por tu apreciacion.

David Quintanar Pérez

student•

Bueno, pero puedes utilizar el HDFS de Hadoop para persistir la información y usar Spark para el procesamiento.

Alejandro Giraldo Londoño

student•

Resumen: ■■■■■

Spark es un framework de procesamiento de Big Data que soporta múltiples APIs de cliente, como PySpark (para Python), facilitando su integración en diversos entornos. Sus principales estructuras de datos son:

RDD (Resilient Distributed Dataset): Base del procesamiento distribuido, diseñada para manejar grandes volúmenes de datos de forma tolerante a fallos.

La compatibilidad con SQL y las operaciones en memoria hacen que Spark sea eficiente para tareas intensivas, distribuyendo el procesamiento entre nodos de un clúster.

En el ecosistema de Spark (independiente de Databricks), existe una capa de gestión de recursos que orquesta la ejecución de tareas, como YARN, Mesos o el propio Standalone Cluster Manager, permitiendo un control granular del uso de recursos en el clúster.

DataFrames: Estructuras tabulares optimizadas para consultas similares a SQL.
Datasets: Una extensión de los DataFrames, que combina tipado fuerte y optimización.

Jhon Alexander Túquerres Jiménez

student•

Hace años escuchaba sobre hadoop y no lo experimente. Ahora instale Databrick en modo comunity y solo he usado la ingesta y transformacion y es muy practico usarlo, en esta parte igual como si estuviera en Google Colab.

Santiago Ahumada Lozano

student•

Hola! Me gustaría saber si con Databricks puedo estructurar / diseñar un proyecto de MLOps? Desde que se hace la ingestion de datos hasta que se hace deploy y se monitorean metricas de rendimiento de modelos. Es decir, puedo hacer algo así dentro de databricks con las especificaciones de mi proyecto y las tecnologías que usaré?

Layla Scheli

teacher•

Hola, si se puede, pero no en la version gratuita :)

Santiago Ahumada Lozano

student•

Muchas gracias! Terminé usando figma para tener una idea en mi cabeza jeje

Ricardo Baez Mulia

student•

ya no se tiene alcance al recurso de google drive

Layla Scheli

teacher•

Por favor mencionalo en soporte Ricardo :)

Uso de Apache Spark en Big Data: Procesamiento y Análisis

Fundamentos del Data Management con Databricks

Gestión Avanzada de Big Data con Databricks y Delta Lake

Fundamentos de Databricks para Big Data y Machine Learning

Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento