Uso de Apache Spark en Big Data: Procesamiento y Análisis

Clase 4 de 25 • Curso de Databricks: Arquitectura Delta Lake

Contenido del curso

Fundamentos del Data Management con Databricks

Administración y Gestion de la Plataforma de Databricks

Apache Spark SQL y UDF

Implementacion de un Delta Lake en Databricks

Resumen

Comprender cómo funcionan los motores de procesamiento distribuido es fundamental para cualquier profesional que trabaje con grandes volúmenes de datos. Apache Spark se ha posicionado como la herramienta más relevante en entornos de big data, superando en velocidad y flexibilidad a su predecesor, Apache Hadoop. A continuación se explican sus diferencias, componentes y por qué Spark domina el ecosistema actual.

¿Qué es Apache Hadoop y cómo funciona su procesamiento distribuido?

Desarrollado aproximadamente en el año 2005, Apache Hadoop fue la primera herramienta de big data [0:12]. Se trata de un marco de software de código abierto diseñado para el procesamiento y almacenamiento distribuido de datos. Su arquitectura se divide en dos grandes bloques:

Capa de procesamiento: utiliza el algoritmo de MapReduce, desarrollado en Java.
Capa de almacenamiento: basada en HDFS (Hadoop Distributed File System), un sistema de archivos distribuido.

Esta combinación permitió por primera vez manejar volúmenes masivos de información de forma escalable y confiable. Sin embargo, su dependencia del procesamiento en disco lo hace considerablemente más lento frente a soluciones más modernas.

¿Por qué Apache Spark es la evolución natural de Hadoop?

Apache Spark es un framework de procesamiento distribuido de datos y análisis, desarrollado en el lenguaje Scala [1:22]. Su objetivo principal es claro: ejecutar procesos de la forma más rápida posible.

Para lograrlo, Spark se apoya en varias características clave:

Uso intensivo de RAM: a diferencia de Hadoop, Spark procesa los datos directamente en memoria, lo que incrementa drásticamente la velocidad [1:42].
Múltiples APIs de programación: es compatible con R, Python, SQL y Scala, lo que amplía su adopción entre distintos perfiles profesionales [1:55].
Escalabilidad y tolerancia a fallos: muchos componentes internos de Spark derivan de Hadoop, lo que garantiza interoperabilidad y robustez [2:10].
Procesamiento en tiempo real: incluye un bloque específico para streaming, muy demandado en contextos de big data [2:22].

¿Cuáles son los cuatro componentes principales de Spark?

Spark organiza sus funcionalidades en cuatro bloques esenciales que se montan sobre el Spark Core, la base fundacional de la herramienta [3:30]:

Spark SQL: permite trabajar con consultas de datos utilizando código SQL directamente sobre DataFrames y estructuras como RDDs (Resilient Distributed Datasets), sin necesidad de otro lenguaje [2:48].
Spark Streaming: habilita el procesamiento y análisis de datos en tiempo real dentro de la misma solución [3:04].
MLlib: la biblioteca de machine learning distribuido de Spark, que permite crear, entrenar y poner en producción modelos en todos los nodos del clúster [3:12].
GraphX: componente dedicado al trabajo con grafos y sus algoritmos asociados [3:25].

Desde una perspectiva laboral, se recomienda especialmente profundizar en Spark SQL, por su alta demanda en el mercado, y en MLlib, por su capacidad de ejecutar modelos de aprendizaje automático a escala [3:40].

¿Qué diferencias concretas existen entre Spark y Hadoop?

La comparación entre ambas herramientas se resume en tres ejes principales [3:55]:

Velocidad: Spark procesa en RAM; Hadoop procesa en disco, lo que lo hace mucho más lento.
Lenguajes soportados: Spark se integra con R, Python, SQL y Scala. Hadoop trabaja principalmente con Java.
Integraciones en la nube: Spark ofrece amplia compatibilidad con servicios como Azure, AWS y Google Cloud. Hadoop tiene integraciones más limitadas en entornos cloud [4:20].

Estas ventajas han convertido a Apache Spark en el estándar actual para proyectos de procesamiento de datos a gran escala. Si ya has trabajado con alguna de estas tecnologías o estás comenzando, comparte tus apreciaciones y experiencias en los comentarios.

Comentarios

Carlos Eduardo Bracho Rosales

student•

Apache Hadoop

Marco de software de código abierto, se divide en dos capas.

capa de procesamiento en donde se utiliza el algoritmo de MapReduce
capa de almacenamiento llamada HDFS (Hadoop distributed file system)

la primera herramienta de Big Data

Apache Spark

La evolución de Apache Hadoop
Marco de procesamiento de datos y análisis
Desarrollado en Scala
Objetivo Principal: Ejecutar procesos lo más rápido posible

Características de Spark

Procesamiento en RAM
APIs en R, Python, Scala y SQL
Escalabilidad y tolerancia a fallos
Interoperabilidad con Hadoop
Procesamiento de datos en tiempo real.

Componentes de Spark

4 componentes principales

Spark SQL (Interactuar con Spark usando SQL)
Spark Streaming (Tiempo real)
Mllib (Modelos de ML distribuidos)
Graph X (Trabajar con grafos)

Todo se monta sobre Spark Core, el ABC de Spark.
Se recomienda hacer foco en Spark SQL y en MLLIB

Spark vs Hadoop

Spark procesa en Ram y Hadoop en disco. Spark es más rápido debido a su procesamiento en RAM.
Integración: Spark se integra con Python, R, Scala… Hadoop se integra con JAVA
Spark tiene muchas integraciones con tecnologías en la nube como Azure GCP y AWS, Hadoop no tiene tantas integraciones.

Victor Hugo Roumieu

student•

Falto java, en la lista de apis disponibles

Wagner Fernández

student•

la verdad Apache Hadoop es muy obsoleto, porque gestiona los datos en disco, y Apache Spark gestiona datos en memoria, lo que hace que sea más potente.

Layla Scheli

teacher•

Eso es correcto Wagner :) gracias por tu apreciacion.

David Quintanar Pérez

student•

Bueno, pero puedes utilizar el HDFS de Hadoop para persistir la información y usar Spark para el procesamiento.

Daniel Eduardo Portugal Revilla

student•

La historia de Spark y BigData

Santiago Ahumada Lozano

student•

Hola! Me gustaría saber si con Databricks puedo estructurar / diseñar un proyecto de MLOps? Desde que se hace la ingestion de datos hasta que se hace deploy y se monitorean metricas de rendimiento de modelos. Es decir, puedo hacer algo así dentro de databricks con las especificaciones de mi proyecto y las tecnologías que usaré?

Layla Scheli

teacher•

Hola, si se puede, pero no en la version gratuita :)

Santiago Ahumada Lozano

student•

Muchas gracias! Terminé usando figma para tener una idea en mi cabeza jeje

Alejandro Giraldo Londoño

student•

Resumen: ■■■■■

Spark es un framework de procesamiento de Big Data que soporta múltiples APIs de cliente, como PySpark (para Python), facilitando su integración en diversos entornos. Sus principales estructuras de datos son:

RDD (Resilient Distributed Dataset): Base del procesamiento distribuido, diseñada para manejar grandes volúmenes de datos de forma tolerante a fallos.

La compatibilidad con SQL y las operaciones en memoria hacen que Spark sea eficiente para tareas intensivas, distribuyendo el procesamiento entre nodos de un clúster.

En el ecosistema de Spark (independiente de Databricks), existe una capa de gestión de recursos que orquesta la ejecución de tareas, como YARN, Mesos o el propio Standalone Cluster Manager, permitiendo un control granular del uso de recursos en el clúster.

DataFrames: Estructuras tabulares optimizadas para consultas similares a SQL.
Datasets: Una extensión de los DataFrames, que combina tipado fuerte y optimización.

Jhon Alexander Túquerres Jiménez

student•

Hace años escuchaba sobre hadoop y no lo experimente. Ahora instale Databrick en modo comunity y solo he usado la ingesta y transformacion y es muy practico usarlo, en esta parte igual como si estuviera en Google Colab.

Ricardo Baez Mulia

student•

ya no se tiene alcance al recurso de google drive

Layla Scheli

teacher•

Por favor mencionalo en soporte Ricardo :)

Uso de Apache Spark en Big Data: Procesamiento y Análisis

Fundamentos del Data Management con Databricks

Gestión Avanzada de Big Data con Databricks y Delta Lake

Fundamentos de Databricks para Big Data y Machine Learning

Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento