Qué son los RDDs en Apache Spark

Curso de Databricks: Arquitectura Delta Lake

Contenido del curso

Fundamentos del Data Management con Databricks

Administración y Gestion de la Plataforma de Databricks

Apache Spark SQL y UDF

Implementacion de un Delta Lake en Databricks

Tomar examen

Qué son los RDDs en Apache Spark

Resumen

Si trabajas con grandes volúmenes de datos, entender los RDDs en Apache Spark es clave para procesar información de forma paralela y tolerante a fallos. Aquí te explico qué son, cómo se crean y por qué importan dentro de un clúster.

¿Qué significa RDD en Apache Spark?

RDD son las siglas de Resilient Distributed Dataset, es decir, un conjunto de datos distribuido y resiliente. Puedes pensarlo como una colección inmutable y distribuida de objetos que vive dentro del clúster de Spark.

La palabra resilient no es decorativa: implica que el RDD puede recuperarse ante fallos, algo crítico cuando trabajas con nodos que pueden caerse en cualquier momento.

¿Qué es un RDD en Apache Spark? Es una colección de objetos que se procesa en paralelo dentro de un clúster y que puede recuperarse ante fallos de forma automática.

¿Por qué los RDDs son inmutables?

Dentro de Spark, todos los objetos son inmutables. Eso significa que una vez que creas un RDD, no puedes modificarlo. Si necesitas cambiarlo, en realidad estás generando un RDD nuevo a partir del anterior.

Esta decisión tiene que ver con la integridad de los datos. Al no poder alterar un objeto ya creado, evitas inconsistencias cuando varias tareas leen el mismo dato al mismo tiempo en distintos nodos.

¿Qué quiere decir que un RDD sea distribuido?

Que sea distribuido significa que el RDD se ejecuta de forma paralela en todos los nodos que conforman tu arquitectura de clúster. En lugar de procesar los datos en una sola máquina, Spark reparte el trabajo entre varios workers.

Ahí está la potencia real: puedes escalar horizontalmente y procesar volúmenes que serían imposibles en un solo servidor.

¿Cómo se crea un RDD en Spark?

Tienes dos caminos principales para crear un RDD, y la elección depende de dónde vienen tus datos.

Crearlo desde cero: puedes generar un RDD vacío o partir de una lista en memoria. Luego, con funciones específicas, lo paralelizas para que Spark lo distribuya entre los nodos. Es una vía más manual.
Crearlo desde un archivo o dataset externo: lees un conjunto de datos desde una fuente externa y lo configuras para que Spark lo interprete como RDD.

La segunda opción suele ser la más común en escenarios reales, porque normalmente los datos ya viven en algún sistema de almacenamiento.

¿Cuál es la forma más común de crear un RDD? Leyendo un archivo o dataset externo dentro de Spark y configurándolo para que se interprete como RDD, en lugar de construirlo manualmente desde una lista.

¿Qué operaciones puedes aplicar a un RDD?

Los RDDs aceptan dos tipos de operaciones dentro de Spark: transformaciones y acciones. Esta distinción es la base para entender cómo fluye el procesamiento.

Transformaciones y acciones, ¿en qué se diferencian?

Cuando aplicas una transformación a un RDD, el resultado siempre es un nuevo RDD transformado. Recuerda que los objetos son inmutables, así que Spark no modifica el original: crea uno nuevo derivado.

Las acciones, en cambio, son operaciones propias de Spark que disparan la ejecución y devuelven un resultado concreto, no otro RDD. Aquí es donde el motor de Spark realmente pone a trabajar al clúster.

La combinación de inmutabilidad, distribución y este modelo de transformaciones y acciones es lo que permite a Spark procesar datos masivos con tolerancia a fallos y velocidad.

Si quieres profundizar más, revisa el enlace de interés sobre RDDs que está en los recursos de la clase y cuéntame en los comentarios qué tipo de datasets te gustaría procesar con Spark.

Comentarios6

Emmanuel Aguilar

Estudiante

¿Qué son los RDD en Apache Spark?

Apache Spark trabaja con los datos bajo un concepto denomindado RDD (Resilient Distibuted Datasets) es uno de los componentes que se encuentran en el Spark Core. Es ideal para optimizar la getión de los macrodatos y analizar los resultados de la información.

Los RDD poseen características específicas que ayudan a procesar los datos de una forma más eficaz.

Inmutables: estos no se pueden módificar una vez han sido creados.
Distribuidos: hace referencia a los RDD.
Resilientes: en caso de peder una partición, esta se regenera automáticamente.

Por otra parte, los RDD se transforman, de manera que se crean nuevos RDD y estas transformaciones se aplican a los datos.

Las transformaciones pueden ser:

Narrow: no necesitan intercambio de información entre los nodos del clúster
Wide: necesitan intercambio de información entre los nodos del clúster.

Existen distintas formamas de generar RDD:

Obtener datos de un fichero
Distribución de datos desde el driver
Transformar un RDD para crear un nuevo RDD

RDD: Ciclo de vida

!Untitled

RDD: Transformaciones/Lazy evaluation

Apache Spark no comenzará a ejecutarse hasta que se muestre o se lance una acción. En lugar de pensar en un RDD que contiene datos, es mejor pensar en un conjunto de instrucciones sobre cómo calcular los datos que construimos a través de transformaciones.

RDD: Key/Value Pairs

Estos son los RDD en los que cada uno de los elementos de la colección es una tupla de dos elementos: Clave > Valor

RDD: Acciones

Las acciones en Apache Spark provocan el procesamiento de datos. De manera que, cuando se ejecuta una acción, se aplican todas las transformaciones planificadas y finalmente la acción.

múltiples acciones === múltiples evaluaciones de los datos desde el origen

Existen acciones que mueven datos al proceso del driver y otras que se ejecutan directamente en los executors. Se acoseja no llevar demasiados datos al driver.

Layla Scheli

Profesor

Gracias :)

LUIS FELIPE GALLEGO

Estudiante

Un objeto en Apache Spark se refiere a cualquier instancia de clase que se crea en el contexto de Spark. Esto puede incluir estructuras de datos como RDDs (Resilient Distributed Datasets), DataFrames, o cualquier objeto que se manipule dentro de las transformaciones y acciones de Spark. Los objetos en Spark son inmutables, lo que significa que una vez creados, no se pueden modificar, garantizando así la integridad de los datos. Además, se pueden procesar de manera paralela en un clúster, lo que potencia el rendimiento en el manejo de grandes volúmenes de datos.

Mario Alexander Vargas Celis

Estudiante

Resilient Distributed Dataset (RDD) en Apache Spark

Los RDD son la unidad básica de datos en Apache Spark y representan un conjunto distribuido, inmutable y tolerante a fallos de datos que puede procesarse en paralelo. Fueron la primera API de abstracción de datos introducida en Spark y se utilizan para realizar cálculos distribuidos de manera eficiente.

Características principales de los RDD

Inmutabilidad: Una vez creado, un RDD no puede modificarse, pero puede derivarse uno nuevo aplicando transformaciones.
Distribución: Los datos están divididos en particiones que se distribuyen entre los nodos del clúster para su procesamiento paralelo.
Tolerancia a fallos: Spark registra las operaciones realizadas sobre los datos (línea de tiempo de transformación) y puede reconstruir las particiones perdidas en caso de fallos.
Evaluación perezosa: Las transformaciones sobre un RDD no se ejecutan de inmediato, sino hasta que se realiza una acción.
Operaciones de alto nivel: Soportan operaciones como map, filter, reduce, y más, lo que permite construir complejos flujos de datos de forma sencilla.

Cómo se crean los RDD

Desde datos existentes:
- Desde un archivo (como texto, CSV, etc.).
- Desde una colección en el programa principal.
- Ejemplo:rdd = spark.sparkContext.parallelize([1, 2, 3, 4, 5]) rdd = spark.sparkContext.textFile("ruta/al/archivo.txt")
A partir de transformaciones:
- Aplicando transformaciones (como map o filter) a un RDD existente.
Generado a partir de datos externos:
- Desde bases de datos, sistemas de almacenamiento como HDFS, S3, etc.

Operaciones en RDD

Las operaciones sobre los RDD se dividen en dos categorías:

Transformaciones:
- Crean un nuevo RDD a partir de otro.
- Ejemplos:
  - map(función): Aplica una función a cada elemento.
  - filter(función): Filtra elementos que cumplen una condición.
  - flatMap(función): Aplica una función y aplana los resultados.
  - union(): Combina dos RDD.
  - reduceByKey(función): Combina valores con la misma clave.
- Evaluación: Perezosa (no se ejecutan hasta que se llame a una acción).
Acciones:
- Ejecutan las transformaciones y devuelven un resultado.
- Ejemplos:
  - collect(): Recupera todos los elementos.
  - count(): Cuenta los elementos.
  - take(n): Recupera los primeros n elementos.
  - saveAsTextFile(path): Guarda los datos en un archivo de texto.

Ventajas de los RDD

Procesamiento paralelo: Los datos se dividen en particiones para procesarse simultáneamente.
Tolerancia a fallos: Spark puede reconstruir datos automáticamente a partir de la secuencia de transformaciones.
Flexibilidad: Los RDD admiten varios tipos de operaciones y datos.
Integración con Hadoop: Pueden usar HDFS, HBase y otras fuentes de datos.

Limitaciones de los RDD

Complejidad: La API de RDD requiere escribir más código para tareas comunes, comparado con APIs más modernas como DataFrames y Datasets.
Optimización limitada: Los RDD no aprovechan las optimizaciones automáticas de Spark SQL y Catalyst.
Eficiencia: Operaciones como agrupamientos o filtrados pueden ser menos eficientes que las realizadas con DataFrames o Datasets.

Ejemplo de uso de RDD

from pyspark import SparkContext

# Crear un contexto de Spark sc = SparkContext("local", "EjemploRDD")

# Crear un RDD desde una lista datos = [1, 2, 3, 4, 5] rdd = sc.parallelize(datos)

# Aplicar transformaciones rdd_filtrado = rdd.filter(lambda x: x % 2 == 0) # Filtrar números pares rdd_cuadrado = rdd_filtrado.map(lambda x: x**2) # Elevar al cuadrado

# Ejecutar una acción resultado = rdd_cuadrado.collect() print(resultado) # Salida: [4, 16]

# Detener el contexto sc.stop()

En este ejemplo:

Se crea un RDD desde una lista.
Se aplican transformaciones (filter y map).
Se ejecuta una acción (collect) para obtener el resultado.

Clayton Jhordan Iliquin Zavaleta

Estudiante

Jhon Alexander Martínez Becerra

Estudiante

Los beneficios clave de los RDD en Apache Spark son:

Resiliencia: Los RDDs son resistentes a fallos. Spark puede reconstruirlos automáticamente a partir de información de registro en caso de que ocurra un fallo en un nodo.
Distribución: Los RDDs se distribuyen automáticamente entre los nodos del clúster, lo que permite el procesamiento paralelo de datos a gran escala.
Inmutabilidad: Los RDDs son inmutables, lo que significa que no se pueden modificar después de su creación. Esto garantiza la integridad de los datos y simplifica el diseño del programa.
Transformaciones y acciones: Los RDDs admiten operaciones de transformación y acción, lo que permite realizar manipulaciones complejas de datos de manera eficiente.
Flexibilidad: Los RDDs son una abstracción flexible que puede manejar una amplia variedad de datos y operaciones, lo que los hace adecuados para una variedad de casos de uso en análisis de datos y procesamiento de grandes volúmenes de información.

Layla Scheli

Profesor

Gracias Jhon, por tus palabras :) Un saludo!

Wilder Leoncio Correa Sánchez

Estudiante

Resilient Distributed Datasets (RDD) es un concepto clave en el ecosistema de Apache Spark, una plataforma de procesamiento de datos de código abierto. Los RDD son colecciones inmutables y distribuidas de elementos que pueden ser procesados en paralelo a través de un clúster de máquinas.

Las principales características de los RDD son:

Inmutabilidad: Los RDD son conjuntos de datos inmutables, lo que significa que una vez creados, no pueden ser modificados. Esto permite la recuperación eficiente de datos en caso de fallo.
Transformaciones y acciones: Los RDD admiten dos tipos de operaciones: transformaciones (que crean nuevos RDD a partir de los existentes) y acciones (que devuelven un valor al controlador).
Particionamiento y paralelismo: Los RDD se dividen en particiones que se pueden procesar en paralelo en un clúster de máquinas, lo que permite un procesamiento eficiente de grandes volúmenes de datos.
Persistencia y caché: Los RDD pueden ser persistidos en la memoria o en el disco para mejorar el rendimiento de las consultas repetidas.
Tolerancia a fallos: Si una partición de un RDD se pierde, Spark puede reconstruirla a partir de los RDD de los que depende, gracias a su linaje.

Estas características hacen que los RDD sean una herramienta poderosa para el procesamiento de datos a gran escala de manera eficiente y confiable.

Qué son los RDDs en Apache Spark

Fundamentos del Data Management con Databricks

Gestión Avanzada de Big Data con Databricks y Delta Lake

Qué es Databricks y cómo crear tu cuenta

Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento

Uso de Apache Spark en Big Data: Procesamiento y Análisis

Administración y Gestion de la Plataforma de Databricks

Creación y Configuración de Clúster en Databricks

Gestión de Datos y Notebooks en Databricks File System

Transformaciones y Acciones en Apache Spark