Platzi: Plataforma de aprendizaje profesional online

Emmanuel Aguilar

student•

¿Qué son los RDD en Apache Spark?

Apache Spark trabaja con los datos bajo un concepto denomindado RDD (Resilient Distibuted Datasets) es uno de los componentes que se encuentran en el Spark Core. Es ideal para optimizar la getión de los macrodatos y analizar los resultados de la información.

Los RDD poseen características específicas que ayudan a procesar los datos de una forma más eficaz.

Inmutables: estos no se pueden módificar una vez han sido creados.
Distribuidos: hace referencia a los RDD.
Resilientes: en caso de peder una partición, esta se regenera automáticamente.

Por otra parte, los RDD se transforman, de manera que se crean nuevos RDD y estas transformaciones se aplican a los datos.

Las transformaciones pueden ser:

Narrow: no necesitan intercambio de información entre los nodos del clúster
Wide: necesitan intercambio de información entre los nodos del clúster.

Existen distintas formamas de generar RDD:

Obtener datos de un fichero
Distribución de datos desde el driver
Transformar un RDD para crear un nuevo RDD

RDD: Ciclo de vida

!Untitled

RDD: Transformaciones/Lazy evaluation

Apache Spark no comenzará a ejecutarse hasta que se muestre o se lance una acción. En lugar de pensar en un RDD que contiene datos, es mejor pensar en un conjunto de instrucciones sobre cómo calcular los datos que construimos a través de transformaciones.

RDD: Key/Value Pairs

Estos son los RDD en los que cada uno de los elementos de la colección es una tupla de dos elementos: Clave > Valor

RDD: Acciones

Las acciones en Apache Spark provocan el procesamiento de datos. De manera que, cuando se ejecuta una acción, se aplican todas las transformaciones planificadas y finalmente la acción.

múltiples acciones === múltiples evaluaciones de los datos desde el origen

Existen acciones que mueven datos al proceso del driver y otras que se ejecutan directamente en los executors. Se acoseja no llevar demasiados datos al driver.

Layla Scheli

teacher•

Gracias :)