Bienvenido a Platzi

Emmanuel Aguilar

Emmanuel Aguilar

student
hace 2 años

¿Qué son los RDD en Apache Spark?

Apache Spark trabaja con los datos bajo un concepto denomindado RDD (Resilient Distibuted Datasets) es uno de los componentes que se encuentran en el Spark Core. Es ideal para optimizar la getión de los macrodatos y analizar los resultados de la información.

Los RDD poseen características específicas que ayudan a procesar los datos de una forma más eficaz.

  • Inmutables: estos no se pueden módificar una vez han sido creados.
  • Distribuidos: hace referencia a los RDD.
  • Resilientes: en caso de peder una partición, esta se regenera automáticamente.

Por otra parte, los RDD se transforman, de manera que se crean nuevos RDD y estas transformaciones se aplican a los datos.

Las transformaciones pueden ser:

  • Narrow: no necesitan intercambio de información entre los nodos del clúster
  • Wide: necesitan intercambio de información entre los nodos del clúster.

Existen distintas formamas de generar RDD:

  • Obtener datos de un fichero
  • Distribución de datos desde el driver
  • Transformar un RDD para crear un nuevo RDD

RDD: Ciclo de vida

!Untitled

RDD: Transformaciones/Lazy evaluation

Apache Spark no comenzará a ejecutarse hasta que se muestre o se lance una acción. En lugar de pensar en un RDD que contiene datos, es mejor pensar en un conjunto de instrucciones sobre cómo calcular los datos que construimos a través de transformaciones.

RDD: Key/Value Pairs

Estos son los RDD en los que cada uno de los elementos de la colección es una tupla de dos elementos: Clave > Valor

RDD: Acciones

Las acciones en Apache Spark provocan el procesamiento de datos. De manera que, cuando se ejecuta una acción, se aplican todas las transformaciones planificadas y finalmente la acción.

múltiples acciones === múltiples evaluaciones de los datos desde el origen

Existen acciones que mueven datos al proceso del driver y otras que se ejecutan directamente en los executors. Se acoseja no llevar demasiados datos al driver.

1 respuestas
Curso de Databricks: Arquitectura Delta Lake

Curso de Databricks: Arquitectura Delta Lake

Implementa una arquitectura Delta Lake en Databricks, creando las capas Bronze, Silver y Gold y entendiendo el flujo ETL, el almacenamiento y las ventajas de los formatos Parquet y Delta.

Curso de Databricks: Arquitectura Delta Lake
Curso de Databricks: Arquitectura Delta Lake

Curso de Databricks: Arquitectura Delta Lake

Implementa una arquitectura Delta Lake en Databricks, creando las capas Bronze, Silver y Gold y entendiendo el flujo ETL, el almacenamiento y las ventajas de los formatos Parquet y Delta.