Contenido del curso
Administración y Gestion de la Plataforma de Databricks
- 5

Creación y Configuración de Clúster en Databricks
07:02 min - 6

Gestión de Datos y Notebooks en Databricks File System
11:25 min - 7

Transformaciones y Acciones en Apache Spark
03:42 min - 8

Qué son los RDDs en Apache Spark
Viendo ahora - 9

Creación y Transformaciones de RDDs en Databricks
17:01 min - 10

Ações em RDDs que todo iniciante precisa saber
05:33 min - 11

Lectura de Datos en Apache Spark con Databricks
09:36 min - 12

Spark UI en Databricks: qué muestra cada sección
04:23 min - 13

Cómo instalar librerías en Databricks
08:30 min - 14

Alternativas para Trabajar con Apache Spark: Local vs. Nube
03:42 min
Apache Spark SQL y UDF
Implementacion de un Delta Lake en Databricks
- 19

Arquitecturas Data Lake y Delta Lake en Big Data
05:24 min - 20

Delta Lake: Almacenamiento y Gestión de Datos en Big Data
01:32 min - 21

Arquitectura Medallion en Data Lake House: Capas Bronze, Silver y Gold
03:41 min - 22

Comandos Esenciales para Databricks File System (DBFS)
00:34 min - 23

Implementación de arquitectura Delta Lake en Databricks
06:38 min - 24

Capa gold en Delta Lake con Databricks
05:26 min - 25

Qué aprendiste y qué sigue en Databricks
02:14 min
Qué son los RDDs en Apache Spark
Resumen
Si trabajas con grandes volúmenes de datos, entender los RDDs en Apache Spark es clave para procesar información de forma paralela y tolerante a fallos. Aquí te explico qué son, cómo se crean y por qué importan dentro de un clúster.
¿Qué significa RDD en Apache Spark?
RDD son las siglas de Resilient Distributed Dataset, es decir, un conjunto de datos distribuido y resiliente. Puedes pensarlo como una colección inmutable y distribuida de objetos que vive dentro del clúster de Spark.
La palabra resilient no es decorativa: implica que el RDD puede recuperarse ante fallos, algo crítico cuando trabajas con nodos que pueden caerse en cualquier momento.
¿Qué es un RDD en Apache Spark? Es una colección de objetos que se procesa en paralelo dentro de un clúster y que puede recuperarse ante fallos de forma automática.
¿Por qué los RDDs son inmutables?
Dentro de Spark, todos los objetos son inmutables. Eso significa que una vez que creas un RDD, no puedes modificarlo. Si necesitas cambiarlo, en realidad estás generando un RDD nuevo a partir del anterior.
Esta decisión tiene que ver con la integridad de los datos. Al no poder alterar un objeto ya creado, evitas inconsistencias cuando varias tareas leen el mismo dato al mismo tiempo en distintos nodos.
¿Qué quiere decir que un RDD sea distribuido?
Que sea distribuido significa que el RDD se ejecuta de forma paralela en todos los nodos que conforman tu arquitectura de clúster. En lugar de procesar los datos en una sola máquina, Spark reparte el trabajo entre varios workers.
Ahí está la potencia real: puedes escalar horizontalmente y procesar volúmenes que serían imposibles en un solo servidor.
¿Cómo se crea un RDD en Spark?
Tienes dos caminos principales para crear un RDD, y la elección depende de dónde vienen tus datos.
- Crearlo desde cero: puedes generar un RDD vacío o partir de una lista en memoria. Luego, con funciones específicas, lo paralelizas para que Spark lo distribuya entre los nodos. Es una vía más manual.
- Crearlo desde un archivo o dataset externo: lees un conjunto de datos desde una fuente externa y lo configuras para que Spark lo interprete como RDD.
La segunda opción suele ser la más común en escenarios reales, porque normalmente los datos ya viven en algún sistema de almacenamiento.
¿Cuál es la forma más común de crear un RDD? Leyendo un archivo o dataset externo dentro de Spark y configurándolo para que se interprete como RDD, en lugar de construirlo manualmente desde una lista.
¿Qué operaciones puedes aplicar a un RDD?
Los RDDs aceptan dos tipos de operaciones dentro de Spark: transformaciones y acciones. Esta distinción es la base para entender cómo fluye el procesamiento.
Transformaciones y acciones, ¿en qué se diferencian?
Cuando aplicas una transformación a un RDD, el resultado siempre es un nuevo RDD transformado. Recuerda que los objetos son inmutables, así que Spark no modifica el original: crea uno nuevo derivado.
Las acciones, en cambio, son operaciones propias de Spark que disparan la ejecución y devuelven un resultado concreto, no otro RDD. Aquí es donde el motor de Spark realmente pone a trabajar al clúster.
La combinación de inmutabilidad, distribución y este modelo de transformaciones y acciones es lo que permite a Spark procesar datos masivos con tolerancia a fallos y velocidad.
Si quieres profundizar más, revisa el enlace de interés sobre RDDs que está en los recursos de la clase y cuéntame en los comentarios qué tipo de datasets te gustaría procesar con Spark.