Particionado y Replicación de Datos en Spark RDDs

Clase 22 de 25 • Curso de Fundamentos de Spark para Big Data

Como se ha descrito en clases pasadas, los RDD son la capa de abstracción primaria para poder interactuar con los datos que viven en nuestro ambiente de Spark. Aunque estos puedan ser enmascarados con un esquema dotándolos de las facultades propias de los DataFrames, la información de fondo sigue operando como RDD.

Por lo tanto, la información, como indica el nombre de los RDD, se maneja de forma distribuida a lo largo del clúster, facilitando las operaciones que se van a ejecutar, ya que segmentos de información pueden encontrarse en diferentes ejecutores reduciendo el tiempo necesario para acceder a la información y poder así realizar los cálculos necesarios.

Cuando un RDD o Dataframe es creado, según las especificaciones que se indiquen a la aplicación de Spark, creará un esquema de particionado básico, el cual distribuirá los datos a lo largo del clúster. Siendo así que al momento de ejecutar una acción, esta se ejecutará entre los diversos fragmentos de información que existan para poder así realizar de la forma más rápida las operaciones. Es por eso que un correcto esquema de particionado es clave para poder tener aplicaciones rápidas y precisas que además consuman pocos recursos de red.

Otra de las tareas fundamentales es la replicación de componentes y sus fragmentos, ya que al aumentar la disponibilidad de estos podremos asegurar una tolerancia a fallos, mientras más se replique un valor es más probable que no se pierda si existe un fallo de red o energía, además de permitir una disponibilidad casi inmediata del archivo buscado.

La partición y replicación son elementos que deben ser analizados según el tipo de negocio o requerimientos que se tengan en el desarrollo que se encuentre en progreso, por lo cual la cantidad de datos replicados o granularidad de datos existentes en los fragmentos dependerá en función de las reglas de negocio.

En las siguientes clases profundizaremos en estos conceptos y crearemos un particionado simple de datos con ayuda de las funciones getNumpartitions y glom. ¡Te veo en la siguiente clase!

Carlos Javier Guevara Contreras

student•

interesante

Pablo Rosa

student•

en todas las clases comenta lo mismo este compañero, lo importante no es sumar puntos en platzi. Lo importante es aprender. Saludos

Juan Antonio Salazar Ramírez

student•

jajajaja no sabía que comentar en los cursos sumaba puntos y me daba risa que comentara Interesante en todo lado. Divertido llevar estos cursos y reír un poco jjajaajaj

JAVIER SANTIAGO SALGADO

student•

Gracias!!!

Jorge Salvador Ruíz Montaño

student•

Un tema de suma importancia!

Andrea Llerena

student•

0-0

Ubaldo EspinosaGuerrero

student•

Perfecto entonces podremos particionar listas, solo aún no se como pueda funcionar ya en un Data frame

KEVIN ANDRES PINEDA SARMIENTO

student•

Excelente.

Particionado y Replicación de Datos en Spark RDDs

Conociendo Apache Spark

Fundamentos de Apache Spark: ETL y Limpieza de Datos

Introducción a Apache Spark y sus diferencias con Hadoop

Diferencias entre RDDs y DataFrames en Apache Spark

Configuración

Instalación de Spark y Anaconda en Linux

Ejecución y Configuración de Spark en Línea de Comando y Anaconda

Configuración de PySpark con Jupyter y Anaconda

Operaciones RDDs

Transformaciones y Acciones en RDD de Spark

Transformaciones y acciones

Interacción con RDDs en Spark: Operaciones Básicas y Avanzadas

Operaciones avanzadas con RDDs en Spark: Uniones y Joins

Unión de Datos en RDD para Deportistas Olímpicos

Operaciones Numéricas con RDDs en Juegos Olímpicos

Data Frames y SQL

Creación y Gestión de Data Frames en PySpark

Creación de DataFrame desde RDD en PySpark

Manipulación de Data Frames en PySpark

Joins y Selección de Datos en DataFrames con PySpark

Filtrado y Join de Datos Olímpicos en Pandas

Funciones de Agregación en Spark para DataFrames

Uso de SQLContext para Registro y Consultas con DataFrames en Spark

Creación y Uso de Funciones UDF en Spark

Creación y uso de UDFs en PySpark para manejo de datos faltantes

Persistencia y particionado

Particionado y Replicación de Datos en Spark RDDs

Persistencia y Particionado de Datos en Spark

Particionamiento de RDDs y DataFrames en Spark con PySpark

Conclusiones

Uso de RDDs y DataFrames en Apache Spark