Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento

Clase 3 de 25 • Curso de Databricks: Arquitectura Delta Lake

Resumen

¿Qué es la arquitectura centralizada de datos?

Los sistemas de arquitectura centralizada de datos han sido fundamentales durante mucho tiempo. Imagina tener un archivo de datos de gran tamaño, el cual se procesa desde un único nodo central. Este método, aunque efectivo en sus inicios, presenta varios inconvenientes:

Tiempo de procesamiento: El esfuerzo recae sobre un solo nodo, lo que puede prolongar considerablemente el tiempo necesario para procesar datos extensos.
Punto único de falla: Si el nodo central experimenta problemas, todo el sistema corre el riesgo de detenerse.
Escalabilidad limitada: No está diseñado para crecer fácilmente ante un aumento en el volumen de datos.

¿Qué beneficios aporta una arquitectura descentralizada?

La arquitectura descentralizada ofrece una solución eficaz a los problemas de las arquitecturas centralizadas, dividiendo grandes archivos de datos en particiones más manejables. Cada partición se procesa por nodos esclavos, dirigidos por un nodo máster que orquesta las tareas. Así se forma un clúster, un concepto clave en Big Data por las siguientes razones:

Paralelismo: Múltiples nodos trabajan simultáneamente, reduciendo el tiempo de procesamiento.
Escalabilidad y flexibilidad: La capacidad de añadir o eliminar nodos según la necesidad de recursos.
Tolerancia a fallas: Carga de trabajo redistribuible entre nodos, asegurando continuidad operativa.

¿Cómo se estructura la infraestructura de un clúster?

Un clúster distribuido cuenta con dos capas esenciales: almacenamiento y procesamiento.

¿Cómo se gestiona el almacenamiento?

La capa de almacenamiento predominantemente utiliza disco, permitiendo opciones tanto de almacenamiento permanente como temporal. Depende del objetivo de los datos, ya sea retenerlos permanentemente o almacenarlos temporalmente para transformaciones.

¿Y el procesamiento?

El procesamiento en un clúster depende del uso efectivo de recursos como RAM y CPU. El adecuado "sizing" del clúster es crucial, determinando la cantidad y capacidad de nodos necesarios basándose en:

Volumen de datos: Cuánto se necesitará manejar y procesar.
Simultaneidad: Cantidad de usuarios trabajando en paralelo.

¿Qué ofrece Databricks?

Implementado en la plataforma Databricks, el Databricks File System (DBFS) se integra para automatizar el almacenamiento, facilitando la gestión y procesamiento de datos directamente dentro de la plataforma. Esto destaca la adaptabilidad y flexibilidad de la arquitectura distribuida en entornos diversos y tecnologías avanzadas de Big Data.

Con estos fundamentos, el potencial de una arquitectura distribuida se vuelve esencial en la evolución y eficiencia del procesamiento de grandes volúmenes de datos. Al profundizar en su comprensión y aplicación, no solo se mejora el rendimiento, sino que se asegura un sistema robusto y eficaz.

Carlos Eduardo Bracho Rosales

student•

Infraestructura de almacenamiento y procesamiento en Databricks

Arquitectura centralizada de datos

Tendremos un único nodo central que se encargará de procesar un archivo gigantesco de datos en su totalidad
En este tipo de arquitectura que se sigue utilizando presenta varios problemas…
- Se necesita mucho tiempo de procesamiento
- Tenemos un único punto de falla
- Es complicada la escalabilidad de recursos

Arquitectura descentralizada de datos

Tendremos, igualmente,un archivo gigantesco de datos que estará dividido en particiones.
Cada partición será procesada por varios nodos esclavos o slave.
Habrá un nodo Maestro que tiene la función de orquestar todo el trabajo hacia los esclavos en función del conjunto de datos
El conjunto de nodo master y todos los slaves se conocen como CLUSTER.
En este tipo de arquitectura trabajamos de manera distribuida, tendremos un conjunto de nodos conectados en red.
El procesamiento de datos es mucho más eficiente y el tiempo es más corto
No existe el problema de un único punto de falla ya que si un nodo falla, se transfiere la carga de trabajo de ese nodo a otro.
BONUS: 👀 Así es como funciona Redshift

Beneficios de utilizar una arquitectura distribuida de cluster

Paralelismo y mayor rendimiento
Escalabilidad en la solución
Tolerancia a fallos
Mejor manejo de grandes volúmenes de datos
Flexibilidad y adaptabilidad

Infraestructura de almacenamiento y procesamiento de datos

Toda arquitectura distribuida en cluster tiene dos capas
Capa de almacenamiento ~ Disco (Almacenamiento persistente)
Capa de procesamiento ~ RAM y CPU
En cualquier nodo habrá Disco RAM y CPU.
Tendremos que saber jugar con las características de nuestro nodos para poder determinar el sizing adecuado de nuestro cluster, es decir, el almacenamiento y procesamiento que mejor necesitaremos.
Debemos tener en cuenta el volumen de datos que trabajemos y la cantidad de personas que trabajan de forma simultánea en el cluster.
Importante: En Databricks, tenemos una capa de almacenamiento que viene integrada directamente con la solución llamada DBFS (Databricks File System) la cual nos permite almacenar nuestros datos directamente en Databricks.

Samuel Elias Flores Santalla

student•

Gracias

Christian Julian Acosta Santamaria

student•

¡Hola a Todos!

Quiero resaltar la dinámica de esta clase en particular, si bien las diapositivas estáticas son útiles para la explicación, esta parte de explicar con un video, me parece muchísimo más didáctica, permite no solo captar la atención sino también mantenerla, y creo que da un punto adicional a la explicación de la profesora (que de por sí es muy buena).

Estas mejoras en Platzi me encantan, sigan asi :)

Layla Scheli

teacher•

Gracias Christian :) me alegro que te haya gustado!

Daniel Guardia

student•

Totalmente de acuerdo, la profe es recontra capa y las animaciones permiten entender muchísimo más lo que dice 🥲

Jesús David Vega Porras

student•

como empleado de Databricks me parece muy interesante el enfoque utilizado para explicar estos recursos (si, yo lo fui entendiendo una vez adentro y llevando palo jaja).

Para completementar la explicacion, seguramente adelantandome a las siguientes clases, como se comentaba al inicio Databricks basa su arquitectura en Apache Spark.

Equiparando con el modelo Master-Slaves, en Spark seria conocido como nuestro Driver (Master) y Workers o Executors (Slaves).

Como se comento, en efecto cada uno tiene su Disco, RAM y CPU. Por lo tanto si lo piensan bien al final cada uno es una VM en el cloud correspondiente (AWS,Azure o Google) que se puede trackear con su respectivo instance ID/IP, esta informacion viene dada en el cluster UI

Layla Scheli

teacher•

Gracias Jesus, por tu aportacion :) Enhorabuena!

Jonathan Smith Llanos Mejia

student•

Puede sonar minúsculo pero es importante entender el peso de las palabras, términos como 'master', 'blacklist', 'slave' deberian quedar en el pasado, entiendo que no es decisión de la docente sino de Databricks pero cada día deberíamos desligarnos de estos términos GitHub ya lo hizo pasando su rama principal de Master a Main. De resto muy buena la explicación :D

Layla Scheli

teacher•

Hola Jonathan al dia de hoy se siguen utilizando :) Un saludo!

Anderson Castañeda T

student•

justamente estaba buscando este comentario, me parece acertado tu punto de vista, lo mismo nos recalcaba un profesor, se que es usado en algunos entonces pero también pienso que se debería comenzar a migrar

Juliana Castillo Araujo

Team Platzi•

¿Por qué el Cluster es tan importante en el conjunto de almacenamiento y procesamiento de la arquitectura descentralizada de datos?

Layla Scheli

teacher•

Hola Juliana, te comento:

En una arquitectura descentralizada de datos, un cluster juega un papel fundamental en el almacenamiento y procesamiento de la información.

Conceptos claves:

Escalabilidad: Un cluster permite escalar horizontalmente, lo que significa agregar más nodos al conjunto de recursos disponibles para manejar el aumento en la cantidad de datos y la demanda de procesamiento. Esto es crucial en entornos descentralizados donde la cantidad de datos puede crecer rápidamente y las necesidades de procesamiento pueden variar.
Resiliencia y tolerancia a fallos: Un cluster generalmente está compuesto por múltiples nodos distribuidos geográficamente. Esto proporciona redundancia y resiliencia ante posibles fallos de hardware o software. Si un nodo falla, el resto del cluster puede seguir funcionando, garantizando la disponibilidad de los datos y los servicios.
Distribución de la carga de trabajo: En un entorno descentralizado, es común tener múltiples usuarios y aplicaciones accediendo y procesando datos simultáneamente. Un cluster distribuye la carga de trabajo entre sus nodos, lo que ayuda a evitar cuellos de botella y garantiza un rendimiento óptimo incluso bajo cargas pesadas.
Procesamiento distribuido: Al tener un conjunto de nodos trabajando en paralelo, un cluster puede realizar tareas de procesamiento de datos de manera distribuida. Esto significa que las operaciones pueden dividirse en subprocesos y ejecutarse simultáneamente en diferentes nodos, lo que acelera significativamente el tiempo de procesamiento.
Mayor capacidad de almacenamiento: Los clusters generalmente están compuestos por nodos con capacidad de almacenamiento local. Al agrupar estos nodos, se obtiene una capacidad total de almacenamiento mucho mayor que la de un único servidor. Esto es esencial para manejar grandes volúmenes de datos en entornos descentralizados.

Por lo tanto, un cluster es esencial en la arquitectura descentralizada de datos porque proporciona escalabilidad, resiliencia, distribución de la carga de trabajo, procesamiento distribuido y capacidad de almacenamiento necesaria para manejar eficientemente grandes cantidades de datos y demandas de procesamiento en entornos descentralizados.

Cualquier duda me comentas :)

Alfredo Olmedo

student•

Escencia de Kubernetes en pocas palabras.

Alejandro Giraldo Londoño

student•

Resumen: ■■■■■ Databricks integra herramientas open source avanzadas con servicios comerciales para crear una plataforma robusta que aborda las necesidades de análisis de datos, machine learning y gobernanza.

En esencia se vale de una infraestructura de cómputo distribuido donde maestros tienen nodos esclavos.

En este ecosistema se intengra tecnologías como:

Spark: Framework líder en procesamiento distribuido, ideal para manejar grandes volúmenes de datos de manera eficiente y rápida.
Unity Catalog: Un sistema centralizado para la gobernanza de datos, que permite gestionar permisos, auditorías y metadatos de forma segura y organizada.
MLflow: Solución integral para gestionar el ciclo de vida del machine learning, desde el rastreo de experimentos hasta el despliegue y la monitorización de modelos.
Delta Lake: Motor de almacenamiento transaccional que mejora la confiabilidad y el rendimiento, asegurando integridad ACID en los datos estructurados y semiestructurados.
PyTorch: Framework versátil y ampliamente utilizado para desarrollar y entrenar modelos de aprendizaje profundo, respaldado por una amplia comunidad.

Karla Angelica Doctor Mauricio

student•

Diseños visuales muy adecuados y claros que hacen un perfecto match con la explicación de la profe, me encanto 💚

Juan Camilo Jaramillo Tascón

student•

Arquitectura centralizada de datos
- Archivo de datos muy grande
- Único nodo central
- Problemas:
  - Mucho tiempo de procesamiento
  - Baja confiabilidad (único punto de falla, no hay respaldo)
  - Complicada la escalabilidad de recursos
Arquitectura descentralizada de datos (Cluster - Maestro/Esclavo)
- Archivo de datos muy grande
  - Particiones
- Slaves o Nodos (se reparten las particiones)
- Nodo Master (orquesta y coordina los Slaves)
- Beneficios:
  - Paralelismo y mayor rendimiento
  - Escalabilidad en la solución
  - Tolerancia a fallos
  - Mejor manejo de grandes volúmenes de datos
  - Flexibilidad y adapatabilidad
Infraestructura de almacenamiento y procesamiento de datos
- Capa de almacenamiento - Disco
- Capa de procesamiento - RAM & CPU
- Cada nodo tendrá Disco + RAM + CPU (determinar el tamaño adecuado)
- Importante conocer el volumen de datos y cantidad de personas trabajando sobre el cluster
- DBFS: Capa de almacenamiento integrada en databricks

Layla Scheli

teacher•

Gracias por tu aportacion :)

Arturo Verbel De León

student•

Arturo, puedes utilizar la versión gratuita de Databricks para seguir el curso. Respecto a Apache Spark, no es un requisito previo, ya que el curso incluye clases como "Uso de Apache Spark en Big Data: Procesamiento y Análisis" para entender sus fundamentos.

CARDENAS LOPEZ PAULA ANDREA

student•

¿por qué falla un slave en arquitectura distribuida o el nodo único en la centralizada?

Platzi

student•

Un slave puede fallar en una arquitectura distribuida por sobrecarga. El nodo único en la centralizada puede fallar al ser un único punto de falla y dejar de operar.

Leidy Tatiana Toro Bermúdez

student•

¿los slave son literalmente computadoras que procesan los datos? de ser así ¿donde se encuentran esas computadoras?

Platzi

student•

Toda arquitectura distribuida en cluster siempre va a tener nodos, conocidos como esclavos o slave, que son computadoras que procesan cada partición de los datos. La transcripción no especifica dónde se encuentran físicamente estas computadoras.

Jose Eduardo Tirado Verbel

student•

En una arquitectura distribuida como la que se utiliza en Databricks, el procesamiento de datos en diferentes particiones se realiza en paralelo, lo que disminuye significativamente los tiempos de espera. Sin embargo, puede haber un pequeño delay debido a la comunicación entre nodos y la necesidad de sincronización de la información. Este delay es generalmente menor que el tiempo que tomaría procesar un archivo completo en un solo nodo, lo que resalta una de las ventajas de la arquitectura distribuida.

Kevin Gonzalez

student•

La capacidad de almacenamiento de Databricks depende de la configuración del clúster y del tipo de almacenamiento que utilices. Databricks utiliza el Databricks File System (DBFS), que permite almacenar archivos en un sistema de archivos distribuido. Puedes almacenar datos en forma de archivos, objetos o en formatos como Parquet y Delta, optimizados para el manejo de grandes volúmenes de datos. Esto proporciona flexibilidad y escalabilidad en el almacenamiento de datos.

Mario Alexander Vargas Celis

student•

Infraestructura de almacenamiento y procesamiento en Databricks

Databricks es una plataforma basada en la nube que proporciona un entorno unificado para análisis de datos, ciencia de datos, Machine Learning (ML) y procesamiento en tiempo real. La infraestructura en Databricks se basa en el almacenamiento y procesamiento distribuidos utilizando tecnología como Apache Spark.

Infraestructura de almacenamiento en Databricks

Almacenamiento en Databricks:
- Databricks utiliza diferentes servicios de almacenamiento integrados para manejar datos, como:
  - Databricks File System (DBFS): Un sistema de archivos distribuido basado en la nube que permite a los usuarios almacenar, leer y escribir archivos en el entorno de Databricks. Es una capa de almacenamiento temporal y persistente para el trabajo en notebooks.
  - Amazon S3: Integración con sistemas de almacenamiento en la nube como S3 para el manejo de datos a gran escala. Databricks permite trabajar directamente con archivos alojados en S3, facilitando la ingestión y procesamiento de datos.
  - Azure Blob Storage: Similar a S3, proporciona almacenamiento de objetos en Azure.
  - Google Cloud Storage: Integración con el almacenamiento en la nube de Google para el manejo de grandes volúmenes de datos.
Tipos de Datos:
- Datos estructurados (tablas, CSV, JSON).
- Datos semi-estructurados (archivos Avro, Parquet, ORC).
- Datos no estructurados (imágenes, videos, logs).

Infraestructura de procesamiento en Databricks

Apache Spark:
- Databricks está construido sobre Apache Spark, que permite el procesamiento distribuido en paralelo. Esto permite ejecutar tareas intensivas en recursos como procesamiento de datos masivos, Machine Learning y análisis en tiempo real.
- Las capacidades de procesamiento incluyen:
  - Transformaciones masivas de datos: Operaciones como filtrado, agrupación, unión, sumas parciales, etc.
  - Modelos de Machine Learning: Entrenamiento de modelos en paralelo utilizando Spark MLlib.
  - Procesamiento de Streams: Procesamiento de datos en tiempo real utilizando Spark Streaming.
Niveles de procesamiento:
- Computación general: Un entorno para tareas analíticas estándar y procesamiento de datos.
- Clusters optimizados: Clusters con configuraciones específicas para Machine Learning (GPU, CPU optimizados), procesamiento de datos a gran escala y rendimiento máximo.
Tareas Distribuidas:
- En Databricks, las tareas se dividen en múltiples trabajos y ejecutan operaciones de manera simultánea en distintos nodos, reduciendo tiempos de procesamiento.

Capa de Gestión y Orquestación

Databricks proporciona una orquestación integrada para la gestión de flujos de trabajo y pipelines de datos.
Soporte para tareas agendadas y automatización de tareas a través de Apache Airflow o Delta Live Tables para flujos de datos en tiempo real.

Seguridad y Escalabilidad

Seguridad: Databricks ofrece integración con servicios de seguridad en la nube como IAM (Identity and Access Management), SSO (Single Sign-On), y encriptación de datos en tránsito y reposo.
Escalabilidad: Los clústeres en Databricks pueden escalar horizontalmente o verticalmente según las necesidades de procesamiento y almacenamiento.

Beneficios de la Infraestructura en Databricks

Escalabilidad masiva.
Procesamiento distribuido optimizado.
Integración con servicios de almacenamiento en nube líderes.
Seguridad y gobernanza avanzada.

Arquitectura de Clústeres en Databricks: Procesamiento y Almacenamiento

Fundamentos del Data Management con Databricks

Gestión Avanzada de Big Data con Databricks y Delta Lake

Fundamentos de Databricks para Big Data y Machine Learning