Arquitectura Lambda: 3 capas para datos en tiempo real

Clase 6 de 52 • Curso de Big Data en AWS

Resumen

Comprende cómo una arquitectura de datos agnóstica a proveedores de nube equilibra procesamiento histórico y en tiempo real. Con un enfoque claro y aplicado, verás cómo la arquitectura Lambda —atribuida a Nathan Marz— ofrece escalabilidad, tolerancia a fallos y alto procesamiento de datos, alimentando consultas y visualización sin depender de un cloud específico.

¿Qué es la arquitectura Lambda y por qué importa?

La arquitectura Lambda se diseñó para procesar grandes volúmenes de datos con robustez. Se compone de tres capas: capa batch, capa de servicio y capa speed. Parte de un origen de datos en streaming y divide el flujo en dos mundos: procesamiento histórico y procesamiento en tiempo real. Ambas salidas convergen para responder consultas, habilitar visualizaciones y conectar con otros servicios.

Origen de datos: entrada en streaming u otra fuente de información.
Objetivo central: servir consultas y visualización combinando histórico y tiempo real.
Beneficio clave: ver datos al instante sin perder la capacidad de análisis histórico.

¿Cómo se conectan la batch layer, la speed layer y la capa de servicio?

La entrada de datos se bifurca en dos rutas: la batch layer procesa información histórica (por ejemplo, el día anterior), y la speed layer procesa eventos a medida que llegan. La capa de servicio consume y expone resultados para usuarios y sistemas, integrando ambas perspectivas.

¿Qué hace la batch layer?

Procesa datos históricos en lotes (por ejemplo: el día de ayer).
Permite consultas de largo alcance, como cuatro meses de comportamiento de usuarios en una sede de McDonald's.
Alimenta la capa de servicio para análisis y visualización.

¿Qué hace la speed layer?

Procesa datos en tiempo real a medida que llegan.
Soporta necesidades inmediatas, como ver logs de una campaña de referidos al momento.
Complementa la visión histórica con señales actuales.

¿Qué papel cumple la capa de servicio?

Expone resultados para queries, visualización y otros sistemas.
Unifica salidas de la batch layer y la speed layer.
Facilita transformaciones y consultas para los equipos.

¿Qué ventajas y retos debes considerar?

Esta arquitectura se usa ampliamente porque habilita dos necesidades críticas: ver lo que pasa ahora y analizar lo que pasó antes. Sin embargo, combinar dos mundos incrementa la complejidad operativa.

Ventajas: escalable, tolerante a fallos y robusta para grandes volúmenes.
Retos: mayor carga de administración por mantener servicios de procesamiento en tiempo real e histórico en paralelo.
Práctica habitual: usar speed layer para señales inmediatas y batch layer para consultas extensas, ambas alimentando la capa de servicio.

Habilidades prácticas: diseño de arquitectura de datos orientada a objetivos; selección entre procesamiento en tiempo real o por lotes según el caso; modelado de pipelines que alimentan consultas y visualización; operación y mantenimiento de cargas paralelas.

¿Te gustaría comentar un caso de uso y comparar cómo lo resolverías con speed layer y batch layer?

Juan David Cajamarca Acuña

student•

Es atribuida a Nathan Marz. Se diseñó como una arquitectura escalable, tolerante a fallos y de alto procesamiento de datos. Esta arquitectura buscaba satisfacer necesidades de procesamiento de datos en altas cantidades. Se compone de tres capas: Batch, Serve y Speed.

Batch: En esta capa vamos a procesar toda la información almacenada con anterioridad, desde el día anterior hasta meses.
Serve: Dentro de esta capa es posible visualizar la información procesada desde la capa batch.
Speed: Conforme llega la información se va a ir procesando.

En esta arquitectura, podemos ver que se hace uso tanto de la capa Batch como de la capa Speed (las cuales están enfocadas al mismo objetivo general: alimentar otro servicio), y al tenerlas combinadas, se aumenta la complejidad en cuanto a cargas de administración. Sin embargo, esta arquitectura es bastante usada, y puede ser aprovechada manejando las capas Batch y Serve para datos que puedan ser tratados de manera histórica, y trabajar en la capa Speed información que requiera ser procesada y visualizada en tiempo real, todo en un mismo proyecto. Aunque muchas veces sólo es utilizada una o dos de las tres capas que tenemos disponibles en esta arquitectura.

john ct

student•

book--Big Data teaches you to build big data systems using an architecture designed specifically to capture and analyze web-scale data. This book presents the Lambda Architecture, a scalable, easy-to-understand approach that can be built and run by a small team. You'll explore the theory of big data systems and how to implement them in practice. In addition to discovering a general framework for processing big data, you'll learn specific technologies like Hadoop, Storm, and NoSQL databases.

Web-scale applications like social networks, real-time analytics, or e-commerce sites deal with a lot of data, whose volume and velocity

john ct

student•

What's inside:

Introduction to big data systems Real-time processing of web-scale data Tools like Hadoop, Cassandra, and Storm Extensions to traditional database skills About the authors: Nathan Marz is the creator of Apache Storm and the originator of the Lambda Architecture for big data systems. James Warren is an analytics architect with a background in machine learning and scientific computing.

Adam Carrillo

student•

Excelente explicación no solo de la Arquitectura Lambda, sino de los casos de uso para las capas Batch y Speed es importante esto de conocer la razon de ser de cada una.

Carlos Andrés Zambrano Barrera

teacher•

Gracias.. Ahora usamos solo arquitecturas lambda. Aunque hay proyectos eventuales que quieren su capa de batch. sin embargo siempre recomiendo usar lo mejor de los mundos de acuerdo al caso de uso.

Wilson Alejandro Gonzalez Gaitan

student•

Esta arquitectura se emplea únicamente para proyectos de big data?

Darvin Orozco

student•

¿En qué momento se decide que el streaming data sea procesada por Batch Layer o por la Speed Layer?

Carlos Andrés Zambrano Barrera

teacher•

Es una decisión de negocio y también asociada a los conocimientos técnicos, ahora nosotros implementamos todo en una speed layer únicamente sin utilizar capa batch pero es porque tenemos el conocimiento y a nivel de negocio nos beneficia más.

Mario Alexander Vargas Celis

student•

🌟 Arquitecturas Lambda en Cloud Computing

Las arquitecturas Lambda son un enfoque de diseño en computación en la nube que permite el procesamiento de datos en tiempo real con alta escalabilidad y eficiencia. Son ampliamente utilizadas en aplicaciones de Big Data, análisis en tiempo real e Internet de las Cosas (IoT).

📌 ¿Qué es una Arquitectura Lambda?

Una Arquitectura Lambda es un modelo diseñado para procesar y analizar grandes volúmenes de datos en tiempo real y en lotes de manera eficiente. Se basa en dos capas principales:

1️⃣ Capa de Velocidad (Speed Layer) → Procesa datos en tiempo real. 2️⃣ Capa de Batch (Batch Layer) → Procesa datos históricos o en lotes. 3️⃣ Capa de Servicio (Serving Layer) → Combina los resultados de ambas capas y los expone a aplicaciones.

💡 Este enfoque combina lo mejor de los sistemas de procesamiento en tiempo real y en batch, garantizando baja latencia y datos precisos.

🚀 Componentes de una Arquitectura Lambda

1️⃣ Capa de Ingesta de Datos

📌 Recibe y almacena datos desde múltiples fuentes. 🔹 Ejemplos:

Amazon Kinesis (AWS)
Google Pub/Sub (GCP)
Azure Event Hub (Microsoft)

2️⃣ Capa de Procesamiento en Batch

📌 Procesa grandes volúmenes de datos con alta precisión. 🔹 Ejemplos:

Apache Hadoop
AWS Glue
Google Dataflow

3️⃣ Capa de Procesamiento en Tiempo Real (Stream Processing)

📌 Analiza datos con baja latencia en tiempo real. 🔹 Ejemplos:

Apache Kafka
AWS Lambda
Azure Stream Analytics

4️⃣ Capa de Almacenamiento

📌 Guarda datos para análisis y consultas futuras. 🔹 Ejemplos:

Amazon S3 (AWS)
Google BigQuery (GCP)
Azure Data Lake (Microsoft)

5️⃣ Capa de Servicio (Serving Layer)

📌 Proporciona acceso a los datos para dashboards y aplicaciones. 🔹 Ejemplos:

Amazon Redshift
Google Looker Studio
Azure Synapse Analytics

🛠️ Caso de Uso: Procesamiento de Datos en Streaming con AWS Lambda

🔹 Escenario: Una empresa de e-commerce quiere analizar el comportamiento de los usuarios en tiempo real.

🔹 Solución con Arquitectura Lambda en AWS: 1️⃣ AWS Kinesis captura eventos de navegación web. 2️⃣ AWS Lambda procesa los eventos en tiempo real. 3️⃣ Amazon DynamoDB almacena la información procesada. 4️⃣ Amazon QuickSight genera reportes y visualizaciones.

🔄 Diferencia entre Arquitectura Lambda y Kappa

CaracterísticaLambdaKappaProcesamientoBatch + StreamingSolo StreamingComplejidadAlta (doble pipeline)Baja (un solo pipeline)Uso comúnBig Data, IoTMachine Learning, IoT

💡 Si tu aplicación requiere procesamiento en tiempo real y en batch, usa Lambda. Si solo necesitas datos en streaming, Kappa es mejor.

🌟 Beneficios de las Arquitecturas Lambda

✅ Escalabilidad automática → Se adapta a grandes volúmenes de datos. ✅ Baja latencia → Procesa información en tiempo real. ✅ Flexibilidad → Compatible con múltiples tecnologías. ✅ Alta disponibilidad → Replicación y tolerancia a fallos.

🔎 Conclusión

Las Arquitecturas Lambda son ideales para manejar Big Data, análisis en tiempo real e IoT. Su combinación de procesamiento batch y en streaming las hace versátiles y poderosas en la era digital.

Abel Chingo Tello

student•

La arquitectura Lambda en AWS puede manejar una concurrencia de hasta 400 peticiones por segundo por defecto. Para ampliarla, puedes solicitar un aumento de la cuota a AWS. También considera optimizar tus funciones para que sean más eficientes, usando técnicas como el uso de instancias más potentes o minimizando el tiempo de ejecución. Además, puedes implementar una arquitectura de microservicios para distribuir la carga entre múltiples funciones. Esto mantendrá el rendimiento y escalabilidad de tus aplicaciones en la nube.

Usuario anónimo

user•

Extraordinaria arquitectura

Usuario anónimo

user•

Entendido!

Usuario anónimo

user•

Gracias

Usuario anónimo

user•

La arquitectura Lambda es atribuida a Nathan Marz, diseñada para ser escalable, tolerante a fallos y de alto procesamiento de datos.

Usuario anónimo

user•

Tiene una gran robustez, puede procesar una alta cantidad de datos. Está compuesta por tres capas:

Batch: En esta capa vamos a procesar toda la información almacenada con anterioridad, desde el día anterior hasta meses. Serve: Dentro de esta capa es posible visualizar la data procesada de la capa batch. Speed: Conforme llega la data se va a ir procesando.

Usuario anónimo

user•

super facil de entender

Usuario anónimo

user•

gracias

LUIS GERARDO CAMBAL BARAHONA

student•

Otro uso de Lambda, procesar grandes cantidades de datos

Usuario anónimo

user•

Super, me gusta mucho esta arquitectura.

Usuario anónimo

user•

Excelente.

john ct

student•

interesantisimo. :)

Jorge Armando Sanjuan Angarita

student•

Muy clara la explicación por parte del docente.

Arquitectura Lambda: 3 capas para datos en tiempo real

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas