Arquitectura Lambda: 3 capas para datos en tiempo real
Clase 6 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Comprende cómo una arquitectura de datos agnóstica a proveedores de nube equilibra procesamiento histórico y en tiempo real. Con un enfoque claro y aplicado, verás cómo la arquitectura Lambda —atribuida a Nathan Marz— ofrece escalabilidad, tolerancia a fallos y alto procesamiento de datos, alimentando consultas y visualización sin depender de un cloud específico.
¿Qué es la arquitectura Lambda y por qué importa?
La arquitectura Lambda se diseñó para procesar grandes volúmenes de datos con robustez. Se compone de tres capas: capa batch, capa de servicio y capa speed. Parte de un origen de datos en streaming y divide el flujo en dos mundos: procesamiento histórico y procesamiento en tiempo real. Ambas salidas convergen para responder consultas, habilitar visualizaciones y conectar con otros servicios.
- Origen de datos: entrada en streaming u otra fuente de información.
- Objetivo central: servir consultas y visualización combinando histórico y tiempo real.
- Beneficio clave: ver datos al instante sin perder la capacidad de análisis histórico.
¿Cómo se conectan la batch layer, la speed layer y la capa de servicio?
La entrada de datos se bifurca en dos rutas: la batch layer procesa información histórica (por ejemplo, el día anterior), y la speed layer procesa eventos a medida que llegan. La capa de servicio consume y expone resultados para usuarios y sistemas, integrando ambas perspectivas.
¿Qué hace la batch layer?
- Procesa datos históricos en lotes (por ejemplo: el día de ayer).
- Permite consultas de largo alcance, como cuatro meses de comportamiento de usuarios en una sede de McDonald's.
- Alimenta la capa de servicio para análisis y visualización.
¿Qué hace la speed layer?
- Procesa datos en tiempo real a medida que llegan.
- Soporta necesidades inmediatas, como ver logs de una campaña de referidos al momento.
- Complementa la visión histórica con señales actuales.
¿Qué papel cumple la capa de servicio?
- Expone resultados para queries, visualización y otros sistemas.
- Unifica salidas de la batch layer y la speed layer.
- Facilita transformaciones y consultas para los equipos.
¿Qué ventajas y retos debes considerar?
Esta arquitectura se usa ampliamente porque habilita dos necesidades críticas: ver lo que pasa ahora y analizar lo que pasó antes. Sin embargo, combinar dos mundos incrementa la complejidad operativa.
- Ventajas: escalable, tolerante a fallos y robusta para grandes volúmenes.
- Retos: mayor carga de administración por mantener servicios de procesamiento en tiempo real e histórico en paralelo.
- Práctica habitual: usar speed layer para señales inmediatas y batch layer para consultas extensas, ambas alimentando la capa de servicio.
Habilidades prácticas: diseño de arquitectura de datos orientada a objetivos; selección entre procesamiento en tiempo real o por lotes según el caso; modelado de pipelines que alimentan consultas y visualización; operación y mantenimiento de cargas paralelas.
¿Te gustaría comentar un caso de uso y comparar cómo lo resolverías con speed layer y batch layer?