Lambdas en big data: real time y batch

Clase 34 de 52 • Curso de Big Data en AWS

Resumen

La potencia de AWS Lambda en big data brilla cuando combinamos fuentes de eventos, distribución inteligente y orquestación simple. Aquí verás cómo operar en tiempo real y en procesamiento batch con componentes como CloudWatch, SNS, SQS, Redis, VPC, NAT gateway, Elasticsearch, Kibana y S3, sin agregar complejidad innecesaria.

¿Cómo operar big data en tiempo real con AWS Lambda y Elasticsearch?

Un flujo de logs de CloudWatch dispara una Lambda de distribución (fan out) que reparte eventos a múltiples funciones. Estas funciones ingestan datos en Elasticsearch para su visualización en Kibana, cada una hacia índices diferentes según el tipo de evento. Así separamos, por ejemplo, producción y errores dentro del mismo cluster.

¿Dónde visualizar y cómo segmentar índices en Elasticsearch y Kibana?

Ingesta directa a Elasticsearch para consulta en Kibana.
Índice de producción y índice de errores en el mismo cluster.
Separación clara para análisis y monitoreo por tipo de evento.

¿Cómo evitar duplicados con SQS estándar y Redis?

SQS estándar garantiza entrega al menos una vez: pueden existir duplicados.
Una Lambda dentro de VPC consulta Redis para validar si el evento ya fue procesado.
Si Redis indica que no ha pasado, la Lambda ingesta en el endpoint de terceros.
Redis actúa como capa de deduplicación antes de un endpoint crítico.

¿Por qué ubicar lambdas en una VPC y usar NAT gateway?

La Lambda que consulta Redis está en subred privada dentro de una VPC.
Sale por NAT gateway para consultar Redis y retorna con la validación.
Garantiza acceso controlado a recursos internos y evita duplicidades en endpoints sensibles.

Además, en esta ruta puede integrarse Kinesis Firehose para alimentar directamente el clúster de Elasticsearch.

¿Qué papel tienen SNS, SQS y el patrón fan out en la distribución?

La Lambda de distribución recibe los eventos desde CloudWatch y los reparte mediante SNS a múltiples funciones. También podría usarse SQS: hoy las Lambdas reciben el trigger de SQS de cola estándar, lo que implica eventos potencialmente duplicados y la necesidad de idempotencia con apoyo de Redis cuando el endpoint lo requiere.

¿Cuándo usar SNS o SQS para distribuir eventos?

SNS: difusión a varios consumidores de forma simultánea.
SQS estándar: desacopla con entrega al menos una vez, con duplicados posibles.
Ambos soportan el patrón fan out con Lambdas consumidoras.

¿Qué implica el patrón fan out en Lambda?

Una Lambda central recibe todos los eventos.
Distribuye a múltiples Lambdas especializadas.
Alimenta diferentes endpoints y distintos índices en paralelo.

¿Cómo hacer map reduce con lambdas y S3 sin EMR?

Varias Lambdas, coordinadas con S3, pueden reemplazar una funcionalidad de EMR para un map reduce model en procesamiento batch. Un coordinator orquesta tareas de reducción y consolidación dentro de funciones, permitiendo un flujo por etapas con disparadores entre cargas a S3 y ejecuciones Lambda.

¿Qué componentes intervienen en el procesamiento batch?

Lambdas que envían eventos y resultados parciales a S3.
Disparadores que habilitan otras Lambdas según el avance.
Un coordinator que asegura la reducción y consolidación final.

¿Qué beneficio aporta esta orquestación?

Procesamiento batch sin clústeres dedicados.
Arquitectura orquestada únicamente con Lambdas y S3.
Alternativa para tareas tipo map reduce que antes vivían en EMR.

¿Tienes un caso de uso en mente para real time o batch con Lambda? Compártelo en los comentarios y enriquece la conversación con tu experiencia.

john ct

student•

If you need to manage your own compute resources, Amazon Web Services also offers other compute services to meet your needs.

Amazon Elastic Compute Cloud (Amazon EC2) service offers flexibility and a wide range of EC2 instance types to choose from. It gives you the option to customize operating systems, network and security settings, and the entire software stack, but you are responsible for provisioning capacity, monitoring fleet health and performance, and using Availability Zones for fault tolerance.

Elastic Beanstalk offers an easy-to-use service for deploying and scaling applications onto Amazon EC2 in which you retain ownership and full control over the underlying EC2 instances.

john ct

student•

With Lambda, you can run code for virtually any type of application or backend service - all with zero administration. Just upload your code and Lambda takes care of everything required to run and scale your code with high availability. You can set up your code to automatically trigger from other AWS services or call it directly from any web or mobile app.

Ciencia de Datos - Masivian

student•

Hola, no entiendo en que caso se debería usar sns o en cual sqs si aca cada sns solo tiene un suscriptor?

Carlos Andrés Zambrano Barrera

teacher•

SQS es para colas, por ejemplo si conectas lambdas usando SQS y tienes un pico de demanda muy alto tu lambda no tendrá problemas porque los mensajes quedarán en la cola y la lambda los atenderá a medida que pueda. En cambio si usas SNS sería en tiempo real, si tienes el pico de usuarios tu lambda entraria en problemas (throttle).

Tambien puedes suscribir un SNS--> SQS que te permite flexibilidad si quieres agregarle más colas a un solo topic sns.

Andres Camilo Graciano Higuita

student•

Para garantizar la idempotencia de las funciones Lambda al manejar eventos duplicados provenientes de SQS, puedes implementar varias estrategias. Primero, utiliza un sistema de almacenamiento como DynamoDB o Redis para registrar los IDs de los eventos procesados. Antes de procesar un evento, verifica si su ID ya está en el almacenamiento; si es así, omite el procesamiento.

Además, puedes establecer un mecanismo de recuperación en caso de fallos, asegurando que, si se reenvía un evento, no se realicen acciones duplicadas. Configurar SQS con el modo FIFO también ayuda, ya que garantiza que los eventos se procesen en orden y solo una vez.

Esta combinación te permitirá manejar eventos duplicados con eficacia en arquitecturas de Big Data.

Mario Alexander Vargas Celis

student•

📌 Ejemplos de AWS Lambda en Diferentes Casos de Uso

A continuación, te muestro varios ejemplos de funciones AWS Lambda con distintos propósitos, utilizando Python.

1️⃣ Lambda Básico - "Hola Mundo"

Ejecuta una función básica que retorna un mensaje de respuesta.

import json

def lambda_handler(event, context): return { 'statusCode': 200, 'body': json.dumps('¡Hola desde AWS Lambda!') }

✅ Casos de uso: Pruebas básicas, despliegue inicial.

2️⃣ Procesando un Evento de S3

Esta función se activa cuando un archivo se sube a un bucket de S3.

import json import boto3

s3 = boto3.client('s3')

def lambda_handler(event, context): for record in event['Records']: bucket = record['s3']['bucket']['name'] key = record['s3']['object']['key'] print(f"Archivo subido: {bucket}/{key}")

return {"statusCode": 200, "body": json.dumps("Evento procesado")}

✅ Casos de uso: Procesamiento de archivos, notificaciones automáticas.

3️⃣ Guardar Datos en DynamoDB

Esta función recibe un evento, extrae datos y los guarda en DynamoDB.

import boto3 import json

dynamodb = boto3.resource('dynamodb') table = dynamodb.Table('MiTabla')

def lambda_handler(event, context): item = { 'id': event['id'], 'nombre': event['nombre'], 'edad': event['edad'] } table.put_item(Item=item) return {"statusCode": 200, "body": json.dumps("Datos guardados en DynamoDB")}

✅ Casos de uso: Registro de usuarios, almacenamiento de datos estructurados.

4️⃣ Enviar un Correo con SES (Simple Email Service)

Envía un email usando AWS SES.

import boto3

ses = boto3.client('ses')

def lambda_handler(event, context): response = ses.send_email( Source="tucorreo@example.com", Destination={'ToAddresses': ["destino@example.com"]}, Message={ 'Subject': {'Data': "Notificación desde AWS Lambda"}, 'Body': {'Text': {'Data': "Este es un correo de prueba"}} } ) return {"statusCode": 200, "body": "Correo enviado correctamente"}

✅ Casos de uso: Notificaciones automáticas, alertas.

5️⃣ Ejecutar un Query en Athena

Ejecuta una consulta en AWS Athena y retorna los resultados.

import boto3

athena = boto3.client('athena')

def lambda_handler(event, context): query = "SELECT * FROM mi_base.mi_tabla LIMIT 10;" response = athena.start_query_execution( QueryString=query, QueryExecutionContext={'Database': 'mi_base'}, ResultConfiguration={'OutputLocation': 's3://mi-bucket-athena/'} ) return {"statusCode": 200, "body": f"Query ejecutado: {response['QueryExecutionId']}"}

✅ Casos de uso: Análisis de datos, consultas sin servidores.

6️⃣ Conectando Lambda con API Gateway

Lambda puede servir como backend para API Gateway.

import json

def lambda_handler(event, context): response = { "statusCode": 200, "body": json.dumps({"mensaje": "¡Hola desde API Gateway y Lambda!"}) } return response

✅ Casos de uso: Creación de APIs sin servidores.

7️⃣ Detener Instancias de EC2

Esta función detiene todas las instancias EC2 en una región específica.

import boto3

ec2 = boto3.client('ec2')

def lambda_handler(event, context): instances = ec2.describe_instances(Filters=[{"Name": "instance-state-name", "Values": ["running"]}]) instance_ids = [inst['InstanceId'] for res in instances['Reservations'] for inst in res['Instances']] if instance_ids: ec2.stop_instances(InstanceIds=instance_ids) return {"statusCode": 200, "body": "Instancias detenidas"} else: return {"statusCode": 200, "body": "No hay instancias activas"}

✅ Casos de uso: Optimización de costos, apagado programado.

📌 Conclusión

AWS Lambda se puede usar para múltiples propósitos como: ✔ Automatización ✔ Procesamiento de eventos ✔ Creación de APIs ✔ Integración con otros servicios de AWS

Usuario anónimo

user•

Buen dato

Usuario anónimo

user•

gracias

Usuario anónimo

user•

genial

Lambdas en big data: real time y batch

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data