AWS Lambda para proyectos de big data

Clase 33 de 52 • Curso de Big Data en AWS

Resumen

Domina AWS Lambda en entornos de big data y real time con prácticas concretas para escalar concurrencia, integrar servicios del ecosistema y evitar pérdida de eventos. Aquí encuentras recomendaciones probadas sobre límites, colas SQS/SNS, despliegue automatizado y observabilidad efectiva.

¿Cómo optimizar AWS Lambda para big data en tiempo real?

AWS Lambda es clave en escenarios de alta demanda y eventos continuos. En big data, la gestión de concurrencia y el aislamiento por cuentas determinan la estabilidad de la arquitectura.

Límite de concurrencia: por defecto, mil llamadas concurrentes para todas las funciones de una cuenta. Se puede solicitar aumento hasta veinte mil mediante soporte y evidencias.
Recomendación: usar multi account con landing zones para separar development, staging y producción. Así, los límites son independientes.
Motivo: en una misma cuenta, la concurrencia total se reparte entre todas las Lambdas y múltiples VPCs, afectando el rendimiento.

¿Por qué multi account con landing zones?

Aisla riesgos y consumo de concurrencia entre ambientes.
Evita que picos en una VPC afecten otras funciones.
Facilita la gobernanza y el escalado controlado por cuenta.

¿Con qué servicios se integra Lambda en el ecosistema de big data?

Kinesis Firehose: permite adjuntar una Lambda para transformación de información antes del delivery en el formato requerido.
Kinesis Data Stream, Elastic Search, Dynamo, Redshift y otros servicios del ecosistema de big data.
Habilidad clave: diseñar flujos donde Lambda transforme, enrute y alimente almacenes de datos sin fricción.

¿Qué patrón de ingestión conviene: SQS o SNS?

Cuando el flujo de eventos es alto, la cola amortigua picos y previene cuellos de botella en la función.

Con SQS: si la Lambda alcanza el límite, la cola se acumula y la función procesa al ritmo posible. Se sacrifica un poco de real time por estabilidad.
Con SNS: es más real time y existen reintentos; sin embargo, aumenta la probabilidad de throttles frente a picos.
Decisión práctica: prioriza SQS para alta concurrencia y uso sostenido; usa SNS cuando la latencia mínima sea crítica y el volumen esté bajo control.

¿Qué impacto tiene el delay en real time?

Con SQS, el delay ocurre en la cola, no dentro de la Lambda.
Beneficio: la función mantiene tiempos estables y evita saturación, preservando la calidad del procesamiento.

¿Cómo desplegar, orquestar, monitorear y manejar errores?

En arquitecturas real time es común gestionar decenas de Lambdas (más de cuarenta en productivo). La automatización del deployment, la orquestación clara y el monitoreo profundo son esenciales.

¿Cómo automatizar el deployment de Lambdas?

Pipeline sugerido: CodePipeline toma el código del repositorio, lo copia a S3 y desde allí actualiza la Lambda de forma controlada.
Alternativa: CloudFormation para gestionar infra como código.
Stack tecnológico usado: Python con la librería Boto3 para administrar múltiples funciones y reducir complejidad operativa.

¿Cómo observar y depurar en real time?

Step Functions: ayuda a orquestar funciones y a identificar demoras entre pasos.
Librerías de alerta como Rollbar: envían errores a un dashboard (por ejemplo, evento incompleto) para respuesta rápida.
X-Ray: se activa cuando se sospechan demoras puntuales. Traza tiempos de ejecución y permite localizar la invocación problemática para corregirla.

¿Cómo manejar errores sin perder eventos?

Escenario: el endpoint falla y los reintentos no alcanzan.
Acción: configurar una cola destino y una dead letter queue.
Flujo de recuperación: procesar la cola muerta con otra Lambda, ingresar en DynamoDB y reprocesar cuando el servicio esté disponible.
Alternativa: enviar a otro topic SNS.
Objetivo rector: nunca perder eventos, criterio crítico en big data real time.

¿Tienes dudas sobre tu patrón de disparo, monitoreo o manejo de errores en Lambda? Cuéntame tu caso y afinamos la arquitectura juntos.

Juan David Cajamarca Acuña

student•

AWS Lambda es un servicio muy importante y muy usado en el mundo Real-Time, y en este caso lo veremos con especial énfasis en proyectos de BigData.

Características de AWS Lambda

Límite: Por defecto, por cuenta se puede llegar hasta 1.000 llamadas concurrentes de funciones Lambda. Este valor puede ser expansible a través del soporte hasta 20.000. Por esta razón, es recomendable tener una cuenta para cada ambiente en proyectos de BigData, para que los límites sean completamente independientes.
Integraciones: AWS Lambda es un servicio que se puede integrar con casi cualquier otro servicio dentro de AWS; en este énfasis, se puede integrar con Kinesis Firehose.
SQS: Cuando se trata de AWS Lambda, suele trabajarse con un flujo muy alto de eventos, por lo cual, es muy recomendable utilizar colas; de manera que si el servicio de Lambda llega a su límite, la cola se va a ir acumulando y Lambda va procesando los eventos sin tener problemas de cuellos de botella. Siendo este el caso, podríamos perder un poco de Real-Time al tener un delay, pero no tendremos delay en la función Lambda, lo cual es muy importante. También podríamos usar SNS, que son notificaciones, pero éstas sí son en tiempo real, lo cual significa que a medida que llega el SNS, la función Lambda lo procesa; si no lo puede procesar, se ejecutan una serie de reintentos, pero es más probable que se generen throttles utilizando SNS que una cola de SQS.

En arquitecturas Real-Time, normalmente se maneja una gran cantidad de funciones Lambda, y orquestar esas funciones y el código dentro de ellas es muy complejo.

Deployment: Una de las recomendaciones es optimizar y automatizar el despliegue de código en las funciones Lambda utilizando diferentes servicios de AWS como por ejemplo: CodePipeline, S3, CloudFormation, etc.
Monitoreo: En sistemas Real-Time tenemos muchas funciones Lambda que procesan mucha información, y muchas veces es muy complejo encontrar errores; para esto, hay diferentes tipos de servicios, uno de ellos es Step Functions, que nos ayuda a orquestar funciones y a identificar demoras en las funciones. También podemos incluir librerías para monitoreo de ejecución de Código, como por ejemplo Rollbar, que una de sus principales funciones es notificar por medio de alertas los errores que ocurren en las funciones especificando sus causas. AWS cuenta también con servicios como X-Ray, que podemos utilizar para identificar errores específicos dentro de funciones Lambda cuando sospechemos que tenemos una demora.
Manejo de errores: Cuando procesamos estos flujos de información, puede pasar que tengamos un error en el endpoint y que no alcancemos a enviar toda la información, o que el endpoint esté caído y la cantidad de reintentos no dé a basto. Para esto, podemos configurar colas en las funciones Lambda, de manera que si la función ejecutó ya todos los reintentos y el endpoint no le respondió, puede enviar esa información a una cola y a un dead letter queue (cola muerta), y de ahí podríamos procesarla con otra función para que la ingrese a un DynamoDB y luego intentar de re-procesar la información hacia su endpoint destino. La idea de este manejo de errores es nunca perder eventos.

Eimis Pacheco

student•

Cual es el significado de throttles em este contexto? Saludos.

Hubert Ronald Mendoza Canales

student•

Se refiere a limitaciones en el procesamiento, es decir, pones en espera las solicitudes para luego volver a intentar (lineas oblicuas moradas - Posible Limitaciones - Throttling possible)

Puedes ver más al respecto en Escalado de funciones de AWS Lambda

Eimis Pacheco

student•

Muchas gracias @huertronald por tu respuesta.

Ten un buen.

Andres Moreno

student•

Bicdeita

Edwin Fabian Monroy Rubio

student•

😂

Usuario anónimo

user•

Al momento de hacer proyectos de Big Data con Lambda debes tomar en cuenta:

La cantidad de llamadas concurrentes a la función lambda, por defecto tienes un límite de 1000 llamadas concurrentes, es posible llegar hasta 20000. Se puede integrar con Kinesis Firehose para realizar transformaciones de datos. Es recomendable utilizar colas de trabajo para que las tareas estén en espera mientras la lambda se va desocupando. Pierdes un poco de real-time, pero no habrá delay en la lambda. Optimizar y automatizar el despliegue de código en las lambdas usando Codepipeline y Boto3.

Raul Alfonso Rodriguez Lopez

student•

si requiero realizar ETLs y realizar operaciones CRUD que me seria mas útil ? utilizar lambda o Glue? cabe aclarar que no se superan los 2 millones de registros

Milton Andrés Sanabria

student•

Escoger entre una o la otra va a depender de la cantidad de datos, Glue es básicamente para correr Spark Serverless y usar su poder de distribución. La lambda puede ser un poco más fácil de montar, y entiendo que es más económica.

Yazmin Abat Alarcon

student•

Tradeoff

john ct

student•

muy util y poderoso para intrgrar con cualquier aws service, interesante que se puede ampliar las llamadas concurrentes de 10k a 20k y que es muy util ypractico usar en multiaccount , Dev, Staging, PRoduction

john ct

student•

code update con pipeline and libreria de boto3

john ct

student•

With AWS Lambda, you can run code without provisioning or managing servers. You pay only for the compute time that you consume—there’s no charge when your code isn’t running. You can run code for virtually any type of application or backend service—all with zero administration. Just upload your code and Lambda takes care of everything required to run and scale your code with high availability. You can set up your code to automatically trigger from other AWS services or call it directly from any web or mobile app.

Usuario anónimo

user•

Gracias

Usuario anónimo

user•

La cantidad de llamadas concurrentes a la función lambda, por defecto tienes un límite de 1000 llamadas concurrentes, es posible llegar hasta 20000.

Usuario anónimo

user•

gracias

LUIS GERARDO CAMBAL BARAHONA

student•

Lambda de puede integrar con casi cualquier otro servicio de AWS en real time

AWS Lambda para proyectos de big data

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas