Arquitecturas batch y streaming en AWS

Clase 51 de 52Curso de Big Data en AWS

Resumen

Aprende a conectar de punta a punta un proyecto big data en cloud: desde la extracción y cifrado de logs, hasta la visualización y el consumo por áreas de negocio. Aquí verás arquitecturas de referencia en AWS (con mención a Google Cloud Platform) para procesamiento en batch y procesamiento en tiempo real, con orquestación, seguridad y automatización integradas.

¿Cómo se arma la arquitectura de procesamiento en batch en AWS?

La ruta batch transforma y prepara datos diarios para análisis de negocio. Parte de logs móviles y termina con consultas en Athena que responden preguntas históricas y operativas.

¿Qué rol tienen CloudWatch, Python y Boto3 en la extracción?

  • Los logs de la app móvil llegan a CloudWatch cada día.
  • Un proceso en Python con Boto3 extrae esos logs.
  • Boto3 cifra la información y la deja en S3 como data cruda.

¿Cómo transforman y consultan Glue, EMR y Athena?

  • Glue o EMR toman los datos crudos desde S3 para aplicar las transformaciones requeridas.
  • Tras la transformación, los datos vuelven a S3 en un bucket de destino.
  • Se crea el Glue Catalog y Athena consulta las tablas resultantes.
  • Los stakeholders de negocio ejecutan consultas para obtener información procesada, incluso sobre datos de hace un año.

¿Cómo se orquesta con Apache Airflow para automatizar?

  • Apache Airflow puede orquestar la ejecución diaria del pipeline.
  • Todo el flujo se automatiza para evitar procesamiento manual.
  • Beneficio clave: consistencia operativa, repetibilidad y menor riesgo humano.

¿Qué arquitectura de tiempo real con Kinesis procesa 80 millones de logs diarios?

La ruta de tiempo real prioriza latencia baja, deduplicación y distribución hacia múltiples consumidores. Se apoya en Kinesis, Lambdas y colas para alcanzar escala y flexibilidad.

¿Cómo fluye desde ECs y Kinesis hasta Lambda con fanout y SQS/SNS?

  • Un clúster de contenedores en ECs soporta la app móvil y envía sus logs a Kinesis en tiempo real.
  • Kinesis puede recibir ochenta millones de registros de logs diarios.
  • Una Lambda de fanout recibe los registros y, mediante SQS o SNS, distribuye a distintos servicios.

¿Para qué sirven ElasticCache, Kinesis Firehose y Kibana?

  • Primer camino: otra Lambda alimenta un servicio y un Kinesis Firehose.
  • Segundo camino: ElasticCache evita duplicados; la Lambda consulta si un elemento ya pasó y filtra.
  • Una Lambda de transformación prepara los datos antes de su destino.
  • Kinesis Firehose envía los logs hacia Kibana para visualización en tiempo real y creación de dashboard de monitoreo.

¿Quiénes consumen los endpoints y qué valor obtienen?

  • Herramientas de marketing y terceros: consultadas por marketing, crecimiento y compliance.
  • Analítica, alertas y eventos: equipos que necesitan respuestas inmediatas para monitoreo y acción.
  • Desarrolladores: el backend de la app consume eventos para conocer uso, mejorar funcionalidades e integrar el proyecto big data con el desarrollo.

¿Qué habilidades, conceptos y keywords consolidas con estas arquitecturas?

Estas arquitecturas muestran un flujo integral: extracción, transformación, carga, catálogo, consulta, visualización, seguridad, orquestación y automatización.

¿Qué habilidades técnicas y de negocio desarrollas?

  • Extracción segura de datos con Python y Boto3.
  • Modelado de pipelines batch y de tiempo real en AWS.
  • Transformación con Glue o EMR y manejo de S3 como lago de datos.
  • Consulta interactiva con Athena y gobierno con Glue Catalog.
  • Orquestación y automatización con Apache Airflow.
  • Integración con herramientas de terceros y visualización operativa en Kibana.
  • Pensamiento orientado a stakeholders: marketing, crecimiento, compliance, analítica, alertas, eventos y desarrollo.

¿Qué conceptos y keywords son clave en el flujo end-to-end?

  • CloudWatch, S3, Glue, EMR, Glue Catalog, Athena.
  • Kinesis, Lambda de fanout, SQS, SNS, ElasticCache, Kinesis Firehose, Kibana.
  • Data cruda vs. datos transformados en S3.
  • Deduplcación para evitar reprocesos.
  • Automatización diaria y seguridad en todo el flujo.
  • Escala operativa: ochenta millones de registros de logs diarios.

¿Tienes dudas o quieres compartir cómo aplicarías estas arquitecturas en tu entorno? Deja tu comentario y conversemos sobre casos y mejoras posibles.