Arquitecturas batch y streaming en AWS

Clase 51 de 52 • Curso de Big Data en AWS

Resumen

Aprende a conectar de punta a punta un proyecto big data en cloud: desde la extracción y cifrado de logs, hasta la visualización y el consumo por áreas de negocio. Aquí verás arquitecturas de referencia en AWS (con mención a Google Cloud Platform) para procesamiento en batch y procesamiento en tiempo real, con orquestación, seguridad y automatización integradas.

¿Cómo se arma la arquitectura de procesamiento en batch en AWS?

La ruta batch transforma y prepara datos diarios para análisis de negocio. Parte de logs móviles y termina con consultas en Athena que responden preguntas históricas y operativas.

¿Qué rol tienen CloudWatch, Python y Boto3 en la extracción?

Los logs de la app móvil llegan a CloudWatch cada día.
Un proceso en Python con Boto3 extrae esos logs.
Boto3 cifra la información y la deja en S3 como data cruda.

¿Cómo transforman y consultan Glue, EMR y Athena?

Glue o EMR toman los datos crudos desde S3 para aplicar las transformaciones requeridas.
Tras la transformación, los datos vuelven a S3 en un bucket de destino.
Se crea el Glue Catalog y Athena consulta las tablas resultantes.
Los stakeholders de negocio ejecutan consultas para obtener información procesada, incluso sobre datos de hace un año.

¿Cómo se orquesta con Apache Airflow para automatizar?

Apache Airflow puede orquestar la ejecución diaria del pipeline.
Todo el flujo se automatiza para evitar procesamiento manual.
Beneficio clave: consistencia operativa, repetibilidad y menor riesgo humano.

¿Qué arquitectura de tiempo real con Kinesis procesa 80 millones de logs diarios?

La ruta de tiempo real prioriza latencia baja, deduplicación y distribución hacia múltiples consumidores. Se apoya en Kinesis, Lambdas y colas para alcanzar escala y flexibilidad.

¿Cómo fluye desde ECs y Kinesis hasta Lambda con fanout y SQS/SNS?

Un clúster de contenedores en ECs soporta la app móvil y envía sus logs a Kinesis en tiempo real.
Kinesis puede recibir ochenta millones de registros de logs diarios.
Una Lambda de fanout recibe los registros y, mediante SQS o SNS, distribuye a distintos servicios.

¿Para qué sirven ElasticCache, Kinesis Firehose y Kibana?

Primer camino: otra Lambda alimenta un servicio y un Kinesis Firehose.
Segundo camino: ElasticCache evita duplicados; la Lambda consulta si un elemento ya pasó y filtra.
Una Lambda de transformación prepara los datos antes de su destino.
Kinesis Firehose envía los logs hacia Kibana para visualización en tiempo real y creación de dashboard de monitoreo.

¿Quiénes consumen los endpoints y qué valor obtienen?

Herramientas de marketing y terceros: consultadas por marketing, crecimiento y compliance.
Analítica, alertas y eventos: equipos que necesitan respuestas inmediatas para monitoreo y acción.
Desarrolladores: el backend de la app consume eventos para conocer uso, mejorar funcionalidades e integrar el proyecto big data con el desarrollo.

¿Qué habilidades, conceptos y keywords consolidas con estas arquitecturas?

Estas arquitecturas muestran un flujo integral: extracción, transformación, carga, catálogo, consulta, visualización, seguridad, orquestación y automatización.

¿Qué habilidades técnicas y de negocio desarrollas?

Extracción segura de datos con Python y Boto3.
Modelado de pipelines batch y de tiempo real en AWS.
Transformación con Glue o EMR y manejo de S3 como lago de datos.
Consulta interactiva con Athena y gobierno con Glue Catalog.
Orquestación y automatización con Apache Airflow.
Integración con herramientas de terceros y visualización operativa en Kibana.
Pensamiento orientado a stakeholders: marketing, crecimiento, compliance, analítica, alertas, eventos y desarrollo.

¿Qué conceptos y keywords son clave en el flujo end-to-end?

CloudWatch, S3, Glue, EMR, Glue Catalog, Athena.
Kinesis, Lambda de fanout, SQS, SNS, ElasticCache, Kinesis Firehose, Kibana.
Data cruda vs. datos transformados en S3.
Deduplcación para evitar reprocesos.
Automatización diaria y seguridad en todo el flujo.
Escala operativa: ochenta millones de registros de logs diarios.

¿Tienes dudas o quieres compartir cómo aplicarías estas arquitecturas en tu entorno? Deja tu comentario y conversemos sobre casos y mejoras posibles.

Walter Lopez

student•

Este curso fue enfocado como de conocimiento general sobre los servicios disponibles para trabajar con big Data en AWS, pero siento que no hubo articulación entre varias de las secciones del mismo, solo se trató de hacer algunos ejercicios que no tenían ningún tipo de relación entre sí a lo largo de los videos. Hubiese sido más valioso haber hecho un proyecto completo que integrase todas las fases del proceso ETL discutidas en las diferentes clases.

Aparte de lo costoso que es ejecutar estos servicios, se pudieron anticipar a notificar sobre ello a los estudiantes, para que se borraran las instancias y elementos creados al final de cada ejercicio si no iban a ser utilizados más adelante.

Usuario anónimo

user•

Muy de acuerdo

Usuario anónimo

user•

De acuerdo con tu opinión, la verdad triste porque pensé que íbamos hacer por lo menos un ejemplo usando todos los servicios.

Ricardo Villalobos Martínez

student•

Hubiera sido bueno aunque sea una clase con un ejemplo completo de como se integran todos los servicios, ya que como comentan varios compañeros, los costos son elevados de los servicios, incluso varios de ellos no se pueden ejecutar desde AWS Educate. En general el curso me sirve para conocer los servicios pero de igual forma ya tocaría actualización a 2 años de que salió este curso.

john ct

student•

se podria organizar en sub cursos para que no quede tan largo y con temas tan grandes sino en varios no como este. Todos los temas son fascinantes y cada video y AWS servicio es potente y util de acuerdo a la necesidad. Dividirlo todos estos temas tan grandes en otros cursos. y realizar mas ejercicios o projecto.

auqnue la dinamica de AWS es que cobra por todo lo que se usa hace dificil que se mantengan isntalados e integrados toodos los servicios como kinesis, emr, glue, s3, msk, redshift, kibana, quicksight etc. igual Amazon cobra siendo asi el lider con la de mayor porcentaje del mercado de cloud computing y que rankea al dueño Jeff Bezon como el hombre mas rico del mundo. en los ultimos años. junto con su amazon ecommerce

El contenido al igual toca que cada uno lea y profundicemos en la amplia documentacion qie toeme Amazon aws.

excelente contenido Porfe Carlos, aunque se puede mejorar en la metodologia de aprender temas tan grandes y utiles.

Jose Suarez

student•

De acuerdo contigo, se pudo dividir el curso y hacerlo mas práctico,

Javier Rodolfo

student•

tenía muchas expectativas con el curso, con el proceso de ETL y visualización, pero mucha información y poca practica,

Sandy Falcon

student•

Le falta agregar los costos de los sevicios o indicar que se deben ir borrando los servicios utilizados como ejemplo

Christian Ruben Ramos Sanchez

student•

Como comentan un curso muy teórico que aborda la mayoría de servicios sobre big data sin embargo, no proveen de un proyecto completo del curso, incluso cuando la caratula del curso menciona "Implementarás una prueba de concepto de cómo funcionaría la arquitectura con una porción de los datos. Para esto construirás un Pipeline completo desde que llega la data hasta que se pueda visualizar en un dashboard" lo cual es mentira, una pena de verdad, mucha info y poca aplicación.

Juan David Rodriguez Garces

student•

Solo es un curso que aporta información muy básica de cada servicio de AWS relacionado a Big Data. No se implementó ningún proyecto para concretar la teoría (Mucha) y así afirmar los conocimientos. La metodología usada por el instructor, fue de lo más paupérrima. No solo en este, sino en muchos otros cursos, se siente que la visión de Platzi es transmitir solo lo básico. Se paga una suscripción para obtener mejor formación.

Usuario anónimo

user•

Este curso de Big Data en AWS y el curso de Bases de Datos en AWS fueron muy teóricos, cada tema lo abordaron de manera particular, el objetivo es crear un proyecto donde involucre todos los servicios, por que entonces de esta manera uno aplica en el mundo real empresarial.........URGENTE ACTUALIZAR CURSOS

Usuario anónimo

user•

Buenas dias, es recomendable tener una cuenta para uso exclusivo de los estudiantes, que pueden costear de las matriculas, para aprovechar al máximo las herramientas conocidas

john ct

student•

donde hay ejemplos de projectos pequeños/medianos o laboratorios para practicar lo aprendido?

Usuario anónimo

user•

Me encanto el curso, de verdad que si, lastima que a medida que iba avanzando me toco sacar mas dinero de la tarjeta de crédito para pagar la cuenta de aws.

Andres Camilo Graciano Higuita

student•

Entender cómo fluyen los datos "desde su origen hasta la visualización" es lo que diferencia a un técnico de un verdadero ingeniero de datos. La arquitectura es el mapa que convierte los datos en valor. Gran curso!

Mario Alexander Vargas Celis

student•

Arquitectura de Referencia 🏗️

Una arquitectura de referencia es un modelo estándar que describe la estructura y los componentes clave de un sistema. Se utiliza como guía para diseñar e implementar soluciones en diferentes dominios, como la nube, bases de datos, Big Data, AI/ML, seguridad, microservicios y más.

1️⃣ Elementos Claves de una Arquitectura de Referencia

🔹 Capas: Organización del sistema en niveles como presentación, lógica de negocio y datos. 🔹 Componentes: Servicios, APIs, bases de datos, almacenamiento, seguridad, etc. 🔹 Flujo de Datos: Cómo la información fluye entre los diferentes elementos. 🔹 Escalabilidad: Diseño para crecer en carga y volumen. 🔹 Seguridad: Control de acceso, cifrado y auditoría. 🔹 Resiliencia: Capacidad de recuperación ante fallos.

2️⃣ Ejemplos de Arquitecturas de Referencia por Dominio

📌 Cloud Computing (AWS, GCP, Azure)

🔹 Arquitectura serverless con AWS Lambda + API Gateway + DynamoDB. 🔹 Arquitectura de microservicios con Kubernetes (EKS/GKE/AKS). 🔹 Arquitectura de Big Data con S3, Glue, Redshift, Athena, QuickSight.

📌 Data Engineering & Big Data

🔹 Data Lakehouse → Delta Lake (Databricks) + Spark + Redshift/Snowflake. 🔹 ETL con Apache Airflow → Extracción (S3, APIs) → Transformación (Spark, Pandas) → Carga (Redshift, Snowflake). 🔹 Streaming → Kafka + Flink/Spark Streaming + Data Warehouse.

📌 AI/ML & Analytics

🔹 MLOps → SageMaker / Vertex AI / Azure ML con CI/CD para modelos. 🔹 Análisis en Tiempo Real → Kafka + Spark Streaming + ELK Stack (Elasticsearch, Logstash, Kibana). 🔹 Dashboarding → Power BI / QuickSight / Looker sobre Snowflake/Redshift.

📌 Seguridad & Compliance

🔹 Zero Trust Architecture → Autenticación basada en identidades (IAM, MFA). 🔹 Cifrado de Datos → AWS KMS, HashiCorp Vault, TLS/SSL. 🔹 Monitorización → SIEM (Splunk, AWS Security Hub, GuardDuty, Macie).

3️⃣ Ejemplo de Arquitectura en AWS para Data Lakehouse

+----------------+ +------------------+ +-----------------+ | Ingestión | ----> | Almacenamiento | ----> | Procesamiento | +----------------+ +------------------+ +-----------------+ | | | Kafka / Kinesis S3 / Lake Formation Glue / Spark / EMR | | | +----------------+ +------------------+ +-----------------+ | Análisis | ----> | Reporting | ----> | Visualización | +----------------+ +------------------+ +-----------------+ Redshift / Athena QuickSight / Tableau Looker / Power BI

4️⃣ Beneficios de una Arquitectura de Referencia

✅ Estandarización → Mejores prácticas para soluciones robustas. ✅ Escalabilidad → Permite crecimiento sin rediseño significativo. ✅ Reutilización → Fácil adaptación para diferentes proyectos. ✅ Seguridad y Compliance → Cumple con regulaciones y normativas.

📌 Conclusión: La elección de una arquitectura de referencia adecuada depende de los requerimientos del negocio, la tecnología disponible y las mejores prácticas del dominio específico. 🚀

Usuario anónimo

user•

De acuerdo!

Usuario anónimo

user•

Muchas gracias por el curso. Por el momento, dentro del presupuesto de un proyecto de BigData debo definir rubros para pagar AWS.

Arquitecturas batch y streaming en AWS

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas