Arquitecturas batch y streaming en AWS
Clase 51 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Aprende a conectar de punta a punta un proyecto big data en cloud: desde la extracción y cifrado de logs, hasta la visualización y el consumo por áreas de negocio. Aquí verás arquitecturas de referencia en AWS (con mención a Google Cloud Platform) para procesamiento en batch y procesamiento en tiempo real, con orquestación, seguridad y automatización integradas.
¿Cómo se arma la arquitectura de procesamiento en batch en AWS?
La ruta batch transforma y prepara datos diarios para análisis de negocio. Parte de logs móviles y termina con consultas en Athena que responden preguntas históricas y operativas.
¿Qué rol tienen CloudWatch, Python y Boto3 en la extracción?
- Los logs de la app móvil llegan a CloudWatch cada día.
- Un proceso en Python con Boto3 extrae esos logs.
- Boto3 cifra la información y la deja en S3 como data cruda.
¿Cómo transforman y consultan Glue, EMR y Athena?
- Glue o EMR toman los datos crudos desde S3 para aplicar las transformaciones requeridas.
- Tras la transformación, los datos vuelven a S3 en un bucket de destino.
- Se crea el Glue Catalog y Athena consulta las tablas resultantes.
- Los stakeholders de negocio ejecutan consultas para obtener información procesada, incluso sobre datos de hace un año.
¿Cómo se orquesta con Apache Airflow para automatizar?
- Apache Airflow puede orquestar la ejecución diaria del pipeline.
- Todo el flujo se automatiza para evitar procesamiento manual.
- Beneficio clave: consistencia operativa, repetibilidad y menor riesgo humano.
¿Qué arquitectura de tiempo real con Kinesis procesa 80 millones de logs diarios?
La ruta de tiempo real prioriza latencia baja, deduplicación y distribución hacia múltiples consumidores. Se apoya en Kinesis, Lambdas y colas para alcanzar escala y flexibilidad.
¿Cómo fluye desde ECs y Kinesis hasta Lambda con fanout y SQS/SNS?
- Un clúster de contenedores en ECs soporta la app móvil y envía sus logs a Kinesis en tiempo real.
- Kinesis puede recibir ochenta millones de registros de logs diarios.
- Una Lambda de fanout recibe los registros y, mediante SQS o SNS, distribuye a distintos servicios.
¿Para qué sirven ElasticCache, Kinesis Firehose y Kibana?
- Primer camino: otra Lambda alimenta un servicio y un Kinesis Firehose.
- Segundo camino: ElasticCache evita duplicados; la Lambda consulta si un elemento ya pasó y filtra.
- Una Lambda de transformación prepara los datos antes de su destino.
- Kinesis Firehose envía los logs hacia Kibana para visualización en tiempo real y creación de dashboard de monitoreo.
¿Quiénes consumen los endpoints y qué valor obtienen?
- Herramientas de marketing y terceros: consultadas por marketing, crecimiento y compliance.
- Analítica, alertas y eventos: equipos que necesitan respuestas inmediatas para monitoreo y acción.
- Desarrolladores: el backend de la app consume eventos para conocer uso, mejorar funcionalidades e integrar el proyecto big data con el desarrollo.
¿Qué habilidades, conceptos y keywords consolidas con estas arquitecturas?
Estas arquitecturas muestran un flujo integral: extracción, transformación, carga, catálogo, consulta, visualización, seguridad, orquestación y automatización.
¿Qué habilidades técnicas y de negocio desarrollas?
- Extracción segura de datos con Python y Boto3.
- Modelado de pipelines batch y de tiempo real en AWS.
- Transformación con Glue o EMR y manejo de S3 como lago de datos.
- Consulta interactiva con Athena y gobierno con Glue Catalog.
- Orquestación y automatización con Apache Airflow.
- Integración con herramientas de terceros y visualización operativa en Kibana.
- Pensamiento orientado a stakeholders: marketing, crecimiento, compliance, analítica, alertas, eventos y desarrollo.
¿Qué conceptos y keywords son clave en el flujo end-to-end?
- CloudWatch, S3, Glue, EMR, Glue Catalog, Athena.
- Kinesis, Lambda de fanout, SQS, SNS, ElasticCache, Kinesis Firehose, Kibana.
- Data cruda vs. datos transformados en S3.
- Deduplcación para evitar reprocesos.
- Automatización diaria y seguridad en todo el flujo.
- Escala operativa: ochenta millones de registros de logs diarios.
¿Tienes dudas o quieres compartir cómo aplicarías estas arquitecturas en tu entorno? Deja tu comentario y conversemos sobre casos y mejoras posibles.