Cómo funciona la arquitectura batch
Clase 8 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
La arquitectura batch es clave para procesar datos de forma confiable y escalable. Aquí entenderás cómo se organiza el flujo de entrada, procesamiento y salida, por qué es parte de la arquitectura lambda y cómo se aplica en la nube con servicios y almacenamientos como cloud storage, S3 o HDFS.
¿Qué es la arquitectura batch y por qué importa?
La arquitectura batch es una pieza específica de arquitectura lambda. Su valor está en comprender a detalle su flujo, ya que más adelante se aplicará en diferentes cloud provider con servicios de procesamiento en lote. La idea central: se orquesta un input, un procesamiento y una salida, conectados a un sistema de almacenamiento.
- El flujo completo debe estar orquestado por un servicio de orquestación de tareas.
- El almacenamiento puede ser una base de datos o servicios como cloud storage, S3 o volúmenes con HDFS.
- Se prioriza claridad en el diseño: entrada → procesamiento → salida.
¿Qué componentes clave la componen?
- Input de información: datos que llegan y se preparan para el lote.
- Procesamiento: tareas definidas y coordinadas por un orquestador.
- Salida: resultados listos para consumo o carga en otros sistemas.
- Almacenamiento: base de datos, cloud storage, S3, HDFS, según el caso de uso.
¿Cómo se procesa la data en batch de hoy hacia atrás?
El enfoque es no en tiempo real: se procesa desde hoy hacia atrás. Por ejemplo, lo que llegó ayer se procesa hoy, y así sucesivamente. Esto habilita varios beneficios operativos.
- Procesamiento histórico: se puede procesar data de cuatro meses sin problema.
- Reprocesamiento: si agregas otra variable, puedes reprocesar información histórica sin inconvenientes.
- Consumo flexible: los resultados pueden alimentar sistemas de visualización u otros servicios.
- Caso de uso específico: ideal cuando el requerimiento no es tiempo real, sino batches periódicos.
¿Qué ventajas ofrece para analítica y operación?
- Mayor control del pipeline y de la calidad de datos.
- Posibilidad de rehacer corridas con nuevas variables o reglas.
- Integración sencilla con herramientas de consumo y reporte.
¿Qué habilidades y conceptos debes dominar para llevarla a la nube?
Para implementar arquitectura batch en la nube se necesitan fundamentos claros que permitan mapearlos a servicios administrados.
- Orquestación de tareas: definir dependencias y ejecutar input → procesamiento → salida.
- Diseño de almacenamiento: elegir entre base de datos, cloud storage, S3 o HDFS según volumen y acceso.
- Procesamiento por lotes: planificar corridas periódicas de hoy hacia atrás.
- Reprocesamiento controlado: volver a ejecutar históricos al agregar variables o reglas.
- Contexto arquitectónico: diferenciar arquitectura lambda, arquitectura Kappa y arquitectura batch, cada una con casos de uso distintos.
Con estas bases, avanzarás a aplicar servicios concretos en los principales cloud provider y pondrás en práctica el procesamiento en batch de extremo a extremo.
¿Quieres compartir cómo orquestas tus procesos en batch o qué almacenes prefieres en la nube? Te leo en los comentarios.