Cómo funciona la arquitectura batch

Clase 8 de 52 • Curso de Big Data en AWS

Resumen

La arquitectura batch es clave para procesar datos de forma confiable y escalable. Aquí entenderás cómo se organiza el flujo de entrada, procesamiento y salida, por qué es parte de la arquitectura lambda y cómo se aplica en la nube con servicios y almacenamientos como cloud storage, S3 o HDFS.

¿Qué es la arquitectura batch y por qué importa?

La arquitectura batch es una pieza específica de arquitectura lambda. Su valor está en comprender a detalle su flujo, ya que más adelante se aplicará en diferentes cloud provider con servicios de procesamiento en lote. La idea central: se orquesta un input, un procesamiento y una salida, conectados a un sistema de almacenamiento.

El flujo completo debe estar orquestado por un servicio de orquestación de tareas.
El almacenamiento puede ser una base de datos o servicios como cloud storage, S3 o volúmenes con HDFS.
Se prioriza claridad en el diseño: entrada → procesamiento → salida.

¿Qué componentes clave la componen?

Input de información: datos que llegan y se preparan para el lote.
Procesamiento: tareas definidas y coordinadas por un orquestador.
Salida: resultados listos para consumo o carga en otros sistemas.
Almacenamiento: base de datos, cloud storage, S3, HDFS, según el caso de uso.

¿Cómo se procesa la data en batch de hoy hacia atrás?

El enfoque es no en tiempo real: se procesa desde hoy hacia atrás. Por ejemplo, lo que llegó ayer se procesa hoy, y así sucesivamente. Esto habilita varios beneficios operativos.

Procesamiento histórico: se puede procesar data de cuatro meses sin problema.
Reprocesamiento: si agregas otra variable, puedes reprocesar información histórica sin inconvenientes.
Consumo flexible: los resultados pueden alimentar sistemas de visualización u otros servicios.
Caso de uso específico: ideal cuando el requerimiento no es tiempo real, sino batches periódicos.

¿Qué ventajas ofrece para analítica y operación?

Mayor control del pipeline y de la calidad de datos.
Posibilidad de rehacer corridas con nuevas variables o reglas.
Integración sencilla con herramientas de consumo y reporte.

¿Qué habilidades y conceptos debes dominar para llevarla a la nube?

Para implementar arquitectura batch en la nube se necesitan fundamentos claros que permitan mapearlos a servicios administrados.

Orquestación de tareas: definir dependencias y ejecutar input → procesamiento → salida.
Diseño de almacenamiento: elegir entre base de datos, cloud storage, S3 o HDFS según volumen y acceso.
Procesamiento por lotes: planificar corridas periódicas de hoy hacia atrás.
Reprocesamiento controlado: volver a ejecutar históricos al agregar variables o reglas.
Contexto arquitectónico: diferenciar arquitectura lambda, arquitectura Kappa y arquitectura batch, cada una con casos de uso distintos.

Con estas bases, avanzarás a aplicar servicios concretos en los principales cloud provider y pondrás en práctica el procesamiento en batch de extremo a extremo.

¿Quieres compartir cómo orquestas tus procesos en batch o qué almacenes prefieres en la nube? Te leo en los comentarios.

Julio Zuriel Granados Hernandez

student•

Me encanta la manera en que estas manejando los conceptos, vengo en 0s jajaja

Christopher Chirino

student•

Yo vengo de 0 tambien y estoy entendiendo todo la verdad es muy bueno explicando

Carlos Andrés Zambrano Barrera

teacher•

Encantado de tu comentario.

Juan David Cajamarca Acuña

student•

Batch es una parte específica de la arquitectura Lambda. Es muy importante conocer de Batch para comprender en detalle qué pasa dentro de ella.

La arquitectura Batch se basa en una entrada de información, un procesamiento y una salida, todas estas tres tareas orquestadas por un sistema; también lleva consigo un sistema de almacenamiento, ya que maneja entrada y salida de información.

La arquitectura Bash se fundamenta en procesar información desde un momento específico hacia atrás; por ejemplo, la información recolectada el día de ayer es procesada hoy.

Características:

Se puede procesar información histórica.
Se puede re-procesar información histórica.
Pueden ser alimentados diversos sistemas de visualización con la información procesada.

LUIS GERARDO CAMBAL BARAHONA

student•

Arquitectura Batch puedo ver información no en tiempo real, sino de hoy hacia atras.

José Alberto Ortiz Vargas

student•

Esta arquitectura sera ideal para modelos de Machine Learning donde constantemente se tienen datos de entrada que se deben procesar para dar como resultado una salida? Por ejemplo, para un algoritmo de recomendación.

Usuario anónimo

user•

Esta arquitectura es una parte específica de la arquitectura Lambda.

Usuario anónimo

user•

Es importante comprender que en esta arquitectura vamos a tener un Input, un proceso y un Output, estos tres orquestados por un sistema donde el Input y Output deben de conectarse a una base de datos.

Christian Alexander Larrauri Albujar

student•

muy bueno el contenido!

Darvin Orozco

student•

Además de claro y preciso. Saludos.

Usuario anónimo

user•

Procesar información del día de ayer se procesa el día de hoy. Es perfecta para procesar data histórica incluso agregando nuevas variables y re procesarla. Me gusto lo que se puede hacer con esta arquitectura.

Usuario anónimo

user•

Lambda Kappa Batch

Usuario anónimo

user•

Walter...excelente por el dato de la lectura....muy bueno...muchas gracias

Andres Camilo Graciano Higuita

student•

Si trabajas con datos históricos en la nube, utiliza procesamiento por lotes programado (cron jobs) y aprovecha servicios como AWS Glue o EMR para automatizar tareas de ETL sin necesidad de mantener servidores activos todo el tiempo.

AUGUSTO SAMILLAN PISFIL

student•

Muy bueno el concepto y muy pequeño el ejemplo de referidos. No tendra un ejemplo mas detallado, como un caso practico?

Carlos Andrés Zambrano Barrera

teacher•

Cuando hablamos de procesamiento batch piensa en procesamiento de información historica, es decir tu desarrollaste tu aplicación, por ejemplo de venta de productos para mascotas... Todos los dias tu app va a producir millones de datos por ejemplo: Compras --> Cuando un cliente compre. Devoluciones--> cuando se devuelva un pedido. Registro --> Cuando un cliente se registre en la app. Referido --> Cuando un cliente refiera a un amigo.

Ahora piensa que esa app la tienen 1.000.000 de personas produciendo data a cada hora, esa data la almacenamos en Cloud y a través de un procesamiento batch procesaremos el historio del día anterior. Posteriormente si tu como CEO quiere hacer una consulta del producto mas comprado historicamente podría hacerlo.

Mario Alexander Vargas Celis

student•

🖥️ Arquitectura Batch en Cloud Computing

La Arquitectura Batch es un enfoque tradicional para el procesamiento de datos en grandes volúmenes. Se basa en la ejecución de tareas en lotes o bloques de datos en un periodo determinado, en lugar de procesar cada evento individualmente en tiempo real.

📌 ¿Qué es una Arquitectura Batch?

Es un modelo de procesamiento de datos donde los datos se recopilan, almacenan y luego se procesan en bloques o lotes en un intervalo específico.

💡 Ejemplo: Un banco genera un informe de todas las transacciones realizadas en el día y lo procesa cada noche.

🚀 Componentes de una Arquitectura Batch

1️⃣ Capa de Ingesta de Datos

📌 Recopila datos de diversas fuentes y los almacena para su posterior procesamiento. 🔹 Ejemplos:

Amazon S3
Google Cloud Storage
Azure Data Lake

2️⃣ Capa de Procesamiento Batch

📌 Ejecuta trabajos en lotes periódicamente. 🔹 Ejemplos:

Apache Hadoop
AWS Glue
Google Dataflow
Azure Data Factory

3️⃣ Capa de Almacenamiento

📌 Guarda los datos procesados para su consulta y análisis. 🔹 Ejemplos:

Amazon Redshift
Google BigQuery
Azure Synapse Analytics

4️⃣ Capa de Consumo y Visualización

📌 Proporciona acceso a los datos procesados. 🔹 Ejemplos:

Tableau
Power BI
Amazon QuickSight

🔄 ¿Cómo funciona una Arquitectura Batch?

1️⃣ Se recopilan los datos en intervalos específicos. 2️⃣ Se almacenan en un sistema de archivos o base de datos. 3️⃣ Se procesan en lotes mediante herramientas como Apache Spark o AWS Glue. 4️⃣ Se almacenan los resultados en un Data Warehouse. 5️⃣ Se consumen los datos mediante dashboards o informes.

🔹 Casos de Uso de la Arquitectura Batch

✅ Procesamiento de grandes volúmenes de datos históricos. ✅ Generación de reportes y análisis de tendencias. ✅ Carga de datos en Data Warehouses. ✅ Procesamiento de facturación y pagos en empresas.

⚖️ Diferencia entre Batch y Streaming

CaracterísticaBatchStreamingProcesamientoLotes de datosEvento por eventoLatenciaAlta (horas/días)Baja (segundos)ComplejidadBajaMedia/AltaUso comúnReportes, análisis históricosIoT, Finanzas en tiempo real

💡 Si necesitas procesamiento periódico de grandes volúmenes de datos, Batch es ideal. Si necesitas datos en tiempo real, usa Streaming.

🌟 Beneficios de la Arquitectura Batch

✅ Alta eficiencia en grandes volúmenes de datos. ✅ Optimización de recursos, ya que no requiere procesamiento continuo. ✅ Facilidad de mantenimiento y escalabilidad. ✅ Menor costo en comparación con arquitecturas en tiempo real.

🔎 Conclusión

La Arquitectura Batch es ideal cuando se necesita procesar grandes volúmenes de datos de manera eficiente sin la necesidad de respuestas en tiempo real. Se usa en análisis de datos históricos, reportes y procesos de negocio periódicos. 🚀

Daniel Eduardo Portugal Revilla

student•

para. conocer mas sobre arquitectura batch video

Adrian Gil Duque

student•

Es muy bueno ejemplificar las tecnologías, se hace más fácil entender estos conceptos. Muy bueno el curso 🚀🔥💪🏼

Carlos Andrés Zambrano Barrera

teacher•

Muchas Gracias por tus comentarios.

Nestor Antonio Pineda Otero

student•

Perfecto. Entendido. 3 arquitecturas para necesidades puntuales.

Usuario anónimo

user•

Excelente explicación, con ello podemos escoger adecuadamente la arquitectura a implementar.

Usuario anónimo

user•

Claras las diferencias entre arquitecturas.

Usuario anónimo

user•

Excelente todo

Usuario anónimo

user•

super

Cómo funciona la arquitectura batch

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas