Cómo funciona la arquitectura batch

Curso de Big Data en AWS

Contenido del curso

Bienvenida e introducción al curso

Arquitecturas

Extracción de información

Transformación de Información

Carga de Información

Consumo de información

Seguridad, Orquestación y Automatización

Clase pública

52
Las cinco B de big data explicadas
01:44 min

Tomar examen

Cómo funciona la arquitectura batch

Resumen

La arquitectura batch es clave para procesar datos de forma confiable y escalable. Aquí entenderás cómo se organiza el flujo de entrada, procesamiento y salida, por qué es parte de la arquitectura lambda y cómo se aplica en la nube con servicios y almacenamientos como cloud storage, S3 o HDFS.

¿Qué es la arquitectura batch y por qué importa?

La arquitectura batch es una pieza específica de arquitectura lambda. Su valor está en comprender a detalle su flujo, ya que más adelante se aplicará en diferentes cloud provider con servicios de procesamiento en lote. La idea central: se orquesta un input, un procesamiento y una salida, conectados a un sistema de almacenamiento.

El flujo completo debe estar orquestado por un servicio de orquestación de tareas.
El almacenamiento puede ser una base de datos o servicios como cloud storage, S3 o volúmenes con HDFS.
Se prioriza claridad en el diseño: entrada → procesamiento → salida.

¿Qué componentes clave la componen?

Input de información: datos que llegan y se preparan para el lote.
Procesamiento: tareas definidas y coordinadas por un orquestador.
Salida: resultados listos para consumo o carga en otros sistemas.
Almacenamiento: base de datos, cloud storage, S3, HDFS, según el caso de uso.

¿Cómo se procesa la data en batch de hoy hacia atrás?

El enfoque es no en tiempo real: se procesa desde hoy hacia atrás. Por ejemplo, lo que llegó ayer se procesa hoy, y así sucesivamente. Esto habilita varios beneficios operativos.

Procesamiento histórico: se puede procesar data de cuatro meses sin problema.
Reprocesamiento: si agregas otra variable, puedes reprocesar información histórica sin inconvenientes.
Consumo flexible: los resultados pueden alimentar sistemas de visualización u otros servicios.
Caso de uso específico: ideal cuando el requerimiento no es tiempo real, sino batches periódicos.

¿Qué ventajas ofrece para analítica y operación?

Mayor control del pipeline y de la calidad de datos.
Posibilidad de rehacer corridas con nuevas variables o reglas.
Integración sencilla con herramientas de consumo y reporte.

¿Qué habilidades y conceptos debes dominar para llevarla a la nube?

Para implementar arquitectura batch en la nube se necesitan fundamentos claros que permitan mapearlos a servicios administrados.

Orquestación de tareas: definir dependencias y ejecutar input → procesamiento → salida.
Diseño de almacenamiento: elegir entre base de datos, cloud storage, S3 o HDFS según volumen y acceso.
Procesamiento por lotes: planificar corridas periódicas de hoy hacia atrás.
Reprocesamiento controlado: volver a ejecutar históricos al agregar variables o reglas.
Contexto arquitectónico: diferenciar arquitectura lambda, arquitectura Kappa y arquitectura batch, cada una con casos de uso distintos.

Con estas bases, avanzarás a aplicar servicios concretos en los principales cloud provider y pondrás en práctica el procesamiento en batch de extremo a extremo.

¿Quieres compartir cómo orquestas tus procesos en batch o qué almacenes prefieres en la nube? Te leo en los comentarios.

Mario Alexander Vargas Celis

Estudiante

🖥️ Arquitectura Batch en Cloud Computing

La Arquitectura Batch es un enfoque tradicional para el procesamiento de datos en grandes volúmenes. Se basa en la ejecución de tareas en lotes o bloques de datos en un periodo determinado, en lugar de procesar cada evento individualmente en tiempo real.

📌 ¿Qué es una Arquitectura Batch?

Es un modelo de procesamiento de datos donde los datos se recopilan, almacenan y luego se procesan en bloques o lotes en un intervalo específico.

💡 Ejemplo: Un banco genera un informe de todas las transacciones realizadas en el día y lo procesa cada noche.

🚀 Componentes de una Arquitectura Batch

1️⃣ Capa de Ingesta de Datos

📌 Recopila datos de diversas fuentes y los almacena para su posterior procesamiento. 🔹 Ejemplos:

Amazon S3
Google Cloud Storage
Azure Data Lake

2️⃣ Capa de Procesamiento Batch

📌 Ejecuta trabajos en lotes periódicamente. 🔹 Ejemplos:

Apache Hadoop
AWS Glue
Google Dataflow
Azure Data Factory

3️⃣ Capa de Almacenamiento

📌 Guarda los datos procesados para su consulta y análisis. 🔹 Ejemplos:

Amazon Redshift
Google BigQuery
Azure Synapse Analytics

4️⃣ Capa de Consumo y Visualización

📌 Proporciona acceso a los datos procesados. 🔹 Ejemplos:

Tableau
Power BI
Amazon QuickSight

🔄 ¿Cómo funciona una Arquitectura Batch?

1️⃣ Se recopilan los datos en intervalos específicos. 2️⃣ Se almacenan en un sistema de archivos o base de datos. 3️⃣ Se procesan en lotes mediante herramientas como Apache Spark o AWS Glue. 4️⃣ Se almacenan los resultados en un Data Warehouse. 5️⃣ Se consumen los datos mediante dashboards o informes.

🔹 Casos de Uso de la Arquitectura Batch

✅ Procesamiento de grandes volúmenes de datos históricos. ✅ Generación de reportes y análisis de tendencias. ✅ Carga de datos en Data Warehouses. ✅ Procesamiento de facturación y pagos en empresas.

⚖️ Diferencia entre Batch y Streaming

CaracterísticaBatchStreamingProcesamientoLotes de datosEvento por eventoLatenciaAlta (horas/días)Baja (segundos)ComplejidadBajaMedia/AltaUso comúnReportes, análisis históricosIoT, Finanzas en tiempo real

💡 Si necesitas procesamiento periódico de grandes volúmenes de datos, Batch es ideal. Si necesitas datos en tiempo real, usa Streaming.

🌟 Beneficios de la Arquitectura Batch

✅ Alta eficiencia en grandes volúmenes de datos. ✅ Optimización de recursos, ya que no requiere procesamiento continuo. ✅ Facilidad de mantenimiento y escalabilidad. ✅ Menor costo en comparación con arquitecturas en tiempo real.

🔎 Conclusión

La Arquitectura Batch es ideal cuando se necesita procesar grandes volúmenes de datos de manera eficiente sin la necesidad de respuestas en tiempo real. Se usa en análisis de datos históricos, reportes y procesos de negocio periódicos. 🚀

Julio Zuriel Granados Hernandez

Christopher Chirino

Carlos Andrés Zambrano Barrera

Profesor

Juan David Cajamarca Acuña

LUIS GERARDO CAMBAL BARAHONA

José Alberto Ortiz Vargas

Usuario anónimo

User

Christian Alexander Larrauri Albujar

Darvin Orozco

Andres Camilo Graciano Higuita

AUGUSTO SAMILLAN PISFIL

Daniel Eduardo Portugal Revilla

Adrian Gil Duque

Nestor Antonio Pineda Otero

Cómo funciona la arquitectura batch

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja