Funcionamiento de PubSub en Google Cloud y su Integración con Dataflow

Clase 8 de 19 • Curso de Big Data y Machine Learning con Google Cloud Platform

Contenido del curso

Manejo de Big Data

Herramientas de inteligencia artificial

Proyecto: Clon de Google Photos (Parte 4 de 4)

Resumen

Cuando necesitas capturar millones de eventos por segundo y distribuirlos a diferentes destinos sin perder un solo mensaje, Pub/Sub de Google Cloud se convierte en una pieza fundamental de tu arquitectura de datos. A continuación se explican sus componentes, patrones de uso y cómo resolver los problemas más comunes al trabajar con mensajería en tiempo real.

¿Qué es Pub/Sub y por qué es clave para la ingesta de datos?

Pub/Sub es un servicio de mensajería que permite la ingesta y la entrega de eventos de forma escalable y persistente [0:20]. Al operar sobre la red global de Google Cloud, puede escalar de cero a millones de registros en pocos segundos, lo que lo hace ideal para escenarios de alta demanda.

Dentro de una arquitectura de referencia, Pub/Sub se ubica en la capa de captura [1:07]. Desde ahí se conecta con servicios de almacenamiento como Cloud Storage, de procesamiento como Dataflow y de análisis como BigQuery o Dataproc. Esta integración nativa con el ecosistema de Google Cloud simplifica la construcción de pipelines completos de datos.

¿Cómo fluyen los eventos desde el origen hasta el destino?

El flujo básico involucra tres elementos centrales [2:30]:

Publisher: sistema que genera mensajes y los envía a Pub/Sub.
Tópico: canal lógico dentro de Pub/Sub que recibe los mensajes.
Subscriber: destino que consume los mensajes a través de una suscripción.

Un ejemplo práctico: los logs de una aplicación se envían a Pub/Sub, se suscriben a un tópico y se procesan con Dataflow para finalmente cargarlos en BigQuery [1:40]. Otro caso frecuente es tomar archivos desde Cloud Storage, conectarlos con Pub/Sub y enviarlos también a Dataflow para su transformación.

¿Qué patrones de publicación y suscripción se pueden configurar?

Pub/Sub ofrece flexibilidad para diseñar distintas combinaciones entre publicadores y suscriptores [3:10]:

Un publisher, un subscriber: el patrón más simple; un productor envía mensajes a un tópico y un único consumidor los recibe.
Múltiples publishers, múltiples subscribers: varios productores envían mensajes a un solo tópico y, mediante la suscripción, cada mensaje se dirige a un subscriber específico según su contenido.
Un publisher con replicación: un productor genera mensajes hacia un tópico y se crean dos suscripciones independientes que replican los mismos mensajes a dos subscribers distintos [4:00].

Estos patrones permiten resolver prácticamente cualquier caso de uso de mensajería en una organización.

¿Cuál es la diferencia entre pull y push subscription?

Existen dos métodos de entrega de mensajes [4:35]:

Pull subscription: el subscriber solicita activamente los mensajes a Pub/Sub.
Push subscription: Pub/Sub envía los mensajes directamente al subscriber a través de un API REST endpoint.

En ambos casos, la entrega del mensaje está garantizada, aunque los mensajes pueden llegar en cualquier orden.

¿Cómo resolver problemas de orden y duplicación de mensajes?

Cuando el volumen de mensajes es muy alto, pueden presentarse dos situaciones frecuentes [5:10]:

Mensajes fuera de orden: los eventos no llegan en la secuencia en que fueron generados.
Mensajes duplicados: el mismo evento se entrega más de una vez.

La solución para ambos casos es integrar Pub/Sub con Dataflow [5:30]. Dataflow permite aplicar templates que reordenan los mensajes según su marca temporal original y filtran los duplicados mediante un proceso conocido como deduplicación. De esta forma se garantiza que el subscriber reciba exactamente los mensajes correctos y en el orden esperado.

Esta combinación de Pub/Sub con Dataflow es una de las estrategias más robustas para construir pipelines de datos en tiempo real dentro de Google Cloud. Si ya estás trabajando con eventos a gran escala, experimenta con estos patrones y comparte tu experiencia en los comentarios.

Comentarios

nicolas pozzi

student•

Google Cloud Pub/Sub Mensajería impulsada por eventos para la ingesta de datos y el movimiento de los mismos.

Ingestion y entrega de eventos escalables/ persistentes.
Patrón de publicación.
Servicio global.
Integrado con otras herramientas.

Francisco Marquez meza

student•

Esta fu una clase demasiada mal dirigida, por favor atentos @Platzi. Los que venimos aquí en muchos casos tenemos vagos conocomientos de eventos, mensajerías, etc, etc, etc. Creo que si llegan a detectar videos cómo este deberían hacer el esfuerzo de MEJORAR las explicaciones de alguna manera, no sé, dividan el video en 02 partes con explicaciones o ejemplos cotidianos e intuitivos, pero no solo pongan algo INENTELIGIBLE y supongan que "ya cubrieron el tema". Espero no ver más videos así de generales.

jose gilberto vazquez gonzalez

student•

esta excelente la clase

Jhon Freddy Tavera Blandon

student•

Conceptos Básicos:

Temas (Topics):
- Un tema es un canal de comunicación donde los mensajes son publicados por un productor.
- Los temas en Pub/Sub son duraderos y pueden retener mensajes durante un período configurable (retención de mensajes).
Suscripciones (Subscriptions):
- Una suscripción es un punto de conexión que recibe y consume mensajes de un tema específico.
- Las suscripciones pueden ser de tipo pull (extracción manual) o push (entrega automática a una URL HTTP/HTTPS).
Mensajes (Messages):
- Los mensajes son los datos que se envían y reciben a través de Pub/Sub.
- Cada mensaje tiene un identificador único, un cuerpo de datos y atributos opcionales (metadatos).

Funcionamiento:

Publicación (Publishing):
- Los productores (publisher) envían mensajes a un tema específico en Pub/Sub.
- Los mensajes pueden ser publicados de forma individual o en lotes (batch).
Suscripción (Subscription):
- Los consumidores (subscriber) se conectan a un tema a través de suscripciones para recibir mensajes.
- Las suscripciones pueden ser duraderas (persistentes) o temporales (efímeras), según su configuración.
Flujo de Mensajes:
- Cuando un mensaje es publicado en un tema, Pub/Sub lo distribuye a todas las suscripciones asociadas al tema.
- Las suscripciones consumen mensajes de acuerdo con su método de recepción (pull o push).
Escalabilidad y Disponibilidad:
- Pub/Sub es altamente escalable y distribuido, lo que permite manejar grandes volúmenes de mensajes y mantener alta disponibilidad.
- Utiliza la infraestructura global de Google para garantizar baja latencia y alta durabilidad de mensajes.

Uso en Aplicaciones:

Integración de Sistemas:
- Pub/Sub se utiliza para integrar sistemas y servicios distribuidos en arquitecturas de microservicios, IoT, análisis de datos en tiempo real, etc.
- Permite la comunicación asíncrona y la decoupling entre componentes de aplicaciones.
Procesamiento de Eventos:
- Se utiliza para procesar eventos en tiempo real, como eventos de clickstream, logs, actualizaciones de bases de datos, etc.
- Puede integrarse con servicios de procesamiento de datos como Dataflow, Spark, y funciones sin servidor (Cloud Functions).
Colas de Mensajes:
- Pub/Sub se utiliza como una cola de mensajes para tareas en segundo plano, procesamiento de trabajos en lotes y gestión de carga.
Análisis y Procesamiento de Datos:
- Permite la ingesta y procesamiento de datos en tiempo real para análisis, reporting y generación de insights.
- Se integra con servicios de almacenamiento y análisis como BigQuery, Dataflow y Dataproc.

Seguridad y Gestión:

Seguridad:
- Pub/Sub proporciona controles de acceso basados en roles (IAM) para garantizar la seguridad y el cumplimiento normativo de los datos.
- Los mensajes pueden ser cifrados en tránsito y en reposo para proteger la confidencialidad de los datos.
Monitoreo y Logging:
- Se pueden habilitar registros de auditoría y monitoreo para rastrear el flujo de mensajes, el rendimiento y la actividad de Pub/Sub.
- Se integra con Stackdriver Logging y Stackdriver Monitoring para análisis y visualización de datos de operaciones.

Google Cloud Pub/Sub es un servicio de mensajería robusto y escalable que facilita la comunicación asíncrona entre componentes de aplicaciones distribuidas, la integración de sistemas, el procesamiento de eventos en tiempo real y el análisis de datos. Su arquitectura distribuida y sus características de seguridad lo convierten en una opción poderosa para implementar arquitecturas modernas y escalables en la nube.

Bryan Rojas Ruiz

student•

Hola no hay curso de la vida real, hacer un ETL migrar un archivo txt o csv de mi ordenador a cloud storage

Diego Alejandro Lesmes

student•

me temo que se transmite a través de los topicos son mensajes, por lo que no se trata de archivos sino su contenido qu ede hecho esta limitado, superado ese limite hay un costo

Daniela Anaya

student•

Hola, gracias por la explicación dada. QUisiera dar una recomendación para la clase nro 8: de pronto puede ser más fácil de comprender con algún ejemplo real .

Paola Patrón

student•

Para lo que trabajan con Open source pub sub sería el simil de Kafka en Google Cloud

Daniel Arrieta

student•

buen dia, noto q describen a la perfeccion los servicios de GCP pero cuando hay practica?? cuando enseñan con ejemplos como hacer algun trabajo???

David E Marquez S

student•

¿Me equivoco o Pub/Sub hace lo mismo que un BUS de integración de SOA?

Vladimiro Bellini

student•

es como kafka verdad?

Diego Alejandro Lesmes

student•

yep

Ernesto Gastón Pérez Astoquillca

student•

lo miso que service bus de azure? o kafka?

Jhon Freddy Tavera Blandon

student•

Funcionamiento de PubSub en Google Cloud y su Integración con Dataflow

Manejo de Big Data

Big Data y Machine Learning en Google Cloud Platform

Google Cloud y Big Data: Historia, Servicios y Aplicaciones Prácticas

Google Cloud Platform para Big Data: Arquitectura y Seguridad

Exploración de Servicios Big Data e IA en Google Cloud

Procesamiento de Datos con Cloud Dataflow en Google Cloud

Características y Funcionalidades de BigQuery

Integración de BigQuery con Data Studio: Creación de Dashboards