Aprovecha el precio especial y haz tu profesión a prueba de IA

Antes: $249

Currency
$209
Suscríbete

Termina en:

0 Días
2 Hrs
51 Min
12 Seg

Casos de uso en tiempo real con Cloud Pub/Sub y Dataflow

9/19
Resources
Transcript

How to connect PubSub and Dataflow on Google Cloud for real-time data monitoring?

In the world of Big Data, the ability to capture and analyze data in real time is crucial for fast and efficient decision making. Using PubSub and Dataflow on Google Cloud, we can implement a solution that not only receives real-time data but also processes and stores it for further analysis. In this content, you will learn how to create a workflow from streaming cab data in New York to storing it in BigQuery, all by integrating different Google Cloud tools.

How to configure the Dataflow service?

The Dataflow configuration starts in the Google Cloud console. Here, we must identify the service in the Big Data section. Upon login, we are presented with two options to create a job: use a template or create a custom SQL. For this case study, we use a SQL query that defines how we want to process and store the data:

SELECT TIMESTAMP_TRUNC(event_timestamp, MINUTE) AS start_period, COUNT(pickup) AS pickup_countFROM `project.dataset.service_pubsub`WHERE status = 'pick up'GROUP BY start_period.

This code allows us to:

  • Connect and group: use SELECT and GROUP BY to group the data in one-minute intervals and count the passengers picked up.
  • Conditioning: Apply conditions to select only events where the status is "pick up".
  • Job configuration: Assign a unique name to the job and select an appropriate region for its execution. This process also defines our final destination in BigQuery for data storage.

How do Dataflow and BigQuery integrate?

Once the job is configured, Dataflow starts receiving and processing events in real time. Subsequently, all this data, transformed and grouped, is stored in BigQuery. There we can perform more detailed and persistent analysis. During job creation, we specify:

  • Target table name: In this case, taxi_data has been chosen to store data such as start period and passenger count.
  • DataSet in BigQuery: We make sure that there is a DataSet to hold the processed data.
  • Validation and execution: We verify and execute the job, observing its status in real time through the metrics and details section in Dataflow.

How to analyze the results in BigQuery and Data Studio?

Once the data is stored in BigQuery, we can perform more complex queries to obtain detailed analysis. For example, visualizing how many collection events occurred at a certain point in time. In addition, this data can be explored and graphically represented in Data Studio, providing a clear and understandable visualization of the time series of our data.

When using Data Studio, the following can be performed:

  • Explore data: Connect directly to the BigQuery table and perform detailed scans of the data by date and time.
  • Analysis graphs: Convert numerical data into intuitive graphs to see patterns such as increases or decreases in the number of cabs taken.

This comprehensive approach helps to understand how real-time data can be effectively integrated and visualized for better informed and timely decision making.

Contributions 16

Questions 14

Sort by:

Want to see more contributions, questions and answers from the community?

Consulta:

SELECT
    TUMBLE_START('INTEVARL 1 MINUTE') as period_start,
    SUM(passenger_count) AS pickup_count
FROM pubsub.topic.`pubsub-public-data`.`taxirides-realtime`
WHERE
    ride_status = "pickup"
GROUP BY
    TUMBLE(event_timestamp, 'INTERVAL 1 MINUTE')

es increible apicla algo que no explica como lo obtuvo, yo no estoy pudiendo crear el job de ninguna forma

Para ejemplos practivos utilicé datos que muestran en la busqueda, pero se debió mostrar desde donde se buscó el servicio de pubsub porque parece que actualmente ya no está almenos no bajo la misma ruta

falta la sentencia para poder seguir la clase mejor

SELECT
  TUMBLE_START('INTERVAL 1 MINUTE') as period_start,
  SUM(passenger_count) AS pickup_count
FROM pubsub.topic.`pubsub-public-data`.`taxirides-realtime`
WHERE
  ride_status = "pickup"
GROUP BY
  TUMBLE(event_timestamp,'INTERVAL 1 MINUTE')

Falta incluir el query

La combinación de Google Cloud Pub/Sub y Cloud Dataflow es poderosa para casos de uso en tiempo real, ya que permite la ingestión, procesamiento y análisis de datos de manera eficiente y escalable. Aquí tienes algunos casos de uso comunes en tiempo real que pueden aprovechar esta integración: ### 1. Análisis de Streaming de Eventos: * **Streaming de Logs y Métricas:** Ingestión y análisis en tiempo real de logs de aplicaciones, sistemas y servidores para monitoreo y detección de problemas. * **Eventos de IoT:** Procesamiento en tiempo real de eventos generados por dispositivos IoT, como sensores, para monitoreo y control de sistemas. * **Eventos de Clickstream:** Análisis en tiempo real del comportamiento de los usuarios en aplicaciones web y móviles para personalización y optimización de la experiencia del usuario. ### 2. Procesamiento de Datos Continuo: * **Procesamiento ETL en Tiempo Real:** Transformación y enriquecimiento de datos en tiempo real antes de ser almacenados o analizados, por ejemplo, para enriquecer datos con información externa o aplicar reglas de negocio. * **Detección de Anomalías y Patrones:** Análisis en tiempo real para detectar anomalías, patrones emergentes y eventos inusuales que requieran acciones inmediatas. ### 3. Integración de Sistemas en Tiempo Real: * **Integración de Aplicaciones:** Integración y sincronización en tiempo real de datos entre diferentes aplicaciones y sistemas empresariales para mantener la coherencia de los datos en tiempo real. * **Event-Driven Architecture:** Implementación de arquitecturas orientadas a eventos donde los cambios y eventos desencadenan acciones y procesos en tiempo real. ### 4. Procesamiento de Transmisiones de Datos: * **Streaming de Datos de Sensores:** Procesamiento y análisis en tiempo real de datos de sensores para monitorizar el rendimiento de equipos, prevenir fallos y optimizar procesos. * **Streaming de Datos Financieros:** Análisis en tiempo real de transacciones financieras para detección de fraudes, seguimiento de patrones de gastos y análisis de riesgos. ### 5. Eventos y Alertas en Tiempo Real: * **Generación de Alertas:** Creación de alertas y notificaciones en tiempo real basadas en eventos y condiciones específicas, por ejemplo, alertas de seguridad, rendimiento o eventos críticos del sistema. * **Acciones Reactivas:** Ejecución de acciones y respuestas automáticas en tiempo real ante eventos específicos, como la escalada de incidentes, reconfiguración de recursos o envío de mensajes. ### Ejemplo de Caso de Uso: Supongamos que tienes una aplicación de comercio electrónico y deseas realizar análisis en tiempo real del comportamiento de los usuarios. Utilizando Google Cloud Pub/Sub para la ingestión de eventos (por ejemplo, eventos de clics, compras, navegación) y Cloud Dataflow para procesar y enriquecer estos eventos (por ejemplo, agregar información de perfil de usuario, calcular métricas en tiempo real como tasa de conversión, generar recomendaciones en tiempo real), puedes obtener insights valiosos para personalizar la experiencia del usuario, optimizar campañas de marketing y mejorar la conversión de ventas en tiempo real.

Hola, muchas gracias por la explicación.

Quisiera comentarte que en la versión actual no veo la opción de “Crear desde SQL”

Podrías indicar cómo encontrar está opción:

Puede hacer un ejemplo mas , sin usar en sql.
Pueden seguir este tutorial de gcloud <https://cloud.google.com/dataflow/docs/tutorials/dataflow-stream-to-bigquery?hl=es-419#pubsub_create_pull_subscription-Console>
curso bastande desactualizado
No puedo salir del siguiente error en parametros obligatorios, ubicacion temportal,![](https://static.platzi.com/media/user_upload/image-872ec990-3f1a-4fbd-a02a-09ccee5b1aaa.jpg)
Algo desactualizado
ya no existe el "CREATE JOB FROM SQL"
Cada clase me encanta más- Este mundo CLoud me encanta.