Procesamiento de Datos con Cloud Dataflow en Google Cloud

Clase 5 de 19 • Curso de Big Data y Machine Learning con Google Cloud Platform

Contenido del curso

Manejo de Big Data

Herramientas de inteligencia artificial

Proyecto: Clon de Google Photos (Parte 4 de 4)

Resumen

Procesar datos de forma eficiente es uno de los grandes retos en cualquier arquitectura moderna de datos. Dentro del ecosistema de Google Cloud existen servicios especializados que permiten construir pipelines de datos adaptados a distintas necesidades: tiempo real, agendamientos batch y activaciones por triggers. Comprender cómo se relacionan estos servicios es clave para diseñar flujos robustos y escalables.

¿Qué tipos de pipelines de datos existen en Google Cloud?

Antes de profundizar en Dataflow, es fundamental entender las tres categorías principales de ingesta de datos que se pueden implementar [0:12].

¿Cómo funcionan los pipelines en tiempo real?

Los pipelines en tiempo real se aplican cuando los registros se almacenan de forma continua y necesitan ser procesados lo más cercano posible al momento en que se genera el dato. Son ideales para escenarios con alto volumen de información y donde la latencia importa. El servicio Cloud Pub/Sub permite suscribirse a un tópico que se genera en tiempo real y transportar esos datos en near real time hacia un repositorio o hacia Dataflow para aplicar transformaciones [1:48].

¿Qué es un agendamiento batch y cuándo se utiliza?

Los agendamientos batch funcionan de manera diferente: los datos se van acumulando y se procesan en ventanas de tiempo más amplias, típicamente durante la noche. En estos casos se toma un volumen de información, una interfaz o un archivo de origen, se le aplican transformaciones y luego se cargan en un repositorio como BigQuery [0:44].

¿Qué papel juegan los triggers y Cloud Functions?

Los triggers responden a señales específicas que se generan cuando aparece un determinado dato. Cloud Functions se activa a partir de esas señales y puede ejecutar una acción posterior, como enviar una notificación o despertar otro servicio para que comience a funcionar [1:08].

¿Por qué la orquestación con Cloud Composer es fundamental?

El componente que conecta todos estos flujos es el orquestador. Cloud Composer permite controlar si cada proceso de ingesta funcionó correctamente o si se generó algún problema que requiere notificación [2:24]. Gracias a estas notificaciones, el equipo de data engineering puede estar atento para reprocesar cargas de datos o ingestas hacia el data lake.

¿Qué es Cloud Dataflow y qué ventajas ofrece?

Cloud Dataflow es un servicio de procesamiento de datos totalmente administrado que simplifica el desarrollo y la administración de pipelines [2:52]. Sus principales beneficios son:

Acelera el desarrollo tanto en casos de uso de streaming como de batch.
Facilita la gestión operativa con una interfaz simplificada.
Permite construir la base para la generación de modelos de machine learning.

¿Qué son los templates de Dataflow y cómo aceleran el desarrollo?

Uno de los aspectos más prácticos de Dataflow son los templates predefinidos [3:22]. Estos templates funcionan como aceleradores: si necesitas, por ejemplo, conectarte desde Cloud Storage hacia BigQuery, ya existe una plantilla lista para usar. Los templates están clasificados por distintos orígenes y destinos, lo que reduce significativamente el tiempo de construcción de cada pipeline.

¿Qué operaciones se pueden aplicar en los flujos de datos?

Dataflow permite aplicar tres operaciones fundamentales sobre los datos [3:52]:

Filtrado: eliminar registros que no se requieren en el repositorio destino.
Agrupado: combinar datos para una gestión más avanzada del flujo.
Separación en ventanas (windowing): ordenar los datos en distintas ventanas temporales según el criterio requerido.

Estas mismas operaciones funcionan tanto para flujos batch como para datos en streaming, lo que brinda flexibilidad para resolver cualquier combinación de problemas de procesamiento de datos.

Ahora que conoces las capacidades de Cloud Dataflow y cómo se integra con Pub/Sub, Cloud Functions y Cloud Composer, comparte en los comentarios en qué casos de uso de tu empresa podrías aplicar este servicio.

Comentarios

David Carrevedo

student•

Cloud Dataflow

. Es un servicio de procesamiento de datos totalmente administrado, que simplifica el desarrollo y la administración de flujos y pipelines.

Acelera el desarrollo de streaming y bach
Gestion y operaciones simplificadas
Construir sobre una base para machine learning .

Posee templates que ya tienen armado un flujo de trabajo con determinado origen y determinado destino. .

Tipos de pipelines:

. Tiempo real: todos los datos van siendo procesados en el momento (Pub/Sub – Dataflow) Scheduled Batch: primero se acumulan los datos, y luego se programa el procesamiento de los mismos, generalmente en las noches (Dataflow) Triggered Batch: cuando tengo determinadas señales en mis datos, eso dispara o activan un flujo de ingesta de datos (Cloud Functions)

nicolas pozzi

student•

Que es un Cloud Dtaflow Es un servicio de procesamiento de datos totalmente administrado que simplifica el desarrollo y la administración de flujos y pipelines. -Acelera el desarrollo de streaming y bach -Gestion y operaciones simplificadas -Construir sobre una base para machine learning

Jhon Freddy Tavera Blandon

student•

Características Principales:

Modelo de Programación Unificado: Utiliza el modelo de programación de Apache Beam, lo que te permite escribir pipelines de datos de forma consistente para el procesamiento en tiempo real y por lotes.
Escalabilidad Automática: Dataflow ajusta automáticamente la cantidad de recursos de computación según la carga de trabajo, lo que te permite procesar grandes volúmenes de datos de manera eficiente.
Tolerancia a Fallos: Garantiza la tolerancia a fallos y la integridad de los resultados incluso en entornos distribuidos, mediante la reejecución de tareas en caso de fallos.
Integración con Google Cloud Platform: Se integra de forma nativa con otros servicios de GCP, como Google Cloud Storage, BigQuery, Pub/Sub y Data Studio, facilitando la creación de pipelines end-to-end.
Compatibilidad Multi-Entorno: Además de GCP, Dataflow también es compatible con entornos locales y en otras nubes públicas, lo que te permite ejecutar tus pipelines en diferentes infraestructuras.

Ejemplo de Uso:

Supongamos que deseas analizar el comportamiento de usuarios en un sitio web en tiempo real. Podrías crear un pipeline en Dataflow que capture eventos de clics de los usuarios, aplique transformaciones para calcular métricas como el número de clics por página o el tiempo promedio en el sitio, y luego almacene estos resultados en BigQuery para su análisis posterior.

Camilo Caro

student•

Hay alguna forma con dataflow de replicar en tiempo real una base de datos alojada en amazon RDS a bigquery ?

Sin que impacte de manera significativa en costos ?

Cesar García

student•

hace 9 meses con esta duda y no te dan respuesta, en udemy por lo regular te dan las respuestas en un menor tiempo.

Efrem Medina

student•

segun claude ai:

Una opción es utilizar el conector JDBC de Dataflow para leer los datos de Amazon RDS. Luego puedes aplicar transformaciones y escribir a BigQuery utilizando el conector de BigQuery en Dataflow.

Algunas recomendaciones para minimizar costos:

Usa máquinas pequeñas para Dataflow, como e2-medium que son suficientes para la mayoría de las cargas de ETL. Escálalas vertical u horizontalmente si necesitas más recursos.
Usa la autoscala de Dataflow para escalar a 0 trabajadores cuando no haya datos para procesar. Esto evita cargos cuando el pipeline está inactivo.
Utiliza BigQuery con una política de expiración en la tabla destino para que sólo almacene los datos más recientes, en lugar de acumular todo el historial. Esto reduce costos de almacenamiento.
Considera compresión/truncamiento de datos antes de cargar a BigQuery si no requieres detalles a nivel de fila.
Analiza cuidadosamente las métricas de Dataflow sobre volumen de datos y rendimiento para afinar tus recursos computacionales.

JUAN ARAUJO

student•

Mi pregunta si es factible tener un modelo que permita traer informacion de Trafico por ejemplo de una ciuda de USA, donde podamos determinar cuantos cars empezaron en un punto del highway y se bajaron en otro punto de esa via, cantidad de crashes o incidentes, etc, en un perido de tiempo. Tambien mi pregunta es si tenemos esa informacion en forma publica

Javier Ladino

student•

Los servicios de GCP son nuevos para mi, siempre he desarrollado mis proyectos ETL en local con Jupyter Notebooks o en línea con COLAB y Deepnote.. he utilizado sobretodo datos abiertos de varias ciudades.. y contectarme a datos producidos en tiempo real con APIS me gusta mucho.. Este es el video 5/19 y no se si tienen la misma angustia referente al cobro de procesamiento al tener que dejar datos de tarjeta para utilizar la suite GCP. De pronto en un próximo video solucione esas dudas sobre los costos del uso de la plataforma, hasta donde es gratuito y en casos reales para compañías cómo funciona, quién toma las decisiones para procesar la data vs costos, mejores prácticas para optimizar, etc.

Me gustaría ver los ejemplos de Computer Vision a desarrollar en este ecosistema.

También que a las preguntas relevantes (y sin odio) se les haga un explicación en texto o video para ser insertadas en el orden del curso.

Gracias Platzi y a Pablo.. hasta el momento 10/10 :D

Contacto E7

student•

Que significa totalmente administrado?

Procesamiento de Datos con Cloud Dataflow en Google Cloud

Manejo de Big Data

Big Data y Machine Learning en Google Cloud Platform

Google Cloud y Big Data: Historia, Servicios y Aplicaciones Prácticas

Google Cloud Platform para Big Data: Arquitectura y Seguridad

Exploración de Servicios Big Data e IA en Google Cloud