Ingesta de Datos Confiable en Google Cloud Platform

Clase 31 de 48 • Entrenamiento de Google Cloud Platform

Resumen

¿Cómo Google Cloud Platform gestiona la ingesta de datos confiable?

Google Cloud Platform (GCP) nos ofrece una potente infraestructura para administrar la ingesta de datos de manera confiable a través de servicios gestionados. Comprender cómo se generan estos datos es crucial. Generamos eventos de manera masiva, desde navegar en eCommerce hasta compartir en redes sociales. Dentro de una organización, estas prácticas se traducen en tres principales casos de uso:

Ingesta de eventos de usuarios: Al utilizar plataformas como Mercado Libre, cada acción genera eventos en tiempo real.
Ingesta de datos a través de bases de datos con CDC (Change Data Capture): Esta técnica permite capturar y accionar sobre los cambios en una base de datos.
Enriquecimiento de eventos con inteligencia artificial: Usar APIs de Google para analizar y enriquecer datos no estructurados, como fotos y vídeos.

¿Qué diferencia a una organización data driven de una event driven?

Una organización data driven se centra en un enfoque estratégico. Antes de realizar acciones, planifica en base a estrategias e hipótesis, lo cual implica un desarrollo a largo plazo. Por el contrario, una organización event driven responde en tiempo real a los datos. Deja que los eventos dicten las acciones, permitiendo una reacción más rápida y adaptativa a las necesidades del negocio.

¿Cuáles son las características de cada enfoque?

Data driven:
- Estrategia a largo plazo e hipótesis.
- Baja sensibilidad temporal.
- Planificación previa antes de la implementación de estrategias.
Event driven:
- Respuesta rápida y adaptativa.
- Acciones definidas por los eventos en tiempo real.
- Los datos determinan las decisiones, permitiendo una ejecución ágil.

¿Cómo facilita Google Cloud estos enfoques de ingesta de datos?

Google proporciona una plataforma que abarca cinco puntos clave para la ingesta de datos confiable:

Servicios de ingesta robustos: Capturan eventos sin importar su tamaño o velocidad.
Ingesta de datos unificada: Permite procesar datos en batch o streaming sin recodificar.
Arquitectura serverless: Maximiza la eficiencia al eliminar la necesidad de gestionar servidores.
Herramientas de sentido de datos: Ofrecen la capacidad de extraer información significativa en tiempo real.
Flexibilidad para usuarios: No se requiere experiencia en programación para aprovechar la plataforma.

¿Qué productos soportan esta arquitectura?

PubSub

Producto global que capta datos en el punto más cercano de producción.
Escalable, procesando hasta 100 GB por segundo.
Spotify como caso de uso, gestionando 8.5 millones de eventos por segundo.

import pubsub_v1

client = pubsub_v1.PublisherClient()
topic_path = client.topic_path('your-project', 'your-topic')

data = 'your-message'.encode('utf-8')
client.publish(topic_path, data)

Dataflow

Basado en Apache Beam, permite reutilización en batch o real time.
Integrado con varios motores de procesamiento como Apache Flink y Spark.
Garantiza la entrega del mensaje exactly once juntamente con PubSub.

import apache_beam as beam

with beam.Pipeline() as p:
    (p
     | 'Input' >> beam.Create([1, 2, 3, 4, 5])
     | 'Multiply' >> beam.Map(lambda x: x * 10)
     | 'Output' >> beam.io.WriteToText('output.txt'))

Otros componentes

BigQuery: Almacena datos de eventos de manera serverless y escalable.
AI Platform y TensorFlow: Operacionaliza modelos de inteligencia artificial, permitiendo análisis complejos y predicciones.

¿Por qué elegir Google para la ingesta de datos?

Proceso unificado para ingesta y análisis de datos en batch y real time.
Soluciones integradas que permiten democratizar los análisis.
Casos de éxito como eMARSIS, que procesa 250.000 eventos por segundo y redujo costos en un 70%.

Google Cloud es un aliado robusto y flexible para cualquier organización que desee implementar una ingesta de datos confiable, adaptándose a demandas cambiantes y escalando con el crecimiento del negocio.

Comentarios

María Cristina Tamayo Ossa

student•

Arquitectura Serverless: Me olvido de tener que configurar servidores. Me olvido de tener que administrar la infraestructura de servidores. ME ENFOCO en los DATOS. Tener la capacidad de darle sentido a la información, procesarla, entenderla y leerla para obtener datos estratégico

Genaro Ernesto Zuniga Gomez

student•

Como se generan estos datos? - Dispositivos digitales - Comercio electrónico - Comunicaciones - Consumos de medios digitales Casos de uso clave: - Ingesta de eventos de usuario - Almacenamiento de datos y CDC (Change Data Capture) - Enriquecimiento de eventos y ML.

Data driven vs Event driven: Data driven: No actúa sobre los datos en real time, mayor planificación. - Humanos involucrados - Ideas a largo plazo - Determinar estrategia de producto - Determinar segmentación de cliente - Informar campañas de marketing Event driven: Los datos le dicen a la empresa que hacer. - Procesos automatizados - Responsivo en tiempo real - Impulsa interacciones instantáneas - Determina el producto - Seleccionar campañas de marketing

Productos para la ingesta de datos confiables: Pub/Sub: - Mensajería dirigida por eventos para la ingesta de datos - Es un producto global, no se especifica una localidad - Procesa hasta 100GB por segundo Dataflow: - Secuencia simplificada y procesamiento de datos por lotes - Es open source - Garantiza la entrega del mensaje BigQuery: - Almacén de datos en la nube - Se puede aplicar analítica a los datos con AI

Guillermo Sanchez

student•

Casos de uso de ingesta de datos:

Eventos del usuario: Interacciones del usuario en la plataforma (clics y otros) Almacenamiento y Change Data Capture CDC: Registro de como cambian los datos para accionar eventos. Enriquecimiento con ML - IA: Añadir información por analisis de voz o visión de máquina con las APIs de Google

Jonnathan Ramiro Juma Jara

student•

ML, ingesta de datos de fuentes externas

Ingesta de Datos Confiable en Google Cloud Platform

Compute on Google Cloud Platform

Guía de Instalación de Google Cloud para Desarrolladores

Crear Cuentas en Google Cloud y Qwiklabs paso a paso

Uso de Quick Labs para Entrenamiento en Google Cloud

Google Cloud: Beneficios y Seguridad en la Nube Pública

Opciones de Cómputo en la Nube con Google Cloud

Máquinas Virtuales en Google Cloud: Uso, Optimización y Descuentos

Instalación de Qwiklabs paso a paso

Creación y Gestión de Máquinas Virtuales en Google Cloud

App Engine: Despliegue de Aplicaciones sin Infraestructura

Despliegue de Aplicaciones en App Engine con Java 11 y SpringBoot

Introducción a Docker y Contenerización de Aplicaciones

App Engine Estándar vs Flexible: Ventajas y Usos Prácticos

Implementación de Cloud Run: Serverless y Contenedores en Google Cloud

Cloud Functions: Creación y Conexión de Servicios Serverless

Continuous Integration, Continuous Delivery

Continuous Integration y Delivery en Google Cloud Platform

Estrategias de Despliegue de Aplicaciones en Producción

Repositorios en Google Cloud: Cloud Source y Container Registry

Construcción y Despliegue en Google Cloud Platform

Infraestructura como Código: Conceptos y Herramientas Clave

Despliegue de Aplicaciones Serverless en Google Cloud Platform

Google Kubernetes Engine

Fundamentos de Kubernetes y Google Kubernetes Engine

Creación y Despliegue de Clúster Kubernetes en Google Cloud

Planificación de Ambientes de Despliegue en Kubernetes

Implementación y Gestión de Anthos para Aplicaciones en la Nube

Cloud Run: Despliegue de Contenedores Serverless en Google Cloud

Despliegue de Servicios en Cloud Run con GKE

Anthos Service Mesh: Observabilidad y Seguridad en Kubernetes

Tour Completo de Anthos: Despliegue y Gestión en Google Cloud

Streaming Data Analytics

Integración de Datos en Tiempo Real con Google Cloud Data Fusion

Construcción de Flujos de Datos con Google Cloud Data Fusion

Ingesta de Datos Confiable en Google Cloud Platform

Ingesta de Eventos en Google Cloud con Apache Kafka y Dataflow

Configuración de Apache Kafka y Debezium en Linux para SQL Server y PubSub

Visualización de Mensajes en Google Cloud con Dataflow y BigQuery

Construcción de un Data Lakehouse con Google BigQuery

Ventajas de BigQuery como Data Lakehouse

Opciones de Almacenamiento en Google Cloud Platform

Gestión de Datos en Google Cloud: Portafolio y Migración

Gobierno de Datos en Google Cloud: Mejores Prácticas y Herramientas

Calidad y Monitoreo de Datos en Google Cloud

Machine Learning

Conceptos Básicos de Inteligencia Artificial y Aprendizaje Automático

Soluciones de IA y Machine Learning en Google Cloud para Desarrolladores

AutoML Tables: Modelado Predictivo con Datos Estructurados

Uso de AutoML Tables en Google Cloud para Modelos de Clasificación

Predicción de Tarifas con Jupyter Notebooks en Google Cloud

Análisis de Datos de Taxis en iNotebook con Google Cloud y BigQuery

Implementación de Pipelines con TensorFlow Extended

Sesiones en vivo

Mentoría en Google Cloud con Pablo Pérez Villanueva