Construcción de Flujos de Datos con Google Cloud Data Fusion

Clase 30 de 48Entrenamiento de Google Cloud Platform

Resumen

¿Cómo construir flujos de ingesta de datos con Google Cloud Data Fusion?

La integración de datos en tiempo real o en lotes es una necesidad constante en el entorno empresarial actual, especialmente para departamentos como finanzas que requieren una rápida manipulación y análisis de datos. Google Cloud Data Fusion emerge como una herramienta revolucionaria, simplificando este proceso gracias a su interfaz gráfica que elimina la necesidad de codificación extensiva.

¿Qué es Google Cloud Data Fusion?

Google Cloud Data Fusion es una plataforma de integración de datos totalmente gestionada que permite mover y transformar datos rápidamente a través de pipelines visuales. Proporciona facilidades para integrar datos tanto en un entorno batch como en tiempo real, facilitando a usuarios sin conocimientos profundos en programación.

  • Dos versiones:
    • Básica: Solo para integraciones batch.
    • Enterprise: Soporta batch y real time, con mayor concurrencia.

¿Cómo crear instancias y comenzar con la integración de datos?

Para empezar con Data Fusion, se accede a través de la consola de Google Cloud Platform. Aquí podemos crear una instancia de Data Fusion seleccionando entre sus dos ediciones claramente diferenciadas.

¿Cómo funciona el enfoque visual de Data Fusion?

Data Fusion ofrece una interfaz donde todo lo que se realiza se puede visualizar como si se tratara de una "receta de cocina". Esto permite:

  • Localización y carga de archivos: Desde módulos como Wrangler, donde se carga y se comienzan a procesar archivos como CSV.
  • Transformaciones de datos: Se pueden aplicar transformaciones como dividir datos en columnas, renombrar columnas, eliminar datos innecesarios, etc.
  • Insights: Ofrece una vista sobre la distribución de registros entre columnas, permitiendo a los usuarios realizar mejores decisiones de filtrado de datos.

¿Cómo se crean los pipelines de batch integration?

Una vez procesados los datos, se procede a crear el Batch Pipeline:

  1. Selección de tipo de pipeline: En este caso, se elige Batch para archivos CSV.
  2. Uso de conectores disponibles: Existen múltiples conectores y transformaciones listos para ser utilizados sin necesidad de codificación. Ejemplos: conexiones a bases de datos como SQL Server o MongoDB.
  3. Proceso de join: Integración de datos desde distintas fuentes usando un joiner, conectando, por ejemplo, datos locales con conjuntos de datos en BigQuery.

¿Cómo se configuran las uniones de datos en Data Fusion?

Para unir datos de distintos orígenes, se utilizan el joiner junto con fuentes como BigQuery. Éste se arrastra al área de trabajo para configurar las propiedades necesarias, y sincronizar varias fuentes de datos.

  • Importancia del esquema: Permite obtener la estructura de la tabla a integrar, comprobando que la configuración es correcta.
  • Personalización de columnas: Se pueden realizar ajustes en nombres y seleccionarla columna correcta para la operación de join.

¿Cómo persisten los datos transformados?

Una vez realizado el join, los datos pueden ser guardados en un destino específico como Google Cloud Storage:

  • Configuraciones avanzadas: Permiten definir el formato de salida (CSV, JSON, etc.) y configuraciones adicionales para cada ejecución del pipeline.
  • Opciones multiplataforma: Además de Google Cloud, se puede integrar y persistir datos en diferentes plataformas, ya sea dentro de nubes on-premise o en otros servicios en la nube.

¿Cómo monitorizar los pipelines y ajustar configuraciones de ejecución?

Data Fusion incluye características avanzadas para monitorizar y gestionar la ejecución de los pipelines:

  • Cluster efímero: Durante la ejecución, se crea un cluster que desaparece una vez completada la tarea, reduciendo costos.
  • Opciones de multi-cloud: Ofrece soporte para ejecutar procesos de manera distribuida entre distintas nubes como Amazon EMR y Microsoft HD Insight.
  • Sistema de administración y monitoreo: Ayuda a entender si el pipeline ha fallado, duración de la ejecución, y detalles de procesamiento de registros, apoyando tanto el linaje de datos como la recopilación de errores.

Google Cloud Data Fusion se destaca como una herramienta integral y altamente accesible para la ingesta de datos, promoviendo la democratización de habilidades de ingeniería de datos para profesionales sin un fuerte trasfondo técnico. ¡Te animo a explorar sus características y seguir desarrollando tus capacidades en integración de datos!