Compute on Google Cloud Platform

1

Creación y administración de proyectos en Google Cloud

2

Fundamentos de Google Cloud: Configuración y Uso Inicial

3

Créditos y Uso de Proyectos en Google Cloud con Quick Labs

4

Google Cloud: Seguridad Avanzada y Sostenibilidad Ambiental

5

Opciones de Cómputo en Google Cloud: IaaS, PaaS y Serverless

6

Optimización de Máquinas Virtuales con Google Cloud

7

Instalación de Qwiklabs paso a paso

8

Configurar y Monitorear Máquinas Virtuales en Google Cloud

9

Despliegue de Aplicaciones en App Engine para Principiantes

10

Implementación de Spring Boot en App Engine con Java 11

11

Uso de Kubernetes para Gestión de Contenedores

12

App Engine: Comparación Estándar vs Flexible

13

Implementación de Contenedores con Cloud Run de Google Cloud

14

Cómo usar Cloud Functions de Google para automatizar tareas en la nube

Continuous Integration, Continuous Delivery

15

Prácticas de CI/CD en Google Cloud: Automatización de Despliegues

16

Estrategias de Despliegue para Aplicaciones en Producción

17

Creación y gestión de repositorios en Google Cloud Platform

18

Construcción y Despliegue con Google Cloud Platform

19

Gestión de infraestructura como código con Terraform y Ansible

20

Despliegue de Aplicaciones en Google Cloud Serverless

Google Kubernetes Engine

21

Google Kubernetes Engine: Objetos y Controladores Básicos

22

Despliegue de Kubernetes en Google Cloud paso a paso

23

Estrategias de Despliegue en Kubernetes y Google Cloud

24

Gestión de Kubernetes con Anthos: Multinube y On-Premises

25

Implementación de Cloud Run para Contenedores Serverless

26

Desplegar Aplicaciones en Cloud Run con GKE

27

Anthos Service Mesh: Comunicación Segura entre Microservicios

28

Despliegue de Microservicios con Anthos y Kubernetes

Streaming Data Analytics

29

Ingesta de Datos en Tiempo Real con Google Cloud Data Fusion

30

Creación de Flujos de Datos con Google Cloud Data Fusion

31

Ingesta de Datos Confiable en Google Cloud: Soluciones Prácticas

32

Procesamiento de Datos en Google Cloud con Apache Kafka

33

Configuración de Kafka Connect en Google Cloud con SQL Server y PubSub

34

Consultas de Registros en BigQuery con Apache Dataflow

35

BigQuery: Procesamiento de Datos a Gran Escala Sin Servidores

36

BigQuery: Machine Learning y Análisis Geoespacial Avanzado

37

Migración de Bases de Datos: Retos y Estrategias en Google Cloud

38

Uso de Google Cloud para Migración y Modernización de Bases de Datos

39

Gobierno de Datos en Google Cloud: Prácticas Esenciales

40

Calidad y Monitoreo de Datos con Google Cloud

Machine Learning

41

Algoritmos de Machine Learning para Principiantes

42

Aprende Machine Learning con Google Cloud: Herramientas y Recursos

43

Uso de AutoML Tables para Datos Estructurados en Google Cloud

44

Automatización de Modelos con AutoML Tables en Google Cloud

45

Predicción de Tarifas con Jupyter Notebooks en Google Cloud

46

Predicción de tarifas de taxi con Python en Google Cloud

47

Pipelines de Machine Learning con TensorFlow Extended

Sesiones en vivo

48

Programación y despliegue con Google Cloud Platform

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Creación de Flujos de Datos con Google Cloud Data Fusion

30/48
Recursos

¿Cómo construir flujos de ingesta de datos con Google Cloud Data Fusion?

La integración de datos en tiempo real o en lotes es una necesidad constante en el entorno empresarial actual, especialmente para departamentos como finanzas que requieren una rápida manipulación y análisis de datos. Google Cloud Data Fusion emerge como una herramienta revolucionaria, simplificando este proceso gracias a su interfaz gráfica que elimina la necesidad de codificación extensiva.

¿Qué es Google Cloud Data Fusion?

Google Cloud Data Fusion es una plataforma de integración de datos totalmente gestionada que permite mover y transformar datos rápidamente a través de pipelines visuales. Proporciona facilidades para integrar datos tanto en un entorno batch como en tiempo real, facilitando a usuarios sin conocimientos profundos en programación.

  • Dos versiones:
    • Básica: Solo para integraciones batch.
    • Enterprise: Soporta batch y real time, con mayor concurrencia.

¿Cómo crear instancias y comenzar con la integración de datos?

Para empezar con Data Fusion, se accede a través de la consola de Google Cloud Platform. Aquí podemos crear una instancia de Data Fusion seleccionando entre sus dos ediciones claramente diferenciadas.

¿Cómo funciona el enfoque visual de Data Fusion?

Data Fusion ofrece una interfaz donde todo lo que se realiza se puede visualizar como si se tratara de una "receta de cocina". Esto permite:

  • Localización y carga de archivos: Desde módulos como Wrangler, donde se carga y se comienzan a procesar archivos como CSV.
  • Transformaciones de datos: Se pueden aplicar transformaciones como dividir datos en columnas, renombrar columnas, eliminar datos innecesarios, etc.
  • Insights: Ofrece una vista sobre la distribución de registros entre columnas, permitiendo a los usuarios realizar mejores decisiones de filtrado de datos.

¿Cómo se crean los pipelines de batch integration?

Una vez procesados los datos, se procede a crear el Batch Pipeline:

  1. Selección de tipo de pipeline: En este caso, se elige Batch para archivos CSV.
  2. Uso de conectores disponibles: Existen múltiples conectores y transformaciones listos para ser utilizados sin necesidad de codificación. Ejemplos: conexiones a bases de datos como SQL Server o MongoDB.
  3. Proceso de join: Integración de datos desde distintas fuentes usando un joiner, conectando, por ejemplo, datos locales con conjuntos de datos en BigQuery.

¿Cómo se configuran las uniones de datos en Data Fusion?

Para unir datos de distintos orígenes, se utilizan el joiner junto con fuentes como BigQuery. Éste se arrastra al área de trabajo para configurar las propiedades necesarias, y sincronizar varias fuentes de datos.

  • Importancia del esquema: Permite obtener la estructura de la tabla a integrar, comprobando que la configuración es correcta.
  • Personalización de columnas: Se pueden realizar ajustes en nombres y seleccionarla columna correcta para la operación de join.

¿Cómo persisten los datos transformados?

Una vez realizado el join, los datos pueden ser guardados en un destino específico como Google Cloud Storage:

  • Configuraciones avanzadas: Permiten definir el formato de salida (CSV, JSON, etc.) y configuraciones adicionales para cada ejecución del pipeline.
  • Opciones multiplataforma: Además de Google Cloud, se puede integrar y persistir datos en diferentes plataformas, ya sea dentro de nubes on-premise o en otros servicios en la nube.

¿Cómo monitorizar los pipelines y ajustar configuraciones de ejecución?

Data Fusion incluye características avanzadas para monitorizar y gestionar la ejecución de los pipelines:

  • Cluster efímero: Durante la ejecución, se crea un cluster que desaparece una vez completada la tarea, reduciendo costos.
  • Opciones de multi-cloud: Ofrece soporte para ejecutar procesos de manera distribuida entre distintas nubes como Amazon EMR y Microsoft HD Insight.
  • Sistema de administración y monitoreo: Ayuda a entender si el pipeline ha fallado, duración de la ejecución, y detalles de procesamiento de registros, apoyando tanto el linaje de datos como la recopilación de errores.

Google Cloud Data Fusion se destaca como una herramienta integral y altamente accesible para la ingesta de datos, promoviendo la democratización de habilidades de ingeniería de datos para profesionales sin un fuerte trasfondo técnico. ¡Te animo a explorar sus características y seguir desarrollando tus capacidades en integración de datos!

Aportes 6

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Consideren usar colores oscuros para los cursos para programadores. Esta genial el curso, pero estoy quemandome el ojo con el fondo blanco que tienen los videos.

Excelente clase Gilberto, complementa muy bien la clase anterior

Entendido

Es interesante que todo se maneje graficamente

Estoy haciendo este laboratorio y me manda el siguiente error de permisos.

https://www.qwiklabs.com/focuses/6376?catalog_rank={"rank"%3A1%2C"num_filters"%3A0%2C"has_search"%3Atrue}&parent=catalog&search_id=5717893

Ya hice la configuracion de aim de los usuarios

PROVISION task failed in REQUESTING_CREATE state for program run program_run:default.MyPipeline.-SNAPSHOT.workflow.DataPipelineWorkflow.de69f347-30ed-11eb-8121-766c664c7386 due to Dataproc operation failure: INVALID_ARGUMENT: User not authorized to act as service account ‘[email protected]’. To act as a service account, user must have one of [Owner, Editor, Service Account Actor] roles. See https://cloud.google.com/iam/docs/understanding-service-accounts for additional details…