Google Cloud Platform para Big Data: Arquitectura y Seguridad

Clase 3 de 19 • Curso de Big Data y Machine Learning con Google Cloud Platform

Contenido del curso

Manejo de Big Data

Herramientas de inteligencia artificial

Proyecto: Clon de Google Photos (Parte 4 de 4)

Resumen

Diseñar un data lake seguro y gobernado es uno de los retos más relevantes para cualquier organización que trabaje con grandes volúmenes de información. Google Cloud Platform (GCP) ofrece un ecosistema completo de servicios que abarca desde la ingesta hasta la generación de insights, con herramientas específicas para proteger datos sensibles y democratizar el acceso a la información.

¿Cómo se estructura el ecosistema analítico de GCP?

El flujo de trabajo en GCP se organiza en capas bien definidas que cubren todo el ciclo de vida del dato [0:12]:

Ingesta: servicios como Pub/Sub y Cloud IoT Core permiten recibir datos tanto en tiempo real como desde dispositivos IoT.
Procesamiento: Cloud Dataflow, Cloud Dataproc y Data Fusion ofrecen distintas alternativas para transformar y preparar los datos.
Almacenamiento y análisis: Cloud Storage para almacenamiento de objetos y BigQuery como data warehouse escalable.
Generación de insights: herramientas como Data Studio, Looker, Vertex AI, Connected Sheets y TensorFlow cubren desde reportería hasta modelos de machine learning.

Además, un Data Catalog centralizado gestiona toda la metadata del proceso, y un orquestador permite ejecutar el flujo end-to-end desde la ingesta hasta la obtención de resultados.

¿Por qué construir un data lake en GCP?

El valor de GCP no se limita a la escalabilidad y la seguridad del almacenamiento. La plataforma integra opciones de ingesta en tiempo real y batch, un sistema robusto de roles y perfiles para controlar accesos, y servicios de procesamiento como Dataflow, Dataproc y BigQuery que permiten analizar e innovar con rapidez [1:06].

¿Cómo luce una arquitectura de referencia desde on-premise hacia la nube?

Una migración típica parte de un entorno on-premise y sigue estos pasos [1:36]:

Ingesta de datos hacia GCP.
Procesamiento y transformación.
Almacenamiento en un data warehouse con capacidad de crear un sandbox para que los usuarios exploten la información de forma ágil.
Capa de business intelligence con Data Studio o Looker según la complejidad requerida.
Servicios para el equipo de data science como Vertex AI, Jupyter Notebooks y AutoML para simplificar la creación de modelos predictivos.

¿Qué herramientas de gobierno y seguridad ofrece GCP?

Tres servicios forman el núcleo del gobierno de datos en la plataforma [2:30]:

Cloud IAM: gestión de identidades, roles y permisos.
Data Catalog: registro centralizado de metadatos.
Data Loss Prevention (DLP): identificación y protección de datos sensibles.

¿Cómo funciona Data Loss Prevention para proteger información sensible?

DLP permite detectar automáticamente datos sensibles dentro de los registros que se ingestan, como números de tarjetas de crédito o información personal [3:22]. Sus capacidades principales son:

Inspección: localiza de forma automática campos sensibles en las cargas de datos.
Enmascaramiento y tokenización: una vez detectado el dato, se pueden aplicar diferentes técnicas de protección.
Reversibilidad: las llaves de seguridad quedan bajo el control de tu organización, lo que permite volver al dato original cuando sea necesario.

Por ejemplo, ante un número de tarjeta de crédito almacenado en Cloud Storage, se puede aplicar redacción (reemplazar por asteriscos), hashing (generar un código alfanumérico de longitud definida) o tokenización preservando el formato original pero con encriptación [4:06].

¿Qué papel cumple Data Catalog en la democratización de datos?

El Data Catalog permite que cualquier usuario autorizado busque y consulte los metadatos existentes en el data lake [4:55]. Este servicio extrae información de distintas fuentes, la procesa y la mantiene actualizada, proporcionando un control centralizado sobre los dominios de datos que se cargan periódicamente.

Un caso práctico es la combinación de Data Catalog con DLP para definir controles de acceso diferenciados [5:28]. Un rol del área de finanzas puede visualizar registros confidenciales de clientes, mientras que un rol de analista queda restringido a campos no sensibles como ubicación o montos agregados.

¿Cómo se gestiona el control de acceso con Cloud IAM?

Cloud IAM es el recurso que permite crear usuarios vinculados a tu organización o sincronizar un Active Directory existente con GCP [5:58]. Esto evita duplicar esquemas de seguridad y grupos en sistemas diferentes, manteniendo una única fuente de verdad para los permisos.

Si trabajas con datos sensibles y necesitas implementar gobierno de datos en la nube, comparte tu experiencia o dudas sobre cómo integrar estas herramientas en tu arquitectura.

Comentarios

Jorge Martínez Gómez

student•

Curso terrorífico, no se entiende nada.

Un curso donde se dice... para la búsqueda de insights.... y se queda tan pancho... las cosas hay que explicarlas, y es un ejemplo solo, es todo este vídeo y todos los demás.

El prestigio que se pierde al tener un curso de tan baja calidad hace preferible que no exista. Muy mal platzi, hay que revisar lo que se sube, no todo vale.

Ezequiel Bressan

student•

imposible explicar punto por punto porque es muy extenso. Deberias buscar cursos especificos este es muy general

Pedro Alvarez

student•

de acuerdo

David Carrevedo

student•

Cloud Data Loss prevention: descubrir, clasificar y redactar datos sensibles

Inspeccion: encontrar datos sensibles de forma automatica
Desidentificacion
Reidentificacion
Analisis de riesgo (k-anonymity) De esta forma logro que personas de una empresa, no puedan acceder a determianda informacion según su rol.

Data catalog: gestion de metadata

Poder hacer busquedas en base a los metadatos que hay en el datalake.

Cloud IAM: control de acceso

Crear usuarios
Sincronizar usuarios de otros sistemas

Pedro Alvarez

student•

Hasta ahora no he entendido nada y es lamentable

Wilbertson Mojica Cifuentes

student•

Erik alan Alvarez velazquez

student•

hoy sin duda ya lo entenderas

Jhon Freddy Tavera Blandon

student•

Una plataforma analítica completa y gobernada se refiere a un entorno donde se pueden almacenar, procesar, analizar y visualizar datos de manera integral y bajo un marco de gobierno que garantice la calidad, seguridad y privacidad de la información. Aquí hay algunos componentes clave que forman parte de una plataforma analítica completa y gobernada:

Almacenamiento de Datos: Incluye sistemas de almacenamiento escalables y seguros para datos estructurados, semiestructurados y no estructurados. Esto puede incluir data lakes, data warehouses, y sistemas de almacenamiento en la nube como Google Cloud Storage o Amazon S3.
Procesamiento de Datos: Herramientas y servicios para el procesamiento y transformación de datos, tanto en tiempo real como por lotes. Ejemplos incluyen Apache Spark, Apache Flink, Google Cloud Dataflow y servicios de ETL (Extract, Transform, Load) como Apache NiFi o Talend.
Gobernanza de Datos: Un marco de gobierno que abarca políticas, procesos y controles para garantizar la calidad, integridad, seguridad y privacidad de los datos. Esto puede incluir la gestión de metadatos, la catalogación de datos, el control de acceso, la auditoría y el cumplimiento normativo.
Integración de Datos: Herramientas y plataformas para integrar datos de diversas fuentes, como bases de datos, sistemas empresariales, aplicaciones en la nube y fuentes externas. Esto puede incluir herramientas de integración de datos empresariales (EII), APIs y conectores de datos.
Análisis y Business Intelligence (BI): Herramientas para realizar análisis avanzados, generar informes y crear paneles de control interactivos. Ejemplos incluyen Google Data Studio, Tableau, Power BI y herramientas de análisis predictivo como R y Python con bibliotecas como pandas y scikit-learn.
Seguridad y Privacidad: Capas de seguridad para proteger los datos sensibles, como encriptación, acceso basado en roles, monitoreo de actividad y cumplimiento de regulaciones como GDPR o HIPAA.
Automatización y Orquestación: Herramientas para automatizar tareas de procesamiento de datos, gestión de flujos de trabajo y programación de tareas recurrentes. Esto puede incluir herramientas de orquestación de flujos de trabajo como Apache Airflow, Apache Oozie o servicios de orquestación en la nube.
Escalabilidad y Rendimiento: Infraestructura y servicios que permiten escalar vertical y horizontalmente según las necesidades de procesamiento y análisis de datos.

crear data lakes en GCP proporciona una plataforma robusta, escalable y segura para almacenar, procesar y analizar grandes volúmenes de datos, permitiendo a las organizaciones obtener insights valiosos y tomar decisiones informadas basadas en datos.

RENÉ CARDOSO

student•

John Freddy, como siempre, agregando valor. Gracias por todos tus aportes.

Bryan Gómez

student•

Sería bueno que estos temas los dividan en videos a parte y se pueda ejemplificar cada parte porque no se entiende.

Victor Hugo Rondon Cordero

student•

no se por que estos cursos de nubes son tan generales y poco practicos, deberia estar mejor organizado empezar paso a paso y hacer ejemplos reales, pura teoría general que aveces ni se explica bien

José Ramón García

student•

Data Catalog es un servicio de administración de metadatos totalmente administrado en Google Cloud. Es decir, te permite organizar, descubrir, describir y buscar tus datos que están almacenados en diferentes servicios como BigQuery, Cloud Storage, Pub/Sub, etc.

Es como una “librería” centralizada donde puedes etiquetar, clasificar y buscar tus datasets, tablas, archivos, etc., sin importar dónde estén dentro de GCP.

Erik alan Alvarez velazquez

student•

gran aporte de este curso, varios conceptos interesantes y herramientas muy utiles.

Cristian Fabricio Rodriguez Romero

student•

Buen dia, tengo varias preguntas:

Cuando se habla de ingesta de datos, ¿se hace referencia a la carga de datos dentro de GCP?
Cuando se habla de flujo y procesamiento, ¿se hace referencia a transformación y limpieza de datos?
Abstrayendo un poco la estructura, ¿Se puede pensar en esta estructura como un ETL?(hablando en términos de similitud)donde:
1. Extracción: Es la ingesta de datos, carga y transferencia de los mismos a GCP
2. Transferencia: Donde en lugar de transferir los datos, se hace una limpieza y ordenamiento en GCP
3. Load: Donde en lugar de de cargar datos, se almacenan y consultan, mas no se usan.

David Anthony Barrientos Herrera

student•

Entonces que hago si mi data es ++hackeada++

Google Cloud Platform para Big Data: Arquitectura y Seguridad

Manejo de Big Data

Big Data y Machine Learning en Google Cloud Platform

Google Cloud y Big Data: Historia, Servicios y Aplicaciones Prácticas