Google Cloud Platform para big data

3/19
Recursos

Aportes 8

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Curso terrorífico, no se entiende nada.

Un curso donde se dice… para la búsqueda de insights… y se queda tan pancho… las cosas hay que explicarlas, y es un ejemplo solo, es todo este vídeo y todos los demás.

El prestigio que se pierde al tener un curso de tan baja calidad hace preferible que no exista. Muy mal platzi, hay que revisar lo que se sube, no todo vale.

Cloud Data Loss prevention: descubrir, clasificar y redactar datos sensibles

  • Inspeccion: encontrar datos sensibles de forma automatica
  • Desidentificacion
  • Reidentificacion
  • Analisis de riesgo (k-anonymity)
    De esta forma logro que personas de una empresa, no puedan acceder a determianda informacion según su rol.

Data catalog: gestion de metadata

  • Poder hacer busquedas en base a los metadatos que hay en el datalake.

Cloud IAM: control de acceso

  • Crear usuarios
  • Sincronizar usuarios de otros sistemas

Hasta ahora no he entendido nada y es lamentable

Sería bueno que estos temas los dividan en videos a parte y se pueda ejemplificar cada parte porque no se entiende.

gran aporte de este curso, varios conceptos interesantes y herramientas muy utiles.
Una plataforma analítica completa y gobernada se refiere a un entorno donde se pueden almacenar, procesar, analizar y visualizar datos de manera integral y bajo un marco de gobierno que garantice la calidad, seguridad y privacidad de la información. Aquí hay algunos componentes clave que forman parte de una plataforma analítica completa y gobernada: 1. **Almacenamiento de Datos:** Incluye sistemas de almacenamiento escalables y seguros para datos estructurados, semiestructurados y no estructurados. Esto puede incluir data lakes, data warehouses, y sistemas de almacenamiento en la nube como Google Cloud Storage o Amazon S3. 2. **Procesamiento de Datos:** Herramientas y servicios para el procesamiento y transformación de datos, tanto en tiempo real como por lotes. Ejemplos incluyen Apache Spark, Apache Flink, Google Cloud Dataflow y servicios de ETL (Extract, Transform, Load) como Apache NiFi o Talend. 3. **Gobernanza de Datos:** Un marco de gobierno que abarca políticas, procesos y controles para garantizar la calidad, integridad, seguridad y privacidad de los datos. Esto puede incluir la gestión de metadatos, la catalogación de datos, el control de acceso, la auditoría y el cumplimiento normativo. 4. **Integración de Datos:** Herramientas y plataformas para integrar datos de diversas fuentes, como bases de datos, sistemas empresariales, aplicaciones en la nube y fuentes externas. Esto puede incluir herramientas de integración de datos empresariales (EII), APIs y conectores de datos. 5. **Análisis y Business Intelligence (BI):** Herramientas para realizar análisis avanzados, generar informes y crear paneles de control interactivos. Ejemplos incluyen Google Data Studio, Tableau, Power BI y herramientas de análisis predictivo como R y Python con bibliotecas como pandas y scikit-learn. 6. **Seguridad y Privacidad:** Capas de seguridad para proteger los datos sensibles, como encriptación, acceso basado en roles, monitoreo de actividad y cumplimiento de regulaciones como GDPR o HIPAA. 7. **Automatización y Orquestación:** Herramientas para automatizar tareas de procesamiento de datos, gestión de flujos de trabajo y programación de tareas recurrentes. Esto puede incluir herramientas de orquestación de flujos de trabajo como Apache Airflow, Apache Oozie o servicios de orquestación en la nube. 8. **Escalabilidad y Rendimiento:** Infraestructura y servicios que permiten escalar vertical y horizontalmente según las necesidades de procesamiento y análisis de datos. crear data lakes en GCP proporciona una plataforma robusta, escalable y segura para almacenar, procesar y analizar grandes volúmenes de datos, permitiendo a las organizaciones obtener insights valiosos y tomar decisiones informadas basadas en datos.
Buen dia, tengo varias preguntas: 1. Cuando se habla de ingesta de datos, ¿se hace referencia a la carga de datos dentro de GCP? 2. Cuando se habla de flujo y procesamiento, ¿se hace referencia a transformación y limpieza de datos? 3. Abstrayendo un poco la estructura, ¿Se puede pensar en esta estructura como un ETL?(hablando en términos de similitud)donde: 1. Extracción: Es la ingesta de datos, carga y transferencia de los mismos a GCP 2. Transferencia: Donde en lugar de transferir los datos, se hace una limpieza y ordenamiento en GCP 3. Load: Donde en lugar de de cargar datos, se almacenan y consultan, mas no se usan.

Entonces que hago si mi data es hackeada