Contenido del curso

Bienvenida e introducción al curso

Arquitecturas

Extracción de información

Transformación de Información

Carga de Información

Consumo de información

Seguridad, Orquestación y Automatización

Clase pública

52
Las cinco B de big data explicadas
01:44 min

Tomar examen

Cómo AWS Macie protege datos en S3

Resumen

Protege datos en S3 con AWS Macie usando aprendizaje automático y alertas que entienden el comportamiento real de tu información. Sin configuraciones complejas, este servicio completamente administrado clasifica datos sensibles, detecta anomalías y te ayuda a cumplir con data compliance en entornos de Big Data.

¿Qué es AWS Macie y cómo protege datos en S3?

AWS Macie se conecta a S3 para descubrir, clasificar y proteger datos confidenciales usando patrones y aprendizaje histórico. Aprende del volumen y los accesos diarios para crear una línea base y generar alertas basadas en anomalías cuando algo cambia de forma significativa.

Integra nativamente con S3 para escanear objetos y carpetas.
Clasifica información sensible como credenciales o tarjetas de crédito.
Aprende del comportamiento de lectura/escritura y de los usuarios.
Permite actuar rápido ante riesgos de seguridad y cumplimiento.

Ejemplo práctico: si normalmente ingresas datos de un millón de usuarios y al día siguiente llegan dos millones, Macie avisa por comportamiento anómalo. También si antes escribías cien mil objetos por día y ahora doscientos, puede señalar un error en la ingesta.

¿Qué tipos de alertas ofrece y para qué sirven?

Las alertas son el núcleo de Macie: detectan cambios, accesos inusuales y riesgos sobre datos, permisos y usuarios. Ayudan a prevenir incidentes y a corregir fallas de configuración antes de que escalen.

¿Cómo funcionan las alertas predictivas y de compliance?

Predictivas: cambios anómalos en lectura/escritura respecto al histórico aprendido.
Compliance: exposición de datos sensibles como tarjetas de crédito o credenciales de AWS, indicando bucket, carpeta y archivo (por ejemplo: uno,dos,tres.json).
Disruption: cambios bruscos en servicios que pueden afectar otros procesos de Big Data.

¿Qué amenazas y accesos anómalos detecta?

Ransomware: archivos potencialmente malintencionados almacenados en S3.
Suspicious: intentos de acceso desde IPs desconocidas o ubicaciones inusuales.
Location: casos como un usuario que usualmente opera desde Colombia y súbitamente accede desde otro país.

¿Cómo gestiona privilegios, permisos y pérdida de datos?

Privilegios: intentos repetidos de ejecutar acciones sin permisos para escalar privilegios.
Anonymous: acceso intentando suplantar identidades o entidades legítimas.
Permissions: problemas en políticas o permisos sobre datos.
Data loss: riesgos de pérdida de datos detectados proactivamente.
Credential: credenciales almacenadas en S3 que violan compliance.
Hosting: uso del almacenamiento para guardar código malicioso.

¿Cómo implementarlo y qué visibilidad aporta?

La habilitación es directa: inscribe tu cuenta, selecciona los buckets a clasificar y comienza a recibir alertas integrables con otros servicios. Desde allí, obtienes una visión completa del dato, su comportamiento y quién lo toca.

Paso 1: inscribir y habilitar la cuenta para AWS Macie.
Paso 2: seleccionar los buckets donde se clasificará la información.
Paso 3: activar e integrar alertas con tus flujos operativos.

Tres niveles de visibilidad clave:

Del dato: detalle a nivel de archivo y contenido sensible.
Del comportamiento de archivos: patrones de escritura/lectura y anomalías.
De los usuarios: origen de conexión, acciones intentadas y accesos inusuales.

Habilidades que refuerzas al usar Macie:

Identificar y clasificar datos sensibles en S3 con precisión.
Interpretar alertas de anomalías y corregir fallas de ingesta.
Mejorar permissions y reducir riesgos de escalamiento de privilegios.
Prevenir exposición de credenciales y pérdida de datos.

¿Tienes un caso de uso en S3 que quieras proteger con alertas inteligentes? Cuéntalo y comentemos cómo configurar Macie para tus buckets y equipos.

Comentarios

Darvin Orozco

student•

Macie es un servicio que examinará con Aprendizaje automático, 1) El detalle de nuestros datos ++almacenados++ en los diferentes archivos. 2) El ++comportamiento de los archivos++ (Lectura/Escritura extraña). 3) El comportamiento de los usuarios que interactúan con los datos (desde dónde se conectan y qué intentan hacer).

Juan David Cajamarca Acuña

student•

AWS Macie es un servicio que se basa en técnicas de aprendizaje automático para conectarse a nuestras fuentes de datos y descubrir, clasificar y proteger datos confidenciales. Es un servicio administrado que monitoriza la actividad de acceso a los datos en busca de anomalías y genera alertas. Se encuentra completamente integrado en Amazon S3 para proteger los datos almacenados allí.

Tipos de alertas

Predictivas: Puede detectar cambios de lectura/escritura en un Bucket anómalos al comportamiento que ya ha aprendido antes.
Errores de compliance: Personally Identifiable Information (PII) o credenciales de acceso. Ayuda a tener una visualización completa de la información ingestada sobre si se viola alguna política de protección de información personal; es decir, si se ingresa por ejemplo datos de tarjetas de crédito, credenciales de acceso a cualquier plataforma, etc.
Disruption: Puede identificar cambios bruscos en los servicios que puedan afectar algún otro servicio dentro de BigData. Nos dará una visión completa de los servicios aparte de la visión que nos otorga de los datos.
Ransomware: Detecta si tenemos software potencialmente malintencionado en archivos o de cualquier otra manera.
Suspicious: Detecta accessos a los recursos desde direcciones IP o desde sistemas sospechosos.
Privileges: Identifica intentos de un usuario/rol para obtener privilegios elevados.
Anonymous: Detecta accesos a los recursos tratando de ocultarse tras una identidad verdadera.
Permissions: Identifica recursos sensibles de acuerdo a las políticas permisivas y nos sugiere corregir dichos problemas de permisos.
Data Loss: Detecta anomalías de acceso o riesgos de perder información importante.
Credential: Identifica credenciales de acceso comprometidas; pues si AWS Macie puede leer esas credenciales, claramente es una violación al Data Compliance.
Location: Detecta intentos de acceso a la información desde una ubicación desconocida.
Hosting: Previene el almacenamiento de software riesgoso o malintencionado.

Primeramente, inscribimos nuestra cuenta de AWS con Amazon Macie, luego seleccionamos los Buckets en donde se clasifica la información, y por último, empezamos a detectar las alertas. Estas alertas se pueden integrar con múltiples servicios y nos dan una visualización completa de:

Nuestros datos en AWS, el detalle de ellos, como archivo, qué hay dentro del archivo.
El comportamiento de los archivos, comportamiento de escritura/lectura.
El comportamiento de los usuarios que interactúan con los datos.

Ricardo Villalobos Martínez

student•

En el examen hay otro error en la pregunta relacionada al servicio de Macie, con esto serían 2 y dado que necesitas 27 correctas, lo pone muy difícil para aprobar si contestas correctamente por lo que te obliga a volver a hacer el examen y dudar de tus conocimientos, ojala lo arreglen.

Ixcoatl Francisco Pérez

student•

Totalmente de acuerdo, las clases son muy buenas, pero en los exámenes de AWS tienen errores, no solo de este curso, ya he mencionado el tema con Carlos... ojalá arreglen el tema ...

Milton Garcia

student•

En el examen viene la siguiente pregunta: ¿Cuál alerta utilizarías para identificar que un usuario ha subido información confidencial de tarjetas de crédito a un bucket de S3? data-loss y permissions son incorrectas, Ya que • Credential: Credenciales de acceso comprometidas. y • Suspicious: Accesos a sus recursos desde IP o sistemas sospechosos. ¿Cuál es la opción correcta entonces?

Usuario anónimo

user•

Es como si Macie abarcará la mayoría de eventos de riesgo o peligro para los datos, y automáticamente diera una respuesta, por herramientas como esta AWS esta ganando muchos clientes

john ct

student•

MACIE pertenece a la categoria de Security, Identity, & Compliance

john ct

student•

Amazon Macie is a fully managed data security and data privacy service that uses machine learning and pattern matching to discover, classify, and help you protect your sensitive data in Amazon S3.

john ct

student•

Macie enables you to be proactive with security compliance and preventive security as follows:

Identify a variety of data types, including PII, Protected Health Information (PHI), regulatory documents, and private keys

Detect changes to policies and access control lists

Continuously monitor the security posture of your Amazon S3 data

Generate security findings that you can review using the Amazon Macie console, the Amazon Macie API, AWS Security Hub, or Amazon EventBridge

Manage multiple AWS accounts by using AWS Organizations

Usuario anónimo

user•

Este servicio permite realizar muchos tipos de alertas, algunas de ellas son:

Location: Alerta sobre intentos de acceso a la información desde una ubicación desconocida. Data Loss: Alerta sobre riesgos o anomalías de acceso a su data más importante. Compliance: Va a mandar alerta si encuentra información sobre credenciales de acceso o tarjetas de crédito dentro del S3.

Andres Camilo Graciano Higuita

student•

Amazon Macie utiliza técnicas de aprendizaje automático para analizar datos en S3, identificando y clasificando información sensible, como datos de tarjetas de crédito o credenciales. Al aprender patrones de comportamiento en los datos, puede detectar anomalías y generar alertas. Su precisión frente a datos no estructurados depende de la calidad del modelo entrenado y los datos de entrada. Generalmente, Macie es eficaz en la protección de datos, aunque el rendimiento puede variar según la complejidad y variedad de los datos no estructurados.

Andres Camilo Graciano Higuita

student•

Una estrategia efectiva para combinar Amazon Macie con IAM y CloudTrail incluye:

IAM: Configura políticas de acceso granulares para asegurar que solo usuarios autorizados accedan a los datos sensibles clasificados por Macie. Esto minimiza el riesgo de accesos no autorizados.
CloudTrail: Activa CloudTrail para registrar todas las llamadas a la API relacionadas con los datos. Esto proporciona un historial de auditoría que puedes correlacionar con alertas de Macie sobre actividades sospechosas.
Integración: Usa las alertas de Macie para activar revisiones de acceso basadas en los registros de CloudTrail, permitiendo una respuesta rápida ante posibles infracciones.

Implementar esta combinación asegura una supervisión integral de la seguridad de los datos en AWS.

Mario Alexander Vargas Celis

student•

AWS Macie es un servicio de seguridad de datos basado en Machine Learning que ayuda a identificar, clasificar y proteger datos confidenciales en Amazon S3.

Características principales de AWS Macie:

✅ Descubrimiento de datos sensibles: Detecta automáticamente información confidencial, como datos personales (PII) o información financiera. ✅ Clasificación y etiquetado: Organiza los datos según su nivel de sensibilidad. ✅ Monitoreo y alertas: Identifica actividades sospechosas o accesos no autorizados a datos en S3. ✅ Cumplimiento y auditoría: Ayuda a cumplir con regulaciones como GDPR, HIPAA y PCI DSS.

Casos de uso:

Empresas con grandes volúmenes de datos en S3 que necesitan identificar y proteger información sensible.
Auditorías de seguridad y cumplimiento normativo.
Protección contra accesos no autorizados o fugas de datos.

Ixcoatl Francisco Pérez

student•

Carlos, el tema de MACIE por lo importante en la seguridad y lo extenso de sus utilidad, podrías preparar un curso exclusivo de AWS-MACIE.

Milton Garcia

student•

**AWS Macie

Tipos de alertas: ** • Predictivas: Lectura/Escritura en un bucket anomalos. • Compliance: Personally Identifiable Information (PII) o credenciales de acceso. Tener datos que no corresponden al data compliance. • Disruption: Cambios de configuración que puedan afectar un servicio. • Ransomware: Detecta software potencialmente malintencionado. • Suspicious: Accesos a sus recursos desde IP o sistemas sospechosos. • Privileges: Identifica intentos de un usuario/role para obtener privilegios elevados. • Anonymous: Acceso a los recursos tratando de ocultarse tras una identidad verdadera. • Permissions: Identifica recursos sensibles de acuerdo a sus políticas permisivas. • Data Loss: Riesgos o anomalías de acceso a su data más importante • Credential: Credenciales de acceso comprometidas. • Location: Intentos de acceso a la información desde una ubicación desconocida. • Hosting: Almacenamiento de software riesgoso o malintencionado.

Usuario anónimo

user•

Es un servicio que se basa en técnicas de aprendizaje automático para descubrir, clasificar y proteger datos confidenciales de manera automática. Es un servicio completamente administrado. Cuenta con integración para S3.

Usuario anónimo

user•

AWS Macie, perfect.

Usuario anónimo

user•

AWS Macie -> S3, perfect!!

Usuario anónimo

user•

Wow casi que es obligatorio tener AWS Macie!

Usuario anónimo

user•

Credentials!! -> Credit card

Usuario anónimo

user•

Macie: Servicio de técnicas de aprendizaje automático para descubrir, clasificar y proteger datos confidenciales automáticamente.

Monitoriza la actividad y busca anomalías y genera alertas. tambien hace lo mismo en la lectura y escritura. en las credenciales de acceso.

Detecta archivos ransomware, analiza las ip sospechosas, identifica roles extraños. Acceso anonymous. Indica cuando hay problemas de permisos.

Carlos Javier Guevara Contreras

student•

una herramienta muy versátil

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS