Bienvenida e introducción al curso

1

Iniciando con Big Data

2

Cloud Computing en proyectos de BigData

3

Introducción al manejo de datos en Cloud

4

Datos en Cloud

5

¿Qué nube debería utilizar en mi proyecto de Big Data?

Arquitecturas

6

Arquitecturas Lambda

7

Arquitectura Kappa

8

Arquitectura Batch

Extracción de información

9

Llevar tu información al cloud

10

Demo - Creando nuestro IDE en la nube con Python - Boto3

11

¿Cómo usar Boto3?

12

API Gateway

13

Storage Gateway

14

Kinesis Data Streams

15

Configuración de Kinesis Data Streams

16

Demo - Despegando Kinesis con Cloudformation

17

Kinesis Firehose

18

Demo - Configuración de Kinesis Firehose

19

Reto - Configurando Kinesis Firehose

20

AWS - MSK

21

Demo - Despliegue de un clúster con MSK

Transformación de Información

22

AWS - Glue

23

Demo - Instalando Apache Zeppelin

24

Creación del Developer Endpoint

25

Demo - Conectando nuestro developer Endpoint a nuestro Zeppelin Edpoint

26

Demo - Creando nuestro primer ETL - Crawling

27

Demo - Creando nuestro primer ETL - Ejecución

28

Demo - Creando nuestro primer ETL - Carga

29

AWS - EMR

30

Demo - Desplegando nuestro primer clúster con EMR

31

Demo - Conectándonos a Apache Zeppelin en EMR

32

Demo- Despliegue automático de EMR con cloudformation

33

AWS - Lambda

34

Ejemplos AWS- Lambda

35

Demo - Creando una lambda para BigData

Carga de Información

36

AWS - Athena

37

Demo - Consultando data con Athena

38

AWS - RedShift

39

Demo - Creando nuestro primer clúster de RedShift

40

AWS - Lake Formation

Consumo de información

41

AWS - ElasticSearch

42

Demo - Creando nuestro primer clúster de ElasticSearch

43

AWS - Kibana

44

AWS - QuickSight

45

Demo - Visualizando nuestra data con QuickSight

Seguridad, Orquestación y Automatización

46

Seguridad en los Datos

47

AWS Macie

48

Demo - Configurando AWS Macie

49

Apache Airflow

50

Demo - Creando nuestro primer clúster en Cloud Composer

51

Arquitectura de referencia

Clase pública

52

¿Qué es Big Data?

Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Curso de Big Data en AWS

Curso de Big Data en AWS

Carlos Andrés Zambrano Barrera

Carlos Andrés Zambrano Barrera

AWS Macie

47/52
Recursos
  • Es un servicio que se basa en técnicas de aprendizaje automático para descubrir, clasificar y proteger datos confidenciales de manera automática.
  • Es un servicio completamente administrado.
  • Cuenta con integración para S3.

Este servicio permite realizar muchos tipos de alertas, algunas de ellas son:

  • Location: Alerta sobre intentos de acceso a la información desde una ubicación desconocida.
  • Data Loss: Alerta sobre riesgos o anomalías de acceso a su data más importante.
  • Compliance: Va a mandar alerta si encuentra información sobre credenciales de acceso o tarjetas de crédito dentro del S3.

Aportes 10

Preguntas 0

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Macie es un servicio que examinará con Aprendizaje automático, 1) El detalle de nuestros datos almacenados en los diferentes archivos. 2) El comportamiento de los archivos (Lectura/Escritura extraña). 3) El comportamiento de los usuarios que interactúan con los datos (desde dónde se conectan y qué intentan hacer).

En el examen hay otro error en la pregunta relacionada al servicio de Macie, con esto serían 2 y dado que necesitas 27 correctas, lo pone muy difícil para aprobar si contestas correctamente por lo que te obliga a volver a hacer el examen y dudar de tus conocimientos, ojala lo arreglen.

AWS Macie es un servicio que se basa en técnicas de aprendizaje automático para conectarse a nuestras fuentes de datos y descubrir, clasificar y proteger datos confidenciales.
Es un servicio administrado que monitoriza la actividad de acceso a los datos en busca de anomalías y genera alertas.
Se encuentra completamente integrado en Amazon S3 para proteger los datos almacenados allí.

Tipos de alertas

  • Predictivas: Puede detectar cambios de lectura/escritura en un Bucket anómalos al comportamiento que ya ha aprendido antes.
  • Errores de compliance: Personally Identifiable Information (PII) o credenciales de acceso. Ayuda a tener una visualización completa de la información ingestada sobre si se viola alguna política de protección de información personal; es decir, si se ingresa por ejemplo datos de tarjetas de crédito, credenciales de acceso a cualquier plataforma, etc.
  • Disruption: Puede identificar cambios bruscos en los servicios que puedan afectar algún otro servicio dentro de BigData. Nos dará una visión completa de los servicios aparte de la visión que nos otorga de los datos.
  • Ransomware: Detecta si tenemos software potencialmente malintencionado en archivos o de cualquier otra manera.
  • Suspicious: Detecta accessos a los recursos desde direcciones IP o desde sistemas sospechosos.
  • Privileges: Identifica intentos de un usuario/rol para obtener privilegios elevados.
  • Anonymous: Detecta accesos a los recursos tratando de ocultarse tras una identidad verdadera.
  • Permissions: Identifica recursos sensibles de acuerdo a las políticas permisivas y nos sugiere corregir dichos problemas de permisos.
  • Data Loss: Detecta anomalías de acceso o riesgos de perder información importante.
  • Credential: Identifica credenciales de acceso comprometidas; pues si AWS Macie puede leer esas credenciales, claramente es una violación al Data Compliance.
  • Location: Detecta intentos de acceso a la información desde una ubicación desconocida.
  • Hosting: Previene el almacenamiento de software riesgoso o malintencionado.

Primeramente, inscribimos nuestra cuenta de AWS con Amazon Macie, luego seleccionamos los Buckets en donde se clasifica la información, y por último, empezamos a detectar las alertas. Estas alertas se pueden integrar con múltiples servicios y nos dan una visualización completa de:

  1. Nuestros datos en AWS, el detalle de ellos, como archivo, qué hay dentro del archivo.
  2. El comportamiento de los archivos, comportamiento de escritura/lectura.
  3. El comportamiento de los usuarios que interactúan con los datos.

MACIE pertenece a la categoria de Security, Identity, & Compliance

Este servicio permite realizar muchos tipos de alertas, algunas de ellas son:

Location: Alerta sobre intentos de acceso a la información desde una ubicación desconocida.
Data Loss: Alerta sobre riesgos o anomalías de acceso a su data más importante.
Compliance: Va a mandar alerta si encuentra información sobre credenciales de acceso o tarjetas de crédito dentro del S3.

Carlos, el tema de MACIE por lo importante en la seguridad y lo extenso de sus utilidad, podrías preparar un curso exclusivo de AWS-MACIE.

**AWS Macie

Tipos de alertas:
**
• Predictivas: Lectura/Escritura en un bucket anomalos.
• Compliance: Personally Identifiable Information (PII) o credenciales de acceso. Tener datos que no corresponden al data compliance.
• Disruption: Cambios de configuración que puedan afectar un servicio.
• Ransomware: Detecta software potencialmente malintencionado.
• Suspicious: Accesos a sus recursos desde IP o sistemas sospechosos.
• Privileges: Identifica intentos de un usuario/role para obtener privilegios elevados.
• Anonymous: Acceso a los recursos tratando de ocultarse tras una identidad verdadera.
• Permissions: Identifica recursos sensibles de acuerdo a sus políticas permisivas.
• Data Loss: Riesgos o anomalías de acceso a su data más importante
• Credential: Credenciales de acceso comprometidas.
• Location: Intentos de acceso a la información desde una ubicación desconocida.
• Hosting: Almacenamiento de software riesgoso o malintencionado.

Es un servicio que se basa en técnicas de aprendizaje automático para descubrir, clasificar y proteger datos confidenciales de manera automática.
Es un servicio completamente administrado.
Cuenta con integración para S3.

En el examen viene la siguiente pregunta:
¿Cuál alerta utilizarías para identificar que un usuario ha subido información confidencial de tarjetas de crédito a un bucket de S3? data-loss y permissions son incorrectas,
Ya que • Credential: Credenciales de acceso comprometidas.
y • Suspicious: Accesos a sus recursos desde IP o sistemas sospechosos.
¿Cuál es la opción correcta entonces?

una herramienta muy versátil