Transformación de Datos con AWS Glue: ETL y Catálogo de Metadatos

Clase 22 de 52Curso de Big Data en AWS

Resumen

Dentro de este módulo vamos a ver las herramientas que proporciona la nube de AWS para poder transformar nuestra data.

Algunas características de Glue:

  • Servicio totalmente administrado para implementar ETL (Extract, Transform, Load).
  • Provee un contexto para trabajar basados en Python, Spark y Scala.
  • Se encarga de crear catálogos de metadatos para que otros servicios puedan consultar la información.
  • Utiliza unidades de procesamiento llamadas DPU equivalente a 4 vCPU y 16GB RAM.
  • Los Crawler van a escanear e identificar la información para ponerla en el catálogo.
  • Los Classifier van a clasificar la data para ponerla en el catálogo.