Procesamiento de Datos con EMR en AWS

Clase 29 de 52Curso de Big Data en AWS

Resumen

Elastic MapReduce o EMR es un clúster en el cual podemos correr cargas muy grandes de trabajo.

  • Estos clusters son instancias de EC2 basadas en Hadoop.
  • Provee interacción con otros servicios de AWS como S3, RedShift, DynamoDB y Kinesis.
  • Contamos con acciones Bootstrap, estos son scripts que se van a ejecutar al iniciar un clúster.
  • Podemos ejecutar de manera ordenada distintos scripts utilizando Step.