Que es Map reduce? Es necesario saber scala para saber hadoop?

Pregunta de la clase:
Lo que aprenderás sobre Hadoop
Roberto Espinoza

Roberto Espinoza

Pregunta
studenthace 4 años

Que es Map reduce? Es necesario saber scala para saber hadoop?

3 respuestas
para escribir tu comentario
    Benjamín Casazza

    Benjamín Casazza

    teacherhace 4 años

    Creo que depende, por que cuando hablamos de spark son otras configuraciones inlcusive se opta mas por el rendimiento y velocidad sin embargo con hadoop, se opta por el almacenamiento masivo por su sistema de hdfs y evidentemente no estan peleados, de cierta forma se pueden llegar a usar ambos dependiendo de las necesidades del proyecto.

    Roberto Espinoza

    Roberto Espinoza

    studenthace 4 años

    Muchas gracias Benjamin. Quiero finalizar con lo siguiente: Es posible poder emplear en un esquema de datos tanto Apache Spark como Hadoop?

    Benjamín Casazza

    Benjamín Casazza

    teacherhace 4 años

    Hola axelrob! Map reduce como lo vemos en el curso es un algoritmo que permite dividir tareas básicamente, en otras palabras es un proceso dentro de hadoop. Para aclarar lo de Scala es importante saber que Hadoop es todo un entorno de tecnologias y a la vez donde se van guardando nuestros datos conocido como HDFS o Hadoop Distribuited File System donde puedes usar otro tipo de herramientas como scala o python ya sea para leer o manipular esos archivos.

Curso de Hadoop

Curso de Hadoop

Hadoop es el framework que te permite realizar un procesamiento distribuido de grandes conjuntos de datos por grupos de computadoras con una programación sencilla. Está diseñado para escalar de unos cuantos servidores a miles, sin depender del hardware, ofreciendo una alta disponibilidad y siendo capaz de manejar petabytes de información. Todo este poder hace que compañías como eBay, Facebook, Mercado Libre y Twitter lo utilicen.

Curso de Hadoop
Curso de Hadoop

Curso de Hadoop

Hadoop es el framework que te permite realizar un procesamiento distribuido de grandes conjuntos de datos por grupos de computadoras con una programación sencilla. Está diseñado para escalar de unos cuantos servidores a miles, sin depender del hardware, ofreciendo una alta disponibilidad y siendo capaz de manejar petabytes de información. Todo este poder hace que compañías como eBay, Facebook, Mercado Libre y Twitter lo utilicen.