Curso de Hadoop

Curso de Hadoop

Benjamín Casazza

Benjamín Casazza

Introducción a Hadoop

2/22
Recursos

Aportes 9

Preguntas 3

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

Unas notas que tome de la clase:
Hadoop: Nos permite un gran a análisis de información (terabytes, gigas,…). Es un conjunto de herramientas, software libre, escalable, distribuido (la información esta en clusters) y confiable.
Big data: Explorar esta información a grandes velocidades.

¿Cómo surge Hadoop?
Comenzó como un motor de búsqueda (Doug Cutting). Se unió con Cloudera.

¿Elementos de Hadoop?
YARN, MapReduce,HDFS

¿Que es hadoop?
Un conjunto de herramientas de:
.

  • Software libre

  • Escalable (cluster de información que escalan horizontalmente)

  • Distribuido

  • Confiable al personalizar el uso y acceso de los usuarios

Recomiendo leer este pequeño artículo como complemento a la introducción a Hadoop:
https://www.analytics10.com/como-se-relaciona-big-data-y-hadoop-cloudera/
\

En éste se presenta la idea general del por qué, y que existen herramientas como Cloudera que extienden su funcionalidad.

Bien suena una herramienta importante en ciencia de datos

Es importante Hadoop ya que trabaja sobre map reduce. Grandes empresas como google lo tienen en su bosque de servidores, es ideal trabajar en un entorno distribuido

No me di cuenta que tenia el video en velocidad x1.5 y parece que habla normal. Intentenlo!!

Differences between Hadoop and Spark

Un poco de historia que el mismo Doug Cutting platica en este video.

Es que tomó inspitación de un par de artículos que publicó Google sobre su sistema de archivos distribuido (GFS) y su framework de procesamiento MapReduce con la idea de reimplementar estas tecnologías en OpenSource, super interesante!!.

Aqui dejo los articulos publicados por Google:
GFS
MapReduce

Resumen:
■■■■■■■

  • Hadoop es un conjunto de proyectos opensource orientados a trabajar el contexto de BigData, esto sucede dividiendo las responsabilidades del almacenamiento con HDFS (Hadoop Distribuited File Sytem) y MapReduce para el procesamiento.

  • Esta herramienta es útil para solucionar problemas que requieren procesar voluminosas cantidades de data, que pueden ser estructuradas, semi estructuradas, o sin ninguna estructura, data que se crea a muy alta velocidad. Es decir, mercados financieros, ciencia y medicina, y demás contextos que requieren analizar estos contextos de Big Data. Hadoop ataca el problema que se tiene sobre la la relación costo/beneficio en el escalamiento vertical, es decir, si se quería incrementar el poder de los servidores para procesar y almacenar toda esta data, era necesario mejorar el hardware,

  • El escalamiento horizontal permite distribuir la carga de trabajo a lo largo de diferentes máquinas. Doug Cutting empezó este proyecto con Nutch, inspirado originalmente en un paper de google sobre el almaceniamiento distribuido de google, con el pasar de los años encontró cabida en Yahoo para materialezar procesamientos a gran escala, y el logo fue basado en uno de los juguetes de su hijo, cuyo nombre era Hadoop.

Conceptos claves:

  • HDFS
  • YARN
  • MapReduce