47

Apache Spark: Big Data no es lo que te contaron

324Puntos

hace 2 meses

Curso Introductorio de Spark
Curso Introductorio de Spark

Curso Introductorio de Spark

Spark es el motor que te permitirá procesar datos a gran escala, gracias a su velocidad y fácil uso. Su compatibilidad con lenguajes como Java, Scala, Python, R, SQL y diversos entornos en la nube lo hace ideal para desempeñarse en tareas en Machine Learning o Data Science. Empresas como Uber, Shopify y Slack aprovechan todo este potecial que ahora podrás llevar a tus proyectos mediante el uso de RDDs (Resillient Distribuited Datasets) y DataFrames.

El mito

En años recientes escuchamos más y más el término Big Data en nuestras vidas. A veces un concepto se entiende por ejemplos sin necesidad de expresarlo formalmente en palabras, sin embargo, en sistemas esto es complicado ya que ¿cómo podemos entender algo que no vemos?

Hace unos años cuando me inicié en los temas de Big Data, la empresa que me otorgó mi primer trabajo, y por ende cambió mi vida, me capacitó con un curso de Cloudera, que es una de las empresas principales que dan vida al concepto de Big Data. La verdad casi me caigo de espaldas cuando vi que todos los conceptos relacionados al tratamiento de grandes datos era una aplicación intensiva de Linux, bases de datos y redes de datos.

Todo eso mató mi idea casi celestial de lo que para mí significaba trabajar con Big Data. Comprendí que es un concepto, una filosofía de pensamiento, y que Hadoop y Spark son la aplicación real de un concepto complicado, ya que un “gran dato” puede ser considerado como lo que mi computadora no puede procesar. Un “gran dato” puede ser el doble de tamaño de mi disco duro.

La luz en el camino

Es importante entender que por el año 2010 los sistemas informáticos empezaban a saturarse, y hablar de algunos teras o petabytes era hablar de ligas mayores y un gasto inmenso. En la actualidad un sistema moderado puede llegar a tener medio exabyte de información. En esas épocas existían muchos softwares que daban soluciones (todas muy tradicionales). Si estas estaban bien configuradas, o si se les dotaba de suficiente equipo de red y procesamiento, podían lidiar con los problemas.

Por lo que la pregunta es: ¿para qué aprender Spark y Hadoop?

Hadoop y Spark son las soluciones a problemas que en su tiempo escapaban de la capacidad de todos. Ambos comenzaron a reemplazar a los sistemas antiguos al dotarnos del más preciado regalo: MapReduce. Un algoritmo que al ser implementado permite distribuir datos y procesarlos en un clúster para poder realizar tareas que en un sistema de Business Intelligence tomaría días y que ahora puede solucionarse en horas.

Spark es el hijo estrella de la familia de Big Data, ya que esta tecnología es independiente del sistema de datos al no estar atado a nada, puede relacionarse con el ambiente que sea. De la misma forma, Spark puede combinarse con diferentes administradores de recursos, lo cual también permite que pueda comunicarse con varios sistemas y presentar status. Esto sin aumentar en extremo la curva de aprendizaje de los administradores y/o desarrolladores.

Los dos puntos anteriores son claros para una mentalidad moderna donde aceptamos que las cosas son cambiantes y conservarnos en un solo estado puede ser perjudicial. Pero además, Spark posee una serie de utilerías que lo hacen completo: módulos de Machine Learning y tecnologías de Streaming. Ambos nativos.

No más instalaciones adicionales, solo aprender a usar el API correctamente. En tecnologías como Hadoop debes instalar Mahout o TensorFlow, las cuales, aunque muy buenas, no son nativas, lo cual implica un aprendizaje adicional.

El Streaming, si jamás lo has usado, es una solución sumamente estética al manejo de datos en tiempo real en sistemas masivos. Previo a esto, se debía seguir una estructura de OLAP a OLTP. Con las tecnologías de Streaming este proceso es pequeño y menos costoso. Lo cual abre la puerta a nuevos esquemas de desarrollo como arquitecturas SMACK para sustituir procesos de ETL.

Tu curso: la puerta a Big Data

Este curso está diseñado (aparte de con mucho amor) para que comprendas cómo usar Spark de la forma más simple posible.

Con la liberación de Spark 3.0 en junio de 2020, Databricks liberó un libro nuevo para comprender las nuevas modificaciones o si eres nuevo, aprender Spark. Aunque en este curso usamos Spark 2.4.6, el curso considera casi la mitad del libro; el cual comprende el uso de RDD y DataFrames, sin los cuales la API resulta inútil.

Además, los ejercicios en clase y retos buscan demostrar que existen tareas en las cuales para obtener un solo resultado puede que des vueltas, tengas que procesar algunos datos otra vez e incluso adaptarse sobre la marcha. Lo cual ocurre muchas veces mientras trabajas en esta área.

Requisitos

Algunas cosas es probable que sepas de antemano, pero te recomiendo que revises la lista que te dejo para que asegures que el curso de Spark sea simple y divertido para ti:


¿Ya tienes experiencia previa en Business Intelligence o estás comenzando en Data Science y deseas darle un giro a tu vida? ¿Quieres aprender la vía del Big Data?

¡Te invito a este curso que con el equipo de Platzi hemos preparado para ti!

Curso Introductorio de Spark
Curso Introductorio de Spark

Curso Introductorio de Spark

Spark es el motor que te permitirá procesar datos a gran escala, gracias a su velocidad y fácil uso. Su compatibilidad con lenguajes como Java, Scala, Python, R, SQL y diversos entornos en la nube lo hace ideal para desempeñarse en tareas en Machine Learning o Data Science. Empresas como Uber, Shopify y Slack aprovechan todo este potecial que ahora podrás llevar a tus proyectos mediante el uso de RDDs (Resillient Distribuited Datasets) y DataFrames.
Óscar
Óscar
@Ator97

324Puntos

hace 2 meses

Todas sus entradas
Escribe tu comentario
+ 2
Ordenar por:
6
3697Puntos

Tantos cursos por llevar, porque el día solo tiene 24 horas 😕

3
2 meses

Ánimo compañero. Paso a paso, con constancia y compromiso lograremos sacarle todo el provecho a esta plataforma! 😉

3
4067Puntos
2 meses

A veces me siento igual con tanto conocimiento por asimilar 😃

1
66Puntos
2 meses

Uff! Me apunto otro para hacer. ¡Ya no veo el final de la lista! 😉

2

Gracias Óscar. Cada vez se pone más interesante la ruta, espero que llegue pronto el momento de tomar el curso de Spark … Me siento entusiasmada! 🤓

1
324Puntos
2 meses

Eso es todo Carolina!

Estaré esperando tus preguntas y comentarios cuando llegues al curso 😉

1
9956Puntos

Que conocimientos necesito para llevar un curso de Hadoop o Spark??

Hasta donde sé al menos debes saber de Bases de datos pero, también escucho terminos como data Warehouse o data lake y no entiendo bien que significan.

Saludos!

1
6887Puntos

¡Fantástico!
Ahora más claro el camino a recorrer 😃

1

Excelente, lo que estaba buscando, algo básico pero actualizado curso introductorio para introducir al mundo de la ciencia de datos
Otro dato adicional como sugerencia para Platzi, deberían tener una guía para cada necesidad del estudiante con los cursos qye está buscando y debe tomarlo antes de seguir con otro y profesionalizarlo en algo específico que el estudiante está buscando