Apache Spark: Big Data no es lo que te contaron

Curso de Fundamentos de Spark para Big Data

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE

El mito

En años recientes escuchamos más y más el término Big Data en nuestras vidas. A veces un concepto se entiende por ejemplos sin necesidad de expresarlo formalmente en palabras, sin embargo, en sistemas esto es complicado ya que ¿cómo podemos entender algo que no vemos?

Hace unos años cuando me inicié en los temas de Big Data, la empresa que me otorgó mi primer trabajo, y por ende cambió mi vida, me capacitó con un curso de Cloudera, que es una de las empresas principales que dan vida al concepto de Big Data. La verdad casi me caigo de espaldas cuando vi que todos los conceptos relacionados al tratamiento de grandes datos era una aplicación intensiva de Linux, bases de datos y redes de datos.

Todo eso mató mi idea casi celestial de lo que para mí significaba trabajar con Big Data. Comprendí que es un concepto, una filosofía de pensamiento, y que Hadoop y Spark son la aplicación real de un concepto complicado, ya que un “gran dato” puede ser considerado como lo que mi computadora no puede procesar. Un “gran dato” puede ser el doble de tamaño de mi disco duro.

La luz en el camino

Es importante entender que por el año 2010 los sistemas informáticos empezaban a saturarse, y hablar de algunos teras o petabytes era hablar de ligas mayores y un gasto inmenso. En la actualidad un sistema moderado puede llegar a tener medio exabyte de información. En esas épocas existían muchos softwares que daban soluciones (todas muy tradicionales). Si estas estaban bien configuradas, o si se les dotaba de suficiente equipo de red y procesamiento, podían lidiar con los problemas.

Por lo que la pregunta es: ¿para qué aprender Spark y Hadoop?

Hadoop y Spark son las soluciones a problemas que en su tiempo escapaban de la capacidad de todos. Ambos comenzaron a reemplazar a los sistemas antiguos al dotarnos del más preciado regalo: MapReduce. Un algoritmo que al ser implementado permite distribuir datos y procesarlos en un clúster para poder realizar tareas que en un sistema de Business Intelligence tomaría días y que ahora puede solucionarse en horas.

Spark es el hijo estrella de la familia de Big Data, ya que esta tecnología es independiente del sistema de datos al no estar atado a nada, puede relacionarse con el ambiente que sea. De la misma forma, Spark puede combinarse con diferentes administradores de recursos, lo cual también permite que pueda comunicarse con varios sistemas y presentar status. Esto sin aumentar en extremo la curva de aprendizaje de los administradores y/o desarrolladores.

Los dos puntos anteriores son claros para una mentalidad moderna donde aceptamos que las cosas son cambiantes y conservarnos en un solo estado puede ser perjudicial. Pero además, Spark posee una serie de utilerías que lo hacen completo: módulos de Machine Learning y tecnologías de Streaming. Ambos nativos.

No más instalaciones adicionales, solo aprender a usar el API correctamente. En tecnologías como Hadoop debes instalar Mahout o TensorFlow, las cuales, aunque muy buenas, no son nativas, lo cual implica un aprendizaje adicional.

El Streaming, si jamás lo has usado, es una solución sumamente estética al manejo de datos en tiempo real en sistemas masivos. Previo a esto, se debía seguir una estructura de OLAP a OLTP. Con las tecnologías de Streaming este proceso es pequeño y menos costoso. Lo cual abre la puerta a nuevos esquemas de desarrollo como arquitecturas SMACK para sustituir procesos de ETL.

Tu curso: la puerta a Big Data

Este curso está diseñado (aparte de con mucho amor) para que comprendas cómo usar Spark de la forma más simple posible.

Con la liberación de Spark 3.0 en junio de 2020, Databricks liberó un libro nuevo para comprender las nuevas modificaciones o si eres nuevo, aprender Spark. Aunque en este curso usamos Spark 2.4.6, el curso considera casi la mitad del libro; el cual comprende el uso de RDD y DataFrames, sin los cuales la API resulta inútil.

Además, los ejercicios en clase y retos buscan demostrar que existen tareas en las cuales para obtener un solo resultado puede que des vueltas, tengas que procesar algunos datos otra vez e incluso adaptarse sobre la marcha. Lo cual ocurre muchas veces mientras trabajas en esta área.

Requisitos

Algunas cosas es probable que sepas de antemano, pero te recomiendo que revises la lista que te dejo para que asegures que el curso de Spark sea simple y divertido para ti:

¿Ya tienes experiencia previa en Business Intelligence o estás comenzando en Data Science y deseas darle un giro a tu vida? ¿Quieres aprender la vía del Big Data? ¿O quieres empezar con cursos de Data Analytics?

¡Te invito a este curso que con el equipo de Platzi hemos preparado para ti!

Curso de Fundamentos de Spark para Big Data

Toma las primeras clases gratis

COMPARTE ESTE ARTÍCULO Y MUESTRA LO QUE APRENDISTE