Todo lo que aprenderás sobre Spark para Big Data

1/25
Recursos
Transcripción

¿Qué es Apache Spark?

Apache Spark es una potente herramienta que ha revolucionado el procesamiento de datos a gran escala. A menudo malinterpretado como un lenguaje de programación o erróneamente comparado con frameworks como pandas, vale la pena aclarar estos conceptos. A diferencia de pandas, Spark es un sistema de procesamiento distribuido diseñado para manejar grandes volúmenes de datos eficientemente. Al entender qué es Spark, estarás un paso adelante en el mundo del análisis de datos.

¿Por qué aprender a crear un ETL con Spark?

Los procesos ETL (Extracción, Transformación y Carga) son fundamentales en el ámbito empresarial, utilizados desde grandes bancos hasta pequeñas y medianas empresas (PyMEs). Aprender a implementar tus propios procesos ETL utilizando Spark te dará una ventaja competitiva en el mercado laboral. Aquí te dejamos las razones para usar Spark en tus ETLs:

  • Escalabilidad y velocidad: Ideal para manejar grandes volúmenes de datos de manera eficiente.
  • Compatibilidad: Funciona muy bien con arquitecturas basadas en la nube o en instalaciones en sitio.
  • Flexibilidad: Soporta múltiples lenguajes de programación incluyendo Python, Java y Scala.

¿Cuáles son las estructuras básicas de Spark?

Independientemente de tu nivel de experiencia, entender las estructuras básicas de Spark es esencial. En este curso introductor vamos a enfocar principalmente en:

  • RDDs (Resilient Distributed Datasets): Son la estructura fundamental de Spark, permitiendo operaciones de procesamiento paralelas y distribuidas.
  • DataFrames: Ofrecen una forma simplificada y optimizada de trabajar con datos estructurados.

Ambas estructuras son cruciales para realizar tareas como la limpieza de datos y manipulación básica, haciendo de Spark una herramienta versátil en diversas industrias.

¿Qué conocimientos previos se recomiendan?

Para sacar el máximo provecho de este curso, es ideal que tengas una base sólida en:

  • Programación Orientada a Objetos: Apache Spark opera bajo este paradigma, facilitando su comprensión si ya tienes experiencia.
  • SQL: Muchas de las funcionalidades de Spark están inspiradas en SQL, lo que puede facilitar tu aprendizaje.

¿Qué ejemplos prácticos utilizaremos en el curso?

Para hacer los conceptos más digeribles, utilizaremos datos históricos de las Olimpiadas modernas que comenzaron en 1896. Este conjunto de datos brinda un amplio espectro de registros que nos permitirá explorar y aplicar diversas funciones de Spark. Es una excelente oportunidad para ver en acción todo el potencial de esta tecnología en escenarios reales y complejos.

Te invitamos a unirte a este curso y sumergirte en el fascinante mundo de Apache Spark. Con cada módulo, ampliarás tus habilidades y te abrirás camino en el competitivo campo de los datos. ¡Continuemos aprendiendo juntos!

Aportes 16

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Hola, para los que comienzan el curso: Este es un curso que está orientado a Spark en Python, es decir PySpark. En el camino te encontrarás con complicaciones para configurar el ambiente, no te limites por eso. Configura en Google Colab y sigue el curso desde allí. Aquí un compañero te indica como: https://platzi.com/comentario/2309466/

Spark es útil y muy buscado sobretodo en Europa. Se utiliza constantemente con AWS junto con la funcionalidad de EMR. Este curso fue clave para conseguir mi actual trabajo. Ánimo y disfruta mucho el curso!

Aprovecho para invitarlos a unirse a las comunidades de Spark:
México
https://www.meetup.com/apache-spark-mexicocity/
Colombia
https://www.meetup.com/Apache-Spark-Bogota

Con mucho entusiasmo inicio este curso con ganas de aprender los fundamentos de Apache Spark

Comparto notas de clase

Me parece increíble que Platzi tenga un curso de Spark, todos me recomiendan aprender esto, que es el futuro

Me encantó la introducción :3

Desde el 2 de Febrero se creó la Unidad De Innovación y Transformación Digital en la empresa donde trabajo y uno de los desafios estrella es el relqcionado con Big Data por tanto estoy muy entusiasta y con mucha espectativa del presente curso.

Genial!!! Ya sé SQL y POO, estoy listo para tomar este curso!

Gracias por el curso!

😃

Hola!

Este curso está muy desactualizado, usa la versión 2.4 y ya vamos en la 3.5.1. El código que utiliza falla muchísimo por que muchas funciones ya están deprecated. Yo lo tuve que abandonar.

Por fin a empezar a este curso

No sabía que Platzi tenía curso de Spark. Curiosamente en mi trabajo usamos PySpark (y cuando entré no tenia ni idea >-<), vamos a ver este curso que más me puede aportar 😄

Si usas Windows, corre!

Vamos con toda!!!

Muy buen comienzo…! 😃