Cursos Empresas Blog Live Conf Precios

Fundamentos de Apache Spark: ETL y Limpieza de Datos

Clase 1 de 25 • Curso de Fundamentos de Spark para Big Data

Contenido del curso

Conociendo Apache Spark

Configuración

Operaciones RDDs

Data Frames y SQL

Persistencia y particionado

Conclusiones

25
Uso de RDDs y DataFrames en Apache Spark
01:12 min

Resumen

Aprender a procesar grandes volúmenes de datos es una de las competencias más demandadas en la industria tecnológica actual. Apache Spark se posiciona como una de las herramientas más potentes para lograrlo, y comprender sus fundamentos marca la diferencia entre un perfil técnico promedio y uno altamente competitivo.

¿Qué es Apache Spark y por qué no es lo que muchos creen?

Uno de los errores más comunes al acercarse a Spark es confundirlo con un lenguaje de programación o compararlo directamente con frameworks como Pandas [0:30]. Spark no es ni lo uno ni lo otro. Se trata de un framework de procesamiento distribuido diseñado para trabajar con grandes datos (big data). Su arquitectura está pensada para escalar horizontalmente, lo que le permite manejar volúmenes de información que herramientas tradicionales simplemente no pueden abordar con la misma eficiencia.

Entender esta distinción desde el inicio es fundamental para aprovechar correctamente sus capacidades y no aplicarlo en contextos donde otras herramientas serían más adecuadas.

¿Cómo crear un ETL con Spark?

El término ETL significa Extract, Transform, Load (extraer, transformar y cargar) [0:48]. Es un proceso mediante el cual se extraen datos de diversas fuentes, se transforman aplicando reglas de negocio o limpieza, y finalmente se entregan procesados y listos para su consumo.

Los ETL están presentes en todas las industrias: bancos, aseguradoras y pequeñas pymes los utilizan a diario.
Saber construir un ETL con Spark representa una ventaja competitiva significativa en el mercado laboral.
Spark permite automatizar y escalar estos procesos de forma eficiente gracias a su motor de procesamiento distribuido.

Dominar la creación de pipelines ETL con esta tecnología es una habilidad que abre puertas en roles como ingeniero de datos, analista de big data y consultor de datos.

¿Cuáles son las estructuras fundamentales de Spark?

Dos estructuras constituyen la base para trabajar con Spark y son el punto de partida para cualquier persona que se inicia en esta tecnología [1:13].

¿Qué son los RDDs?

Los RDDs (Resilient Distributed Datasets) son la estructura de datos más básica de Spark. Representan colecciones distribuidas de elementos que pueden procesarse en paralelo. Su carácter resiliente significa que pueden recuperarse ante fallos, lo que garantiza la tolerancia a errores en el procesamiento.

¿Qué son los DataFrames en Spark?

Los DataFrames son una abstracción de nivel superior que organiza los datos en columnas con nombre, de forma similar a una tabla en una base de datos relacional. Quienes tienen experiencia con SQL encontrarán que muchas funcionalidades de Spark están directamente inspiradas en este lenguaje [1:40], lo que facilita enormemente la curva de aprendizaje.

¿Por qué es importante la limpieza de datos?

Además de las estructuras, la limpieza de datos es un componente esencial [1:22]. Los datos del mundo real suelen llegar incompletos, duplicados o con formatos inconsistentes. Spark ofrece herramientas integradas para detectar y corregir estos problemas antes de que los datos sean utilizados en análisis o modelos.

¿Qué conocimientos previos se necesitan para aprender Spark?

Para aprovechar al máximo el aprendizaje, se recomienda contar con bases sólidas en:

Programación orientada a objetos: Spark opera bajo este paradigma, por lo que comprender conceptos como clases, herencia y polimorfismo es imprescindible [1:30].
SQL: gran parte de la sintaxis y las operaciones de Spark se inspiran en SQL, lo que hace que la transición sea natural para quienes ya lo dominan.

Como dato práctico, los ejercicios utilizan datos históricos de las olimpiadas modernas desde 1896 [1:55], un conjunto de datos lo suficientemente amplio y variado para explorar las capacidades reales de Spark en escenarios de procesamiento de información.

Si ya tienes experiencia con bases de datos o con programación orientada a objetos, este es el momento ideal para dar el salto al procesamiento de grandes datos con Apache Spark. ¿Qué caso de uso te gustaría resolver con esta tecnología? Comparte tu experiencia en los comentarios.

Obtén respuestas inmediatasProfundiza lo que acabas de ver

Comentarios

Jose Colmenares

student•

Hola, para los que comienzan el curso: Este es un curso que está orientado a Spark en Python, es decir PySpark. En el camino te encontrarás con complicaciones para configurar el ambiente, no te limites por eso. Configura en Google Colab y sigue el curso desde allí. Aquí un compañero te indica como: https://platzi.com/comentario/2309466/

Spark es útil y muy buscado sobretodo en Europa. Se utiliza constantemente con AWS junto con la funcionalidad de EMR. Este curso fue clave para conseguir mi actual trabajo. Ánimo y disfruta mucho el curso!

Juan Antonio Salazar Ramírez

student•

Hola, gracias por la recomendación, me indicas de qué manera conseguiste tu actual trabajo? lo encontraste mediante alguna página de trabajo?

Milton Andrés Sanabria

student•

Aprovecho para invitarlos a unirse a las comunidades de Spark: México https://www.meetup.com/apache-spark-mexicocity/ Colombia https://www.meetup.com/Apache-Spark-Bogota

Sandra Liliana Delgado Gómez

student•

Gracias por este dato

Auler Josby Cordoba Roa

student•

Gracias por la invitación!

Sandra Liliana Delgado Gómez

student•

Con mucho entusiasmo inicio este curso con ganas de aprender los fundamentos de Apache Spark

Comparto notas de clase

Cristian Triviño Estévez

student•

¡Muchas gracias! Justo arranco este curso y me viene genial el apunte

Juan Manuel Arango Cuadros

student•

Me parece increíble que Platzi tenga un curso de Spark, todos me recomiendan aprender esto, que es el futuro

Estefani Rebeca Melgar Casas

student•

Me encantó la introducción :3

Gabriela Andreina García Uzcategui

student•

Este curso está muy desactualizado, usa la versión 2.4 y ya vamos en la 3.5.1. El código que utiliza falla muchísimo por que muchas funciones ya están deprecated. Yo lo tuve que abandonar.

Eduardo Vega D

student•

Buenas, espero que estén bien. Quiero comunicar una inquietud que no soy el único que manifiesta y es que este curso esta desactualizado, pero mucho. Gracias por leer.

Luis Ernesto Domínguez Velásquez

student•

Desde el 2 de Febrero se creó la Unidad De Innovación y Transformación Digital en la empresa donde trabajo y uno de los desafios estrella es el relqcionado con Big Data por tanto estoy muy entusiasta y con mucha espectativa del presente curso.

Catalina Hernandez

student•

Este curso no lo dictaba una chica argentina?

Mario Alberto García Meza

teacher•

Se escucha muy interesante! Pero no entiendo qué es lo que se hace con Spark? No se si alguien tenga algún ejemplo de que tipo de productos se pueden hacer? Un dashboard para presentar a un cliente sería con Spark?

Korpi delfin

student•

Te comparto un artículo que lista diez aplicaciones de Spark :)

Miguel Angel Velazquez Romero

student•

Apache Spark es un motor de procesamiento distribuido responsable de orquestar, distribuir y monitorizar aplicaciones que constan de múltiples tareas de procesamiento de datos sobre varias máquinas de trabajo, que forman un cluster.

Miguel Angel Velazquez Romero

student•

Genial!!! Ya sé SQL y POO, estoy listo para tomar este curso!

Charly Nieves

student•

Gracias por el curso!

- -

student•

:)

Lázaro Ventancor Cressatti

student•

Hola!

Andres Rodriguez Trujillo

student•

Alguien conoce la configuración de Spark en R ?? De antemano muchas gracias !

Daniel Carmona

student•

Por fin a empezar a este curso

Julian Castro Pulgarin

student•

No sabía que Platzi tenía curso de Spark. Curiosamente en mi trabajo usamos PySpark (y cuando entré no tenia ni idea >-<), vamos a ver este curso que más me puede aportar :D

Aaron Fabrizio Calderon Guillermo

student•

Si usas Windows, corre!

JAVIER SANTIAGO SALGADO

student•

Vamos con toda!!!

Gabriela Barrezueta

student•

Muy buen comienzo..! :)