Cursos Empresas Blog Live Conf Precios

Fundamentos de Apache Spark: ETL y Limpieza de Datos

Clase 1 de 25 • Curso de Fundamentos de Spark para Big Data

Clase anteriorSiguiente clase

Resumen

¿Qué es Apache Spark?

Apache Spark es una potente herramienta que ha revolucionado el procesamiento de datos a gran escala. A menudo malinterpretado como un lenguaje de programación o erróneamente comparado con frameworks como pandas, vale la pena aclarar estos conceptos. A diferencia de pandas, Spark es un sistema de procesamiento distribuido diseñado para manejar grandes volúmenes de datos eficientemente. Al entender qué es Spark, estarás un paso adelante en el mundo del análisis de datos.

¿Por qué aprender a crear un ETL con Spark?

Los procesos ETL (Extracción, Transformación y Carga) son fundamentales en el ámbito empresarial, utilizados desde grandes bancos hasta pequeñas y medianas empresas (PyMEs). Aprender a implementar tus propios procesos ETL utilizando Spark te dará una ventaja competitiva en el mercado laboral. Aquí te dejamos las razones para usar Spark en tus ETLs:

Escalabilidad y velocidad: Ideal para manejar grandes volúmenes de datos de manera eficiente.
Compatibilidad: Funciona muy bien con arquitecturas basadas en la nube o en instalaciones en sitio.
Flexibilidad: Soporta múltiples lenguajes de programación incluyendo Python, Java y Scala.

¿Cuáles son las estructuras básicas de Spark?

Independientemente de tu nivel de experiencia, entender las estructuras básicas de Spark es esencial. En este curso introductor vamos a enfocar principalmente en:

RDDs (Resilient Distributed Datasets): Son la estructura fundamental de Spark, permitiendo operaciones de procesamiento paralelas y distribuidas.
DataFrames: Ofrecen una forma simplificada y optimizada de trabajar con datos estructurados.

Ambas estructuras son cruciales para realizar tareas como la limpieza de datos y manipulación básica, haciendo de Spark una herramienta versátil en diversas industrias.

¿Qué conocimientos previos se recomiendan?

Para sacar el máximo provecho de este curso, es ideal que tengas una base sólida en:

Programación Orientada a Objetos: Apache Spark opera bajo este paradigma, facilitando su comprensión si ya tienes experiencia.
SQL: Muchas de las funcionalidades de Spark están inspiradas en SQL, lo que puede facilitar tu aprendizaje.

¿Qué ejemplos prácticos utilizaremos en el curso?

Para hacer los conceptos más digeribles, utilizaremos datos históricos de las Olimpiadas modernas que comenzaron en 1896. Este conjunto de datos brinda un amplio espectro de registros que nos permitirá explorar y aplicar diversas funciones de Spark. Es una excelente oportunidad para ver en acción todo el potencial de esta tecnología en escenarios reales y complejos.

Te invitamos a unirte a este curso y sumergirte en el fascinante mundo de Apache Spark. Con cada módulo, ampliarás tus habilidades y te abrirás camino en el competitivo campo de los datos. ¡Continuemos aprendiendo juntos!

Jose Colmenares

student•

Hola, para los que comienzan el curso: Este es un curso que está orientado a Spark en Python, es decir PySpark. En el camino te encontrarás con complicaciones para configurar el ambiente, no te limites por eso. Configura en Google Colab y sigue el curso desde allí. Aquí un compañero te indica como: https://platzi.com/comentario/2309466/

Spark es útil y muy buscado sobretodo en Europa. Se utiliza constantemente con AWS junto con la funcionalidad de EMR. Este curso fue clave para conseguir mi actual trabajo. Ánimo y disfruta mucho el curso!

Juan Antonio Salazar Ramírez

student•

Hola, gracias por la recomendación, me indicas de qué manera conseguiste tu actual trabajo? lo encontraste mediante alguna página de trabajo?

Milton Andrés Sanabria

student•

Aprovecho para invitarlos a unirse a las comunidades de Spark: México https://www.meetup.com/apache-spark-mexicocity/ Colombia https://www.meetup.com/Apache-Spark-Bogota

Sandra Liliana Delgado Gómez

student•

Gracias por este dato

Auler Josby Cordoba Roa

student•

Gracias por la invitación!

Sandra Liliana Delgado Gómez

student•

Con mucho entusiasmo inicio este curso con ganas de aprender los fundamentos de Apache Spark

Comparto notas de clase

Cristian Triviño Estévez

student•

¡Muchas gracias! Justo arranco este curso y me viene genial el apunte

Juan Manuel Arango Cuadros

student•

Me parece increíble que Platzi tenga un curso de Spark, todos me recomiendan aprender esto, que es el futuro

Estefani Rebeca Melgar Casas

student•

Me encantó la introducción :3

Luis Ernesto Domínguez Velásquez

student•

Desde el 2 de Febrero se creó la Unidad De Innovación y Transformación Digital en la empresa donde trabajo y uno de los desafios estrella es el relqcionado con Big Data por tanto estoy muy entusiasta y con mucha espectativa del presente curso.

Mario Alberto García Meza

teacher•

Se escucha muy interesante! Pero no entiendo qué es lo que se hace con Spark? No se si alguien tenga algún ejemplo de que tipo de productos se pueden hacer? Un dashboard para presentar a un cliente sería con Spark?

Korpi delfin

student•

Te comparto un artículo que lista diez aplicaciones de Spark :)

Miguel Angel Velazquez Romero

student•

Apache Spark es un motor de procesamiento distribuido responsable de orquestar, distribuir y monitorizar aplicaciones que constan de múltiples tareas de procesamiento de datos sobre varias máquinas de trabajo, que forman un cluster.

Gabriela Andreina García Uzcategui

student•

Este curso está muy desactualizado, usa la versión 2.4 y ya vamos en la 3.5.1. El código que utiliza falla muchísimo por que muchas funciones ya están deprecated. Yo lo tuve que abandonar.

Miguel Angel Velazquez Romero

student•

Genial!!! Ya sé SQL y POO, estoy listo para tomar este curso!

Charly Nieves

student•

Gracias por el curso!

- -

student•

:)

Lázaro Ventancor Cressatti

student•

Hola!

Catalina Hernandez

student•

Este curso no lo dictaba una chica argentina?

Andres Rodriguez Trujillo

student•

Alguien conoce la configuración de Spark en R ?? De antemano muchas gracias !

Daniel Carmona

student•

Por fin a empezar a este curso

Julian Castro Pulgarin

student•

No sabía que Platzi tenía curso de Spark. Curiosamente en mi trabajo usamos PySpark (y cuando entré no tenia ni idea >-<), vamos a ver este curso que más me puede aportar :D

Aaron Fabrizio Calderon Guillermo

student•

Si usas Windows, corre!

JAVIER SANTIAGO SALGADO

student•

Vamos con toda!!!

Gabriela Barrezueta

student•

Muy buen comienzo..! :)