Fundamentos de Apache Spark: ETL y Limpieza de Datos
Clase 1 de 25 • Curso de Fundamentos de Spark para Big Data
Contenido del curso
- 7
Transformaciones y Acciones en RDD de Spark
02:32 - 8

Transformaciones y acciones
11:27 - 9

Interacción con RDDs en Spark: Operaciones Básicas y Avanzadas
14:35 - 10

Operaciones avanzadas con RDDs en Spark: Uniones y Joins
14:13 - 11

Unión de Datos en RDD para Deportistas Olímpicos
03:09 - 12

Operaciones Numéricas con RDDs en Juegos Olímpicos
08:59
- 13

Creación y Gestión de Data Frames en PySpark
14:09 - 14

Creación de DataFrame desde RDD en PySpark
09:15 - 15

Manipulación de Data Frames en PySpark
12:32 - 16

Joins y Selección de Datos en DataFrames con PySpark
09:34 - 17

Filtrado y Join de Datos Olímpicos en Pandas
05:02 - 18

Funciones de Agregación en Spark para DataFrames
10:00 - 19

Uso de SQLContext para Registro y Consultas con DataFrames en Spark
07:29 - 20
Creación y Uso de Funciones UDF en Spark
01:06 - 21

Creación y uso de UDFs en PySpark para manejo de datos faltantes
13:09
¿Qué es Apache Spark?
Apache Spark es una potente herramienta que ha revolucionado el procesamiento de datos a gran escala. A menudo malinterpretado como un lenguaje de programación o erróneamente comparado con frameworks como pandas, vale la pena aclarar estos conceptos. A diferencia de pandas, Spark es un sistema de procesamiento distribuido diseñado para manejar grandes volúmenes de datos eficientemente. Al entender qué es Spark, estarás un paso adelante en el mundo del análisis de datos.
¿Por qué aprender a crear un ETL con Spark?
Los procesos ETL (Extracción, Transformación y Carga) son fundamentales en el ámbito empresarial, utilizados desde grandes bancos hasta pequeñas y medianas empresas (PyMEs). Aprender a implementar tus propios procesos ETL utilizando Spark te dará una ventaja competitiva en el mercado laboral. Aquí te dejamos las razones para usar Spark en tus ETLs:
- Escalabilidad y velocidad: Ideal para manejar grandes volúmenes de datos de manera eficiente.
- Compatibilidad: Funciona muy bien con arquitecturas basadas en la nube o en instalaciones en sitio.
- Flexibilidad: Soporta múltiples lenguajes de programación incluyendo Python, Java y Scala.
¿Cuáles son las estructuras básicas de Spark?
Independientemente de tu nivel de experiencia, entender las estructuras básicas de Spark es esencial. En este curso introductor vamos a enfocar principalmente en:
- RDDs (Resilient Distributed Datasets): Son la estructura fundamental de Spark, permitiendo operaciones de procesamiento paralelas y distribuidas.
- DataFrames: Ofrecen una forma simplificada y optimizada de trabajar con datos estructurados.
Ambas estructuras son cruciales para realizar tareas como la limpieza de datos y manipulación básica, haciendo de Spark una herramienta versátil en diversas industrias.
¿Qué conocimientos previos se recomiendan?
Para sacar el máximo provecho de este curso, es ideal que tengas una base sólida en:
- Programación Orientada a Objetos: Apache Spark opera bajo este paradigma, facilitando su comprensión si ya tienes experiencia.
- SQL: Muchas de las funcionalidades de Spark están inspiradas en SQL, lo que puede facilitar tu aprendizaje.
¿Qué ejemplos prácticos utilizaremos en el curso?
Para hacer los conceptos más digeribles, utilizaremos datos históricos de las Olimpiadas modernas que comenzaron en 1896. Este conjunto de datos brinda un amplio espectro de registros que nos permitirá explorar y aplicar diversas funciones de Spark. Es una excelente oportunidad para ver en acción todo el potencial de esta tecnología en escenarios reales y complejos.
Te invitamos a unirte a este curso y sumergirte en el fascinante mundo de Apache Spark. Con cada módulo, ampliarás tus habilidades y te abrirás camino en el competitivo campo de los datos. ¡Continuemos aprendiendo juntos!