Procesamiento de datos: pipelines, Apache Spark y cómputo paralelo

Clase 11 de 25 • Curso de Fundamentos de Ingeniería de Datos

Contenido del curso

Introducción a la ingeniería de datos

Herramientas del ciclo de DataOps

Ejerciendo como Data Engineer

Conclusiones

Tomar examen

ELIAS RONALD TICONA CALLATA

student•

resumen ¡Claro! Con gusto organizo su resumen sobre el movimiento y procesamiento de grandes volúmenes de datos, enfocándome en el concepto de Data Pipelines y la herramienta Apache Spark.

He estructurado la información en secciones claras para facilitar su comprensión y estudio.

📝 Resumen Organizado: Movimiento y Procesamiento de Grandes Datos

1. 🌊 El Escenario y el Problema Central

Problema: Existe una gran cantidad de datos almacenados en distintas fuentes y naturalezas. El desafío principal es mover esta información y hacerla disponible para los procesos y el análisis adecuados.
Solución: Se utiliza un Pipeline de Datos (Data Pipeline).

2. 🔀 ¿Qué es un Pipeline de Datos? (ETL)

Un data pipeline es una secuencia de procesos diseñada para mover y preparar datos. Generalmente sigue el patrón ETL (Extract, Transform, Load):

Extraer (Extract): Obtener la información de su fuente original.
Transformar (Transform): Modificar y reformatear la información al formato requerido.
Cargar (Load): Almacenar la información en un lugar donde esté accesible (por ejemplo, un almacén de datos).

Ejemplo: La plataforma de shows de Netflix utiliza herramientas que toman la actividad de los suscriptores para dar recomendaciones y visualizaciones de uso.

3. ✨ Apache Spark: La Herramienta de Procesamiento

Spark es una herramienta diseñada específicamente para ayudar en el procesamiento de grandes cantidades de datos (Big Data).

A. Ventajas y Objetivos de Spark:

Velocidad: Está diseñado para acelerar el procesamiento.
Almacenamiento: Utiliza un buen manejo de caché.
Despliegue: Facilita la implementación de procesos.
Flexibilidad: Permite trabajar con tiempo real (real-time) y soporta varios lenguajes de programación.
Superación de Limitaciones: Busca resolver los inconvenientes asociados a la lentitud en el manejo de grandes datos.

B. Arquitectura de Componentes de Spark:

Spark logra su eficiencia al dividir su funcionalidad en capas y herramientas interconectadas:

Capa de Manejo de Recursos (Conecta con el clúster).
Cuerpo Principal de Spark (Core).
Herramientas de Interacción:
- Herramienta de Consulta (Spark SQL).
- Herramienta para conectar datos en vivo (Streaming).
- Herramienta de Aprendizaje Automático (Machine Learning).
- Herramienta para el trabajo de Grafos y Conexiones.

4. 🚀 Formas de Trabajo y Ejecución

Spark puede ser útil de dos maneras principales para el manejo de grandes datos:

Modo de Operación

Descripción

Proceso

Procesamiento por Lotes (Batch Processing)

Leer y procesar grandes fuentes de información de forma masiva y programada.

La información se guarda primero en un formato disponible (como HDFS), luego interactúa con Spark para su procesamiento, y finalmente se almacena en otro lugar para su disponibilidad.

Procesamiento en Stream (Streaming)

Permite procesar eventos en vivo (cualquier registro de información obtenido de manera continua).

Los eventos se procesan a medida que se reciben.

Ambos métodos de operación utilizan la capacidad fundamental de Spark: el Procesamiento Paralelo.

Ejecución en Producción (Clustering)

Spark en producción trabaja en un entorno de Clustering.
Una computadora trabaja como Principal y las otras trabajan como Seguidores (Workers).
Esto logra una forma óptima de trabajar con la información.
Herramienta Relacionada: Se menciona el uso de otra herramienta llamada MapReduce (aunque Spark está diseñado para ser un sucesor o una alternativa más rápida que MapReduce, aún puede interactuar con ese ecosistema).

Procesamiento de datos: pipelines, Apache Spark y cómputo paralelo

Introducción a la ingeniería de datos

¿Qué es ingeniería de datos? ¿Qué es Data Engineer?

Formación Integral para Data Engineers: Retos y Herramientas Esenciales

¿Cómo convertirte en Data Engineer?

¿Dónde ejercer como Data Engineer?

Tareas de Data Engineer: DataOPs

Herramientas del ciclo de DataOps

Agile en ingeniería de datos

Lenguajes de programación e ingeniería de software

¿Dónde y cómo escribir tu código en ingeniería de datos?

Automatización y scripting

Fuentes de datos: SQL, NoSQL, API y web scraping