Introducci贸n a Apache Spark

2/25
Recursos

Aportes 27

Preguntas 3

Ordenar por:

驴Quieres ver m谩s aportes, preguntas y respuestas de la comunidad?

o inicia sesi贸n.

OLAP: Es un sistema de recuperaci贸n de datos y an谩lisis de datos en linea.
OLTP: Es un sistema transaccional en l铆nea y gestiona la modificaci贸n de la base de datos


<h1>Resumen de la clase</h1>

Apuntes de la clase

Suelo tomar los mejores comentarios y los agrego a mis apuntes鈥

Apache Spark es un framework de trabajo para el desarrollo de grandes datos o big data y se preocupa de la velocidad y continuidad del procesamiento de datos, en contraparte de Hadoop que se preocupa por un almacenamiento grande de datos.

Podemos utilizar multiples lenguajes

  • Java
  • Scala (Spark corre nativamente aqu铆)
  • Python
  • R

驴Que nos es Apache Spark? No es una base de datos

  • OLAP: Es un sistema de recuperaci贸n de datos y an谩lisis de datos en linea.

  • OLTP: Es un sistema transaccional en l铆nea y gestiona la modificaci贸n de la base de datos.

Spark debe estar conectado a un Data warehouse para poder aprovechar toda su funcionalidad.

Historia de Apache Spark

<h3>Spark VS Hadoop</h3>
  • Spark se enfoca en procesamiento de datos desde la memoria ram.

  • Posee naturalmente un modulo para ML, streaming y grafos.

  • No depende de un sistema de archivos.

Eh 脫scar, aguante PROTECO!

A continuaci贸n, se describen los siguientes modelos:

OLTP (On-Line Transaction Processing). Se caracteriza por bases de datos transaccionales con una gran cantidad de transacciones cortas (INSERT, DELETE, UPDATE) on-line. Suelen ser BD de sistemas cr铆ticos como ERP, CRM鈥

OLAP (On-line Analytical Processing). Se caracteriza por ser un modelo con volumen de transacciones bajo. Hay dos modelos: multidimensional o tabular y est谩n optimizadas para leer datos que normalmente implican agregaciones y donde el tiempo de respuesta de consulta de datos debe ser r谩pido (es una medida de efectividad). Normalmente hay informaci贸n hist贸rica agregada almacenada en esquemas multidimensionales (generalmente esquema en estrella).

Fuente

Apache Spark:

definido como 鈥淢otor de procesamiento unificado para procesamiento de Big Data鈥 por el paper premiado por la ACM el 2016.

Spark es un Framework de procesamiento distribuido construido en Scala, basado en la programaci贸n funcional.

Todo nace del paper de Google File system y Google Map reduce el cual es la inspiraci贸n para el desarrollo de Hadoop por Yahoo! Posterior a ello parte del equipo de Hadoop empiezan el Proyecto Spark en la universidad de Berkeley en el laboratorio AMPLab.

Hadoop es la composici贸n de MapReduce + HDFS (Hadoop Distributed File System)

Spark almacena los estados entre procesamiento en memoria, mientras que MapReduce lo hace en disco.

Framework de desarrollo de bigdata.

Spark se puede utilizar con lenguajes:
Java
Scala
Python
R

Spark es un **framework **(conjunto de tecnolog铆as) de desarrollo de **procesos **de Big Data enfocado en la **velocidad **y **continuidad **del proceso.

Wow las bases de datos OLTP es la enfocada en transacciones, la OLAP es enfocada en analitica.

No entiendo por que Platzi no ha recurrido a REGRABAR o pasar por QA cada clase. No dudo del expertis del profesor pero que se trabe y piense demasiado las cosas me hace dudar y hasta me desespera un poco. NADA EN CONTRA DEL PROFESOR.

Les comparto un fragmento del libro SPARK: The definitive Guide. Bill Chambers y Matei Zaharia (pag. 180):

鈥淪park est谩 dise帽ado para funcionar como una base de datos online analytic processing (OLAP), y no una online transaction processing (OLTP) database. Esto significa que no est谩 orientado a un prop贸sito de realizar queries de extrema baja latencia. A pesar de que el soporte para la modificaci贸n en el lugar seguramente ser谩 algo que surja en el futuro, no es algo que est茅 disponible actualmente.鈥
Por ejemplo, transacciones de banco (OLTP) son operaciones que no podemos arriesgarnos a que fallen si implementamos Spark de por medio, ya que podr铆a morir el nodo trabajador de Spark o alg煤n otro fallo.

Comparto notas sobre Apache Spark

  • Qu茅 es y que no es

  • Sobre que lenguajes corre Spark

  • Un comparativo entre Spark y Hadoop

Me encant贸 la manera detallada en la que explica el profesor, normalmente no hago comentarios sin contenido pero lo ten铆a que decir, un buen curso de Spark no donde sea se consigue. Felicidades a Platzi y al profesor y mucha suerte de qui茅nes lo podemos aprender.

Regularmente escojo los cursos como escojo la comida en un nuevo restaurante, cierro los ojos y pongo el dedo al azar, igualmente lo hice ac谩 y cayo en un curso buen铆simo. 馃槂

Spark se preocupa de mantener la informaci贸n en la RAM

La verdad yo no ten铆a idea sobre la diferencia entre data lake y data warehouse: https://aws.amazon.com/big-data/datalakes-and-analytics/what-is-a-data-lake/

muy interesante la clase

Marco de trabajo en Spark: Conjunto de tecnolog铆as o desarrollos enfocados al trabajo de datos.

Oscar eres un gran profesor, solo verte 2 minutos y se te nota el proceso de pensamiento, reflexi贸n y pasi贸n por el tema鈥racias!!!

Muy buena introducci贸n

Big Data es un concepto abstracto o una filosof铆a. Spark y Hadoop traen a la realidad ese concepto.

Ya en trabajado con Spark en un entrenamiento acelerado.
Llego para llevar varcios te贸ricos y fortalecer lo aprendido.

Buen ritmo y seguimos.

Documentaci贸n oficial

Apache Spark is a unified analytics engine for large-scale data processing. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs. It also supports a rich set of higher-level tools including聽Spark SQL聽for SQL and structured data processing,聽MLlib聽for machine learning,聽GraphX聽for graph processing, and聽Structured Streaming聽for incremental computation and stream processing.

https://spark.apache.org/docs/latest/

Spark se enfoca en la velocidad de procesamiento y la distribuci贸n de datos entre los clusters.

No depende de un sistema de archivos.

segunda clase y ya amo el curso, amo que se expliquen a detalles los conceptos 馃挌