OLAP: Es un sistema de recuperación de datos y análisis de datos en linea.
OLTP: Es un sistema transaccional en línea y gestiona la modificación de la base de datos
Conociendo Apache Spark
Todo lo que aprenderás sobre Spark para Big Data
Introducción a Apache Spark
Introducción a los RDDs y DataFrames
Configuración
Instalación del ambiente de trabajo
Jupyter vs CLI: ejecución de Spark desde la línea de comandos
Jupyter vs CLI: ejecución de Spark en Jupyter Notebook
Operaciones RDDs
RDD y DataFrames
Transformaciones y acciones
Acciones de modificación sobre RDDs
Acciones de conteo sobre RDDs
Solución reto deportistas
Operaciones numéricas
Data Frames y SQL
Creación de DataFrames
Inferencia de tipos de datos
Operaciones sobre DF
Agrupaciones y operaciones join sobre DF
Solución reto joins
Funciones de agrupación
SQL
¿Qué es un UDF?
UDF
Persistencia y particionado
Particionado
Comprendiendo la persistencia y particionado
Particionando datos
Conclusiones
Conclusiones
No se trata de lo que quieres comprar, sino de quién quieres ser. Aprovecha el precio especial.
Antes: $249
Paga en 4 cuotas sin intereses
Termina en:
Óscar Gutiérrez Castillo
Aportes 29
Preguntas 3
OLAP: Es un sistema de recuperación de datos y análisis de datos en linea.
OLTP: Es un sistema transaccional en línea y gestiona la modificación de la base de datos
Suelo tomar los mejores comentarios y los agrego a mis apuntes…
Apache Spark es un framework de trabajo para el desarrollo de grandes datos o big data y se preocupa de la velocidad y continuidad del procesamiento de datos, en contraparte de Hadoop que se preocupa por un almacenamiento grande de datos.
Podemos utilizar multiples lenguajes
¿Que nos es Apache Spark? No es una base de datos
OLAP: Es un sistema de recuperación de datos y análisis de datos en linea.
OLTP: Es un sistema transaccional en línea y gestiona la modificación de la base de datos.
Spark debe estar conectado a un Data warehouse para poder aprovechar toda su funcionalidad.
<h3>Spark VS Hadoop</h3>
Spark se enfoca en procesamiento de datos desde la memoria ram.
Posee naturalmente un modulo para ML, streaming y grafos.
No depende de un sistema de archivos.
Comparto notas sobre Apache Spark
Qué es y que no es
Sobre que lenguajes corre Spark
Un comparativo entre Spark y Hadoop
Apache Spark:
definido como “Motor de procesamiento unificado para procesamiento de Big Data” por el paper premiado por la ACM el 2016.
Spark es un Framework de procesamiento distribuido construido en Scala, basado en la programación funcional.
Todo nace del paper de Google File system y Google Map reduce el cual es la inspiración para el desarrollo de Hadoop por Yahoo! Posterior a ello parte del equipo de Hadoop empiezan el Proyecto Spark en la universidad de Berkeley en el laboratorio AMPLab.
Hadoop es la composición de MapReduce + HDFS (Hadoop Distributed File System)
Spark almacena los estados entre procesamiento en memoria, mientras que MapReduce lo hace en disco.
A continuación, se describen los siguientes modelos:
OLTP (On-Line Transaction Processing). Se caracteriza por bases de datos transaccionales con una gran cantidad de transacciones cortas (INSERT, DELETE, UPDATE) on-line. Suelen ser BD de sistemas críticos como ERP, CRM…
OLAP (On-line Analytical Processing). Se caracteriza por ser un modelo con volumen de transacciones bajo. Hay dos modelos: multidimensional o tabular y están optimizadas para leer datos que normalmente implican agregaciones y donde el tiempo de respuesta de consulta de datos debe ser rápido (es una medida de efectividad). Normalmente hay información histórica agregada almacenada en esquemas multidimensionales (generalmente esquema en estrella).
Wow las bases de datos OLTP es la enfocada en transacciones, la OLAP es enfocada en analitica.
Framework de desarrollo de bigdata.
Spark se puede utilizar con lenguajes:
Java
Scala
Python
R
Spark es un **framework **(conjunto de tecnologías) de desarrollo de **procesos **de Big Data enfocado en la **velocidad **y **continuidad **del proceso.
Les comparto un fragmento del libro SPARK: The definitive Guide. Bill Chambers y Matei Zaharia (pag. 180):
“Spark está diseñado para funcionar como una base de datos online analytic processing (OLAP), y no una online transaction processing (OLTP) database. Esto significa que no está orientado a un propósito de realizar queries de extrema baja latencia. A pesar de que el soporte para la modificación en el lugar seguramente será algo que surja en el futuro, no es algo que esté disponible actualmente.”
Por ejemplo, transacciones de banco (OLTP) son operaciones que no podemos arriesgarnos a que fallen si implementamos Spark de por medio, ya que podría morir el nodo trabajador de Spark o algún otro fallo.
Creo que hay varios vacios en la ruta de data engineering,
Al menos una clase dedicada al ecosistema de Databricks estaria bien.
Spark se preocupa de mantener la información en la RAM
No entiendo por que Platzi no ha recurrido a REGRABAR o pasar por QA cada clase. No dudo del expertis del profesor pero que se trabe y piense demasiado las cosas me hace dudar y hasta me desespera un poco. NADA EN CONTRA DEL PROFESOR.
Me encantó la manera detallada en la que explica el profesor, normalmente no hago comentarios sin contenido pero lo tenía que decir, un buen curso de Spark no donde sea se consigue. Felicidades a Platzi y al profesor y mucha suerte de quiénes lo podemos aprender.
Regularmente escojo los cursos como escojo la comida en un nuevo restaurante, cierro los ojos y pongo el dedo al azar, igualmente lo hice acá y cayo en un curso buenísimo. 😃
La verdad yo no tenía idea sobre la diferencia entre data lake y data warehouse: https://aws.amazon.com/big-data/datalakes-and-analytics/what-is-a-data-lake/
muy interesante la clase
Marco de trabajo en Spark: Conjunto de tecnologías o desarrollos enfocados al trabajo de datos.
Spark tambien soporta nativamente correr SQL
buena intro!
Oscar eres un gran profesor, solo verte 2 minutos y se te nota el proceso de pensamiento, reflexión y pasión por el tema…Gracias!!!
Muy buena introducción
Big Data es un concepto abstracto o una filosofía. Spark y Hadoop traen a la realidad ese concepto.
Ya en trabajado con Spark en un entrenamiento acelerado.
Llego para llevar varcios teóricos y fortalecer lo aprendido.
Buen ritmo y seguimos.
Apache Spark is a unified analytics engine for large-scale data processing. It provides high-level APIs in Java, Scala, Python and R, and an optimized engine that supports general execution graphs. It also supports a rich set of higher-level tools including Spark SQL for SQL and structured data processing, MLlib for machine learning, GraphX for graph processing, and Structured Streaming for incremental computation and stream processing.
Spark se enfoca en la velocidad de procesamiento y la distribución de datos entre los clusters.
No depende de un sistema de archivos.
segunda clase y ya amo el curso, amo que se expliquen a detalles los conceptos 💚
¿Quieres ver más aportes, preguntas y respuestas de la comunidad?