Redshift vs Athena: cuándo usar cada uno

Clase 38 de 52 • Curso de Big Data en AWS

Contenido del curso

Bienvenida e introducción al curso

Arquitecturas

Extracción de información

Transformación de Información

Carga de Información

Consumo de información

Seguridad, Orquestación y Automatización

Clase pública

52
Las cinco B de big data explicadas
01:44 min

Tomar examen

Resumen

AWS Redshift reúne datos de múltiples fuentes en un data warehouse centralizado para análisis a gran escala. Aquí se clarifica su propuesta de valor, arquitectura y el momento adecuado para preferirlo frente a Athena, con foco en rendimiento, costos y casos de uso analíticos.

¿Qué es Redshift como data warehouse y para qué sirve?

Redshift se entiende mejor como un repositorio centralizado que concentra información de toda la organización para análisis y toma de decisiones. En el flujo típico, múltiples data sources alimentan el repositorio central, que nutre el data warehouse y, desde allí, los data mart para necesidades específicas de negocio.

Facilita analizar información y tomar mejores decisiones basadas en datos.
Integra diferentes fuentes y tipos de datos desde los data sources.
Sirve a varios stakeholders con conjuntos de datos específicos.

¿Qué es un data warehouse, un data lake y un data mart?

Data warehouse: repositorio centralizado con datos de múltiples fuentes dentro de la organización.
Data lake: almacenamiento de gran volumen de datos en bruto (raw data) en formato nativo de sus fuentes.
Data mart: subconjunto del data warehouse orientado a una tarea o unidad de negocio específica.

¿Cómo funciona Redshift a nivel técnico y de rendimiento?

Redshift está orientado a analítica y OLAP a gran escala: procesa queries sobre petabytes o terabytes con SQL compleja y múltiples joins. Su costo depende del tamaño del cluster, y su diseño busca tiempos de respuesta muy bajos en grandes volúmenes.

¿Por qué la base de datos columnar acelera OLAP?

Redshift es una base de datos columnar: consulta por columnas, no por filas.
Mejora el I/O en discos: menos lectura/escritura innecesaria.
Aumenta el rendimiento y reduce el tiempo de consulta sobre grandes cantidades de datos.
Es óptimo para cargas analíticas y transacciones OLAP.

¿Qué optimizaciones de compresión y caché aplica?

Aplica compresión de datos: mejora lectura y escritura en los discos subyacentes.
Usa caché de consultas: resultados recientes se sirven desde caché si la query coincide.

¿Qué arquitectura de cluster y conexiones usa Redshift?

Está basado en PostgreSQL y desplegado en AWS a gran escala.
Clientes se conectan vía JDBC u ODBC al leader node del cluster.
El leader node orquesta las consultas hacia los demás nodos de la base columnar y devuelve los resultados al cliente.
Permite queries complejas con distintos joins sobre grandes volúmenes.

¿Cuándo elegir Redshift frente a Athena en AWS?

Tanto Redshift como Athena consultan grandes volúmenes e incluso datos en S3. Sin embargo, hay diferencias prácticas cuando crecen los datos y la complejidad de SQL.

Prefiere Redshift cuando los datos crecen a terabytes o más.
Prefiere Redshift cuando las consultas SQL y los joins son muy complejos y Athena se vuelve lenta.
Considera Athena para consultas menos complejas y volúmenes más contenidos.

¿En qué escenario estás hoy: volúmenes en terabytes o consultas SQL complejas? Comparte tu experiencia y dudas en los comentarios.

Comentarios

Milton Garcia

student•

Servicio de almacenamiento de datos en nube administrado a escala de PB.
El servicio se lanza en un clúster de instancias.
Sirve para consultas complejas SQL sobre cantidades grandes de datos a nivel columnar.
Está basado en PosgreSQL y esta diseñado para OLAP y aplicaciones de BI.
Hace compresión de la data para optimizar el I/O.
Utiliza caché para ciertos tipos de consulta y no tener que volver a procesar información.

Juan David Cajamarca Acuña

student•

Siempre que pensemos en RedShift, tomemos como referencia los términos DataWarehouse y DataLake.

Conceptos claves

DataWarehouse: RedShift es básicamente un repositorio de datos completamente centralizado que contiene información de múltiples fuentes dentro de una organización. Este es uno de los servicios más grandes, de los que tiene mayor Billing dentro de AWS.
DataLake: Es un repositorio de almacenamiento que guarda una cantidad muy grande de raw-data, es decir, en formato nativo.
DataMart: Es un subset de DataWarehouse orientado a una tarea específica.

RedShift es una base de datos columnar; es decir, cuando trabajemos con RedShift, la tabla normal se divide en columnas y las consultas son realizadas sobre las columnas. Esto mejora el rendimiento de I/O en los discos, mejora el performance y el tiempo de consulta sobre grandes cantidades de información. Este tipo de estructuras en una base de datos es óptimo para consultas sobre analítica, para transacciones OLAP principalmente.

Características de RedShift

RedShift es un servicio desplegado dentro de AWS a una escala muy grande (PB).
Toda su infraestructura se despliega en un clúster de instancias; el costo dependerá del tamaño de dicho clúster.
Sirve para consultas muy complejas SQL sobre cantidades grandes de datos a nivel columnar. La promesa de valor de RedShift es su increíble tiempo de respuesta en las consultas a gigantescas cantidades de datos (PB).
Está basado en PostgreSQL.
Está diseñado específicamente para transacciones OLAP; es decir, para transacciones de analítica y procesamiento para proyectos de BI.
Para que RedShift funcione de manera adecuada y cumpla su promesa de valor (tiempos muy cortos sobre una gran cantidad de información), hace compresión de los datos. Esta compresión mejora las actividades de I/O por segundo en los discos.
RedShift utiliza caché para ciertos tipos de consulta y no tener que volver a procesar esa misma información.

john ct

student•

Amazon Redshift is a fast, fully managed, petabyte-scale data warehouse service that makes it simple and cost-effective to efficiently analyze all your data using your existing business intelligence tools. It is optimized for datasets ranging from a few hundred gigabytes to a petabyte or more and costs less than $1,000 per terabyte per year, a tenth the cost of most traditional data warehousing solutions.

john ct

student•

Cluster management An Amazon Redshift cluster is a set of nodes, which consists of a leader node and one or more compute nodes. The type and number of compute nodes that you need depends on the size of your data, the number of queries you will execute, and the query execution performance that you need.

john ct

student•

Creating and managing clusters Depending on your data warehousing needs, you can start with a small, single-node cluster and easily scale up to a larger, multi-node cluster as your requirements change. You can add or remove compute nodes to the cluster without any interruption to the service. For more information, see Amazon Redshift clusters.

Leonardo Rojas Moreno

student•

DataWarehouse

Usuario anónimo

user•

RedShift es el Datawarehouse. Es el servicio mas grande de aws. Analizar los datos. Obetener información de cualquier dispositivo. Alimenta los diferentes sistemas que podamos tener.

Basado en posgreSQL, diseño para bi. Optimiza la lectura y escritura. Utiliza cache para las consultas.

LUIS GERARDO CAMBAL BARAHONA

student•

RedShift el servicio mas grande de AWS para Datawarehouse

Usuario anónimo

user•

Importante estos conceptos

Usuario anónimo

user•

gracias..

Usuario anónimo

user•

RedShift está basado en PostgreSQL, es una base de datos columnar haciendo mejor el rendimiento de I/O en los discos y performance.

Usuario anónimo

user•

RedShift es un servicio que se lanza en un clúster de instancias, para el almacenamiento de datos a gran escala pensando en guardar PB. Permite realizar consultas complejas de SQL

José Mauricio Eddui Abzum Méndez

student•

Esa data en "caché" no se refiere a que lo deja en memoria RAM??

Mario Alexander Vargas Celis

student•

🔹 Amazon Redshift: Data Warehousing en AWS 🚀

Amazon Redshift es un servicio de almacenamiento de datos (Data Warehouse) totalmente administrado que permite ejecutar consultas analíticas SQL sobre grandes volúmenes de datos de manera rápida y escalable. Se basa en un modelo de procesamiento paralelo masivo (MPP) para optimizar el rendimiento.

1️⃣ Configuración de Amazon Redshift

✅ Creación de un clúster Redshift

Para comenzar con Redshift:

Ve a la consola de AWS y busca Amazon Redshift.
Haz clic en "Create Cluster".
Configura los siguientes parámetros:
- Tipo de nodo: elige entre dc2.large, ra3.4xlarge, etc.
- Cantidad de nodos: Mínimo 1 nodo (para pruebas) o varios para producción.
- Endpoint de conexión: Se generará al crear el clúster.
Habilita Enhanced VPC Routing si necesitas integración con S3.
Finaliza la configuración y espera a que el clúster se aprovisione.

2️⃣ Conectando a Amazon Redshift

Una vez que el clúster esté listo, usa un cliente SQL como:

Query Editor en la consola de AWS.
DBeaver, pgAdmin, SQL Workbench, o cualquier herramienta compatible con PostgreSQL.

Para conectarte con psql desde la terminal:

psql -h <ENDPOINT_DEL_CLUSTER> -U <USUARIO> -d <BASE_DE_DATOS>

3️⃣ Creación de una Base de Datos y Tablas

Dentro de Redshift, usa SQL para gestionar datos:

📌 Crear una base de datos:

CREATE DATABASE mi_base_redshift;

📌 Crear una tabla optimizada:

CREATE TABLE ventas ( id_venta INT PRIMARY KEY, fecha TIMESTAMP, producto VARCHAR(255), cantidad INT, precio DECIMAL(10,2) ) DISTSTYLE EVEN;

4️⃣ Carga de Datos desde Amazon S3

Puedes cargar datos desde S3 con el comando COPY:

COPY ventas FROM 's3://mi-bucket/ventas.csv' IAM_ROLE 'arn:aws:iam::123456789012:role/RedshiftRole' FORMAT AS CSV IGNOREHEADER 1;

✅ Importante:

El rol IAM debe tener permisos para acceder a S3.
Puedes importar datos en formato CSV, Parquet, JSON, Avro, ORC.

5️⃣ Consultas SQL en Redshift

📌 Obtener registros:

SELECT * FROM ventas LIMIT 10;

📌 Ventas totales por producto:

SELECT producto, SUM(cantidad * precio) AS total_ventas FROM ventas GROUP BY producto;

📌 Consultas con partición por fecha:

SELECT fecha, COUNT(*) FROM ventas WHERE fecha > '2024-01-01' GROUP BY fecha;

6️⃣ Optimización en Redshift

🔹 Distribución de datos (DISTSTYLE):

EVEN: distribuye filas equitativamente.
KEY: distribuye en base a una columna clave para minimizar movimientos de datos.

🔹 Sort Keys (SORTKEY):

Para columnas usadas en ORDER BY o JOIN, mejora la lectura de datos.

🔹 Compresión (ENCODE):

Redshift aplica compresión automática para reducir el tamaño del almacenamiento.

7️⃣ Integración con Otras Herramientas

Redshift puede conectarse con:

Amazon Quicksight (BI & Dashboards)
Amazon Glue (ETL)
Amazon Athena (Consultas Ad-hoc en S3)
Apache Airflow (Orquestación de tareas)

🔹 Conclusión

Redshift es una solución potente para almacenamiento de datos analíticos con alto rendimiento y escalabilidad. Si necesitas ayuda con una implementación específica, dime qué necesitas y te ayudo. 🚀

Redshift vs Athena: cuándo usar cada uno

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3