Redshift vs Athena: cuándo usar cada uno
Clase 38 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
AWS Redshift reúne datos de múltiples fuentes en un data warehouse centralizado para análisis a gran escala. Aquí se clarifica su propuesta de valor, arquitectura y el momento adecuado para preferirlo frente a Athena, con foco en rendimiento, costos y casos de uso analíticos.
¿Qué es Redshift como data warehouse y para qué sirve?
Redshift se entiende mejor como un repositorio centralizado que concentra información de toda la organización para análisis y toma de decisiones. En el flujo típico, múltiples data sources alimentan el repositorio central, que nutre el data warehouse y, desde allí, los data mart para necesidades específicas de negocio.
- Facilita analizar información y tomar mejores decisiones basadas en datos.
- Integra diferentes fuentes y tipos de datos desde los data sources.
- Sirve a varios stakeholders con conjuntos de datos específicos.
¿Qué es un data warehouse, un data lake y un data mart?
- Data warehouse: repositorio centralizado con datos de múltiples fuentes dentro de la organización.
- Data lake: almacenamiento de gran volumen de datos en bruto (raw data) en formato nativo de sus fuentes.
- Data mart: subconjunto del data warehouse orientado a una tarea o unidad de negocio específica.
¿Cómo funciona Redshift a nivel técnico y de rendimiento?
Redshift está orientado a analítica y OLAP a gran escala: procesa queries sobre petabytes o terabytes con SQL compleja y múltiples joins. Su costo depende del tamaño del cluster, y su diseño busca tiempos de respuesta muy bajos en grandes volúmenes.
¿Por qué la base de datos columnar acelera OLAP?
- Redshift es una base de datos columnar: consulta por columnas, no por filas.
- Mejora el I/O en discos: menos lectura/escritura innecesaria.
- Aumenta el rendimiento y reduce el tiempo de consulta sobre grandes cantidades de datos.
- Es óptimo para cargas analíticas y transacciones OLAP.
¿Qué optimizaciones de compresión y caché aplica?
- Aplica compresión de datos: mejora lectura y escritura en los discos subyacentes.
- Usa caché de consultas: resultados recientes se sirven desde caché si la query coincide.
¿Qué arquitectura de cluster y conexiones usa Redshift?
- Está basado en PostgreSQL y desplegado en AWS a gran escala.
- Clientes se conectan vía JDBC u ODBC al leader node del cluster.
- El leader node orquesta las consultas hacia los demás nodos de la base columnar y devuelve los resultados al cliente.
- Permite queries complejas con distintos joins sobre grandes volúmenes.
¿Cuándo elegir Redshift frente a Athena en AWS?
Tanto Redshift como Athena consultan grandes volúmenes e incluso datos en S3. Sin embargo, hay diferencias prácticas cuando crecen los datos y la complejidad de SQL.
- Prefiere Redshift cuando los datos crecen a terabytes o más.
- Prefiere Redshift cuando las consultas SQL y los joins son muy complejos y Athena se vuelve lenta.
- Considera Athena para consultas menos complejas y volúmenes más contenidos.
¿En qué escenario estás hoy: volúmenes en terabytes o consultas SQL complejas? Comparte tu experiencia y dudas en los comentarios.