Redshift vs Athena: cuándo usar cada uno
Clase 38 de 52 • Curso de Big Data en AWS
Contenido del curso
AWS Redshift reúne datos de múltiples fuentes en un data warehouse centralizado para análisis a gran escala. Aquí se clarifica su propuesta de valor, arquitectura y el momento adecuado para preferirlo frente a Athena, con foco en rendimiento, costos y casos de uso analíticos.
¿Qué es Redshift como data warehouse y para qué sirve?
Redshift se entiende mejor como un repositorio centralizado que concentra información de toda la organización para análisis y toma de decisiones. En el flujo típico, múltiples data sources alimentan el repositorio central, que nutre el data warehouse y, desde allí, los data mart para necesidades específicas de negocio.
- Facilita analizar información y tomar mejores decisiones basadas en datos.
- Integra diferentes fuentes y tipos de datos desde los data sources.
- Sirve a varios stakeholders con conjuntos de datos específicos.
¿Qué es un data warehouse, un data lake y un data mart?
- Data warehouse: repositorio centralizado con datos de múltiples fuentes dentro de la organización.
- Data lake: almacenamiento de gran volumen de datos en bruto (raw data) en formato nativo de sus fuentes.
- Data mart: subconjunto del data warehouse orientado a una tarea o unidad de negocio específica.
¿Cómo funciona Redshift a nivel técnico y de rendimiento?
Redshift está orientado a analítica y OLAP a gran escala: procesa queries sobre petabytes o terabytes con SQL compleja y múltiples joins. Su costo depende del tamaño del cluster, y su diseño busca tiempos de respuesta muy bajos en grandes volúmenes.
¿Por qué la base de datos columnar acelera OLAP?
- Redshift es una base de datos columnar: consulta por columnas, no por filas.
- Mejora el I/O en discos: menos lectura/escritura innecesaria.
- Aumenta el rendimiento y reduce el tiempo de consulta sobre grandes cantidades de datos.
- Es óptimo para cargas analíticas y transacciones OLAP.
¿Qué optimizaciones de compresión y caché aplica?
- Aplica compresión de datos: mejora lectura y escritura en los discos subyacentes.
- Usa caché de consultas: resultados recientes se sirven desde caché si la query coincide.
¿Qué arquitectura de cluster y conexiones usa Redshift?
- Está basado en PostgreSQL y desplegado en AWS a gran escala.
- Clientes se conectan vía JDBC u ODBC al leader node del cluster.
- El leader node orquesta las consultas hacia los demás nodos de la base columnar y devuelve los resultados al cliente.
- Permite queries complejas con distintos joins sobre grandes volúmenes.
¿Cuándo elegir Redshift frente a Athena en AWS?
Tanto Redshift como Athena consultan grandes volúmenes e incluso datos en S3. Sin embargo, hay diferencias prácticas cuando crecen los datos y la complejidad de SQL.
- Prefiere Redshift cuando los datos crecen a terabytes o más.
- Prefiere Redshift cuando las consultas SQL y los joins son muy complejos y Athena se vuelve lenta.
- Considera Athena para consultas menos complejas y volúmenes más contenidos.
¿En qué escenario estás hoy: volúmenes en terabytes o consultas SQL complejas? Comparte tu experiencia y dudas en los comentarios.