Redshift vs Athena: cuándo usar cada uno

Clase 38 de 52Curso de Big Data en AWS

Resumen

AWS Redshift reúne datos de múltiples fuentes en un data warehouse centralizado para análisis a gran escala. Aquí se clarifica su propuesta de valor, arquitectura y el momento adecuado para preferirlo frente a Athena, con foco en rendimiento, costos y casos de uso analíticos.

¿Qué es Redshift como data warehouse y para qué sirve?

Redshift se entiende mejor como un repositorio centralizado que concentra información de toda la organización para análisis y toma de decisiones. En el flujo típico, múltiples data sources alimentan el repositorio central, que nutre el data warehouse y, desde allí, los data mart para necesidades específicas de negocio.

  • Facilita analizar información y tomar mejores decisiones basadas en datos.
  • Integra diferentes fuentes y tipos de datos desde los data sources.
  • Sirve a varios stakeholders con conjuntos de datos específicos.

¿Qué es un data warehouse, un data lake y un data mart?

  • Data warehouse: repositorio centralizado con datos de múltiples fuentes dentro de la organización.
  • Data lake: almacenamiento de gran volumen de datos en bruto (raw data) en formato nativo de sus fuentes.
  • Data mart: subconjunto del data warehouse orientado a una tarea o unidad de negocio específica.

¿Cómo funciona Redshift a nivel técnico y de rendimiento?

Redshift está orientado a analítica y OLAP a gran escala: procesa queries sobre petabytes o terabytes con SQL compleja y múltiples joins. Su costo depende del tamaño del cluster, y su diseño busca tiempos de respuesta muy bajos en grandes volúmenes.

¿Por qué la base de datos columnar acelera OLAP?

  • Redshift es una base de datos columnar: consulta por columnas, no por filas.
  • Mejora el I/O en discos: menos lectura/escritura innecesaria.
  • Aumenta el rendimiento y reduce el tiempo de consulta sobre grandes cantidades de datos.
  • Es óptimo para cargas analíticas y transacciones OLAP.

¿Qué optimizaciones de compresión y caché aplica?

  • Aplica compresión de datos: mejora lectura y escritura en los discos subyacentes.
  • Usa caché de consultas: resultados recientes se sirven desde caché si la query coincide.

¿Qué arquitectura de cluster y conexiones usa Redshift?

  • Está basado en PostgreSQL y desplegado en AWS a gran escala.
  • Clientes se conectan vía JDBC u ODBC al leader node del cluster.
  • El leader node orquesta las consultas hacia los demás nodos de la base columnar y devuelve los resultados al cliente.
  • Permite queries complejas con distintos joins sobre grandes volúmenes.

¿Cuándo elegir Redshift frente a Athena en AWS?

Tanto Redshift como Athena consultan grandes volúmenes e incluso datos en S3. Sin embargo, hay diferencias prácticas cuando crecen los datos y la complejidad de SQL.

  • Prefiere Redshift cuando los datos crecen a terabytes o más.
  • Prefiere Redshift cuando las consultas SQL y los joins son muy complejos y Athena se vuelve lenta.
  • Considera Athena para consultas menos complejas y volúmenes más contenidos.

¿En qué escenario estás hoy: volúmenes en terabytes o consultas SQL complejas? Comparte tu experiencia y dudas en los comentarios.