Redshift vs Athena: cuándo usar cada uno

Clase 38 de 52Curso de Big Data en AWS

Contenido del curso

Extracción de información

Transformación de Información

Resumen

AWS Redshift reúne datos de múltiples fuentes en un data warehouse centralizado para análisis a gran escala. Aquí se clarifica su propuesta de valor, arquitectura y el momento adecuado para preferirlo frente a Athena, con foco en rendimiento, costos y casos de uso analíticos.

¿Qué es Redshift como data warehouse y para qué sirve?

Redshift se entiende mejor como un repositorio centralizado que concentra información de toda la organización para análisis y toma de decisiones. En el flujo típico, múltiples data sources alimentan el repositorio central, que nutre el data warehouse y, desde allí, los data mart para necesidades específicas de negocio.

  • Facilita analizar información y tomar mejores decisiones basadas en datos.
  • Integra diferentes fuentes y tipos de datos desde los data sources.
  • Sirve a varios stakeholders con conjuntos de datos específicos.

¿Qué es un data warehouse, un data lake y un data mart?

  • Data warehouse: repositorio centralizado con datos de múltiples fuentes dentro de la organización.
  • Data lake: almacenamiento de gran volumen de datos en bruto (raw data) en formato nativo de sus fuentes.
  • Data mart: subconjunto del data warehouse orientado a una tarea o unidad de negocio específica.

¿Cómo funciona Redshift a nivel técnico y de rendimiento?

Redshift está orientado a analítica y OLAP a gran escala: procesa queries sobre petabytes o terabytes con SQL compleja y múltiples joins. Su costo depende del tamaño del cluster, y su diseño busca tiempos de respuesta muy bajos en grandes volúmenes.

¿Por qué la base de datos columnar acelera OLAP?

  • Redshift es una base de datos columnar: consulta por columnas, no por filas.
  • Mejora el I/O en discos: menos lectura/escritura innecesaria.
  • Aumenta el rendimiento y reduce el tiempo de consulta sobre grandes cantidades de datos.
  • Es óptimo para cargas analíticas y transacciones OLAP.

¿Qué optimizaciones de compresión y caché aplica?

  • Aplica compresión de datos: mejora lectura y escritura en los discos subyacentes.
  • Usa caché de consultas: resultados recientes se sirven desde caché si la query coincide.

¿Qué arquitectura de cluster y conexiones usa Redshift?

  • Está basado en PostgreSQL y desplegado en AWS a gran escala.
  • Clientes se conectan vía JDBC u ODBC al leader node del cluster.
  • El leader node orquesta las consultas hacia los demás nodos de la base columnar y devuelve los resultados al cliente.
  • Permite queries complejas con distintos joins sobre grandes volúmenes.

¿Cuándo elegir Redshift frente a Athena en AWS?

Tanto Redshift como Athena consultan grandes volúmenes e incluso datos en S3. Sin embargo, hay diferencias prácticas cuando crecen los datos y la complejidad de SQL.

  • Prefiere Redshift cuando los datos crecen a terabytes o más.
  • Prefiere Redshift cuando las consultas SQL y los joins son muy complejos y Athena se vuelve lenta.
  • Considera Athena para consultas menos complejas y volúmenes más contenidos.

¿En qué escenario estás hoy: volúmenes en terabytes o consultas SQL complejas? Comparte tu experiencia y dudas en los comentarios.