Contenido del curso

Casos de uso de Amazon Redshift en AWS

Resumen

Si estás migrando una aplicación local a AWS y necesitas mover grandes volúmenes de información, Amazon Redshift es la pieza central para construir un data warehouse en la nube. Aquí entenderás cómo funciona, en qué se diferencia de Athena y dónde encaja Lake Formation para gobernar tus datos.

¿Qué es Amazon Redshift y para qué sirve?

Redshift es la solución de data warehouse que ofrece AWS y compite directamente con servicios como BigQuery de GCP. Está pensado para almacenar y analizar grandes cantidades de datos usando consultas SQL, lo que lo convierte en el servicio estrella para Big Data dentro del ecosistema AWS [02:10].

Desde la consola puedes crear un clúster fácilmente dejando las opciones predeterminadas. Una vez listo, puedes revisar métricas de las queries, ver la capacidad usada y explorar casos de uso sugeridos por AWS. Cuando ya tienes datos ingestados, puedes lanzar consultas SQL directas para analizar la información.

¿Para qué se usa Amazon Redshift? Para almacenar grandes volúmenes de datos estructurados y analizarlos con SQL en un data warehouse gestionado, ideal cuando migras cargas analíticas locales a la nube.

¿Cuáles son los modos de despliegue de Redshift?

Redshift te da dos formas de manejar la capacidad de cómputo, y elegir la correcta depende de qué tan predecible sea tu tráfico.

  • Clúster serverless: escala automáticamente según la capacidad que necesites, sin que tengas que aprovisionar nodos.
  • Clúster basado en nodos: funciona similar a los clústeres de Aurora, donde tú configuras la cantidad de nodos según el tráfico esperado.
  • Consultas SQL nativas: en ambos modos puedes ejecutar análisis directos sobre los datos almacenados.

La decisión entre uno u otro suele girar en torno a si prefieres pagar por uso flexible o controlar tú mismo la infraestructura.

¿Cuándo conviene usar Athena en lugar de Redshift?

Athena es un servicio incluido dentro de S3 que permite hacer consultas SQL directamente sobre los archivos guardados en tus buckets [03:45]. Es la opción ideal cuando tienes algo ad hoc y no quieres mover los datos a Redshift ni montar un proceso de ETL completo.

Imagina que tienes un bucket con los logs de una aplicación y necesitas saber qué usuario entra más a cierta sección. En lugar de extraer y transformar esos logs, abres Athena, escribes la consulta y obtienes la respuesta. Incluso puedes guardar esa query para reutilizarla cuando la necesites.

Athena también es serverless, así que no manejas infraestructura ni te preocupas por escalarla. Pagas por las consultas que ejecutas y nada más.

¿Cuál es la diferencia entre Athena y Redshift? Athena consulta archivos en S3 sin moverlos y es ideal para análisis puntuales; Redshift es un data warehouse completo para cargas analíticas continuas y de alto volumen.

¿Qué tipo de archivos puedes consultar con Athena?

En la práctica, Athena trabaja sobre los streams y carpetas que ya tienes configurados en S3. Por ejemplo, si has creado buckets de prueba con datos de streams, puedes apuntar Athena a esa ubicación y empezar a consultar sin un paso intermedio.

Esto reduce la fricción cuando solo necesitas resolver una duda concreta sobre los datos sin armar toda una arquitectura analítica.

¿Qué hace AWS Lake Formation en una arquitectura de datos?

Lake Formation es un servicio gestionado que te ayuda a tener gobernanza sobre tus data lakes en AWS [05:30]. La primera vez que entras te pide configurar un usuario administrador, que será quien herede los permisos para coordinar el acceso con el resto de servicios.

Lo interesante es cómo se integra con el resto del ecosistema. Lake Formation conecta con:

  • Athena, para consultas SQL sobre datos en S3.
  • Redshift, para análisis en el data warehouse.
  • EMR, para procesamiento distribuido.
  • Glue, para catalogación y ETL.
  • QuickSight, para visualización de datos.

Desde su consola tienes un catálogo de datos por defecto al que puedes conectar bases de datos, ver tablas, vistas y todo lo configurado para tus servicios de Data Lake. Así centralizas permisos y metadatos sin tener que pelear con la infraestructura por debajo.

¿Qué problema resuelve Lake Formation? Centraliza la gobernanza, los permisos y el catálogo de tu data lake para que servicios como Athena, Redshift o Glue trabajen con reglas consistentes.

¿Cómo encajan estos servicios en un caso de migración?

Cuando migras una aplicación local a AWS, la combinación suele verse así: cargas datos crudos en S3, los gobiernas con Lake Formation, los consultas puntualmente con Athena y mueves los volúmenes pesados a Redshift para análisis recurrentes. Cada servicio resuelve una capa distinta sin pisarse entre sí.

Con esto ya tienes el panorama para identificar los casos de uso adecuados de Redshift en una migración. Déjame en los comentarios las tres opciones de la sección de recursos que mejor se ajustan a las características de Redshift y por qué las elegiste.