Redshift, Athena, Lake formation

Clase 63 de 69 • Curso de AWS Certified Solutions Architect Associate

Resumen

El Big Data y la analítica avanzada se han convertido en pilares fundamentales para la toma de decisiones en las empresas modernas. AWS ofrece un conjunto robusto de herramientas especializadas para almacenar, procesar y analizar grandes volúmenes de datos. En este artículo exploraremos Amazon Redshift, el servicio estrella para el manejo de Big Data en la nube de AWS, junto con otras soluciones complementarias que permiten implementar estrategias integrales de análisis de datos.

¿Qué es Amazon Redshift y cuáles son sus capacidades?

Amazon Redshift es la solución de data warehouse que ofrece AWS, posicionándose como competencia directa de otros servicios como BigQuery de Google Cloud Platform. Este servicio está específicamente diseñado para almacenar y analizar conjuntos masivos de datos utilizando procesamiento paralelo masivo.

Redshift ofrece dos opciones principales de implementación:

Clúster Tradicional: Funciona similar a los clústeres en Aurora, basado en nodos donde se configura la capacidad según el tráfico esperado.
Clúster Serverless: Escala automáticamente según la capacidad requerida, sin necesidad de administrar la infraestructura subyacente.

En la interfaz de Redshift, podemos visualizar métricas importantes como:

El rendimiento de nuestras consultas
La capacidad utilizada
Casos de uso recomendados

Amazon Redshift permite realizar consultas directas utilizando SQL para obtener y analizar datos, lo que facilita el trabajo con grandes volúmenes de información estructurada.

¿Cómo complementar Redshift con otros servicios de análisis de AWS?

Amazon Athena: consultas SQL sobre S3

Amazon Athena es un servicio serverless que permite realizar consultas SQL directamente sobre los datos almacenados en Amazon S3. Esta capacidad resulta extremadamente útil en diversos escenarios:

Para consultas ad-hoc donde no queremos mover los datos a Redshift.
Cuando necesitamos verificar información puntual sin utilizar herramientas ETL.
Para análisis rápidos de datos sin configurar infraestructura adicional.

Athena ofrece la posibilidad de:

Crear y ejecutar consultas SQL
Guardar consultas frecuentes para su reutilización
Analizar casos de uso comunes, como determinar qué usuarios acceden más a ciertas partes de una aplicación mediante el análisis de logs

-- Ejemplo conceptual de consulta en Athena
SELECT user_id, COUNT(*) as access_count
FROM my_app_logs
WHERE section = 'dashboard'
GROUP BY user_id
ORDER BY access_count DESC
LIMIT 10;

AWS Lake Formation: gobernanza para data lakes

Lake Formation es un servicio gestionado por AWS que proporciona gobernanza de datos en data lakes, simplificando la configuración, protección y administración de estos repositorios centralizados de información.

Entre sus principales características encontramos:

Integración nativa con otros servicios de AWS como Athena, Redshift, EMR, Glue y QuickSight
Gestión de permisos centralizada
Catálogo de datos unificado
Administración sin preocupaciones sobre la infraestructura subyacente

Lake Formation mantiene un catálogo que incluye:

Bases de datos conectadas
Tablas disponibles
Vistas configuradas
Otros recursos del data lake

La combinación de estos tres servicios (Redshift, Athena y Lake Formation) permite implementar soluciones integrales de big data que cubren desde el almacenamiento y procesamiento hasta el análisis y la gobernanza de datos.

¿Cuáles son los casos de uso adecuados para Amazon Redshift?

Amazon Redshift se destaca particularmente en ciertos escenarios cuando una empresa está migrando aplicaciones locales a la nube de AWS:

Análisis de grandes volúmenes de datos estructurados: Redshift es ideal para procesar y analizar conjuntos masivos de datos usando SQL.
Business Intelligence y reportes empresariales: Facilita la generación de dashboards y reportes analíticos mediante la integración con herramientas de visualización.
Consolidación de datos desde múltiples fuentes: Permite centralizar información proveniente de diversas aplicaciones o sistemas en un único repositorio analítico.
Procesamiento analítico en tiempo real: Con sus capacidades de procesamiento paralelo, puede manejar consultas complejas sobre grandes volúmenes de datos rápidamente.
Integración con flujos de trabajo de big data: Se complementa perfectamente con otros servicios como EMR, Glue y los demás mencionados anteriormente.

AWS proporciona un ecosistema completo para implementar soluciones de big data, siendo Redshift una pieza fundamental en esta arquitectura. La elección del servicio adecuado dependerá de los requisitos específicos de cada proyecto y de cómo se complementan entre sí las diferentes herramientas disponibles.

Los conocimientos adquiridos sobre Redshift y los servicios complementarios de AWS para análisis de datos te permitirán seleccionar las opciones más adecuadas para implementar soluciones robustas de big data en la nube. ¿Qué casos de uso consideras más relevantes para tu organización? Comparte tu experiencia en los comentarios.

Gustavo Bautista Hernández

student•

Las respuestas correctas son A, C y E:

A. Compatibilidad con API de datos para acceder a los datos con aplicaciones tradicionales, en contenedores y basadas en eventos.

C. Generación de cargas de trabajo de análisis durante horas específicas y cuando la aplicación no está activa.

E. Escalado global para admitir petabytes de datos y decenas de millones de solicitudes por minuto.

¿Por qué estas son las respuestas correctas?

Opción A - Compatibilidad con API de datos:

✅ Correcto - Amazon Redshift ofrece:

Data API: Permite acceder a datos sin necesidad de drivers JDBC/ODBC
Integración con aplicaciones modernas: Contenedores, Lambda, aplicaciones serverless
Acceso programático: Ideal para aplicaciones basadas en eventos
REST API: Facilita la integración con aplicaciones tradicionales y modernas

Opción C - Análisis fuera de horas pico:

✅ Correcto - Redshift es ideal para:

Data Warehousing: Diseñado específicamente para análisis y reporting
Cargas de trabajo programadas: Puedes ejecutar análisis complejos en ventanas de mantenimiento
Separación de workloads: Análisis no interfiere con aplicaciones OLTP
Concurrency Scaling: Maneja picos de análisis sin afectar rendimiento

Opción E - Escalado masivo:

✅ Correcto - Redshift escala a:

Petabytes de datos: Diseñado para grandes volúmenes de data warehousing
Alta concurrencia: Soporta miles de consultas concurrentes
Redshift Spectrum: Consulta datos en S3 (exabytes potencialmente)
Arquitectura columnar: Optimizada para consultas analíticas a gran escala

¿Por qué las otras opciones NO son adecuadas para Redshift?

Opción B - "Compatibilidad con cifrado del lado del cliente y del servidor":

❌ NO es un caso de uso específico de Redshift:

Aunque Redshift soporta cifrado, esto es una característica de seguridad estándar de AWS
Prácticamente todos los servicios de AWS ofrecen cifrado (RDS, DynamoDB, S3, etc.)
No es una razón para elegir Redshift específicamente
No diferencia a Redshift de otras soluciones de base de datos

Opción D - "Almacenamiento en caché de datos para reducir la presión sobre la base de datos backend":

❌ NO es el propósito de Redshift:

Redshift NO es un servicio de caché
Para caché necesitarías: ElastiCache (Redis/Memcached) o DAX (para DynamoDB)
Redshift es un data warehouse para análisis, no para reducir carga operacional
Sería costoso e inadecuado usar Redshift como caché

Opción F - "Creación de una réplica secundaria del clúster mediante la consola de administración de AWS":

❌ NO es una característica destacada de Redshift:

Redshift tiene backups automáticos y snapshots, pero no réplicas de lectura como RDS
No tiene Multi-AZ automático como RDS
Para alta disponibilidad, usarías RA3 nodes con almacenamiento gestionado
Esta característica es más relevante para RDS, Aurora o DynamoDB