Casos de uso de Amazon Redshift en AWS

Curso de AWS Certified Solutions Architect Associate

Contenido del curso

Fundamentos de AWS

Identidad, Acceso y Gobernanza Multicuenta

Servicios de Computo en AWS

Contenedores en AWS

Redes en AWS

Escalamiento y balanceo en AWS

Almacenamiento en AWS

Bases de datos en AWS

Migración en AWS

Monitoreo y Auditoria en AWS

DNS y CDN en AWS

Servicios de Seguridad

Serverless

Servicios de Datos en AWS

Servicios de AI y ML em AWS

64
Servicios de IA y ML en AWS
04:09 min

Servicios de Backup y Recuperación ante desastres

Architect Solutions Certificate

Tomar examen

Casos de uso de Amazon Redshift en AWS

Resumen

Si estás migrando una aplicación local a AWS y necesitas mover grandes volúmenes de información, Amazon Redshift es la pieza central para construir un data warehouse en la nube. Aquí entenderás cómo funciona, en qué se diferencia de Athena y dónde encaja Lake Formation para gobernar tus datos.

¿Qué es Amazon Redshift y para qué sirve?

Redshift es la solución de data warehouse que ofrece AWS y compite directamente con servicios como BigQuery de GCP. Está pensado para almacenar y analizar grandes cantidades de datos usando consultas SQL, lo que lo convierte en el servicio estrella para Big Data dentro del ecosistema AWS [02:10].

Desde la consola puedes crear un clúster fácilmente dejando las opciones predeterminadas. Una vez listo, puedes revisar métricas de las queries, ver la capacidad usada y explorar casos de uso sugeridos por AWS. Cuando ya tienes datos ingestados, puedes lanzar consultas SQL directas para analizar la información.

¿Para qué se usa Amazon Redshift? Para almacenar grandes volúmenes de datos estructurados y analizarlos con SQL en un data warehouse gestionado, ideal cuando migras cargas analíticas locales a la nube.

¿Cuáles son los modos de despliegue de Redshift?

Redshift te da dos formas de manejar la capacidad de cómputo, y elegir la correcta depende de qué tan predecible sea tu tráfico.

Clúster serverless: escala automáticamente según la capacidad que necesites, sin que tengas que aprovisionar nodos.
Clúster basado en nodos: funciona similar a los clústeres de Aurora, donde tú configuras la cantidad de nodos según el tráfico esperado.
Consultas SQL nativas: en ambos modos puedes ejecutar análisis directos sobre los datos almacenados.

La decisión entre uno u otro suele girar en torno a si prefieres pagar por uso flexible o controlar tú mismo la infraestructura.

¿Cuándo conviene usar Athena en lugar de Redshift?

Athena es un servicio incluido dentro de S3 que permite hacer consultas SQL directamente sobre los archivos guardados en tus buckets [03:45]. Es la opción ideal cuando tienes algo ad hoc y no quieres mover los datos a Redshift ni montar un proceso de ETL completo.

Imagina que tienes un bucket con los logs de una aplicación y necesitas saber qué usuario entra más a cierta sección. En lugar de extraer y transformar esos logs, abres Athena, escribes la consulta y obtienes la respuesta. Incluso puedes guardar esa query para reutilizarla cuando la necesites.

Athena también es serverless, así que no manejas infraestructura ni te preocupas por escalarla. Pagas por las consultas que ejecutas y nada más.

¿Cuál es la diferencia entre Athena y Redshift? Athena consulta archivos en S3 sin moverlos y es ideal para análisis puntuales; Redshift es un data warehouse completo para cargas analíticas continuas y de alto volumen.

¿Qué tipo de archivos puedes consultar con Athena?

En la práctica, Athena trabaja sobre los streams y carpetas que ya tienes configurados en S3. Por ejemplo, si has creado buckets de prueba con datos de streams, puedes apuntar Athena a esa ubicación y empezar a consultar sin un paso intermedio.

Esto reduce la fricción cuando solo necesitas resolver una duda concreta sobre los datos sin armar toda una arquitectura analítica.

¿Qué hace AWS Lake Formation en una arquitectura de datos?

Lake Formation es un servicio gestionado que te ayuda a tener gobernanza sobre tus data lakes en AWS [05:30]. La primera vez que entras te pide configurar un usuario administrador, que será quien herede los permisos para coordinar el acceso con el resto de servicios.

Lo interesante es cómo se integra con el resto del ecosistema. Lake Formation conecta con:

Athena, para consultas SQL sobre datos en S3.
Redshift, para análisis en el data warehouse.
EMR, para procesamiento distribuido.
Glue, para catalogación y ETL.
QuickSight, para visualización de datos.

Desde su consola tienes un catálogo de datos por defecto al que puedes conectar bases de datos, ver tablas, vistas y todo lo configurado para tus servicios de Data Lake. Así centralizas permisos y metadatos sin tener que pelear con la infraestructura por debajo.

¿Qué problema resuelve Lake Formation? Centraliza la gobernanza, los permisos y el catálogo de tu data lake para que servicios como Athena, Redshift o Glue trabajen con reglas consistentes.

¿Cómo encajan estos servicios en un caso de migración?

Cuando migras una aplicación local a AWS, la combinación suele verse así: cargas datos crudos en S3, los gobiernas con Lake Formation, los consultas puntualmente con Athena y mueves los volúmenes pesados a Redshift para análisis recurrentes. Cada servicio resuelve una capa distinta sin pisarse entre sí.

Con esto ya tienes el panorama para identificar los casos de uso adecuados de Redshift en una migración. Déjame en los comentarios las tres opciones de la sección de recursos que mejor se ajustan a las características de Redshift y por qué las elegiste.

Gustavo Bautista Hernández

Estudiante

Las respuestas correctas son A, C y E:

A. Compatibilidad con API de datos para acceder a los datos con aplicaciones tradicionales, en contenedores y basadas en eventos.

C. Generación de cargas de trabajo de análisis durante horas específicas y cuando la aplicación no está activa.

E. Escalado global para admitir petabytes de datos y decenas de millones de solicitudes por minuto.

¿Por qué estas son las respuestas correctas?

Opción A - Compatibilidad con API de datos:

✅ Correcto - Amazon Redshift ofrece:

Data API: Permite acceder a datos sin necesidad de drivers JDBC/ODBC
Integración con aplicaciones modernas: Contenedores, Lambda, aplicaciones serverless
Acceso programático: Ideal para aplicaciones basadas en eventos
REST API: Facilita la integración con aplicaciones tradicionales y modernas

Opción C - Análisis fuera de horas pico:

✅ Correcto - Redshift es ideal para:

Data Warehousing: Diseñado específicamente para análisis y reporting
Cargas de trabajo programadas: Puedes ejecutar análisis complejos en ventanas de mantenimiento
Separación de workloads: Análisis no interfiere con aplicaciones OLTP
Concurrency Scaling: Maneja picos de análisis sin afectar rendimiento

Opción E - Escalado masivo:

✅ Correcto - Redshift escala a:

Petabytes de datos: Diseñado para grandes volúmenes de data warehousing
Alta concurrencia: Soporta miles de consultas concurrentes
Redshift Spectrum: Consulta datos en S3 (exabytes potencialmente)
Arquitectura columnar: Optimizada para consultas analíticas a gran escala

¿Por qué las otras opciones NO son adecuadas para Redshift?

Opción B - "Compatibilidad con cifrado del lado del cliente y del servidor":

❌ NO es un caso de uso específico de Redshift:

Aunque Redshift soporta cifrado, esto es una característica de seguridad estándar de AWS
Prácticamente todos los servicios de AWS ofrecen cifrado (RDS, DynamoDB, S3, etc.)
No es una razón para elegir Redshift específicamente
No diferencia a Redshift de otras soluciones de base de datos

Opción D - "Almacenamiento en caché de datos para reducir la presión sobre la base de datos backend":

❌ NO es el propósito de Redshift:

Redshift NO es un servicio de caché
Para caché necesitarías: ElastiCache (Redis/Memcached) o DAX (para DynamoDB)
Redshift es un data warehouse para análisis, no para reducir carga operacional
Sería costoso e inadecuado usar Redshift como caché

Opción F - "Creación de una réplica secundaria del clúster mediante la consola de administración de AWS":

❌ NO es una característica destacada de Redshift:

Redshift tiene backups automáticos y snapshots, pero no réplicas de lectura como RDS
No tiene Multi-AZ automático como RDS
Para alta disponibilidad, usarías RA3 nodes con almacenamiento gestionado
Esta característica es más relevante para RDS, Aurora o DynamoDB

Miguel Angel Reyes Moreno

Estudiante

Estoy de acuerdo contigo, compañero Si analizamos bien el servicio y las respuestas, es fácil descartar aquellas que no tienen nada que ver con Redshift

Casos de uso de Amazon Redshift en AWS

Fundamentos de AWS

Certificación AWS Solutions Architect Associate: Fundamentos y Preparación

Preparación para certificación AWS Arquitecto de Soluciones

Configuración de presupuestos en AWS para controlar costos

Los 6 pilares del Well-Architected Framework

Identidad, Acceso y Gobernanza Multicuenta

Cómo evitar brechas de seguridad con IAM

Creación de usuarios administrador y practicante en AWS IAM

Gestión de cuentas con AWS Organizations

Detecta recursos AWS expuestos con Access Analyzer

Cómo gestionar múltiples cuentas AWS

Servicios de Computo en AWS

Servicios de cómputo AWS: EC2, procesadores Graviton y AMIs

Compute Savings Plan para EC2 y Lambda

Cómo lanzar tu primera instancia EC2

Optimizar latencia en EC2 con tenencia dedicada

Cómo consultar metadatos de EC2 con IMDSv2

AWS Outposts: ejecutar AWS en tu data center

Despliegue de app web en Elastic Beanstalk

Contenedores en AWS

Contenedores en AWS: ECS, EKS y ECR

Gestión de imágenes de contenedores con ECR y Fargate

Configuración de clusters, tareas y servicios en Amazon ECS

Redes en AWS

Direccionamiento IP y bloques CIDR para redes AWS

NAT Gateway para subredes privadas en AWS

Configuración de instancias públicas y privadas con NAT Gateway

NACL y Security Groups en AWS

Cómo reparar un Security Group en EC2

Conectividad híbrida en AWS: VPC Peering, Transit Gateway y Endpoints

Escalamiento y balanceo en AWS

Tipos de balanceadores de carga en AWS

Configuración de balanceadores de carga en AWS para alta disponibilidad

Autoescalamiento en EC2 con Auto Scaling Groups

Cómo crear un Auto Scaling Group en EC2

Almacenamiento en AWS

Tipos de almacenamiento en AWS: EBS, EFS y S3

Instance Store vs EBS en AWS

EFS vs FSx para compartir archivos en AWS

Creación y configuración de volúmenes EBS en AWS

Transfer Acceleration para datos globales en S3

Configuración de EFS para compartir almacenamiento entre instancias

Recuperar objetos borrados en Amazon S3

Bases de datos en AWS

Bases de datos relacionales vs no relacionales en AWS

Cómo funciona DynamoDB en AWS

Creación y configuración de bases de datos Dynamo en AWS

Elasticache y DAX

RDS vs Aurora: réplicas y alta disponibilidad

Cómo configurar Aurora con alta disponibilidad en RDS

Migración en AWS

Estrategias de migración AWS: las 6 R para trasladar aplicaciones

Cómo migramos 500 TB a AWS sin downtime

Migración de datos con AWS Snow Family: opciones y características

DMS y SCT para migrar bases de datos en AWS

Monitoreo y Auditoria en AWS

CloudTrail y EventBridge en arquitecturas AWS

Monitoreo de AWS con CloudWatch

DNS y CDN en AWS

Zonas locales y de borde en AWS

CloudFront vs Global Accelerator en AWS

Failover en Route 53 para arquitectura activo-pasiva

Configuración de políticas de geoproximidad en AWS Route 53

Servicios de Seguridad

KMS vs CloudHSM para datos regulados

AWS Shield y WAF contra ataques DDoS

Servicios AWS para detectar vulnerabilidades

GuardDuty y Trusted Advisor para detectar amenazas en AWS

Serverless

API Gateway y Lambda en arquitecturas serverless

Creación y configuración de funciones Lambda para automatización

AWS SQS: Tipos de filas y configuración para arquitecturas serverless

AWS SNS y Step Functions para comunicación y workflows visuales

Servicios de Datos en AWS

Servicios de datos en AWS para tu examen

Kinesis, EMR, Glue

Casos de uso de Amazon Redshift en AWS

Servicios de AI y ML em AWS

Servicios de IA y ML en AWS