Configuración de cluster Redshift en AWS

Clase 39 de 52 • Curso de Big Data en AWS

Resumen

Domina la configuración de un cluster de Amazon Redshift en la consola de AWS y toma decisiones informadas sobre costo, rendimiento y seguridad. Aquí encontrarás los pasos esenciales y los puntos críticos para desplegar tu data warehouse en la nube con confianza.

¿Cómo configurar un cluster de Amazon Redshift paso a paso?

Comienza en la consola de AWS, busca el servicio de Amazon Redshift y entra a la sección de clusters. Selecciona la opción Launch Cluster para iniciar el despliegue. La configuración se realiza en pocas pantallas, pero cada campo impacta en cómo operarás y pagarás el servicio.

¿Qué datos básicos debes definir?

Identificador del cluster: por ejemplo, platzi-cluster.
Base de datos inicial: por ejemplo, platzi-db.
Puerto por defecto: 5439.
Usuario administrador: admin o cesambrano.
Política de contraseña: incluir mayúscula, minúscula y longitud mínima.
Motor subyacente: detrás de Redshift hay PostgreSQL.

¿Cómo elegir el tipo de nodo y su capacidad?

Seleccionar el tipo de nodo es crítico porque afecta billing y volumen de datos procesados. Revisa el pricing de cada opción antes de elegir.

Ejemplo de opción pequeña: “ese dos punto large”.
Memoria: 15 GB por nodo.
CPU: 7 “S2 compute units” o 2 “virtual core”.
Cambio a opciones mayores: hasta 36 procesadores y 244 GB de RAM por nodo.
Rendimiento de I/O: puede ser moderado y subir a “very high” en configuraciones más grandes.

¿Qué topología de cluster necesitas?

Opción de despliegue: single node o multi-node.
En multi-node, define el número de nodos: por ejemplo, 4 nodos.

¿Qué opciones impactan costos, rendimiento y seguridad?

El servicio es potente para grandes volúmenes de datos y, por lo tanto, costoso. Ajustar bien la configuración es clave para ahorrar costos sin sacrificar resultados.

Tipo y número de nodos: determinan memoria, CPU y I/O performance; afectan directamente el pricing.
Recordatorio de costos: antes de lanzar, Redshift advierte sobre “cargos aplicables”.
Red y seguridad: configura correctamente la BPC, los grupos de seguridad y si habrá acceso público. Si conectarás herramientas de terceros vía JDBC u ODBC, define dónde desplegarás el cluster.
Disponibilidad y monitoreo: selecciona la zona de disponibilidad, activa alarmas con CloudWatch e integra mantenimiento y roles según tus necesidades.
Ahorro a largo plazo: si usarás Redshift por periodos prolongados, considera la reserva de nodos para reducir el pricing.
Ajustes finos: usa parameter groups para configurar detalles del motor de PostgreSQL de forma avanzada.

¿Qué herramientas ofrece la consola para operar Redshift?

En el menú lateral encontrarás utilidades para administrar y optimizar el entorno tras lanzar el cluster. Te ayudan a consultar datos, respaldar, asegurar y optimizar tu data warehouse.

Panel principal: dashboard de Redshift con estado general.
SQL: editor de consultas para ejecutar y procesar consultas.
Respaldo: administración de snapshots del cluster.
Seguridad: integración con servicios como HSM y configuración de grupos de seguridad.
Ajustes del motor: creación y uso de parameter groups para PostgreSQL.
Optimización: advisor para recomendaciones operativas.
Eventos y conectividad: manejo de eventos y opciones de conexión.

¿Con qué configuración de nodos y seguridad trabajarías en tu próximo proyecto y por qué? Comparte tu enfoque y experiencias en los comentarios.

Usuario anónimo

user•

Complejidad SQL Mayor = RedShift Capacidad Data Mayor = RedShift AWS se adapta a las necesidades del mercado

Mario Alexander Vargas Celis

student•

🚀 Creación de un Clúster en Amazon Redshift 🎯

Para desplegar un clúster de Amazon Redshift, sigue estos pasos:

1️⃣ Acceder a la Consola de AWS

Ve a la consola de AWS → Busca Amazon Redshift.
Haz clic en "Create cluster".

2️⃣ Configuración del Clúster

En la página de configuración, ajusta los siguientes parámetros:

🔹 Configuración Básica

Cluster name: Nombre del clúster (Ejemplo: mi-cluster-redshift).
Database name: Nombre de la base de datos principal (Ejemplo: mi_base_redshift).
Database port: Puerto predeterminado 5439.

🔹 Tipo de Clúster

Uso: Selecciona "Production" o "Free trial" (si aplica).
Node type: Elige la instancia según tu carga de trabajo:
- dc2.large (uso ligero).
- ra3.4xlarge (escalable para grandes volúmenes de datos).
Number of nodes:
- 1 nodo para pruebas.
- 2 o más para entornos productivos con cargas pesadas.

🔹 Autenticación

Master username: Nombre de usuario administrador.
Master password: Contraseña segura.

3️⃣ Configuración Avanzada

🔹 Network & Security

Virtual Private Cloud (VPC): Selecciona la VPC donde se desplegará.
Public accessibility:
- Sí: Permite conexiones externas.
- No: Solo accesible dentro de la VPC.

🔹 Integración con S3 (Opcional)

Si cargarás datos desde Amazon S3, asigna un IAM Role con permisos:

Ve a AWS IAM → Crea un rol con la política AmazonS3FullAccess.
En "Cluster permissions", asigna ese rol al clúster.

4️⃣ Crear el Clúster

Revisa la configuración.
Haz clic en "Create cluster".
Espera 5-10 minutos hasta que el estado sea Available.

5️⃣ Conectar a Redshift

📌 Desde la consola de AWS

Ve a Amazon Redshift → Query Editor.
Conéctate usando el usuario y la base de datos creados.

📌 Desde un cliente SQL (psql, DBeaver, pgAdmin, etc.)

psql -h <ENDPOINT_DEL_CLUSTER> -U <USUARIO> -d <BASE_DE_DATOS> -p 5439

🔹 Para encontrar el endpoint:

Ve a Clusters → Selecciona tu clúster → Copia el "Endpoint".

6️⃣ Creación de Tablas y Carga de Datos

📌 Crear una tabla en Redshift

CREATE TABLE ventas ( id_venta INT PRIMARY KEY, fecha TIMESTAMP, producto VARCHAR(255), cantidad INT, precio DECIMAL(10,2) );

📌 Cargar datos desde S3

COPY ventas FROM 's3://mi-bucket/datos.csv' IAM_ROLE 'arn:aws:iam::123456789012:role/RedshiftRole' FORMAT AS CSV IGNOREHEADER 1;

🎯 Conclusión

¡Listo! Ya tienes un clúster de Amazon Redshift en funcionamiento. 🚀 Puedes empezar a ejecutar consultas SQL y analizar grandes volúmenes de datos.

Leon Emmanuel Valdez Chavez

student•

Segun uno de los paradigmas que migrar a la nube vende es mitigar costos, pero durante todos estos cursos los instructores comentan muchas veces mas que se "tenga cuidado por que puede ser muy costoso". Y no he escuchado ni una sola vez que se diga, "esto sera mas barato que on-premises"

Luis Miguel Gómez Acuña

student•

Mas bien lo que se ahorra es tiempo, pero eso genera un costo proporcional dependiento de las configuraciones si queremos algo potente.

Usuario anónimo

user•

Como pueden identificarse los cluster por nomenclatura? por que no creo que vaya a ser siempre por organización, en este caso platzi.

Darvin Orozco

student•

¿Qué tan costoso (en promedio) es el servicio de RedShift? Sé que la respuesta es: "depende de..." pero sería bueno sí el profesor nos diera un costo sobre un proyecto real que él ha trabajado. Gracias.

Carlos Andrés Zambrano Barrera

teacher•

Alrededor de $2060 US mensuales con 3 nodos y proesando daots de 80GB al día. Igualmente depende de muchísimos factores: 1- tipo de nodo. 2- cantidad de data. 3- reservado o por demanda 4- uso de redshift spectrum

Yazmin Abat Alarcon

student•

+cluster and nodes > billing

Charly Rosero

student•

A la fecha ya existe la caracteristica de Redshift Spectrum que permite consultar datos directamente en los archivos de Amazon S3. lo que se conoce como Consultas Federadas.

Usuario anónimo

user•

¿Cuál será el costo promedio de la migración de un sistema warehouse local a un sistema AWS redshift? pensando en una estructura de bases de datos mixtas en el orden de los cientos de terabytes?

LUIS GERARDO CAMBAL BARAHONA

student•

RedShift acepta datos de Posgres

john ct

student•

database port5439 An Amazon Redshift cluster consists of nodes. Each cluster has a leader node and one or more compute nodes. The leader node receives queries from client applications, parses the queries, and develops query execution plans. The leader node then coordinates the parallel execution of these plans with the compute nodes and aggregates the intermediate results from these nodes. It then finally returns the results back to the client applications.

Compute nodes execute the query execution plans and transmit data among themselves to serve these queries. The intermediate results are sent to the leader node for aggregation before being sent back to the client applications. For more information about leader nodes and compute nodes, see Data warehouse system architecture in the Amazon Redshift Database Developer Guide.

john ct

student•

Important on demand hourly rate for the clster $1.0 or $0.25 toca desinstalar todo o retirar despues de los laboratorios

john ct

student•

Create cluster parameter group, reserverd node, disminuye el costo de pricing

Configuración de cluster Redshift en AWS

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno