Configuración de cluster Redshift en AWS

Clase 39 de 52Curso de Big Data en AWS

Resumen

Domina la configuración de un cluster de Amazon Redshift en la consola de AWS y toma decisiones informadas sobre costo, rendimiento y seguridad. Aquí encontrarás los pasos esenciales y los puntos críticos para desplegar tu data warehouse en la nube con confianza.

¿Cómo configurar un cluster de Amazon Redshift paso a paso?

Comienza en la consola de AWS, busca el servicio de Amazon Redshift y entra a la sección de clusters. Selecciona la opción Launch Cluster para iniciar el despliegue. La configuración se realiza en pocas pantallas, pero cada campo impacta en cómo operarás y pagarás el servicio.

¿Qué datos básicos debes definir?

  • Identificador del cluster: por ejemplo, platzi-cluster.
  • Base de datos inicial: por ejemplo, platzi-db.
  • Puerto por defecto: 5439.
  • Usuario administrador: admin o cesambrano.
  • Política de contraseña: incluir mayúscula, minúscula y longitud mínima.
  • Motor subyacente: detrás de Redshift hay PostgreSQL.

¿Cómo elegir el tipo de nodo y su capacidad?

Seleccionar el tipo de nodo es crítico porque afecta billing y volumen de datos procesados. Revisa el pricing de cada opción antes de elegir.

  • Ejemplo de opción pequeña: “ese dos punto large”.
  • Memoria: 15 GB por nodo.
  • CPU: 7 “S2 compute units” o 2 “virtual core”.
  • Cambio a opciones mayores: hasta 36 procesadores y 244 GB de RAM por nodo.
  • Rendimiento de I/O: puede ser moderado y subir a “very high” en configuraciones más grandes.

¿Qué topología de cluster necesitas?

  • Opción de despliegue: single node o multi-node.
  • En multi-node, define el número de nodos: por ejemplo, 4 nodos.

¿Qué opciones impactan costos, rendimiento y seguridad?

El servicio es potente para grandes volúmenes de datos y, por lo tanto, costoso. Ajustar bien la configuración es clave para ahorrar costos sin sacrificar resultados.

  • Tipo y número de nodos: determinan memoria, CPU y I/O performance; afectan directamente el pricing.
  • Recordatorio de costos: antes de lanzar, Redshift advierte sobre “cargos aplicables”.
  • Red y seguridad: configura correctamente la BPC, los grupos de seguridad y si habrá acceso público. Si conectarás herramientas de terceros vía JDBC u ODBC, define dónde desplegarás el cluster.
  • Disponibilidad y monitoreo: selecciona la zona de disponibilidad, activa alarmas con CloudWatch e integra mantenimiento y roles según tus necesidades.
  • Ahorro a largo plazo: si usarás Redshift por periodos prolongados, considera la reserva de nodos para reducir el pricing.
  • Ajustes finos: usa parameter groups para configurar detalles del motor de PostgreSQL de forma avanzada.

¿Qué herramientas ofrece la consola para operar Redshift?

En el menú lateral encontrarás utilidades para administrar y optimizar el entorno tras lanzar el cluster. Te ayudan a consultar datos, respaldar, asegurar y optimizar tu data warehouse.

  • Panel principal: dashboard de Redshift con estado general.
  • SQL: editor de consultas para ejecutar y procesar consultas.
  • Respaldo: administración de snapshots del cluster.
  • Seguridad: integración con servicios como HSM y configuración de grupos de seguridad.
  • Ajustes del motor: creación y uso de parameter groups para PostgreSQL.
  • Optimización: advisor para recomendaciones operativas.
  • Eventos y conectividad: manejo de eventos y opciones de conexión.

¿Con qué configuración de nodos y seguridad trabajarías en tu próximo proyecto y por qué? Comparte tu enfoque y experiencias en los comentarios.