Configuración de cluster Redshift en AWS

Clase 39 de 52Curso de Big Data en AWS

Contenido del curso

Extracción de información

Transformación de Información

Resumen

Domina la configuración de un cluster de Amazon Redshift en la consola de AWS y toma decisiones informadas sobre costo, rendimiento y seguridad. Aquí encontrarás los pasos esenciales y los puntos críticos para desplegar tu data warehouse en la nube con confianza.

¿Cómo configurar un cluster de Amazon Redshift paso a paso?

Comienza en la consola de AWS, busca el servicio de Amazon Redshift y entra a la sección de clusters. Selecciona la opción Launch Cluster para iniciar el despliegue. La configuración se realiza en pocas pantallas, pero cada campo impacta en cómo operarás y pagarás el servicio.

¿Qué datos básicos debes definir?

  • Identificador del cluster: por ejemplo, platzi-cluster.
  • Base de datos inicial: por ejemplo, platzi-db.
  • Puerto por defecto: 5439.
  • Usuario administrador: admin o cesambrano.
  • Política de contraseña: incluir mayúscula, minúscula y longitud mínima.
  • Motor subyacente: detrás de Redshift hay PostgreSQL.

¿Cómo elegir el tipo de nodo y su capacidad?

Seleccionar el tipo de nodo es crítico porque afecta billing y volumen de datos procesados. Revisa el pricing de cada opción antes de elegir.

  • Ejemplo de opción pequeña: “ese dos punto large”.
  • Memoria: 15 GB por nodo.
  • CPU: 7 “S2 compute units” o 2 “virtual core”.
  • Cambio a opciones mayores: hasta 36 procesadores y 244 GB de RAM por nodo.
  • Rendimiento de I/O: puede ser moderado y subir a “very high” en configuraciones más grandes.

¿Qué topología de cluster necesitas?

  • Opción de despliegue: single node o multi-node.
  • En multi-node, define el número de nodos: por ejemplo, 4 nodos.

¿Qué opciones impactan costos, rendimiento y seguridad?

El servicio es potente para grandes volúmenes de datos y, por lo tanto, costoso. Ajustar bien la configuración es clave para ahorrar costos sin sacrificar resultados.

  • Tipo y número de nodos: determinan memoria, CPU y I/O performance; afectan directamente el pricing.
  • Recordatorio de costos: antes de lanzar, Redshift advierte sobre “cargos aplicables”.
  • Red y seguridad: configura correctamente la BPC, los grupos de seguridad y si habrá acceso público. Si conectarás herramientas de terceros vía JDBC u ODBC, define dónde desplegarás el cluster.
  • Disponibilidad y monitoreo: selecciona la zona de disponibilidad, activa alarmas con CloudWatch e integra mantenimiento y roles según tus necesidades.
  • Ahorro a largo plazo: si usarás Redshift por periodos prolongados, considera la reserva de nodos para reducir el pricing.
  • Ajustes finos: usa parameter groups para configurar detalles del motor de PostgreSQL de forma avanzada.

¿Qué herramientas ofrece la consola para operar Redshift?

En el menú lateral encontrarás utilidades para administrar y optimizar el entorno tras lanzar el cluster. Te ayudan a consultar datos, respaldar, asegurar y optimizar tu data warehouse.

  • Panel principal: dashboard de Redshift con estado general.
  • SQL: editor de consultas para ejecutar y procesar consultas.
  • Respaldo: administración de snapshots del cluster.
  • Seguridad: integración con servicios como HSM y configuración de grupos de seguridad.
  • Ajustes del motor: creación y uso de parameter groups para PostgreSQL.
  • Optimización: advisor para recomendaciones operativas.
  • Eventos y conectividad: manejo de eventos y opciones de conexión.

¿Con qué configuración de nodos y seguridad trabajarías en tu próximo proyecto y por qué? Comparte tu enfoque y experiencias en los comentarios.