Configuración de cluster Redshift en AWS
Clase 39 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Domina la configuración de un cluster de Amazon Redshift en la consola de AWS y toma decisiones informadas sobre costo, rendimiento y seguridad. Aquí encontrarás los pasos esenciales y los puntos críticos para desplegar tu data warehouse en la nube con confianza.
¿Cómo configurar un cluster de Amazon Redshift paso a paso?
Comienza en la consola de AWS, busca el servicio de Amazon Redshift y entra a la sección de clusters. Selecciona la opción Launch Cluster para iniciar el despliegue. La configuración se realiza en pocas pantallas, pero cada campo impacta en cómo operarás y pagarás el servicio.
¿Qué datos básicos debes definir?
- Identificador del cluster: por ejemplo, platzi-cluster.
- Base de datos inicial: por ejemplo, platzi-db.
- Puerto por defecto: 5439.
- Usuario administrador: admin o cesambrano.
- Política de contraseña: incluir mayúscula, minúscula y longitud mínima.
- Motor subyacente: detrás de Redshift hay PostgreSQL.
¿Cómo elegir el tipo de nodo y su capacidad?
Seleccionar el tipo de nodo es crítico porque afecta billing y volumen de datos procesados. Revisa el pricing de cada opción antes de elegir.
- Ejemplo de opción pequeña: “ese dos punto large”.
- Memoria: 15 GB por nodo.
- CPU: 7 “S2 compute units” o 2 “virtual core”.
- Cambio a opciones mayores: hasta 36 procesadores y 244 GB de RAM por nodo.
- Rendimiento de I/O: puede ser moderado y subir a “very high” en configuraciones más grandes.
¿Qué topología de cluster necesitas?
- Opción de despliegue: single node o multi-node.
- En multi-node, define el número de nodos: por ejemplo, 4 nodos.
¿Qué opciones impactan costos, rendimiento y seguridad?
El servicio es potente para grandes volúmenes de datos y, por lo tanto, costoso. Ajustar bien la configuración es clave para ahorrar costos sin sacrificar resultados.
- Tipo y número de nodos: determinan memoria, CPU y I/O performance; afectan directamente el pricing.
- Recordatorio de costos: antes de lanzar, Redshift advierte sobre “cargos aplicables”.
- Red y seguridad: configura correctamente la BPC, los grupos de seguridad y si habrá acceso público. Si conectarás herramientas de terceros vía JDBC u ODBC, define dónde desplegarás el cluster.
- Disponibilidad y monitoreo: selecciona la zona de disponibilidad, activa alarmas con CloudWatch e integra mantenimiento y roles según tus necesidades.
- Ahorro a largo plazo: si usarás Redshift por periodos prolongados, considera la reserva de nodos para reducir el pricing.
- Ajustes finos: usa parameter groups para configurar detalles del motor de PostgreSQL de forma avanzada.
¿Qué herramientas ofrece la consola para operar Redshift?
En el menú lateral encontrarás utilidades para administrar y optimizar el entorno tras lanzar el cluster. Te ayudan a consultar datos, respaldar, asegurar y optimizar tu data warehouse.
- Panel principal: dashboard de Redshift con estado general.
- SQL: editor de consultas para ejecutar y procesar consultas.
- Respaldo: administración de snapshots del cluster.
- Seguridad: integración con servicios como HSM y configuración de grupos de seguridad.
- Ajustes del motor: creación y uso de parameter groups para PostgreSQL.
- Optimización: advisor para recomendaciones operativas.
- Eventos y conectividad: manejo de eventos y opciones de conexión.
¿Con qué configuración de nodos y seguridad trabajarías en tu próximo proyecto y por qué? Comparte tu enfoque y experiencias en los comentarios.