Creación de clúster AWS MSK desde la consola

Curso de Big Data en AWS

Contenido del curso

Bienvenida e introducción al curso

Arquitecturas

Extracción de información

Transformación de Información

Carga de Información

Consumo de información

Seguridad, Orquestación y Automatización

Clase pública

52
Las cinco B de big data explicadas
01:44 min

Tomar examen

Creación de clúster AWS MSK desde la consola

Resumen

Lleva tu arquitectura de streaming a producción con confianza: aquí verás cómo crear y activar un clúster AWS MSK basado en Apache Kafka, definir sus recursos críticos y obtener las cadenas de conexión usando Cloud9 y la CLI de AWS. Todo, paso a paso y sin perder tiempo.

¿Cómo crear un clúster AWS MSK paso a paso?

Desde la consola de AWS, busca el servicio MSK y entra a Create Cluster. Asigna un nombre (por ejemplo, Platzi MSK) y selecciona la BPC por defecto. En la región de Virginia, encontrarás seis zonas de disponibilidad y podrás elegir en cuáles desplegar.

Versiones: selecciona la más reciente indicada, Apache Kafka versión dos punto uno cero.
Zonas de disponibilidad: mínimo tres. Se eligen, por ejemplo, A, C y F, junto con su subred asociada.
Brokers: define uno por zona de disponibilidad. Total: tres brokers distribuidos.
Configuración avanzada: puedes personalizar o dejar por defecto.
- Instancia: Kafka M5 Large para optimizar costos.
- Almacenamiento: por defecto 1000 GB. Rango permitido: 1 GB a 16384 GB.
- Customer Master Key: se cambia solo vía CLI.

Confirma con Create Cluster. El status pasará a creating y tras unos minutos a activo. Con el clúster activo, ya puedes continuar con la obtención de cadenas de conexión y la operación.

¿Qué decisiones impactan disponibilidad y costo?

Elegir tres zonas de disponibilidad mejora tolerancia a fallas.
Un broker por zona simplifica y reduce costo inicial.
Instancia pequeña y almacenamiento por defecto equilibran costo y desempeño.

¿Cómo obtener las cadenas de conexión con la CLI de AWS?

Abre tu IDE en la nube, Cloud9, y usa la CLI para consultar el clúster y recuperar información esencial.

¿Cómo listar y describir por ARN?

Lista los clúster en la región de Virginia con el primer comando. Identifica el cluster ARN: es el Amazon Resource Name, el identificador único del clúster.
Copia también la cadena de conexión a su Keeper Connect Stream si la requieres para orquestar tareas del clúster.
Usa el segundo comando de describe cluster y agrega al final el cluster ARN. Así filtras y recuperas solo el clúster objetivo.

Puntos clave:

Cluster ARN: identificador único para futuras operaciones.
su Keeper Connect Stream: cadena para conectarte y administrar orquestación.

¿Cómo obtener el bootstrap de brokers?

Ejecuta el comando aws kafka get bootstrap brokers, especifica la región y el cluster ARN.
El resultado devuelve la cadena de conexión de los brokers, necesaria para productores y consumidores.

Con estas cadenas podrás empezar a enviar información de streaming y operar tus topics y procesos.

¿Qué habilidades y conceptos aplicaste con AWS MSK?

A lo largo del flujo aplicaste habilidades de despliegue, consulta y conexión en un entorno administrado.

AWS MSK y Apache Kafka: servicio administrado para streaming con integración a proyectos de open source.
Zonas de disponibilidad y subredes: distribución en A, C y F para resiliencia.
Brokers: nodos por zona para balance y disponibilidad.
Cluster ARN (Amazon Resource Name): identificador clave para la CLI.
su Keeper Connect Stream: cadena para orquestación y administración interna.
Cloud9: IDE en la nube para ejecutar comandos de forma ágil.
CLI de AWS: uso de comandos para describir el clúster y obtener bootstrap de brokers.
Customer Master Key: cambio de clave a través de CLI cuando se requiera.
Versionado de Kafka: selección de versión dos punto uno cero desde la consola.
Dimensionamiento: elección de Kafka M5 Large y almacenamiento por defecto de 1000 GB.
Servicios relacionados en tu ruta de big data: API Gateway, Storage Gateway, Kinesis Data Stream, Kinesis Firehouse y AWS MSK.

¿Tienes dudas sobre el despliegue, las cadenas de conexión o la selección de recursos? Comparte tu caso y comenta qué configuración piensas usar.

Mario Alexander Vargas Celis

Estudiante

Aquí tienes una guía paso a paso para desplegar un clúster de AWS MSK (Managed Streaming for Apache Kafka).

📌 Pasos para Desplegar un Clúster MSK en AWS 🚀

1️⃣ Configurar una VPC para MSK

MSK requiere que los brokers estén en una VPC privada con subnets en múltiples zonas de disponibilidad (AZs).

Ve a la Consola de AWS > VPC > Crear VPC.
Crea 3 subnets privadas en diferentes AZs.
Crea un Security Group (SG) con acceso en los puertos:
- 9092 (para comunicación sin TLS).
- 9094 (para comunicación con TLS).
Configura un IAM Role con permisos de acceso a MSK.

2️⃣ Crear el Clúster MSK

🔹 Desde la Consola de AWS

Ve a Amazon MSK > Crear clúster.
Elige entre MSK estándar o MSK Serverless.
Selecciona la versión de Kafka (recomendado: 2.8.1 o superior).
Especifica la cantidad de brokers y el tipo de instancia (ejemplo: kafka.m5.large).
Configura el almacenamiento (ejemplo: 100 GiB por broker).
Asigna la VPC, subnets y Security Group creados en el paso 1.
Habilita CloudWatch Logs y métricas opcionales.
Crear clúster y esperar a que esté Activo.

🔹 Creación con AWS CLI

Ejecuta el siguiente comando:

aws kafka create-cluster --cluster-name MiKafkaCluster \ --kafka-version 2.8.1 \ --number-of-broker-nodes 3 \ --broker-node-group-info file://broker-config.json

📌 Ejemplo del archivo broker-config.json:

{ "InstanceType": "kafka.m5.large", "ClientSubnets": ["subnet-xxxxx", "subnet-yyyyy", "subnet-zzzzz"], "SecurityGroups": ["sg-xxxxxxx"], "StorageInfo": { "EbsStorageInfo": { "VolumeSize": 100 } } }

3️⃣ Crear un Topic en MSK

Para crear un topic, usa kafka-topics.sh:

kafka-topics.sh --create --topic MiTopic \ --bootstrap-server <BROKER_MSK> \ --partitions 3 --replication-factor 2

4️⃣ Conectar Productores y Consumidores

🔹 Productor en Python (kafka-python)

from kafka import KafkaProducer

producer = KafkaProducer(bootstrap_servers=['BROKER_MSK']) producer.send('MiTopic', b'Hola desde MSK!') producer.flush()

🔹 Consumidor en Python

from kafka import KafkaConsumer

consumer = KafkaConsumer('MiTopic', bootstrap_servers=['BROKER_MSK']) for message in consumer: print(f'Recibido: {message.value}')

5️⃣ Monitoreo y Seguridad

✅ CloudWatch → Monitorea métricas de Kafka. ✅ IAM & Security Groups → Controla accesos. ✅ Cifrado TLS → Protege datos en tránsito.

🚀 Conclusión

Desplegar un clúster MSK en AWS es simple con CloudFormation, AWS CLI o la consola.

Creación de clúster AWS MSK desde la consola

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS