Creación de clúster AWS MSK desde la consola

Clase 21 de 52 • Curso de Big Data en AWS

Resumen

Lleva tu arquitectura de streaming a producción con confianza: aquí verás cómo crear y activar un clúster AWS MSK basado en Apache Kafka, definir sus recursos críticos y obtener las cadenas de conexión usando Cloud9 y la CLI de AWS. Todo, paso a paso y sin perder tiempo.

¿Cómo crear un clúster AWS MSK paso a paso?

Desde la consola de AWS, busca el servicio MSK y entra a Create Cluster. Asigna un nombre (por ejemplo, Platzi MSK) y selecciona la BPC por defecto. En la región de Virginia, encontrarás seis zonas de disponibilidad y podrás elegir en cuáles desplegar.

Versiones: selecciona la más reciente indicada, Apache Kafka versión dos punto uno cero.
Zonas de disponibilidad: mínimo tres. Se eligen, por ejemplo, A, C y F, junto con su subred asociada.
Brokers: define uno por zona de disponibilidad. Total: tres brokers distribuidos.
Configuración avanzada: puedes personalizar o dejar por defecto.
- Instancia: Kafka M5 Large para optimizar costos.
- Almacenamiento: por defecto 1000 GB. Rango permitido: 1 GB a 16384 GB.
- Customer Master Key: se cambia solo vía CLI.

Confirma con Create Cluster. El status pasará a creating y tras unos minutos a activo. Con el clúster activo, ya puedes continuar con la obtención de cadenas de conexión y la operación.

¿Qué decisiones impactan disponibilidad y costo?

Elegir tres zonas de disponibilidad mejora tolerancia a fallas.
Un broker por zona simplifica y reduce costo inicial.
Instancia pequeña y almacenamiento por defecto equilibran costo y desempeño.

¿Cómo obtener las cadenas de conexión con la CLI de AWS?

Abre tu IDE en la nube, Cloud9, y usa la CLI para consultar el clúster y recuperar información esencial.

¿Cómo listar y describir por ARN?

Lista los clúster en la región de Virginia con el primer comando. Identifica el cluster ARN: es el Amazon Resource Name, el identificador único del clúster.
Copia también la cadena de conexión a su Keeper Connect Stream si la requieres para orquestar tareas del clúster.
Usa el segundo comando de describe cluster y agrega al final el cluster ARN. Así filtras y recuperas solo el clúster objetivo.

Puntos clave:

Cluster ARN: identificador único para futuras operaciones.
su Keeper Connect Stream: cadena para conectarte y administrar orquestación.

¿Cómo obtener el bootstrap de brokers?

Ejecuta el comando aws kafka get bootstrap brokers, especifica la región y el cluster ARN.
El resultado devuelve la cadena de conexión de los brokers, necesaria para productores y consumidores.

Con estas cadenas podrás empezar a enviar información de streaming y operar tus topics y procesos.

¿Qué habilidades y conceptos aplicaste con AWS MSK?

A lo largo del flujo aplicaste habilidades de despliegue, consulta y conexión en un entorno administrado.

AWS MSK y Apache Kafka: servicio administrado para streaming con integración a proyectos de open source.
Zonas de disponibilidad y subredes: distribución en A, C y F para resiliencia.
Brokers: nodos por zona para balance y disponibilidad.
Cluster ARN (Amazon Resource Name): identificador clave para la CLI.
su Keeper Connect Stream: cadena para orquestación y administración interna.
Cloud9: IDE en la nube para ejecutar comandos de forma ágil.
CLI de AWS: uso de comandos para describir el clúster y obtener bootstrap de brokers.
Customer Master Key: cambio de clave a través de CLI cuando se requiera.
Versionado de Kafka: selección de versión dos punto uno cero desde la consola.
Dimensionamiento: elección de Kafka M5 Large y almacenamiento por defecto de 1000 GB.
Servicios relacionados en tu ruta de big data: API Gateway, Storage Gateway, Kinesis Data Stream, Kinesis Firehouse y AWS MSK.

¿Tienes dudas sobre el despliegue, las cadenas de conexión o la selección de recursos? Comparte tu caso y comenta qué configuración piensas usar.

Comentarios

José Ortigas

student•

Me parece que nos deberian de indicar como desconectar los servicios ya que se generan facturaciones por hora, gracias

Carlos Andrés Zambrano Barrera

teacher•

Cómo estas, es importante que siempre después de cada configuración se eliminen los recursos creados, todos casi todos tienen costo y los de bigdata puede que sean más costosos.

Carlos Pérez

student•

Igual puedes intentar crear una alarma para que no te pases de un saldo si es que quieres ocupar un poco mas a fondo los servicios. Create Alarm, AWS

David Montoya Perez

student•

Este tema del MSK es como pa gente que conoce Kafka, porque yo no entendi casi nada jaja

Daniel Eduardo Portugal Revilla

student•

Pedimos curso de Kafka zero to hero! now!

Gabriela Ramírez

student•

yo no entendi nada... es como mucha informacion que no han explicado

Usuario anónimo

user•

Para esta demo vas a necesitar los siguientes comandos:

aws kafka list-clústers --region us-east-1 aws kafka describe-clúster --region us-east-1 --clúster-arn aws kafka get-bootstrap-brokers --region us-east-1 --clúster-arn [clústerARN]

john ct

student•

Amazon Managed Streaming for Apache Kafka (Amazon MSK) is a fully managed service that enables you to build and run applications that use Apache Kafka to process streaming data. Amazon MSK provides the control-plane operations, such as those for creating, updating, and deleting clusters.

Darvin Orozco

student•

¿Cómo se crea una alarma para no sobrepasar costos cargado a la tarjeta de crédito al crear o utilizar diferentes servicios de AWS?

Carlos Andrés Zambrano Barrera

teacher•

Buena tarde, Con esta guía puedes crear una billing alert y configuras el monto que quieres, es decir, que te avise cuando el costo sea superior a 5US por ejemplo --> https://docs.aws.amazon.com/AmazonCloudWatch/latest/monitoring/monitor_estimated_charges_with_cloudwatch.html

Darvin Orozco

student•

Muchísimas gracias @czam01 Será una buena herramienta para no superar costos planificados. Saludos

José Ortigas

student•

no aparece BigData

LUIS GERARDO CAMBAL BARAHONA

student•

De que manera nos cobra AWS por el despliegue de MSK?

Jose Daniel Zamalloa Núñez

student•

¿Hay algun curso completo de Kafka?

Mayra Lopez

student•

No por el momento. Pero quédate la pendiente por si esto cambia.

Mario Alexander Vargas Celis

student•

Aquí tienes una guía paso a paso para desplegar un clúster de AWS MSK (Managed Streaming for Apache Kafka).

📌 Pasos para Desplegar un Clúster MSK en AWS 🚀

1️⃣ Configurar una VPC para MSK

MSK requiere que los brokers estén en una VPC privada con subnets en múltiples zonas de disponibilidad (AZs).

Ve a la Consola de AWS > VPC > Crear VPC.
Crea 3 subnets privadas en diferentes AZs.
Crea un Security Group (SG) con acceso en los puertos:
- 9092 (para comunicación sin TLS).
- 9094 (para comunicación con TLS).
Configura un IAM Role con permisos de acceso a MSK.

2️⃣ Crear el Clúster MSK

🔹 Desde la Consola de AWS

Ve a Amazon MSK > Crear clúster.
Elige entre MSK estándar o MSK Serverless.
Selecciona la versión de Kafka (recomendado: 2.8.1 o superior).
Especifica la cantidad de brokers y el tipo de instancia (ejemplo: kafka.m5.large).
Configura el almacenamiento (ejemplo: 100 GiB por broker).
Asigna la VPC, subnets y Security Group creados en el paso 1.
Habilita CloudWatch Logs y métricas opcionales.
Crear clúster y esperar a que esté Activo.

🔹 Creación con AWS CLI

Ejecuta el siguiente comando:

aws kafka create-cluster --cluster-name MiKafkaCluster \ --kafka-version 2.8.1 \ --number-of-broker-nodes 3 \ --broker-node-group-info file://broker-config.json

📌 Ejemplo del archivo broker-config.json:

{ "InstanceType": "kafka.m5.large", "ClientSubnets": ["subnet-xxxxx", "subnet-yyyyy", "subnet-zzzzz"], "SecurityGroups": ["sg-xxxxxxx"], "StorageInfo": { "EbsStorageInfo": { "VolumeSize": 100 } } }

3️⃣ Crear un Topic en MSK

Para crear un topic, usa kafka-topics.sh:

kafka-topics.sh --create --topic MiTopic \ --bootstrap-server <BROKER_MSK> \ --partitions 3 --replication-factor 2

4️⃣ Conectar Productores y Consumidores

🔹 Productor en Python (kafka-python)

from kafka import KafkaProducer

producer = KafkaProducer(bootstrap_servers=['BROKER_MSK']) producer.send('MiTopic', b'Hola desde MSK!') producer.flush()

🔹 Consumidor en Python

from kafka import KafkaConsumer

consumer = KafkaConsumer('MiTopic', bootstrap_servers=['BROKER_MSK']) for message in consumer: print(f'Recibido: {message.value}')

5️⃣ Monitoreo y Seguridad

✅ CloudWatch → Monitorea métricas de Kafka. ✅ IAM & Security Groups → Controla accesos. ✅ Cifrado TLS → Protege datos en tránsito.

🚀 Conclusión

Desplegar un clúster MSK en AWS es simple con CloudFormation, AWS CLI o la consola.

john ct

student•

The diagram demonstrates the interaction between the following components:

Broker nodes — When creating an Amazon MSK cluster, you specify how many broker nodes you want Amazon MSK to create in each Availability Zone. In the example cluster shown in this diagram, there's one broker per Availability Zone. Each Availability Zone has its own virtual private cloud (VPC) subnet.

ZooKeeper nodes — Amazon MSK also creates the Apache ZooKeeper nodes for you. Apache ZooKeeper is an open-source server that enables highly reliable distributed coordination.

Producers, consumers, and topic creators — Amazon MSK lets you use Apache Kafka data-plane operations to create topics and to produce and consume data.

john ct

student•

AWS CLI — You can use the AWS Command Line Interface (AWS CLI) or the APIs in the SDK to perform control-plane operations. For example, you can use the AWS CLI or the SDK to create or delete an Amazon MSK cluster, list all the clusters in an account, or view the properties of a cluster.

john ct

student•

1 broker for each AZ

Usuario anónimo

user•

Gracias

Usuario anónimo

user•

Configurado

john ct

student•

Use this resource to create an Amazon MSK cluster and to get a list of existing clusters Query Parameters Name Type Required Description nextToken String False The paginated results marker. When the result of the operation is truncated, the call returns NextToken in the response. To get the next batch, provide this token in your next request.

clusterNameFilter String False Specify a prefix of the name of the clusters that you want to list. The service lists all the clusters whose names start with this prefix.

maxResults String False The maximum number of results to return in the response. If there are more results, the response includes a NextToken parameter.

Creación de clúster AWS MSK desde la consola

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas