MSK vs Kinesis: cuál elegir en AWS

Clase 20 de 52 • Curso de Big Data en AWS

Resumen

AWS MSK ofrece Apache Kafka administrado en la nube con enfoque en Big Data. Explica cuándo conviene elegirlo frente a Kinesis Data Streams y cómo se despliega un clúster multizona con brokers y ZooKeeper para lograr alta disponibilidad y orquestación de datos. Conoce sus piezas, sus ventajas y su alcance operativo.

¿Qué es AWS MSK y por qué importa en Big Data?

AWS MSK es Apache Kafka administrado en AWS, presentado en re:Invent 2018 en Las Vegas. Su objetivo es claro: migrar Kafka on‑premise a la nube de forma transparente, manteniendo compatibilidad con el ecosistema de terceros y con el mundo open source.

Es Kafka administrado en AWS, con enfoque en clientes que ya usan Kafka on‑premise.
Entrega flexibilidad para integrarse con herramientas externas.
En el momento descrito, funciona con Apache Kafka 1.1.1.

La clave es su promesa: mantener la experiencia Kafka mientras se delega la infraestructura a AWS, sin perder la capacidad de integración externa.

¿Cuándo usar MSK vs Kinesis Data Streams?

La decisión se divide por integración y operación. Kinesis Data Streams es más administrado, coordinado y sincronizado con otros servicios de AWS. MSK, en cambio, ofrece mayor flexibilidad y mejor encaje con soluciones open source y de terceros, a cambio de más carga de administración.

Elige Kinesis cuando necesitas integración nativa y fuerte con servicios de AWS.
Elige MSK cuando necesitas integración con sistemas de terceros y open source.
Kinesis: producto más administrado y coherente con el ecosistema AWS.
MSK: mayor flexibilidad, pero implica operar un clúster.

En resumen operativo: con MSK administras componentes de Kafka en AWS; con Kinesis delegas más y te alineas con servicios de la plataforma.

¿Cómo se despliega la arquitectura de MSK?

MSK se despliega como un clúster de Kafka. Al crearlo, defines cuántos broker nodes usar y en qué zonas de disponibilidad ubicarlos, con la recomendación de ser multizona para alta disponibilidad. La arquitectura incorpora ZooKeeper para coordinación.

¿Qué componentes conforman el clúster?

Broker nodes: procesan y almacenan los datos de Kafka. Se distribuyen en múltiples zonas y subredes.
ZooKeeper: gestiona configuración, nombres, sincronización y rotación, además de la integración con otros servicios.
Por defecto, siempre habrá al menos un nodo de ZooKeeper al crear MSK.

¿Cómo fluye la información en MSK?

Un producer envía datos hacia el clúster de Apache Kafka.
El clúster orquesta y procesa la data a través de los brokers.
Uno o varios consumers reciben los datos procesados.

El patrón es familiar si vienes de Kinesis Data Streams: un producer, el cluster y un consumer. Cambia el servicio, pero se mantienen los roles de producción, procesamiento y consumo.

¿Qué implica el despliegue multizona?

Alta disponibilidad: si falla una zona, el clúster sigue activo en otras.
Replicación: el diseño busca resiliencia al distribuir nodos entre zonas.
Ubicación explícita: decides en qué zonas y subredes residirán los brokers.

En conjunto, MSK entrega Kafka con infraestructura administrada por AWS, manteniendo los conceptos nativos de Kafka: producer, consumer, brokers y ZooKeeper, más la capacidad de integrarse con open source y terceros cuando esa flexibilidad es prioritaria.

¿Tienes un caso donde dudes entre Kinesis y MSK? Cuéntalo en los comentarios y hablemos de la mejor ruta de integración y operación.

Juan David Cajamarca Acuña

student•

Este servicio es Apache Kafka administrado en la nube de AWS. MSK se despliega en un clúster, el cual está compuesto de broker nodes y zookeeper nodes para orquestar el procesamiento de información.

Conceptos importantes

Broker nodes: Al crear el clúster debemos especificar la cantidad de nodos por zona de disponibilidad. Con esto, el clúster se convierte en un multi-zona brindándonos una muy alta disponibilidad.
Zookeeper: Ayuda a mantener la configuración, datos de nombres, sincronización, rotación e integración con otros servicios.
Zookeeper nodes: Por defecto, al crear el clúster de MSK, se crea un nodo de Zookeeper.

Los conceptos que manejamos en esta arquitectura son muy parecidos a los que tenemos en Kinesis Data Stream (Producer, Clúster, Consumer).

MSK vs Kinesis Lo que recomienda Amazon es:

Utiliza Kinesis si necesitas una fuerte integración con otros servicios dentro de AWS.
Utiliza MSK si necesitas una fuerte integración con sistemas de terceros con Open Source y mayor flexibilidad.

En conclusión, con Kinesis Data Stream tendremos un producto más administrado, coordinado y sincronizado con otros servicios de AWS, pero en MSK tendremos más flexibilidad la cual incluye consigo mayor carga de administración (porque básicamente lo que se despliega en MSK es un clúster).

Norberto Iván Tolaba

student•

De diez tu resumen, ayuda mucho

Usuario anónimo

user•

¿Cómo seleccionar qué servicio usar? Kinesis: cuando necesita una fuerte integración con otros servicios de AWS, mejor coordinado y administrado. MSK: cuando necesita una fuerte integración con sistemas de terceros, open source y mayor flexibilidad, y carga de administración.

Adrian Peralta

student•

MSK (Managed Streaming for Kafka)

Usuario anónimo

user•

Kinesis: Para integrar con servicios de AWS MSK: Para integrar con servicios de terceros.

Usuario anónimo

user•

Por que habla todo en spanglis?

Usuario anónimo

user•

Este servicio es apace kafka administrado por aws. Kinesis es para integrar con los servicios propios de aws y los de msk son con servicios de terceros.

Santiago Ortiz Ceballos

student•

no entendí cual era el producer de información en la arquitectura del final. Es el que se conecta con los brokers, o con el Zookeper node?

Mario Alexander Vargas Celis

student•

📌 AWS MSK (Managed Streaming for Apache Kafka) 🚀

AWS MSK (Amazon Managed Streaming for Apache Kafka) es un servicio totalmente administrado que permite ejecutar y operar Apache Kafka en AWS sin preocuparse por la administración de infraestructura.

📌 ¿Por qué usar AWS MSK?

✅ Administración automática: AWS se encarga de la configuración, aprovisionamiento y mantenimiento. ✅ Alta disponibilidad: Replicación en múltiples zonas de disponibilidad (AZs). ✅ Integración con servicios AWS: Kinesis, Lambda, IAM, CloudWatch, S3, Redshift, etc. ✅ Escalabilidad automática: Ajusta automáticamente la capacidad del clúster según la carga de trabajo.

📌 Componentes de AWS MSK

1️⃣ Cluster de Kafka: Conjunto de brokers administrados. 2️⃣ Brokers: Instancias que manejan la comunicación y el almacenamiento de mensajes. 3️⃣ Zookeeper: Administra metadatos y la coordinación de Kafka. 4️⃣ Temas (Topics): Canales donde se publican y consumen los mensajes. 5️⃣ Productores y consumidores: Aplicaciones que envían y reciben datos desde Kafka.

📌 Pasos para Configurar AWS MSK

1️⃣ Crear un clúster de Kafka en AWS MSK

Desde la consola de AWS:

Ir a Amazon MSK.
Hacer clic en Crear clúster.
Elegir MSK estándar o MSK Serverless.
Configurar el número de brokers, tipo de instancia y almacenamiento.
Definir redes y permisos de seguridad (VPC, subnets, SG, IAM, etc.).
Crear y lanzar el clúster.

🔹 Ejemplo con AWS CLI:

aws kafka create-cluster --cluster-name MiKafkaCluster \ --kafka-version 2.8.1 \ --number-of-broker-nodes 3 \ --broker-node-group-info file://broker-config.json

2️⃣ Crear un topic en MSK

Puedes hacerlo usando kafka-topics.sh desde una máquina con acceso al clúster:

kafka-topics.sh --create --topic MiTopic --bootstrap-server <MSK_BROKER_URL> --partitions 3 --replication-factor 2

3️⃣ Conectar productores y consumidores

🔹 Ejemplo de productor en Python (usando kafka-python)

from kafka import KafkaProducer

producer = KafkaProducer(bootstrap_servers=['MSK_BROKER_URL']) producer.send('MiTopic', b'Hola desde AWS MSK!') producer.flush()

🔹 Ejemplo de consumidor en Python

from kafka import KafkaConsumer

consumer = KafkaConsumer('MiTopic', bootstrap_servers=['MSK_BROKER_URL']) for message in consumer: print(f'Recibido: {message.value}')

📌 Monitoreo y Seguridad en AWS MSK

🔹 CloudWatch: Monitorea métricas de uso, latencia y errores. 🔹 IAM & VPC: Controla accesos con políticas y redes privadas. 🔹 Cifrado: Soporta TLS para datos en tránsito y en reposo.

📌 ¿MSK Serverless o MSK Standard?

🔹 MSK Serverless → Sin administración de brokers, pago por uso. 🔹 MSK Standard → Personalizable, ideal para grandes cargas.

🚀 Conclusión

✅ AWS MSK simplifica la ejecución de Kafka sin gestionar servidores. ✅ Alta disponibilidad, escalabilidad automática y seguridad avanzada. ✅ Ideal para streaming de datos en tiempo real, IoT, logs y análisis.

Usuario anónimo

user•

Gracias

mateo londoño rua

student•

MUY INTEGRADO EL AWS - MSK

Usuario anónimo

user•

Es un nuevo servicio lanzado en el 2018 cuyas características son:

Es un servicio que te permite tener Apache Kafka administrado en la nube. Se despliega en un clúster. Viene con la versión de Apache Kafka 1.1.1 Debemos especificar la cantidad de nodos que va a crear. Por defecto va a desplegar un nodo de Zookeeper para mantener la configuración.

Usuario anónimo

user•

listo

john ct

student•

belongs to the Analytics Category>MSK managed Streaming for apache Kafka

john ct

student•

is a fully managed service that makes it easy for you to build and run applications that use Apache Kafka to process streaming data

john ct

student•

Amazon MSK provides the control-plane operations and lets you use Apache Kafka data-plane operations, such as producing and consuming data. It runs open-source versions of Apache Kafka, so existing applications, tooling, and plugins from partners and the Apache Kafka community are supported without requiring changes to application code.

Usuario anónimo

user•

Saludos Instructor Carlos Andres Zambrano

Con base a las explicaciones de cada uno de sus videos mi pregunta es: puedo desarrollar cada una de las practicas que usted realiza y no me va a llegar ningún cobro por la tarjeta de crédito?, me he abstenido de hacer muchas de sus practicas porque tengo la duda si esto me va a pasar la cuenta de cobro, ya que la tarjeta de crédito usada para el registro en Amazon no es de mi propiedad (Me la prestaron solo para poder registrarme) y no puedo hacer uso del cupo de la misma.

Me ayudaría con su pronta respuesta para saber como proceder. Le agradezco mucho.

MSK vs Kinesis: cuál elegir en AWS

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS