MSK vs Kinesis: cuál elegir en AWS

Curso de Big Data en AWS

Contenido del curso

Bienvenida e introducción al curso

Arquitecturas

Extracción de información

Transformación de Información

Carga de Información

Consumo de información

Seguridad, Orquestación y Automatización

Clase pública

52
Las cinco B de big data explicadas
01:44 min

Tomar examen

MSK vs Kinesis: cuál elegir en AWS

Resumen

AWS MSK ofrece Apache Kafka administrado en la nube con enfoque en Big Data. Explica cuándo conviene elegirlo frente a Kinesis Data Streams y cómo se despliega un clúster multizona con brokers y ZooKeeper para lograr alta disponibilidad y orquestación de datos. Conoce sus piezas, sus ventajas y su alcance operativo.

¿Qué es AWS MSK y por qué importa en Big Data?

AWS MSK es Apache Kafka administrado en AWS, presentado en re:Invent 2018 en Las Vegas. Su objetivo es claro: migrar Kafka on‑premise a la nube de forma transparente, manteniendo compatibilidad con el ecosistema de terceros y con el mundo open source.

Es Kafka administrado en AWS, con enfoque en clientes que ya usan Kafka on‑premise.
Entrega flexibilidad para integrarse con herramientas externas.
En el momento descrito, funciona con Apache Kafka 1.1.1.

La clave es su promesa: mantener la experiencia Kafka mientras se delega la infraestructura a AWS, sin perder la capacidad de integración externa.

¿Cuándo usar MSK vs Kinesis Data Streams?

La decisión se divide por integración y operación. Kinesis Data Streams es más administrado, coordinado y sincronizado con otros servicios de AWS. MSK, en cambio, ofrece mayor flexibilidad y mejor encaje con soluciones open source y de terceros, a cambio de más carga de administración.

Elige Kinesis cuando necesitas integración nativa y fuerte con servicios de AWS.
Elige MSK cuando necesitas integración con sistemas de terceros y open source.
Kinesis: producto más administrado y coherente con el ecosistema AWS.
MSK: mayor flexibilidad, pero implica operar un clúster.

En resumen operativo: con MSK administras componentes de Kafka en AWS; con Kinesis delegas más y te alineas con servicios de la plataforma.

¿Cómo se despliega la arquitectura de MSK?

MSK se despliega como un clúster de Kafka. Al crearlo, defines cuántos broker nodes usar y en qué zonas de disponibilidad ubicarlos, con la recomendación de ser multizona para alta disponibilidad. La arquitectura incorpora ZooKeeper para coordinación.

¿Qué componentes conforman el clúster?

Broker nodes: procesan y almacenan los datos de Kafka. Se distribuyen en múltiples zonas y subredes.
ZooKeeper: gestiona configuración, nombres, sincronización y rotación, además de la integración con otros servicios.
Por defecto, siempre habrá al menos un nodo de ZooKeeper al crear MSK.

¿Cómo fluye la información en MSK?

Un producer envía datos hacia el clúster de Apache Kafka.
El clúster orquesta y procesa la data a través de los brokers.
Uno o varios consumers reciben los datos procesados.

El patrón es familiar si vienes de Kinesis Data Streams: un producer, el cluster y un consumer. Cambia el servicio, pero se mantienen los roles de producción, procesamiento y consumo.

¿Qué implica el despliegue multizona?

Alta disponibilidad: si falla una zona, el clúster sigue activo en otras.
Replicación: el diseño busca resiliencia al distribuir nodos entre zonas.
Ubicación explícita: decides en qué zonas y subredes residirán los brokers.

En conjunto, MSK entrega Kafka con infraestructura administrada por AWS, manteniendo los conceptos nativos de Kafka: producer, consumer, brokers y ZooKeeper, más la capacidad de integrarse con open source y terceros cuando esa flexibilidad es prioritaria.

¿Tienes un caso donde dudes entre Kinesis y MSK? Cuéntalo en los comentarios y hablemos de la mejor ruta de integración y operación.

Mario Alexander Vargas Celis

Estudiante

📌 AWS MSK (Managed Streaming for Apache Kafka) 🚀

AWS MSK (Amazon Managed Streaming for Apache Kafka) es un servicio totalmente administrado que permite ejecutar y operar Apache Kafka en AWS sin preocuparse por la administración de infraestructura.

📌 ¿Por qué usar AWS MSK?

✅ Administración automática: AWS se encarga de la configuración, aprovisionamiento y mantenimiento. ✅ Alta disponibilidad: Replicación en múltiples zonas de disponibilidad (AZs). ✅ Integración con servicios AWS: Kinesis, Lambda, IAM, CloudWatch, S3, Redshift, etc. ✅ Escalabilidad automática: Ajusta automáticamente la capacidad del clúster según la carga de trabajo.

📌 Componentes de AWS MSK

1️⃣ Cluster de Kafka: Conjunto de brokers administrados. 2️⃣ Brokers: Instancias que manejan la comunicación y el almacenamiento de mensajes. 3️⃣ Zookeeper: Administra metadatos y la coordinación de Kafka. 4️⃣ Temas (Topics): Canales donde se publican y consumen los mensajes. 5️⃣ Productores y consumidores: Aplicaciones que envían y reciben datos desde Kafka.

📌 Pasos para Configurar AWS MSK

1️⃣ Crear un clúster de Kafka en AWS MSK

Desde la consola de AWS:

Ir a Amazon MSK.
Hacer clic en Crear clúster.
Elegir MSK estándar o MSK Serverless.
Configurar el número de brokers, tipo de instancia y almacenamiento.
Definir redes y permisos de seguridad (VPC, subnets, SG, IAM, etc.).
Crear y lanzar el clúster.

🔹 Ejemplo con AWS CLI:

aws kafka create-cluster --cluster-name MiKafkaCluster \ --kafka-version 2.8.1 \ --number-of-broker-nodes 3 \ --broker-node-group-info file://broker-config.json

2️⃣ Crear un topic en MSK

Puedes hacerlo usando kafka-topics.sh desde una máquina con acceso al clúster:

kafka-topics.sh --create --topic MiTopic --bootstrap-server <MSK_BROKER_URL> --partitions 3 --replication-factor 2

3️⃣ Conectar productores y consumidores

🔹 Ejemplo de productor en Python (usando kafka-python)

from kafka import KafkaProducer

producer = KafkaProducer(bootstrap_servers=['MSK_BROKER_URL']) producer.send('MiTopic', b'Hola desde AWS MSK!') producer.flush()

🔹 Ejemplo de consumidor en Python

from kafka import KafkaConsumer

consumer = KafkaConsumer('MiTopic', bootstrap_servers=['MSK_BROKER_URL']) for message in consumer: print(f'Recibido: {message.value}')

📌 Monitoreo y Seguridad en AWS MSK

🔹 CloudWatch: Monitorea métricas de uso, latencia y errores. 🔹 IAM & VPC: Controla accesos con políticas y redes privadas. 🔹 Cifrado: Soporta TLS para datos en tránsito y en reposo.

📌 ¿MSK Serverless o MSK Standard?

🔹 MSK Serverless → Sin administración de brokers, pago por uso. 🔹 MSK Standard → Personalizable, ideal para grandes cargas.

🚀 Conclusión

✅ AWS MSK simplifica la ejecución de Kafka sin gestionar servidores. ✅ Alta disponibilidad, escalabilidad automática y seguridad avanzada. ✅ Ideal para streaming de datos en tiempo real, IoT, logs y análisis.

MSK vs Kinesis: cuál elegir en AWS

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS