MSK vs Kinesis: cuál elegir en AWS
Clase 20 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
Viendo ahora - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
AWS MSK ofrece Apache Kafka administrado en la nube con enfoque en Big Data. Explica cuándo conviene elegirlo frente a Kinesis Data Streams y cómo se despliega un clúster multizona con brokers y ZooKeeper para lograr alta disponibilidad y orquestación de datos. Conoce sus piezas, sus ventajas y su alcance operativo.
¿Qué es AWS MSK y por qué importa en Big Data?
AWS MSK es Apache Kafka administrado en AWS, presentado en re:Invent 2018 en Las Vegas. Su objetivo es claro: migrar Kafka on‑premise a la nube de forma transparente, manteniendo compatibilidad con el ecosistema de terceros y con el mundo open source.
- Es Kafka administrado en AWS, con enfoque en clientes que ya usan Kafka on‑premise.
- Entrega flexibilidad para integrarse con herramientas externas.
- En el momento descrito, funciona con Apache Kafka 1.1.1.
La clave es su promesa: mantener la experiencia Kafka mientras se delega la infraestructura a AWS, sin perder la capacidad de integración externa.
¿Cuándo usar MSK vs Kinesis Data Streams?
La decisión se divide por integración y operación. Kinesis Data Streams es más administrado, coordinado y sincronizado con otros servicios de AWS. MSK, en cambio, ofrece mayor flexibilidad y mejor encaje con soluciones open source y de terceros, a cambio de más carga de administración.
- Elige Kinesis cuando necesitas integración nativa y fuerte con servicios de AWS.
- Elige MSK cuando necesitas integración con sistemas de terceros y open source.
- Kinesis: producto más administrado y coherente con el ecosistema AWS.
- MSK: mayor flexibilidad, pero implica operar un clúster.
En resumen operativo: con MSK administras componentes de Kafka en AWS; con Kinesis delegas más y te alineas con servicios de la plataforma.
¿Cómo se despliega la arquitectura de MSK?
MSK se despliega como un clúster de Kafka. Al crearlo, defines cuántos broker nodes usar y en qué zonas de disponibilidad ubicarlos, con la recomendación de ser multizona para alta disponibilidad. La arquitectura incorpora ZooKeeper para coordinación.
¿Qué componentes conforman el clúster?
- Broker nodes: procesan y almacenan los datos de Kafka. Se distribuyen en múltiples zonas y subredes.
- ZooKeeper: gestiona configuración, nombres, sincronización y rotación, además de la integración con otros servicios.
- Por defecto, siempre habrá al menos un nodo de ZooKeeper al crear MSK.
¿Cómo fluye la información en MSK?
- Un producer envía datos hacia el clúster de Apache Kafka.
- El clúster orquesta y procesa la data a través de los brokers.
- Uno o varios consumers reciben los datos procesados.
El patrón es familiar si vienes de Kinesis Data Streams: un producer, el cluster y un consumer. Cambia el servicio, pero se mantienen los roles de producción, procesamiento y consumo.
¿Qué implica el despliegue multizona?
- Alta disponibilidad: si falla una zona, el clúster sigue activo en otras.
- Replicación: el diseño busca resiliencia al distribuir nodos entre zonas.
- Ubicación explícita: decides en qué zonas y subredes residirán los brokers.
En conjunto, MSK entrega Kafka con infraestructura administrada por AWS, manteniendo los conceptos nativos de Kafka: producer, consumer, brokers y ZooKeeper, más la capacidad de integrarse con open source y terceros cuando esa flexibilidad es prioritaria.
¿Tienes un caso donde dudes entre Kinesis y MSK? Cuéntalo en los comentarios y hablemos de la mejor ruta de integración y operación.