AWS Kinesis: streaming masivo de datos
Clase 14 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
Viendo ahora - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
En entornos que exigen decisiones inmediatas, AWS Kinesis Data Stream destaca por su capacidad de procesar grandes cantidades de datos en tiempo real. Es comparable, en objetivo, al servicio de Google Cloud Platform llamado Pubsub, y se usa cuando los flujos son masivos y continuos.
¿Qué es Kinesis Data Stream y por qué importa?
Kinesis se diseña para terabytes e incluso exabytes de información con miles o millones de fuentes simultáneas. Su foco es el streaming: recibir, organizar, agregar y poner a disposición los datos mientras fluyen, no almacenarlos de forma permanente.
- Casos de uso claves: procesamiento de logs, social media, market data feeds y click stream.
- Permite hacer agregaciones durante el procesamiento. Puedes agrupar y operar sobre datos en movimiento.
- Aporta alta disponibilidad, redundancia y alto performance para cargas críticas en tiempo real.
¿Cómo se compone Kinesis: data record, shards y partition key?
Para entender su arquitectura, conviene identificar las piezas base y cómo se relacionan. Así dimensionas, configuras y escalas de forma correcta desde el inicio.
- Data record: es la unidad fundamental de datos en Kinesis Data Stream. Todo inicia aquí.
- Periodo de retención: define cuánto tiempo permanece el flujo en Kinesis. Por defecto es 24 horas. No es un servicio de almacenamiento.
- Producer: el que pone el data record en el stream. Puede ser una aplicación, un servicio o una fuente externa.
- Consumer: el que toma el data record ya procesado para alimentar otros sistemas.
- Shard: secuencia que agrupa múltiples data records. Al configurar el stream defines cuántos shards necesitas, guiado por el volumen y el throughput esperado.
- Partition key: organiza y agrupa los data records por shard. Determina la distribución interna del flujo.
¿Cómo fluye la información en tiempo real con producers y consumers?
La imagen mental es simple: producers → Kinesis → consumers. En el medio, Kinesis recibe, organiza en shards con la partition key y pone los datos a disposición para continuar el flujo.
- Orígenes típicos: instancias de S2, aplicaciones del cliente, aplicaciones móviles u otras fuentes. Mediante API y SDK puedes alimentar Kinesis desde múltiples puntos.
- Organización: el data record entra, se asigna a un shard usando la partition key y queda listo para procesar y consumir.
- Ejemplo ilustrativo: una fuente como Twitter produce data en tiempo real, llega como data record, se agrupa en un shard por partition key y, tras procesarse, alimenta destinos como Elasticsearch, Kinesis Firehose o una Lambda para integrar con sistemas de terceros.
- Escalabilidad: puedes crecer a N shards para soportar mayores tasas de datos. Escalas según lo que permitan los shards en tamaño y flujo.
- Decisión práctica: cuando límites de servicios como Cloud Watch impiden escalar, Kinesis es la opción natural. Estimas bien los shards y desde allí distribuyes a todos los sistemas que necesites.
¿Tienes un caso de uso en tiempo real o dudas sobre dimensionar shards, partition key o consumers? Comenta tu escenario y con gusto te orientamos.