AWS Kinesis: streaming masivo de datos

Clase 14 de 52 • Curso de Big Data en AWS

Resumen

En entornos que exigen decisiones inmediatas, AWS Kinesis Data Stream destaca por su capacidad de procesar grandes cantidades de datos en tiempo real. Es comparable, en objetivo, al servicio de Google Cloud Platform llamado Pubsub, y se usa cuando los flujos son masivos y continuos.

¿Qué es Kinesis Data Stream y por qué importa?

Kinesis se diseña para terabytes e incluso exabytes de información con miles o millones de fuentes simultáneas. Su foco es el streaming: recibir, organizar, agregar y poner a disposición los datos mientras fluyen, no almacenarlos de forma permanente.

Casos de uso claves: procesamiento de logs, social media, market data feeds y click stream.
Permite hacer agregaciones durante el procesamiento. Puedes agrupar y operar sobre datos en movimiento.
Aporta alta disponibilidad, redundancia y alto performance para cargas críticas en tiempo real.

¿Cómo se compone Kinesis: data record, shards y partition key?

Para entender su arquitectura, conviene identificar las piezas base y cómo se relacionan. Así dimensionas, configuras y escalas de forma correcta desde el inicio.

Data record: es la unidad fundamental de datos en Kinesis Data Stream. Todo inicia aquí.
Periodo de retención: define cuánto tiempo permanece el flujo en Kinesis. Por defecto es 24 horas. No es un servicio de almacenamiento.
Producer: el que pone el data record en el stream. Puede ser una aplicación, un servicio o una fuente externa.
Consumer: el que toma el data record ya procesado para alimentar otros sistemas.
Shard: secuencia que agrupa múltiples data records. Al configurar el stream defines cuántos shards necesitas, guiado por el volumen y el throughput esperado.
Partition key: organiza y agrupa los data records por shard. Determina la distribución interna del flujo.

¿Cómo fluye la información en tiempo real con producers y consumers?

La imagen mental es simple: producers → Kinesis → consumers. En el medio, Kinesis recibe, organiza en shards con la partition key y pone los datos a disposición para continuar el flujo.

Orígenes típicos: instancias de S2, aplicaciones del cliente, aplicaciones móviles u otras fuentes. Mediante API y SDK puedes alimentar Kinesis desde múltiples puntos.
Organización: el data record entra, se asigna a un shard usando la partition key y queda listo para procesar y consumir.
Ejemplo ilustrativo: una fuente como Twitter produce data en tiempo real, llega como data record, se agrupa en un shard por partition key y, tras procesarse, alimenta destinos como Elasticsearch, Kinesis Firehose o una Lambda para integrar con sistemas de terceros.
Escalabilidad: puedes crecer a N shards para soportar mayores tasas de datos. Escalas según lo que permitan los shards en tamaño y flujo.
Decisión práctica: cuando límites de servicios como Cloud Watch impiden escalar, Kinesis es la opción natural. Estimas bien los shards y desde allí distribuyes a todos los sistemas que necesites.

¿Tienes un caso de uso en tiempo real o dudas sobre dimensionar shards, partition key o consumers? Comenta tu escenario y con gusto te orientamos.

Juan David Cajamarca Acuña

student•

Características de Kinesis Data Streams:

Recopila y procesa grandes cantidades de stream de datos en tiempo real. Deben ser gigantescas cantidades de datos (TB, HB, con miles o millones de fuentes de información que alimentan el servicio).
Casos de uso: Procesamiento de logs, social media, market data feeds y web clickstream.
Kinesis Data Streams nos permite hacer agregaciones en el proceso de información; es decir, podemos juntar información, agruparla y hacer ciertas actividades con dicha información mientras es procesada.

Así está compuesto Kinesis Data Streams:

Data Record: Es la unidad de dato almacenada en Kinesis Data Streams.
Retention period: El tiempo en que la información se mantiene accesible después de ser agregada al stream. Es muy importante tener en cuenta que Kinesis Data Streams no es un servicio para almacenar información, pero podemos contar con un periodo de retención, que por defecto es de 24 horas.
Producer: Es el encargado de poner el Data Record en Kinesis Data Streams.
Consumer: Toma los Data Records ya procesados de Kinesis Data Streams para alimentar otro sistema de información.
Shard: Es una secuencia de Data Records dentro de un stream. En la configuración de Kinesis, debemos especificar la cantidad de shards, y la cantidad de shard estará determinada principalmente por la cantidad del flujo de información que tengamos.
Partition key: Se usa para agrupar la información por shard dentro de un stream.

Es así que Kinesis Data Streams se convierte en una parte fundamental de arquitecturas en tiempo real, arquitecturas en las cuales la necesidad principal es procesar millones de datos; se puede crecer N cantidad de shards y procesar de acuerdo a lo que permitan los shards en tamaño.

Kinesis Data Stream nos brinda alta disponibilidad, redundancia y un performance muy alto para manejar grandes cantidades de datos en tiempo real.

Esteban Padilla

student•

Este kinesis es similar kafka?

Mario Reyes

student•

si Esteban es la opcion serverless que ofrece AWS de Kafka, puede tener algunas limitaciones en los acknowledge, respecto a time-out

Juan Nishiguchi Mendoza

company_admin•

Correcto Esteban, es la versión Serverless que ofrece AWS.

Miguel Angel Pabon Hernandez

student•

saludos carlos una duda el programa pentaho ya no se utiliza para hacer transformaciones o pasar informacion en big data? gracias.

Juan Nishiguchi Mendoza

company_admin•

Partition key de Kinesis Data Streams es similar los Tópicos de Kafka?

Darvin Orozco

student•

Aprendo mucho de la comunidad, pues no había escuchado de Kafka; A investigar qué es...

Leonardo Rojas Moreno

student•

Por lo que entiendo de kafka, si son servicios muy similares, sin embargo la arquitectura es un poco diferente: kafka almacena por un tiempo hasta que el consumidor hace un pull y tambien tiene un periodo de retencion aunque es por defecto un poco mayor, sin embargo kinesis entiendo que no es desatendido y entrega el mensaje al consumidor, en este post encontre la respuesta que me aclaró las diferencias

https://www.softkraft.co/aws-kinesis-vs-kafka-comparison/

JULIO RAUL CARRANZA RUIZ

student•

Estimado Carlos , existen herramientas como pentaho y talend que hace transformacion de datos , se puede usar y instalar en aws

Sebastian Bello

student•

Estos serian los mismos Event Hubs de Azure?

Pedro Matías Cuevas Meza

student•

Los límites de capacidad de un flujo de datos Kinesis están definidos por el número de fragmentos (shards) que contiene el flujo de datos. Los límites pueden ser superados por el rendimiento de los datos o por el número de llamadas de datos de lectura. Cada fragmento permite una entrada de datos de 1 MB/s y una salida de datos de 2 MB/s.

Jose Suarez

student•

La cantidad de shard va a estar determinada por la cantidad del flujo de la información que tengamos.

Daniel G Perico Sánchez

student•

Súper interesante 😲

Usuario anónimo

user•

Gracias

Usuario anónimo

user•

Tienes que pensar en procesar grandes cantidades de datos, desde TB hasta EB. Algunos casos de uso son para procesar información de logs, social media, market data feeds y web clickstream. La unidad fundamental dentro de Kinesis se llama Data Record. La información dentro de Kinesis por defecto solamente cuenta con un periodo de retención de 24 horas. El Shard es una secuencia de Data Records dentro de un stream.

Usuario anónimo

user•

claro

john ct

student•

excelente e interesante Kinesis

john ct

student•

Amazon Kinesis makes it easy to collect, process, and analyze video and data streams in real time.aws

Usuario anónimo

user•

Tiempo predeterminado de retención: 24h

Usuario anónimo

user•

Cuanto tomara para saber todo lo que este profe esta diciendo.

Usuario anónimo

user•

gracias

Usuario anónimo

user•

Kinesis Data Streams se utiliza para procesar grandes volúmenes de datos en tiempo real, mínimo en TB.

LUIS GERARDO CAMBAL BARAHONA

student•

Kinesis Data Streams maneja grandes cantidades de datos en tiempo real

Usuario anónimo

user•

Interesante la forma como se explica el manejo de datos de gran volumen.

Usuario anónimo

user•

Muy bien.

AWS Kinesis: streaming masivo de datos

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas