Cómo crear Kinesis Data Stream en AWS
Clase 15 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
Viendo ahora - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Aprende a crear y configurar un Kinesis Data Stream desde la consola de AWS con criterios claros para dimensionar shards, activar encripción con KMS, ajustar retención y habilitar métricas y logs en CloudWatch. Además, conecta con Kinesis Firehose y Kinesis Analytics, y mejora el consumo con enhanced fan-out.
¿Cómo crear y configurar un Kinesis Data Stream en AWS?
Para iniciar, busca Kinesis en la consola de AWS. Verás dos servicios: Kinesis y Kinesis Video Stream. Entra a Kinesis, selecciona Get Started y elige entre cuatro opciones: Data Stream, Delivery Stream, Analytics o Video Stream. Para el procesamiento de datos en tiempo real, selecciona Create Data Stream y asigna un nombre (por ejemplo, “Platzi Kinesis”).
¿Qué opciones muestra Kinesis al iniciar?
- Data Stream: ingesta y procesamiento de datos en tiempo real.
- Delivery Stream: entrega a destinos mediante Kinesis Firehose.
- Analytics: analítica sobre datos en streaming.
- Video Stream: procesamiento de video en tiempo real.
¿Qué parámetros iniciales se definen?
- Nombre del stream y cantidad de shards.
- Estimación de tráfico para dimensionar capacidad de escritura y lectura.
- Opciones de envío de datos: API con put operation o Kinesis Producer Library en los productores.
¿Qué considerar al elegir shards y throughput?
La decisión de shards depende del volumen de tráfico, el tamaño del record, la tasa de records por segundo y el número de aplicaciones consumidoras. Dedica tiempo a esta estimación: impacta rendimiento y costos.
¿Qué capacidad ofrece un ejemplo con 5 shards?
- Escritura: 5 MB/s (aprox. 5,000 records/s).
- Lectura: 10 MB/s en total.
- Úsalo como referencia para validar tu carga y patrones de consumo.
¿Cómo ayuda el estimador de shards?
- Ingresas tamaño del record y records por segundo.
- Indicas cuántas aplicaciones van a consumir.
-
Recibes una recomendación de shards para configurar tu stream.
-
Habilidades clave: dimensionar shards, interpretar throughput de lectura/escritura, estimar records/s.
- Datos prácticos: más retención y más logs incrementan costo.
¿Cómo proteger, retener y monitorear el stream?
En la pestaña Details verás el stream ARN, el estatus, la cantidad de shards y opciones de envío de datos. También podrás integrar con Kinesis Firehose o Kinesis Analytics para extender ingestión y análisis.
¿Cómo habilitar encripción con KMS?
- Activa server-side encryption desde el panel derecho.
- Usa KMS (Key Management System) para cifrar los datos en tránsito por el stream.
- Beneficio: agrega una capa de seguridad con llaves administradas.
¿Cómo ajustar la retención y su costo?
- Cambia el periodo de retención entre 24 y 168 horas.
- Considera que aumentar retención incrementa el costo del servicio.
- Evalúa necesidades de reprocesamiento antes de ampliar ventanas.
¿Cómo ver métricas y logs en CloudWatch?
- Integra con CloudWatch para métricas y logs.
- Habilita CloudWatch Logs para monitorear y hacer debugging del comportamiento de la data.
-
En la pestaña Monitoring, usa dashboards predefinidos con métricas como records y bytes.
-
Organización y consumo: usa tags (p. ej., environment: production o staging) para filtrar recursos por ambiente.
- Alto rendimiento de consumo: habilita enhanced fan-out para asignar a consumers una transferencia dedicada de hasta 2 MB/s por consumidor.
- Costo visible: al habilitar logs, considera el cobro de CloudWatch Logs por almacenamiento.
¿Tienes una carga específica o dudas sobre shards, KMS o CloudWatch? Cuéntame en los comentarios y afinamos tu configuración.