Configuración de Kinesis Firehose en AWS

Clase 18 de 52 • Curso de Big Data en AWS

Resumen

Configurar Kinesis Firehose en AWS es más simple cuando entiendes el flujo completo: crear un delivery stream, elegir la fuente, decidir si transformas los datos y definir el destino final. Aquí verás cómo hacerlo, qué opciones existen y qué parámetros afinan rendimiento, costos y seguridad.

¿Cómo configurar Kinesis Firehose paso a paso?

Para empezar, ingresa a la consola de AWS, busca Kinesis y crea un delivery stream. Asigna un nombre claro (por ejemplo, “Firehose Platzi”) y define la fuente de datos. Luego, decide si habrá transformación con Lambda y si aplicarás conversión a Parquet o Apache ORC. Por último, selecciona el destino y ajusta buffer, compresión, cifrado, logging y rol.

¿Qué fuentes de datos soporta Kinesis Firehose?

Llamadas vía API con direct put: otros recursos envían records directamente.
Kinesis stream: opción para que los records lleguen desde un flujo creado previamente.
Agente de Kinesis: instalación de un agente para enviar datos desde servidores.
AWS IoT con MQTT: integración con el Internet de las Cosas.
CloudWatch Logs y CloudWatch Events: envío de registros y eventos como fuente.

¿Cómo activar la transformación con Lambda?

Habilita la opción de transformación si necesitas limpiar o enriquecer datos.
Selecciona una función de Lambda existente o crea una nueva.
Si no la requieres, déjala deshabilitada para simplificar el flujo.

¿Conviene convertir a Parquet u ORC?

Sí: usar Parquet u Apache ORC es más eficiente que JSON por su compresión y menor tamaño.
Requiere configuraciones en Glue para habilitar la conversión.
Si no lo necesitas aún, puedes dejarlo deshabilitado y activarlo después.

¿A qué destinos enviar los datos con Kinesis Firehose?

Firehose permite elegir entre varios destinos administrados según el caso de uso: almacenamiento duradero, analítica o búsqueda. Puedes enviar a Amazon S3, Amazon Redshift, Elasticsearch o Splunk.

¿Cómo funciona la entrega a Amazon S3?

Selecciona el bucket y, si aplicas, un prefijo para organizar objetos.
Es ideal para almacenamiento económico y procesamiento posterior.

¿Qué implica integrar con Redshift?

Especifica el cluster, base de datos, tabla y columna de destino.
Define un bucket intermedio en S3: Firehose escribe ahí antes de cargar en Redshift.
Flujo recomendado: Firehose → S3 intermedio → Redshift.

¿Cómo configurar Elasticsearch o Splunk?

Para Elasticsearch: elige el dominio existente, define el índice, decide rotación de índice, tipo y política de retry si falla el endpoint.
Habilita un bucket de respaldo en S3 para almacenar entregas fallidas y reprocesarlas después.
Para Splunk: conecta con el servidor o servicio donde corre Splunk para recibir la data procesada.

¿Qué parámetros finales optimizan rendimiento y seguridad?

Estos ajustes determinan latencia, costos, durabilidad y cumplimiento. Configúralos con cuidado antes de crear el delivery stream.

¿Cómo ajustar buffer e intervalo?

Configura el S3 buffer condition: tamaño del buffer y intervalo de entrega.
Mayor buffer reduce costos y llamadas, pero aumenta latencia.
Menor buffer acelera la entrega, con más operaciones y costo potencial.

¿Qué opciones de compresión y cifrado existen?

Habilita compresión y elige formato para reducir tamaño de archivo.
Activa cifrado con Key Management System para proteger datos en reposo.
Gestiona el logging: habilítalo para auditoría o desactívalo si no lo necesitas.

¿Por qué es esencial el rol de permisos?

Firehose requiere un rol con permisos para interactuar con S3, Redshift, Elasticsearch, Splunk y otros servicios.
Sin el rol adecuado, el flujo no puede leer/escribir ni aplicar transformaciones.

¿Ya decidiste tu fuente y destino ideales? Cuéntame en comentarios qué combinación te funciona mejor y por qué.

JUSHUA BALDOCEDA PUENTES

student•

Qué costos generarán los consumos de kinesis en la capa gratuita para estos ejercicios?

Darvin Orozco

student•

Excelente pregunta. Yo no conozco los precios pero imagino que por ser un servicio tan especializado, no es tan barato.

john ct

student•

casi todo genera costo en AWS, y al usar kinesis junto con los shards se cobra por tiempo/hrs cualquier laboratorio que se haga luego toca borrarlo o quitarlo ya que muchos servicios cobran. ej EC2

Alberto Gurrion

student•

¿Qué ventaja se obtiene al agregar kinesis firehose ; por qué no sembrar los datos y su posible transformación desde funciones lambdas a los destinos de almacenamiento correspondiente?

José Ortigas

student•

que es un bucket?

Edwar Baron

Team Platzi•

Hola, un bucket en S3 es un cubo/contenedor de archivos, donde puedes guardarlos y distribuirlos de forma optimizada, el cual puede conectarse a otros servicios.

Carlos Andrés Zambrano Barrera

teacher•

Gracias a ebar0n. Un bucket es un espacio en el cual puedes almacenar objetos en S3, enfocado para el curso de BigData es importante que tengas en cuenta que toda la informacion que manejamos en estos proyectos se encuentra en S3 como: logs, clickstream y demas informacion.

Manuel nicolas Moya

student•

excelente curso , todos los de aws , lo malo es que solamente se puede desarrollar lo basico , el resto hay que desarrollarlo en produccion , porque todas las opciones avanzadas te las da la opcion paga de amazon y realmente es caro , pero de todas maneras muy instructivo

Usuario anónimo

user•

Muy bien

Usuario anónimo

user•

interesante

Usuario anónimo

user•

gracias

Usuario anónimo

user•

Entiendo que Kinesis tiene como diferentes servicios, pero cuál sería la diferencia fundamental entre todos?

john ct

student•

:) interesante practica

Walter Lopez

student•

Este video da la impresión que está incompleto, no se sabe si al final se creó el Firehose o si creo el rol antes, ya que fue lo último que dijo; al menos esa parte no se vió.

Gerson Mejía

student•

curso desactualizado las funciones de config de aws hoy en dia son muy diferentes

Configuración de Kinesis Firehose en AWS

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas