Configuración Básica de Amazon Kinesis Firehose en AWS
Clase 19 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19

Configuración Básica de Amazon Kinesis Firehose en AWS
Viendo ahora - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
¡Es hora de poner en practica lo aprendido! Para ello lo primero que debemos hacer es ir a nuestra consola de Amazon Web Services (AWS) y buscar el servicio de Kinesis.
Si es la primera vez que visitas la herramienta de Kinesis debes dar click en el botón de Get Started para empezar.
Dentro del dashboard de Kinesis debemos seleccionar la opción Create delivery stream.
Lo primero que debemos hacer es ponerle un nombre a nuestro delivery stream, en este caso lo llamaremos firehoseplatzi.
Dentro de esa misma pantalla encontraremos dos opciones para alimentar nuestro delivery stream:
- Directamente por PUT u otros recursos.
- A través de un stream de kinesis.
La opción Direct PUT or other sources permite alimentar nuestro delivery stream mediante:
- La API de Firehose.
- Un Amazon Kinesis Agent.
- AWS IoT.
- CloudWatch Logs.
- CloudWatch Events.
Para fines de esta demo vamos a seleccionar Direct PUT or other sources. Damos click en Next
Nuestro siguiente paso es elegir la forma en que nuestro delivery stream va a procesar la información. Podemos modificar la información de dos formas:
- Mediante una función lambda, en caso de no tener ninguna podemos crearla al momento.
- Convertir la información a un formato más eficiente como Apache ORC o Apache parquet.
Para fines de esta demo no vamos a modificar nuestra información, simplemente nos aseguramos que se encuentren ambas opciones deshabilitadas y damos click en Next.
Ya configuramos el origen de los datos y su procesamiento, es momento de elegir a dónde se va a mandar la información:
- Amazon S3
- Amazon Redshift
- Amazon Elasticsearch Service
- Splunk
Dependiendo de qué opción elijamos vamos a tener que configurar su acceso. Para esta demo vamos a mandar nuestra información a S3, puedes darle al botón Create new para generar un nuevo Bucket de S3.
Puedes configurar el prefijo donde Kinesis va a almacenar la información, así como el prefijo donde almacene los errores.
Una vez hayamos elegido nuestro bucket damos click en Next.
Nuestro último paso para terminar la configuración de nuestro delivery stream nos va a pedir configurar:
- Condiciones del Buffer para S3
- La compresión y encriptación de la información
- Activar o desactivar el error logging
- Asignar un rol IAM por seguridad
Lo único que vamos a modificar será el IAM role, esto con el fin de que Kinesis pueda interactuar con todos los demás servicios de AWS. Vamos a dar click al botón Create new or choose.
Nos va a saltar una nueva ventana que nos pedirá permiso para crear el nuevo IAM role, simplemente le damos al botón Permitir.
Nos debe quedar un IAM role de la siguiente manera, ahora damos click a Next.
Nos aparecerá una review de la configuración del delivery stream, solamente damos click en el botón Create delivery stream.
Esperamos a que termine de crearse nuestro delivery stream y vamos a proceder a probar que nuestro delivery stream funcione correctamente. Damos click en el nombre de nuestro delivery.
Nos encontraremos en una página con toda la información acerca de nuestro stream. Abajo del nombre veremos un texto que dice Test with demo data, le vamos a dar click y nos va a desplegar información sobre la prueba que va a realizar.
La prueba consta de mandar un simple archivo a nuestro S3. Debemos dar click en el botón Start sending data para iniciar la transmisión de información.
Este proceso puede llegar a tardar unos minutos, aproximadamente 3-5 minutos después vamos a dar click al enlace de nuestro bucket S3.
Si aún no encuentras nada de información dentro de tu bucket recuerda ser paciente, la velocidad de transmisión depende de la configuración que hicimos al buffer, en este caso dejamos la configuración por defecto de 5MB.
Tras unos minutos debe aparecerte una carpeta dentro de otra y otra, separando la información transmitida por su fecha. Dentro encontrarás el archivo que mandaste, solamente queda regresar a la prueba de nuestro stream y apretar el botón Stop sending demo data.
Si haz llegado hasta este parte con exito, agrega en los comentarios: "Reto superado" y continua aprendiendo más.