Cómo dimensionar shards de Elasticsearch en AWS
Clase 41 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Domina Elasticsearch en AWS con una guía clara y práctica. Aquí verás cómo funciona su motor de búsqueda, cómo desplegar un clúster con buenas prácticas de shards, y cómo integrar Kinesis Firehose, Lambda y Kibana para una visualización de logs eficiente y segura.
¿Qué es Elasticsearch y cómo se integra en AWS?
Elasticsearch es un servicio de búsqueda y análisis que potencia la visualización de información. Su corazón es Apache Lucene, lo que permite consultas rápidas y flexibles.
- Motor de búsqueda basado en Apache Lucene.
- Soporta data estructurada, JSON y data no estructurada.
- Despliegue como clúster en AWS con nodo maestro para orquestar consultas.
- Integración nativa con Logstash y Kibana para ingestión y dashboards.
¿Cómo asegurar y alimentar Elasticsearch en producción?
En producción, la prioridad es proteger el acceso, cifrar la información y definir una ruta de ingestión confiable. Estas piezas garantizan seguridad y continuidad operativa.
¿Cómo autenticar con Amazon Cognito?
- Usa Amazon Cognito, que maneja users pools.
- Opción 1: crear un grupo de usuarios con usuario/clave independientes de IAM.
- Opción 2: integrar con correo corporativo.
- Objetivo: mejorar la seguridad de acceso a la información.
¿Cómo cifrar la data con KMS?
- Habilita cifrado de la data en tránsito usando KMS.
- Si manejas data sensible, el cifrado en Elasticsearch debe estar siempre activo.
¿Cómo ingestar con Kinesis Firehose o Lambda?
- Puedes alimentar Elasticsearch con Kinesis Firehose o con una función Lambda.
- Con Kinesis Firehose solo alimentas un índice por flujo.
- Para múltiples índices: usa múltiples Firehose o elige Lambda.
- En varios casos, Lambda es preferible por su flexibilidad de transformación.
¿Qué conceptos, arquitectura y dimensionamiento debes dominar?
Comprender los conceptos internos y el diseño de la arquitectura evita cuellos de botella y costes innecesarios. La clave está en dominar índices, estructura y shards.
¿Qué es un índice y cómo se estructura la data?
- El índice es un nombre lógico que agrupa la información que llega a Elasticsearch.
- Ese índice distribuye la data en shards para almacenamiento y consulta.
- Analogía con relacionales: motor de Elasticsearch → índice (base de datos) → tipos (tablas) → documentos (columnas y filas).
- Entender esta equivalencia facilita el modelado y la consulta.
¿Qué son los shards y cómo dimensionarlos?
- Un shard es la unidad que almacena y distribuye datos entre los nodos del clúster.
- Estimar bien la cantidad de shards es vital para rendimiento y costos.
- Ejemplo: clúster de 4 nodos con 5 shards genera desbalanceo; un nodo cargará 2 shards y puede causar problemas de rendimiento al redistribuir.
- Recomendación de Amazon: usar instancias tipo I (optimizadas para storage).
- Tamaño recomendado por shard: 50–150 GB en promedio.
¿Qué arquitecturas de ingestión y visualización se proponen?
- Flujo con Firehose y transformación en el propio servicio:
- App → Kinesis Firehose → S3 (logs fallidos) → Lambda (transformación) → Elasticsearch → Kibana (dashboards).
- Flujo con transformación a partir de S3:
- App → Kinesis Firehose → S3 → dispara Lambda → Elasticsearch → Kibana.
- En ambos casos, Kibana permite crear dashboards para consultas sobre los logs.
- En ambientes productivos, dimensiona el clúster: cantidad de nodos, storage y shards; AWS publica fórmulas para estimarlo.
¿Quieres profundizar en tu caso de uso con Kinesis, Lambda, shards o dashboards en Kibana? Cuéntame tu contexto y objetivos, y trabajamos una estrategia óptima.