Cómo crear un clúster Elasticsearch en AWS

Clase 42 de 52 • Curso de Big Data en AWS

Resumen

Aprende a desplegar y asegurar un clúster de Elasticsearch en AWS con un enfoque práctico: creación de dominio, elección de instancias, zonas de disponibilidad, cifrado con KMS, control de acceso con Cognito, uso de VPC o acceso público, y manejo de endpoints para Kibana e integraciones. Todo con recomendaciones claras para dimensionamiento, costos y operación sin interrupciones.

¿Cómo crear un dominio de Elasticsearch en AWS paso a paso?

Para iniciar, se busca el servicio de Elasticsearch en la consola de AWS y se crea un nuevo dominio. Se elige el tipo de implementación personalizado para ver cada detalle. La versión soportada por el servicio es 6.4, aunque la versión open source puede ir más adelante.

Asigna un nombre al dominio: Platzi Domain.
Define zonas de disponibilidad: tres, dos o una. Para productivo, se recomienda tres zonas.
Selecciona tipo de instancia: Amazon sugiere series I; también se pueden usar optimizadas en memoria como R4.2xlarge.
Ejemplo elegido: I3.2xlarge con tres instancias como nodos de datos.
Considera instancias maestras dedicadas: recomendadas cuando el clúster es muy grande. Si se deshabilitan, habrá una maestra por defecto.
Costo: con tres instancias, el pricing se triplica frente a una.
Almacenamiento: en instancias tipo I viene predeterminado; en tipo R se especifica a detalle.
Seguridad: habilita cifrado de nodo a nodo y en reposo; en reposo integra automáticamente con KMS.
Ventana horaria: configura la hora preferida para los snapshots automáticos.
Opciones avanzadas: se pueden ajustar parámetros de caché para consultas.

Al continuar, se elige el despliegue dentro de una VPC (recomendado) o con acceso público. Con VPC, Amazon sugiere un proxy reverso para consultar Kibana. Si se usa acceso público, lo más recomendado es integrarlo con Amazon Cognito y un pool de usuarios para mayor seguridad.

Para la política de acceso, se parte de una plantilla JSON. Puede configurarse acceso libre al dominio aceptando el riesgo. La política resultante define: efecto permitir, recurso del dominio y acciones sobre el servicio de Elasticsearch. Tras el resumen, se confirma el despliegue. Al finalizar, se entregan dos endpoints: uno para Elasticsearch y otro para Kibana.

¿Qué configuraciones de instancias, almacenamiento y seguridad importan?

El éxito del despliegue depende de un dimensionamiento y controles bien definidos. Estas decisiones impactan desempeño, estabilidad y costos.

Tipo de instancia: series I para rendimiento general. Series R optimizadas en memoria. Series M pueden limitar características como cifrado con KMS.
Nodos y maestros: comenzar con una instancia maestra y redimensionar al crecer. Para clústeres muy grandes, maestras dedicadas.
Almacenamiento: predeterminado en tipo I. En tipo R debe detallarse.
Cifrado: habilitar nodo a nodo y en reposo siempre en productivo.
Acceso: VPC recomendado; acceso público viable con Cognito para autenticación de usuarios.
Costos: más nodos implican pricing proporcionalmente mayor.
Integración: Elasticsearch está integrado con Logstash y Kibana para visualización.
Variables de capacidad: cantidad de charts, almacenamiento y número de índices definen el dimensionamiento.

¿Cómo operar, monitorear y actualizar el clúster?

Tras el despliegue, se puede observar el estado, nodos y métricas clave. Un ejemplo operativo muestra un clúster con versión 6.3, un único nodo y dos endpoints. Ese endpoint se usa para integrar con Kinesis Firehose o con funciones Lambda para ingesta.

Panel del dominio: estado activo, cantidad de nodos y uso de CPU.
Índices: visualiza cuántos hay. En un entorno de ejemplo, pueden no existir índices aún.
Registros e historial: disponible para auditoría y seguimiento.
Actualizaciones: es posible hacer un upgrade domain administrado a versiones más recientes sin downtime de data.
Reubicación de datos: antes de actualizar, el dimensionamiento de charts debe estar adecuado para evitar demoras al mover información.

¿Tienes dudas sobre la elección de instancias, seguridad con Cognito o el uso de Kinesis Firehose y Lambda? Comparte tus preguntas y cuéntanos tu escenario para ayudarte a afinar el despliegue.

Comentarios

Ivan Acosta

student•

Elementos claves de ElasticSearch

El dimensionamiento del Cluster es esencial y fundamental (Cantidad de Shards, almacenamiento y la cantidad de índices)
Completamente integrado con LogStage y Kibana para temas de visualización
Siempre en ambientes productivos se debe habilitar el Cifrado de la data (De nodo a nodo y en reposo)
Una medida extra de seguridad. Hacer uso de Amazo Cognito para que los usuarios que van a trabajar en el cluster les aparezca el usuario y password.

Ivan Acosta

student•

A lo largo del curso, siempre he escuchado a Carlos hablar de tipos de Instancias U, R, M... ETC. Indague en detalle sobre las características de las máquinas y dejo un enlace que puede ser de utilidad para conocer el detalle de recursos por cada tipo de instancia que se maneja en S2. https://aws.amazon.com/es/ec2/instance-types/

Jose Suarez

student•

Bien ahí Iván

Andres Camilo Graciano Higuita

student•

Evita el oversharding: apunta a shards de tamaño objetivo (por ejemplo 20–50 GB dependiendo del caso) y escala el número de índices/particiones según el patrón de acceso, no solo por volumen bruto.

Andres Camilo Graciano Higuita

student•

Al optar entre acceso vía VPC o público + Cognito, los trade-offs más relevantes son:

Seguridad: VPC proporciona un entorno privado, minimizando la exposición a amenazas externas. En cambio, el acceso público requiere medidas adicionales como Cognito para autenticar usuarios y proteger el dominio.
Latencia operativa: El acceso a través de VPC puede introducir latencia adicional debido a la configuración de la red y las políticas de seguridad. El acceso público con Cognito puede ser más rápido, pero depende de la implementación adecuada.
Experiencia de usuario: Accesos públicos son más fáciles para usuarios externos, mientras que VPC puede complicar la experiencia de acceso si no se gestiona correctamente.

Cada opción tiene sus ventajas y desventajas, y la elección depende del contexto específico del equipo de datos y sus necesidades de seguridad y operativas.

Angel Alberto Briceño Obregón

student•

¿ Alguién pudo instalar plugins en Kibana en el cluster de AWS Elasticsearch ?

Mario Alexander Vargas Celis

student•

Aquí tienes los pasos para crear tu primer clúster de Amazon OpenSearch Service (antes llamado ElasticSearch en AWS).

🚀 Ejercicio: Creando un Clúster en Amazon OpenSearch Service

Vamos a desplegar un clúster, cargar datos y realizar consultas en OpenSearch.

1️⃣ Crear un Clúster en OpenSearch (ElasticSearch)

Ve a la consola de AWS OpenSearch Service.
Haz clic en Create Domain.
Elige la versión (recomendada la más reciente).
Configura el tipo de clúster:
- Deployment Type: Development and testing (para pruebas).
- Instance Type: t3.small.search (mínimo costo).
- Número de nodos: 1 (single node).
Configura la seguridad:
- Habilita Fine-grained access control.
- Crea un usuario maestro (admin).
- Permite el acceso público (solo para pruebas) o restringe por VPC.
Haz clic en Create y espera a que el clúster esté listo (~10 minutos).
Copia la URL de acceso del clúster.

2️⃣ Insertar Datos en OpenSearch

Conéctate con cURL o Postman y agrega documentos:

curl -X POST "https://mi-cluster.us-east-1.es.amazonaws.com/productos/\_doc/1" -H "Content-Type: application/json" -d ' { "nombre": "Laptop", "precio": 1200, "stock": 5 }'

3️⃣ Consultar Datos en OpenSearch

Busca todos los productos en el índice:

curl -X GET "https://mi-cluster.us-east-1.es.amazonaws.com/productos/\_search" -H "Content-Type: application/json" -d ' { "query": { "match_all": {} } }'

🔹 Nota: Reemplaza mi-cluster.us-east-1.es.amazonaws.com con la URL real de tu OpenSearch.

🔥 Extensión del Ejercicio

🔹 Usa Kibana para visualizar datos.
🔹 Conéctalo con Amazon Kinesis para streaming.
🔹 Configura AWS Lambda para ingestar datos en tiempo real.

Juan camilo truillo galvis

student•

Que felicidad este tipo de cursos, he aprendido mucho al respecto al ecosistema de AWS.

Usuario anónimo

user•

Super!!

Usuario anónimo

user•

Muy interesante...

Carlos Javier Guevara Contreras

student•

interesante

Cómo crear un clúster Elasticsearch en AWS

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas