Cómo dimensionar shards de Elasticsearch en AWS

Clase 41 de 52 • Curso de Big Data en AWS

Contenido del curso

Bienvenida e introducción al curso

Arquitecturas

Extracción de información

Transformación de Información

Carga de Información

Consumo de información

Seguridad, Orquestación y Automatización

Clase pública

52
Las cinco B de big data explicadas
01:44 min

Tomar examen

Resumen

Domina Elasticsearch en AWS con una guía clara y práctica. Aquí verás cómo funciona su motor de búsqueda, cómo desplegar un clúster con buenas prácticas de shards, y cómo integrar Kinesis Firehose, Lambda y Kibana para una visualización de logs eficiente y segura.

¿Qué es Elasticsearch y cómo se integra en AWS?

Elasticsearch es un servicio de búsqueda y análisis que potencia la visualización de información. Su corazón es Apache Lucene, lo que permite consultas rápidas y flexibles.

Motor de búsqueda basado en Apache Lucene.
Soporta data estructurada, JSON y data no estructurada.
Despliegue como clúster en AWS con nodo maestro para orquestar consultas.
Integración nativa con Logstash y Kibana para ingestión y dashboards.

¿Cómo asegurar y alimentar Elasticsearch en producción?

En producción, la prioridad es proteger el acceso, cifrar la información y definir una ruta de ingestión confiable. Estas piezas garantizan seguridad y continuidad operativa.

¿Cómo autenticar con Amazon Cognito?

Usa Amazon Cognito, que maneja users pools.
Opción 1: crear un grupo de usuarios con usuario/clave independientes de IAM.
Opción 2: integrar con correo corporativo.
Objetivo: mejorar la seguridad de acceso a la información.

¿Cómo cifrar la data con KMS?

Habilita cifrado de la data en tránsito usando KMS.
Si manejas data sensible, el cifrado en Elasticsearch debe estar siempre activo.

¿Cómo ingestar con Kinesis Firehose o Lambda?

Puedes alimentar Elasticsearch con Kinesis Firehose o con una función Lambda.
Con Kinesis Firehose solo alimentas un índice por flujo.
Para múltiples índices: usa múltiples Firehose o elige Lambda.
En varios casos, Lambda es preferible por su flexibilidad de transformación.

¿Qué conceptos, arquitectura y dimensionamiento debes dominar?

Comprender los conceptos internos y el diseño de la arquitectura evita cuellos de botella y costes innecesarios. La clave está en dominar índices, estructura y shards.

¿Qué es un índice y cómo se estructura la data?

El índice es un nombre lógico que agrupa la información que llega a Elasticsearch.
Ese índice distribuye la data en shards para almacenamiento y consulta.
Analogía con relacionales: motor de Elasticsearch → índice (base de datos) → tipos (tablas) → documentos (columnas y filas).
Entender esta equivalencia facilita el modelado y la consulta.

¿Qué son los shards y cómo dimensionarlos?

Un shard es la unidad que almacena y distribuye datos entre los nodos del clúster.
Estimar bien la cantidad de shards es vital para rendimiento y costos.
Ejemplo: clúster de 4 nodos con 5 shards genera desbalanceo; un nodo cargará 2 shards y puede causar problemas de rendimiento al redistribuir.
Recomendación de Amazon: usar instancias tipo I (optimizadas para storage).
Tamaño recomendado por shard: 50–150 GB en promedio.

¿Qué arquitecturas de ingestión y visualización se proponen?

Flujo con Firehose y transformación en el propio servicio:
- App → Kinesis Firehose → S3 (logs fallidos) → Lambda (transformación) → Elasticsearch → Kibana (dashboards).
Flujo con transformación a partir de S3:
- App → Kinesis Firehose → S3 → dispara Lambda → Elasticsearch → Kibana.
En ambos casos, Kibana permite crear dashboards para consultas sobre los logs.
En ambientes productivos, dimensiona el clúster: cantidad de nodos, storage y shards; AWS publica fórmulas para estimarlo.

¿Quieres profundizar en tu caso de uso con Kinesis, Lambda, shards o dashboards en Kibana? Cuéntame tu contexto y objetivos, y trabajamos una estrategia óptima.

Comentarios

Jorge M.

student•

Me encantaría un curso de Elastic completo!!

Milton Andrés Sanabria

student•

https://platzi.com/clases/intro-elasticsearch/

Juan David Cajamarca Acuña

student•

AWS ElasticSearch es un motor de búsqueda basado en Apache Lucene. Busca data estructurada (tipo JSON) y data no estructurada. Se despliega en un clúster en AWS compuesto de varios nodos, en donde se almacena la información, y a través de un nodo maestro, se realizan las consultas a dicha información. Este servicio viene integrado con Logstash y Kibana.

Características

Autenticación: Hay diferentes formas de integrar la autenticación con este servicio. La más recomendada es utilizar AWS Cognito, que es un servicio que maneja Users Pools.
Cifrado: Se puede cifrar la información en reposo y en tránsito con KMS.
Integración: Puede recibir información de Kinesis Firehose y de Lambda. Con Kinesis Firehose se puede alimentar de a un índice de ElasticSearch, es decir, si se desea alimentar múltiples índices, se necesitan múltiples Kinesis Firehose.

Conceptos fundamentales

Índice: Es como una base de datos que almacena información relacional. Es un nombre lógico que distribuye la información a uno o más shards.
Estructura: SQL => Databases => Tables => Columns/Rows ES => Indices => Types => Documents with Properties
Shard: Un índice se puede dividir en múltiples shards, y éstos se almacenan en diferentes nodos. Cuando dimensionemos un clúster de ElasticSearch, es de vital importancia estimar de forma adecuada la cantidad de shards que utilizaremos.

Recomendaciones de AWS

Utilizar instancias tipo i, optimizadas en almacenamiento.
Mantener un shard en promedio de 50 a 150GB.

Oscar Italo Castillo Lucero

student•

Me pregunto si es posible utilizar Elasticsearch para liberar a una base de datos Oracle que tiene muchos procesos de carga en batch y procesos online que la atacan. Entiendo que los datos insertados en algunas tablas oracle , también serian enviados a elasticseach esto permitiría la busqueda en el cluster elasticsearch sería rápida y descongestionaria el trabajo a la bd oracle. Es posible hacer algo así ? Gracias y genial lo de elastic y kibana.

Carlos Andrés Zambrano Barrera

teacher•

Como tal no es el caso de elasticsearch, piensa en elasticsearch como una herramienta para monitorear, para consultar informacion no estructurada organizada en indices. En tu caso lo mas viable es: 1- puedes migrar esa BD a AWS y convertirla a Aurora. 2- Lo mas conveniente para aliviar carga de tu BD es utilizar una BD en memoria como elasticache o crear una replica de lectura.

Ahora cuando me hablas de que la atacan es por temas de seguridad o por procesos que la consumen bastante?

Oscar Italo Castillo Lucero

student•

Carlos gracias por la explicacion. Sobre la frase atacada, me referia a que muchos procesos de consulta y i sercion en las tablas,

Wilton Andrés David Parra

student•

Hola,Qué Conocimientos previos necesito para aprender ElasticSearch?

Diego Forero

Team Platzi•

Idealmente un lenguaje de programación como Python o Java para poder interactuar, enviar y recibir información de ElasticSearch.

Víctor Molina Ferreira

student•

Conocimientos previos ningunos, simplemente como hacer peticiones GET/POST etc y luego cualquier lenguaje de programación que te permite enviar información a Elastic (casi todos tienen librerias para poder hacerlo de forma fácil).

German Arturo Fajardo Grimaldos

student•

Un "shard" en AWS se refiere a una unidad de almacenamiento que permite dividir grandes volúmenes de datos en fragmentos más pequeños y manejables. En el contexto de Elasticsearch, cada shard actúa como una base de datos secundaria, donde se distribuye la información y se mejora el rendimiento. El dimensionamiento adecuado de shards es crucial, ya que un desequilibrio puede afectar la eficiencia y el rendimiento del clúster. Al crear un índice en Elasticsearch, es importante considerar la cantidad de shards para optimizar el almacenamiento y la consulta de datos.

Danilo Pazos

student•

Tengo un inconveniente con ESS, alguien que me pueda apoyar o dar una visión con el problema.

He incrementado el "indices.breaker.request.limit" al 50%, pero a pesar de eso el problema continua de forma intermitente. Por ratos arroja el error y por ratos todo OK.

La instancia es un r5.larage.elasticsearch 16gb de ram 4 nodos y 4 shards

{
    &quot;error&quot;: {
        &quot;root_cause&quot;: [
            {
                &quot;type&quot;: &quot;circuit_breaking_exception&quot;,
                &quot;reason&quot;: &quot;[parent] Data too large, data for [&lt;transport_request&gt;] would be [8155261782/7.5gb], which is larger than the limit of [8143876915/7.5gb], real usage: [8155261560/7.5gb], new bytes reserved: [222/222b], usages [request=0/0b, fielddata=0/0b, in_flight_requests=520/520b, accounting=5635001/5.3mb]&quot;,
                &quot;bytes_wanted&quot;: 8155261782,
                &quot;bytes_limit&quot;: 8143876915,
                &quot;durability&quot;: &quot;PERMANENT&quot;
            }
        ],
        &quot;type&quot;: &quot;circuit_breaking_exception&quot;,
        &quot;reason&quot;: &quot;[parent] Data too large, data for [&lt;transport_request&gt;] would be [8155261782/7.5gb], which is larger than the limit of [8143876915/7.5gb], real usage: [8155261560/7.5gb], new bytes reserved: [222/222b], usages [request=0/0b, fielddata=0/0b, in_flight_requests=520/520b, accounting=5635001/5.3mb]&quot;,
        &quot;bytes_wanted&quot;: 8155261782,
        &quot;bytes_limit&quot;: 8143876915,
        &quot;durability&quot;: &quot;PERMANENT&quot;
    },
    &quot;status&quot;: 429
}

Alguna manita, llevo dos días intentando saber que es.

Gracias.

Mario Alexander Vargas Celis

student•

AWS Elasticsearch Service (hoy conocido como Amazon OpenSearch Service) es un servicio administrado que facilita la implementación, escalado y operación de clústeres de Elasticsearch u OpenSearch en AWS. Se utiliza principalmente para búsqueda, análisis de logs y monitoreo de datos en tiempo real.

🚀 Pasos para Configurar Amazon OpenSearch Service

1️⃣ Crear un Dominio de OpenSearch

Ve a la consola de Amazon OpenSearch Service.
Haz clic en "Create domain".
Selecciona la versión de OpenSearch (o Elasticsearch, si lo necesitas).
Elige la configuración de nodo y almacenamiento:
- Tipo de instancia (t3.small, m5.large, etc.).
- Número de nodos y almacenamiento en EBS.

2️⃣ Configurar Accesos y Seguridad

🔒 Opciones de autenticación:

IAM: Para controlar accesos desde usuarios de AWS.
Cognito: Para integrar con usuarios externos.
Básico: Usuario/contraseña (para dominios públicos o autenticación simple).

✅ Definir accesos a través de políticas de dominio

Selecciona "Modify access policy".
Elige quién puede acceder (Ej: solo ciertos roles o usuarios IAM).
Configura reglas de acceso (Ej: solo consultas desde una VPC).

3️⃣ Ingresar a OpenSearch Dashboards (Antes Kibana)

Ve a la consola de OpenSearch y haz clic en el endpoint de Dashboards.
Autentícate con el método configurado (IAM, Cognito o usuario básico).
Explora los datos con consultas SQL, DSL o visualizaciones.

4️⃣ Ingesta de Datos en OpenSearch

Puedes enviar datos desde:

AWS Lambda: Para indexar eventos en tiempo real.
Kinesis Data Firehose: Para streaming de logs.
Logstash: Para procesamiento de logs de servidores.
Beats/Fluentd: Para recolectar datos de aplicaciones.

Ejemplo: Insertar Datos con CURL

curl -X POST "https://tu-dominio-opensearch.amazonaws.com/index/\_doc/1" \ -H "Content-Type: application/json" \ -d '{"nombre": "Mario", "edad": 30, "ciudad": "Bogotá"}'

5️⃣ Consultar Datos en OpenSearch

Puedes hacer búsquedas avanzadas con DSL de Elasticsearch:

GET /index/_search { "query": { "match": { "ciudad": "Bogotá" } } }

También puedes usar SQL en OpenSearch:

SELECT nombre, edad FROM index WHERE ciudad = 'Bogotá';

🔥 Casos de Uso de OpenSearch

✅ Análisis de logs en tiempo real (Ej: logs de AWS CloudWatch). ✅ Búsqueda rápida en bases de datos grandes. ✅ Monitoreo de sistemas con dashboards en tiempo real. ✅ Análisis de seguridad con detección de anomalías.

Uriel Lizandro Ramos

student•

AWS Elasticsearch es un servicio totalmente administrado y altamente escalable que ofrece una implementación en la nube del popular motor de búsqueda y análisis de datos, Elasticsearch. Diseñado para facilitar la búsqueda, análisis y visualización de grandes volúmenes de datos en tiempo real, AWS Elasticsearch es una solución robusta y versátil para diversas aplicaciones empresariales.

Este servicio permite a los usuarios indexar y analizar datos en tiempo real, lo que resulta especialmente valioso para aplicaciones que requieren una alta velocidad de búsqueda y recuperación de información. Con la capacidad de indexar datos de diversas fuentes, como registros de aplicaciones, flujos de clics web, datos de redes sociales y más, Elasticsearch simplifica el proceso de búsqueda y análisis de datos no estructurados.

Al ser parte del ecosistema de AWS, Elasticsearch se integra perfectamente con otros servicios de la plataforma, lo que proporciona una amplia gama de opciones para expandir y potenciar sus capacidades. Por ejemplo, es posible utilizar Amazon Kinesis Data Firehose para enviar flujos de datos en tiempo real a Elasticsearch, o combinarlo con AWS Lambda para ejecutar código personalizado en respuesta a eventos específicos.

AWS Elasticsearch también incluye funciones de seguridad y acceso para proteger los datos y controlar el acceso a las API y las instancias. Puede aplicar políticas de control de acceso basadas en roles para garantizar que solo los usuarios autorizados puedan interactuar con los datos y las funciones críticas.

La escalabilidad es una de las principales ventajas de AWS Elasticsearch. Puede adaptarse dinámicamente a las demandas cambiantes, lo que permite aumentar o disminuir la capacidad de almacenamiento y cómputo según sea necesario. Esto se logra a través de la función de escalamiento automático de AWS, que ajusta automáticamente los recursos en función del rendimiento y la carga de trabajo.

AWS Elasticsearch es una solución altamente eficiente y fácil de usar que facilita la búsqueda y análisis de grandes volúmenes de datos en tiempo real. Al aprovechar la escalabilidad y la robustez de AWS, las empresas pueden obtener información valiosa y tomar decisiones más informadas, lo que conduce a una ventaja competitiva en el ámbito empresarial actual.

Carlos Astorga

student•

Ahora el servicio se llama Amazon OpenSearch

Usuario anónimo

user•

que interesante este curso

Usuario anónimo

user•

Algunas características importantes de ElasticSearch:

Es un motor de búsqueda basado en Lucene. Busca texto completo y JSON sin esquema. Se despliega en un clúster. Viene integrada con Kibana y Logstash. Se puede integrar con AWS Cognito para manejar la autenticación de usuarios. Puede recibir información de Kinesis Firehose y Lambda. Así como en MySQL trabajas con bases de datos, tablas, columnas y filas. Dentro de ElasticSearch utilizas índices, tipos y documentos con propiedades. Un índice se puede dividir en múltiples shards que se va a distribuir en diferentes nodos del clúster.

Usuario anónimo

user•

Es un motor de búsqueda. Desplegar closter para almacenar la información y luego ser consultada. y Se visualiza con Kibana y Logstash.

john ct

student•

bien interesante la funcionalidad de Elastic Search

john ct

student•

ES- Joined with lambda

Milton Garcia

student•

Algunas características importantes de ElasticSearch: • Estructura: MySQL => Databases => Tables => Columns/Rows o ES => Indices => Types => Documents with Properties • Shard: Un índice se puede dividir en múltiples shards y estos se almacenan en diferentes nodos.

Hubert Ronald Mendoza Canales

student•

Sería interesante tener el documento con las fórmulas matemáticas para hacer estimar la cantidad de nodos, storages y sharps

Cómo dimensionar shards de Elasticsearch en AWS

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información