Fundamentos de Elastic Search: Búsquedas Rápidas y Distribuidas

Clase 2 de 16 • Curso de Introducción a Elasticsearch

Contenido del curso

Conceptos básicos para usar Elasticsearch

Indexación de datos

Consultas

Cierre

16
Integración de Elastic Search en Proyectos de Software
03:55 min

Tomar examen

Resumen

Comprender cómo funcionan las búsquedas en tiempo real y la arquitectura detrás de un motor distribuido como Elasticsearch es fundamental para cualquier profesional que trabaje con grandes volúmenes de datos. A continuación se explican los conceptos esenciales, desde la interfaz HTTP y los documentos JSON hasta la distribución física en clústeres, nodos y shards.

¿Qué es Elasticsearch y por qué permite búsquedas tan rápidas?

Elasticsearch es una herramienta diseñada para realizar búsquedas y analítica en tiempo real [0:06]. Su principal ventaja es la velocidad con la que devuelve resultados, incluso cuando el volumen de datos es muy grande.

Sin embargo, existe una distinción importante entre búsqueda e indexado:

La búsqueda ocurre en tiempo real.
El guardado e indexado ocurre en tiempo casi real, con un retardo por defecto de un segundo [0:35].

Este retardo existe porque Elasticsearch es, por naturaleza, una herramienta distribuida. Necesita ese margen para replicar la información de un nodo hacia los demás. Si guardas un documento e intentas consultarlo de inmediato, es posible que aún no aparezca porque la replicación no ha finalizado.

¿Cómo se comunica Elasticsearch con las aplicaciones?

Elasticsearch utiliza una interfaz HTTP y trabaja con documentos JSON tanto para enviar consultas como para recibir respuestas [1:05]. Este enfoque resulta familiar para quienes trabajan en el mundo web y hace que la curva de aprendizaje sea accesible para principiantes.

Además, el almacenamiento interno está optimizado según el tipo de dato: el texto se guarda de una manera, los números de otra y las fechas de otra distinta, lo que garantiza que cada tipo se pueda buscar de la forma más eficiente posible [1:19].

¿Qué casos de uso tiene en el mundo real?

Elasticsearch se aplica en múltiples escenarios [1:30]:

Búsqueda en sitios web y aplicaciones: el caso de uso más extendido.
Motor de almacenamiento: permite guardar y recuperar información para casos de negocio.
Machine learning: facilita la obtención de información valiosa a partir de grandes conjuntos de datos.
Datos geoespaciales: soporta operaciones con coordenadas GPS, como calcular cercanía entre puntos o determinar qué ubicaciones están contenidas dentro de áreas de un mapa [1:52].

¿Cómo se organiza Elasticsearch a nivel lógico y físico?

A nivel lógico, Elasticsearch se estructura en dos elementos [2:10]:

Índice: es el contenedor que almacena los documentos y define cómo se guardan.
Documento: es la unidad mínima de información que se puede almacenar.

No existen tablas ni relaciones complejas. Esta simplicidad es parte de lo que hace a Elasticsearch tan ágil.

A nivel físico, la arquitectura se compone de tres capas [2:30]:

Clúster: agrupa todos los nodos que ejecutan Elasticsearch.
Nodo: cada servidor o instancia de cómputo que corre Elasticsearch.
Shards (piezas): las divisiones internas de un índice. Cada shard puede operar de forma independiente.

¿Cómo funcionan las piezas primarias y las réplicas?

Cada índice se divide en piezas primarias y piezas réplica [2:55]:

La pieza primaria contiene la información original.
La pieza réplica actúa como backup en caso de fallo.

Elasticsearch aplica una regla clave: nunca almacena la réplica de una pieza primaria en el mismo nodo [3:15]. Si el nodo uno contiene la pieza primaria uno, sus réplicas estarán distribuidas en los nodos dos y tres. Así, si un nodo falla —ya sea por causas físicas como un terremoto o un incendio, o por causas lógicas como la corrupción del sistema operativo [3:45]—, los datos pueden restablecerse completamente desde los nodos restantes.

Esta distribución inteligente garantiza alta disponibilidad y tolerancia a fallos, dos pilares fundamentales en sistemas que manejan información crítica.

¿Ya conocías la diferencia entre tiempo real y tiempo casi real en Elasticsearch? Comparte tu experiencia en los comentarios.

Comentarios

Iraida Mercedes Barreto Díaz

student•

Distribución de elastic a nivel físico:

La configuración física de elastic se agrupa en un cluster que almacena la configuration física de todos los nodos, entendiendo como nodo cualquier tipo de cómputo que puede correr Elasticsearch. Los nodos agrupan Shards, que son las divisiones que tiene un índice. y operan de manera autónoma.

En un nodo se puede tener un segmento de información principal y las replicas de información de otros segmentos. Algo que es importante tener en cuenta es que las replicas de un segmento en específico no pueden estar almacenadas en el mismo nodo ya que si llega a fallar el nodo, se perdería tambien la replica del mismo.

Jean Nuñez

student•

Buen aporte

Fredy Mendoza Vargas

student•

Gracias x el aporte

Pablo Aquino

student•

Elastic Search, es una herramienta que te permite realizar búsquedas y analítica en tiempo real.
Luego de que el documento es almacenado e indexado se encuentra disponible casi en tiempo real, debido a que es una herramienta distribuida.
Utiliza una interfaz HTTP con documentos JSON, para realizar las consultas.
El guardado de los documentos es lo más eficiente posible.
Búsquedas de información en websites y apps.
Motor de almacenamiento para automatización de casos de negocio.
Machine Learning, para modelar comportamiento de datos.
Como un GIS, ya que puede manejar información geoespacial.
Elastic Search(Lógico) esta formado por indices y documentos, un documento es la información más pequeña que se puede guardar y un indice que es donde se almacenan los documentos.
Elastic Search(Físico) esta formando por un cluster y el cluster por nodos y los nodos por shards, un shard son las distintas divisiones que tiene un indice, un indice puede estar compuesto por una o varias de estas piezas y estas piezas pueden operar por si solas.
Las replicas son los backups de las piezas primarias que se guardan en los nodos donde no se encuentra la pieza primaria.

Fredy Mendoza Vargas

student•

👍👍

Edward Fernandez

student•

Hola chicos, les comento que GIS es la abreviatura de Geographic Information System (Sistema de Información Geográfico)

Francisco Garcia [C6]

student•

¿Para qué se usa Elasticsearch? La velocidad y escalabilidad de Elasticsearch y su capacidad de indexar muchos tipos de contenido significan que puede usarse para una variedad de casos de uso:

Búsqueda de aplicaciones
Búsqueda de sitio web
Búsqueda Empresarial
Logging y analíticas de log
Métricas de infraestructura y monitoreo de contenedores
Monitoreo de rendimiento de aplicaciones
Análisis y visualización de datos geoespaciales
Analítica de Seguridad
Analítica de Negocios

Luis Fernando Pedroza Taborda

student•

Buen aporte, gracias.

Jeisson Esteban Andrade Leon

student•

Se puede implementar Elasticsearch Service on Elastic Cloud desde la nube de Goocle GCLOUD Aprovisiona multiples clousters y los permite administrar desde una sola consola. Se cobra por uso por transferencia de Gygabites

Fredy Mendoza Vargas

student•

🤙

Luis Fernando Pedroza Taborda

student•

Interesante herramienta, gracias.

Oscar Giovanni Bocanegra Hurtado

student•

¿Cuánto es la capacidad en GB de espacio recomendada para un índice de elasticsearch?

CARLOS HERNANDEZ MARTINEZ

student•

el indice puede ser del tamaño que quieras, l importante son los shards, cada shard es recomendable que no sea mayor a 40Gb, aunque yo los he trabajdo en 60gb, asi pues si tienes un indice de 10Tb necesitarias configurar el indice con: 10000/40 = 250 shards, o a 60Gb: 166 shards.

Solo ojo tambien es recomendable que se asignen 20 shards por GB asignado a la JVM, si tienes una maquina con 8Gb de RAM, el jvm configurado a 4Gb soportara 80 shards (pueden ser muchos mas), pero el limite a 20 se pone para evitar una condicion llamada oversharding.

para el ejemplo anterior si necesitas 250 shards de 40Gb necesitarias tener en un solo nodo la jvm asignada a 16Gb, pero recuerda que puedes utilizar elasticsearch en cluster, entonces todos los recursos de los nodos se suman...

Alan Lapierre

student•

Para que quede mas claro, ya que a mi tambien me costó un poco entenderlo. El indice es la BD en si, es la estructura y bajo ese indice se guardan documentos que comparten ciertas caracteristicas (que estan descriptos por el indice). Cuando lo que quiero almacenar son documentos muy grandes que no pueden ser procesados por un solo nodo, se puede dividir el indice (y por lo tanto los documentos) en partes mas chicas llamadas shards. Cuando se haga una consulta, es el cluster en si el que debe resolverla usando los distintos shards para devolver los documentos que necesito...

Aderson Rangel Parada

student•

Muy buena clase pero, alguien sabe si Elasticsearch es Gratis? Acá manejamos Docker pero si lo quiero escalar a producción que debería tener en cuenta en términos de costes.

Massimo Di Berardino

student•

Hola Aderson. Elasticsearch es open source, es decir la puedes utilizar gratuitamente, solo que para llevar a producción deberías tener en cuenta los servidores que mayormente tienen un costo. De igual manera, aparte Elasticsearch también tiene servicios de pago.

Aderson Rangel Parada

student•

Ah listo perfecto, ya me queda más claro. Sería solo tener en cuenta solo la parte de recursos utilizados. Thanks

Iraida Mercedes Barreto Díaz

student•

Un documento es la unidad mínima de información en elasticsearch.

JULIO RAUL CARRANZA RUIZ

student•

Estimado Kevin

Elasticsearch se puede clasificar como una herramienta big data ?

José Roberto Meza Cabrera

student•

Cuál es el punto de tener datos primarios y réplicas, si a final de cuentas todos los nodos van a tener todos los datos, no es mejor simplemente tener los mismos datos en los 3 servidores?

Richard Arevalo

student•

Tengo un trabajo que realizar en la U alguien que me asesorar para realizarlo gracias

William Schnaider Torres Bermon

student•

Detalles sobre la arquitectura de Elasticsearch:

Wilson Frank Zauma Rojas

student•

Definicion

David Jonatan Mora Bejarano

student•

Aquí indica como se almacenan las primarias y sus replicas y el porque lo hacen de esa forma.

Yeison Manuel Gerardo Martinez Ospina

student•

Configuración lógica de Elasticsearch: índices y documentos

Yeison Manuel Gerardo Martinez Ospina

student•

Configuración física de Elasticsearch

Carlos Javier Bazan Huaman

student•

la funcionalidad física sobre la distribución de las replicas tiene un buen sustento. Si falla el nodo el backup estará en otro nodo, así no se perderá la información.

CASAREZ HINOSTROZA ANGEL ARIEL

student•

Nivel logico Indice -> Documento

Nivel Fisico Se agrupa en un cluster

Fundamentos de Elastic Search: Búsquedas Rápidas y Distribuidas

Conceptos básicos para usar Elasticsearch

Búsquedas rápidas con Elastic Search y Postman