Bienvenida e introducción al curso

1

Iniciando con Big Data

2

Cloud Computing en proyectos de BigData

3

Introducción al manejo de datos en Cloud

4

Datos en Cloud

5

¿Qué nube debería utilizar en mi proyecto de Big Data?

Arquitecturas

6

Arquitecturas Lambda

7

Arquitectura Kappa

8

Arquitectura Batch

Extracción de información

9

Llevar tu información al cloud

10

Demo - Creando nuestro IDE en la nube con Python - Boto3

11

¿Cómo usar Boto3?

12

API Gateway

13

Storage Gateway

14

Kinesis Data Streams

15

Configuración de Kinesis Data Streams

16

Demo - Despegando Kinesis con Cloudformation

17

Kinesis Firehose

18

Demo - Configuración de Kinesis Firehose

19

Reto - Configurando Kinesis Firehose

20

AWS - MSK

21

Demo - Despliegue de un clúster con MSK

Transformación de Información

22

AWS - Glue

23

Demo - Instalando Apache Zeppelin

24

Creación del Developer Endpoint

25

Demo - Conectando nuestro developer Endpoint a nuestro Zeppelin Edpoint

26

Demo - Creando nuestro primer ETL - Crawling

27

Demo - Creando nuestro primer ETL - Ejecución

28

Demo - Creando nuestro primer ETL - Carga

29

AWS - EMR

30

Demo - Desplegando nuestro primer clúster con EMR

31

Demo - Conectándonos a Apache Zeppelin en EMR

32

Demo- Despliegue automático de EMR con cloudformation

33

AWS - Lambda

34

Ejemplos AWS- Lambda

35

Demo - Creando una lambda para BigData

Carga de Información

36

AWS - Athena

37

Demo - Consultando data con Athena

38

AWS - RedShift

39

Demo - Creando nuestro primer clúster de RedShift

40

AWS - Lake Formation

Consumo de información

41

AWS - ElasticSearch

42

Demo - Creando nuestro primer clúster de ElasticSearch

43

AWS - Kibana

44

AWS - QuickSight

45

Demo - Visualizando nuestra data con QuickSight

Seguridad, Orquestación y Automatización

46

Seguridad en los Datos

47

AWS Macie

48

Demo - Configurando AWS Macie

49

Apache Airflow

50

Demo - Creando nuestro primer clúster en Cloud Composer

51

Arquitectura de referencia

Clase pública

52

¿Qué es Big Data?

No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Curso de Big Data en AWS

Curso de Big Data en AWS

Carlos Andrés Zambrano Barrera

Carlos Andrés Zambrano Barrera

AWS - ElasticSearch

41/52
Recursos

Algunas características importantes de ElasticSearch:

  • Es un motor de búsqueda basado en Lucene. Busca texto completo y JSON sin esquema.
  • Se despliega en un clúster.
  • Viene integrada con Kibana y Logstash.
  • Se puede integrar con AWS Cognito para manejar la autenticación de usuarios.
  • Puede recibir información de Kinesis Firehose y Lambda.
  • Así como en MySQL trabajas con bases de datos, tablas, columnas y filas. Dentro de ElasticSearch utilizas índices, tipos y documentos con propiedades.
  • Un índice se puede dividir en múltiples shards que se va a distribuir en diferentes nodos del clúster.

Aportes 10

Preguntas 2

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Me encantaría un curso de Elastic completo!!

AWS ElasticSearch es un motor de búsqueda basado en Apache Lucene. Busca data estructurada (tipo JSON) y data no estructurada.
Se despliega en un clúster en AWS compuesto de varios nodos, en donde se almacena la información, y a través de un nodo maestro, se realizan las consultas a dicha información.
Este servicio viene integrado con Logstash y Kibana.

Características

  • Autenticación: Hay diferentes formas de integrar la autenticación con este servicio. La más recomendada es utilizar AWS Cognito, que es un servicio que maneja Users Pools.
  • Cifrado: Se puede cifrar la información en reposo y en tránsito con KMS.
  • Integración: Puede recibir información de Kinesis Firehose y de Lambda. Con Kinesis Firehose se puede alimentar de a un índice de ElasticSearch, es decir, si se desea alimentar múltiples índices, se necesitan múltiples Kinesis Firehose.

Conceptos fundamentales

  • Índice: Es como una base de datos que almacena información relacional. Es un nombre lógico que distribuye la información a uno o más shards.
  • Estructura:
    SQL => Databases => Tables => Columns/Rows
    ES => Indices => Types => Documents with Properties
  • Shard: Un índice se puede dividir en múltiples shards, y éstos se almacenan en diferentes nodos. Cuando dimensionemos un clúster de ElasticSearch, es de vital importancia estimar de forma adecuada la cantidad de shards que utilizaremos.

Recomendaciones de AWS

  • Utilizar instancias tipo i, optimizadas en almacenamiento.
  • Mantener un shard en promedio de 50 a 150GB.

Me pregunto si es posible utilizar Elasticsearch para liberar a una base de datos Oracle que tiene muchos procesos de carga en batch y procesos online que la atacan.
Entiendo que los datos insertados en algunas tablas oracle , también serian enviados a elasticseach esto permitiría la busqueda en el cluster elasticsearch sería rápida y descongestionaria el trabajo a la bd oracle.
Es posible hacer algo así ?
Gracias y genial lo de elastic y kibana.

Hola,Qué Conocimientos previos necesito para aprender ElasticSearch?

AWS Elasticsearch es un servicio totalmente administrado y altamente escalable que ofrece una implementación en la nube del popular motor de búsqueda y análisis de datos, Elasticsearch. Diseñado para facilitar la búsqueda, análisis y visualización de grandes volúmenes de datos en tiempo real, AWS Elasticsearch es una solución robusta y versátil para diversas aplicaciones empresariales.

Este servicio permite a los usuarios indexar y analizar datos en tiempo real, lo que resulta especialmente valioso para aplicaciones que requieren una alta velocidad de búsqueda y recuperación de información. Con la capacidad de indexar datos de diversas fuentes, como registros de aplicaciones, flujos de clics web, datos de redes sociales y más, Elasticsearch simplifica el proceso de búsqueda y análisis de datos no estructurados.

Al ser parte del ecosistema de AWS, Elasticsearch se integra perfectamente con otros servicios de la plataforma, lo que proporciona una amplia gama de opciones para expandir y potenciar sus capacidades. Por ejemplo, es posible utilizar Amazon Kinesis Data Firehose para enviar flujos de datos en tiempo real a Elasticsearch, o combinarlo con AWS Lambda para ejecutar código personalizado en respuesta a eventos específicos.

AWS Elasticsearch también incluye funciones de seguridad y acceso para proteger los datos y controlar el acceso a las API y las instancias. Puede aplicar políticas de control de acceso basadas en roles para garantizar que solo los usuarios autorizados puedan interactuar con los datos y las funciones críticas.

La escalabilidad es una de las principales ventajas de AWS Elasticsearch. Puede adaptarse dinámicamente a las demandas cambiantes, lo que permite aumentar o disminuir la capacidad de almacenamiento y cómputo según sea necesario. Esto se logra a través de la función de escalamiento automático de AWS, que ajusta automáticamente los recursos en función del rendimiento y la carga de trabajo.

AWS Elasticsearch es una solución altamente eficiente y fácil de usar que facilita la búsqueda y análisis de grandes volúmenes de datos en tiempo real. Al aprovechar la escalabilidad y la robustez de AWS, las empresas pueden obtener información valiosa y tomar decisiones más informadas, lo que conduce a una ventaja competitiva en el ámbito empresarial actual.

Ahora el servicio se llama Amazon OpenSearch

Algunas características importantes de ElasticSearch:

Es un motor de búsqueda basado en Lucene. Busca texto completo y JSON sin esquema.
Se despliega en un clúster.
Viene integrada con Kibana y Logstash.
Se puede integrar con AWS Cognito para manejar la autenticación de usuarios.
Puede recibir información de Kinesis Firehose y Lambda.
Así como en MySQL trabajas con bases de datos, tablas, columnas y filas. Dentro de ElasticSearch utilizas índices, tipos y documentos con propiedades.
Un índice se puede dividir en múltiples shards que se va a distribuir en diferentes nodos del clúster.

bien interesante la funcionalidad de Elastic Search

Algunas características importantes de ElasticSearch:
• Estructura: MySQL => Databases => Tables => Columns/Rows
o ES => Indices => Types => Documents with Properties
• Shard: Un índice se puede dividir en múltiples shards y estos se almacenan en diferentes nodos.

Sería interesante tener el documento con las fórmulas matemáticas para hacer estimar la cantidad de nodos, storages y sharps