Bienvenida e introducción al curso

1

Iniciando con Big Data

2

Cloud Computing en proyectos de BigData

3

Introducción al manejo de datos en Cloud

4

Datos en Cloud

5

¿Qué nube debería utilizar en mi proyecto de Big Data?

Arquitecturas

6

Arquitecturas Lambda

7

Arquitectura Kappa

8

Arquitectura Batch

Extracción de información

9

Llevar tu información al cloud

10

Demo - Creando nuestro IDE en la nube con Python - Boto3

11

¿Cómo usar Boto3?

12

API Gateway

13

Storage Gateway

14

Kinesis Data Streams

15

Configuración de Kinesis Data Streams

16

Demo - Despegando Kinesis con Cloudformation

17

Kinesis Firehose

18

Demo - Configuración de Kinesis Firehose

19

Reto - Configurando Kinesis Firehose

20

AWS - MSK

21

Demo - Despliegue de un clúster con MSK

Transformación de Información

22

AWS - Glue

23

Demo - Instalando Apache Zeppelin

24

Creación del Developer Endpoint

25

Demo - Conectando nuestro developer Endpoint a nuestro Zeppelin Edpoint

26

Demo - Creando nuestro primer ETL - Crawling

27

Demo - Creando nuestro primer ETL - Ejecución

28

Demo - Creando nuestro primer ETL - Carga

29

AWS - EMR

30

Demo - Desplegando nuestro primer clúster con EMR

31

Demo - Conectándonos a Apache Zeppelin en EMR

32

Demo- Despliegue automático de EMR con cloudformation

33

AWS - Lambda

34

Ejemplos AWS- Lambda

35

Demo - Creando una lambda para BigData

Carga de Información

36

AWS - Athena

37

Demo - Consultando data con Athena

38

AWS - RedShift

39

Demo - Creando nuestro primer clúster de RedShift

40

AWS - Lake Formation

Consumo de información

41

AWS - ElasticSearch

42

Demo - Creando nuestro primer clúster de ElasticSearch

43

AWS - Kibana

44

AWS - QuickSight

45

Demo - Visualizando nuestra data con QuickSight

Seguridad, Orquestación y Automatización

46

Seguridad en los Datos

47

AWS Macie

48

Demo - Configurando AWS Macie

49

Apache Airflow

50

Demo - Creando nuestro primer clúster en Cloud Composer

51

Arquitectura de referencia

Clase pública

52

¿Qué es Big Data?

Aún no tienes acceso a esta clase

Crea una cuenta y continúa viendo este curso

Curso de Big Data en AWS

Curso de Big Data en AWS

Carlos Andrés Zambrano Barrera

Carlos Andrés Zambrano Barrera

AWS - RedShift

38/52
Recursos

RedShift es un servicio que se lanza en un clúster de instancias, para el almacenamiento de datos a gran escala pensando en guardar PB. Permite realizar consultas complejas de SQL.

RedShift está basado en PostgreSQL, es una base de datos columnar haciendo mejor el rendimiento de I/O en los discos y performance.

Aportes 7

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad? Crea una cuenta o inicia sesión.

  1. Servicio de almacenamiento de datos en nube administrado a escala de PB.
  2. El servicio se lanza en un clúster de instancias.
  3. Sirve para consultas complejas SQL sobre cantidades grandes de datos a nivel columnar.
  4. Está basado en PosgreSQL y esta diseñado para OLAP y aplicaciones de BI.
  5. Hace compresión de la data para optimizar el I/O.
  6. Utiliza caché para ciertos tipos de consulta y no tener que volver a procesar información.

Amazon Redshift is a fast, fully managed, petabyte-scale data warehouse service that makes it simple and cost-effective to efficiently analyze all your data using your existing business intelligence tools. It is optimized for datasets ranging from a few hundred gigabytes to a petabyte or more and costs less than $1,000 per terabyte per year, a tenth the cost of most traditional data warehousing solutions.

DataWarehouse

RedShift el servicio mas grande de AWS para Datawarehouse

RedShift está basado en PostgreSQL, es una base de datos columnar haciendo mejor el rendimiento de I/O en los discos y performance.

RedShift es un servicio que se lanza en un clúster de instancias, para el almacenamiento de datos a gran escala pensando en guardar PB. Permite realizar consultas complejas de SQL

Siempre que pensemos en RedShift, tomemos como referencia los términos DataWarehouse y DataLake.

Conceptos claves

  • DataWarehouse: RedShift es básicamente un repositorio de datos completamente centralizado que contiene información de múltiples fuentes dentro de una organización. Este es uno de los servicios más grandes, de los que tiene mayor Billing dentro de AWS.
  • DataLake: Es un repositorio de almacenamiento que guarda una cantidad muy grande de raw-data, es decir, en formato nativo.
  • DataMart: Es un subset de DataWarehouse orientado a una tarea específica.

RedShift es una base de datos columnar; es decir, cuando trabajemos con RedShift, la tabla normal se divide en columnas y las consultas son realizadas sobre las columnas. Esto mejora el rendimiento de I/O en los discos, mejora el performance y el tiempo de consulta sobre grandes cantidades de información. Este tipo de estructuras en una base de datos es óptimo para consultas sobre analítica, para transacciones OLAP principalmente.

Características de RedShift

  • RedShift es un servicio desplegado dentro de AWS a una escala muy grande (PB).
  • Toda su infraestructura se despliega en un clúster de instancias; el costo dependerá del tamaño de dicho clúster.
  • Sirve para consultas muy complejas SQL sobre cantidades grandes de datos a nivel columnar. La promesa de valor de RedShift es su increíble tiempo de respuesta en las consultas a gigantescas cantidades de datos (PB).
  • Está basado en PostgreSQL.
  • Está diseñado específicamente para transacciones OLAP; es decir, para transacciones de analítica y procesamiento para proyectos de BI.
  • Para que RedShift funcione de manera adecuada y cumpla su promesa de valor (tiempos muy cortos sobre una gran cantidad de información), hace compresión de los datos. Esta compresión mejora las actividades de I/O por segundo en los discos.
  • RedShift utiliza caché para ciertos tipos de consulta y no tener que volver a procesar esa misma información.