Configuración de Clúster en Amazon Repsheet para Big Data

Clase 6 de 33 • Curso de AWS Redshift para Manejo de Big Data

Contenido del curso

Primeros pasos en la arquitectura no transaccional

Configura tu entorno de trabajo para Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

Manipular enormes cantidades de datos

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Análisis de comportamiento y descarga de datos con Redshift

Conclusiones

33
Gestión de Datos y Consultas en Repsheat
01:58 min

Tomar examen

Resumen

Poner en marcha un cluster de Amazon Redshift es el paso fundamental para comenzar a trabajar con grandes volúmenes de datos en la nube. Aquí se recorre todo el proceso dentro de la consola de AWS, desde la elección del tipo de nodo hasta la asignación de permisos, aprovechando la capa gratuita que ofrece Amazon para pruebas.

¿Cómo se crea un cluster en la consola de AWS?

Desde la consola de administración de Amazon, se accede al servicio escribiendo "Amazon Redshift" en el buscador y seleccionándolo. El flujo es directo: hacer clic en crear un cluster [01:03].

Los parámetros iniciales que se configuran son:

Identificador del cluster: un nombre único sin caracteres especiales; en este caso, redshiftcluster [01:15].
Tipo de nodo: se selecciona DC2 large, que es la opción incluida en la prueba gratuita de Redshift [01:22].
Cantidad de nodos: se eligen dos nodos de datos. Un solo nodo también funciona, pero dos permiten experimentar con la distribución de carga [01:50].

Es importante entender que la prueba gratuita tiene un límite de 750 horas (aproximadamente dos meses). Si se aumenta la cantidad de nodos, esas horas se consumen proporcionalmente más rápido y pueden generar costos en la tarjeta de crédito [01:37].

¿Qué datos de conexión se necesitan?

Una vez definido el tipo y la cantidad de nodos, la consola solicita los datos de acceso a la base de datos [02:25]:

Nombre de la base de datos: por ejemplo, plaziredshift.
Puerto de salida: el valor por defecto es 5439, aunque se puede modificar según las necesidades del proyecto [02:37].
Nombre de usuario: funciona como credencial de conexión a la instancia.
Contraseña: debe cumplir requisitos de complejidad que se muestran en pantalla.

Finalmente, en la sección de permisos se asigna el rol de IAM creado previamente, lo que permite al cluster interactuar con otros servicios de AWS de forma segura [02:58].

¿Por qué elegir DC2 large y cuántos nodos conviene usar?

El nodo DC2 large es una instancia de cómputo denso optimizada para cargas analíticas. Al seleccionarlo, la consola muestra una estimación del costo mensual y la capacidad en terabytes disponible según el número de nodos [02:12].

La relación entre nodos y rendimiento es directa: más nodos implican mayor capacidad de paralelización. Redshift reparte las consultas sobre data sets de gigabytes o terabytes entre todos los nodos del cluster, lo que acelera considerablemente el procesamiento [04:00].

¿Cuál es el balance entre costo y rendimiento?

Amazon ofrece distintas clases de nodos con configuraciones más potentes, y cada cluster puede escalar a muchos nodos. Sin embargo, la regla es clara [04:25]:

Una configuración de nodos más alta incrementa el precio.
Más nodos en el cluster elevan el costo aún más.
Evaluar el costo-beneficio antes de dimensionar es esencial para cualquier proyecto en producción.

Con dos nodos DC2 large se obtiene un entorno funcional para aprender y prototipar sin incurrir en gastos, siempre que se respete el límite de horas gratuitas.

¿Qué sucede después de crear el cluster?

Al confirmar la creación, la consola inicia el aprovisionamiento: levanta la instancia, configura las conexiones de red y deja el cluster en estado disponible [03:40]. Este proceso toma algunos minutos.

Una vez que el estado cambia a activo, el cluster está listo para recibir conexiones desde un cliente SQL y ejecutar consultas distribuidas sobre los nodos configurados [03:50]. El siguiente paso natural es conectar ese cluster a una herramienta de consultas para comenzar a trabajar con los datos.

Si ya configuraste tu cluster, comparte en los comentarios cuántos nodos elegiste y por qué.

Comentarios

Israel Yance

student•

Ahora ya permite elegir directamente la versión gratuita pero con un solo nodo.

JAVIER SANTIAGO SALGADO

student•

si vi esa limitante, pero bueno pronto seremos ricos y podremos tener la completa ;)

Robin Angel Romero

student•

esto afecta en el desarrollo del curso?

Cesar Augusto Morales Godoy

student•

Amazon Redshift gratis durante dos meses.

Si su organización no ha creado nunca un clúster de Amazon Redshift, tiene derecho a recibir una prueba gratuita del nodo DC2.Large durante un período de dos meses.

La prueba incluye 750 horas gratis al mes, la cantidad suficiente para ejecutar un nodo DC2.Large ininterrumpidamente con 160 GB de almacenamiento SSD comprimido. Una vez que concluya la prueba gratuita al cabo de dos meses, o su uso exceda las 750 horas al mes, puede cerrar el clúster para evitar cargos o seguir ejecutándolo, en cuyo caso se aplicaría nuestra tarifa bajo demanda estándar.

Para comenzar la prueba:

1. Cree una cuenta de AWS e inicie sesión en la consola de Amazon Redshift.

2. En "What are you planning to use this cluster for?" (¿Para qué planea usar este clúster?), seleccione 'Free Trial (Prueba gratuita)

También puede visitar la página de Partners (Socios) para conocer las pruebas gratuitas que ofrecen los socios de APN.

Percio por demanda de Amazon Redshift:

Curiosamente es más economico en algunas regiones de EEUU que en Sao Pablo, dejo link de precios acá

Manuel Juarez

student•

Ahora existe la opción del free trial con Redshift Serverless por 90 días y USD300:

https://aws.amazon.com/redshift/free-trial/

Emilio Sala

student•

lo estuve probando con las siguientes clases y enseguida se consumió 15 dolares. espero poder terminar el curso a este paso xD

Mario Alexander Vargas Celis

student•

Para configurar tu primer clúster en AWS Redshift, sigue estos pasos:

1. Iniciar sesión en AWS

Accede a la consola de AWS en AWS Management Console.

2. Navegar a AWS Redshift

Ve a la sección de Redshift en la consola de AWS desde la barra de búsqueda o selecciona la categoría "Bases de datos" y luego selecciona Redshift.

3. Crear un Nuevo Clúster Redshift

Haz clic en "Crear clúster".

4. Configurar los Parámetros del Clúster

Nombre del Clúster: Define un nombre único para tu clúster.

Conjunto de Parámetros: Elige entre diferentes conjuntos predefinidos o personaliza las configuraciones según las necesidades de rendimiento (ej., almacenamiento, nodo, tipo de nodo).

Tipo de Nodo: Elige el tipo de nodo que deseas usar (Small, Medium, Large, etc.). Los nodos más grandes ofrecen mejor rendimiento, pero también mayor costo.

Número de Nodos: Define cuántos nodos quieres utilizar. Por ejemplo, si estás comenzando, puedes comenzar con un solo nodo (Single Node) o un clúster de múltiples nodos si se requiere procesamiento distribuido.

Configuración de Almacenamiento: Ajusta la cantidad de almacenamiento (GB) en función de tus necesidades. El almacenamiento se ajusta automáticamente según la cantidad de datos que procesas.

5. Configuraciones Avanzadas

Conexión: Configura el puerto, enrutamiento y red según tus necesidades de seguridad.
Seguridad: Añade grupos de seguridad para permitir acceso seguro desde otras aplicaciones o redes específicas.
Seguridad de Datos: Encriptación del clúster para asegurar los datos.

6. Creación del Clúster

Una vez configurado todo, haz clic en "Crear Clúster". AWS comenzará a crear tu clúster Redshift.

7. Conectar al Clúster

Una vez creado, tendrás un endpoint para conectarte al clúster desde una herramienta como SQL client o desde aplicaciones que interactúan con bases de datos.

8. Importar Datos

Usa Amazon S3 para cargar datos en tu clúster Redshift. También puedes conectarte a bases de datos externas o fuentes de datos a través de conexiones JDBC o otras.

9. Monitoreo y Optimización

Utiliza CloudWatch para monitorizar métricas del clúster.
Ajusta configuraciones conforme el uso y rendimiento del clúster.

Este proceso crea un entorno básico para trabajar con AWS Redshift.

Carlos Javier Guevara Contreras

student•

![](

Sandy Falcon

student•

Tenia este mensaje al crear el Cluster: Cluster subnet group '' does not exist.

Me ayude de esta documentacion: https://aws.amazon.com/es/premiumsupport/knowledge-center/vpc-redshift-associate/

Julio Moreno

student•

Ya se termina el Platziday y pude ver varios cursos, me hubiera gustado completar éste, tal vez pueda volver pronto.

Alarcon7a

student•

te esparamos, aprovecha el blackfriday

Oscar Javier Gonzalez

student•

A la fecha de hoy, la creación del cluster tiene un costo, para usar la capa gratuita debemos usar la version ServerLess

Juan David López González

student•

al momento de ocnfigurar no me muesra la opcion de ocnfigurar el nombre de la base de datos y el puerto . Que hago en ese paso?

Santiago Ortiz Ceballos

student•

Existe un estimado de la cantidad de nodos sugeridos de acuerdo a la cantidad de información?

Sarah Camila Vieda Castro

student•

A alguien mas el cluster se le quedo en estado unavailable?

Carlos Javier Guevara Contreras

student•

interesante

Configuración de Clúster en Amazon Repsheet para Big Data

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Procesamiento de Datos con Repsheet y Clústeres SQL

Configura tu entorno de trabajo para Redshift

Configuración de IAM y S3 en AWS para Repsheet