Configuración de Clúster en Amazon Repsheet para Big Data

Clase 6 de 33Curso de AWS Redshift para Manejo de Big Data

Contenido del curso

Cómo diseñar tu base de datos para mejorar su desempeño

Manipular enormes cantidades de datos

Resumen

Poner en marcha un cluster de Amazon Redshift es el paso fundamental para comenzar a trabajar con grandes volúmenes de datos en la nube. Aquí se recorre todo el proceso dentro de la consola de AWS, desde la elección del tipo de nodo hasta la asignación de permisos, aprovechando la capa gratuita que ofrece Amazon para pruebas.

¿Cómo se crea un cluster en la consola de AWS?

Desde la consola de administración de Amazon, se accede al servicio escribiendo "Amazon Redshift" en el buscador y seleccionándolo. El flujo es directo: hacer clic en crear un cluster [01:03].

Los parámetros iniciales que se configuran son:

  • Identificador del cluster: un nombre único sin caracteres especiales; en este caso, redshiftcluster [01:15].
  • Tipo de nodo: se selecciona DC2 large, que es la opción incluida en la prueba gratuita de Redshift [01:22].
  • Cantidad de nodos: se eligen dos nodos de datos. Un solo nodo también funciona, pero dos permiten experimentar con la distribución de carga [01:50].

Es importante entender que la prueba gratuita tiene un límite de 750 horas (aproximadamente dos meses). Si se aumenta la cantidad de nodos, esas horas se consumen proporcionalmente más rápido y pueden generar costos en la tarjeta de crédito [01:37].

¿Qué datos de conexión se necesitan?

Una vez definido el tipo y la cantidad de nodos, la consola solicita los datos de acceso a la base de datos [02:25]:

  • Nombre de la base de datos: por ejemplo, plaziredshift.
  • Puerto de salida: el valor por defecto es 5439, aunque se puede modificar según las necesidades del proyecto [02:37].
  • Nombre de usuario: funciona como credencial de conexión a la instancia.
  • Contraseña: debe cumplir requisitos de complejidad que se muestran en pantalla.

Finalmente, en la sección de permisos se asigna el rol de IAM creado previamente, lo que permite al cluster interactuar con otros servicios de AWS de forma segura [02:58].

¿Por qué elegir DC2 large y cuántos nodos conviene usar?

El nodo DC2 large es una instancia de cómputo denso optimizada para cargas analíticas. Al seleccionarlo, la consola muestra una estimación del costo mensual y la capacidad en terabytes disponible según el número de nodos [02:12].

La relación entre nodos y rendimiento es directa: más nodos implican mayor capacidad de paralelización. Redshift reparte las consultas sobre data sets de gigabytes o terabytes entre todos los nodos del cluster, lo que acelera considerablemente el procesamiento [04:00].

¿Cuál es el balance entre costo y rendimiento?

Amazon ofrece distintas clases de nodos con configuraciones más potentes, y cada cluster puede escalar a muchos nodos. Sin embargo, la regla es clara [04:25]:

  • Una configuración de nodos más alta incrementa el precio.
  • Más nodos en el cluster elevan el costo aún más.
  • Evaluar el costo-beneficio antes de dimensionar es esencial para cualquier proyecto en producción.

Con dos nodos DC2 large se obtiene un entorno funcional para aprender y prototipar sin incurrir en gastos, siempre que se respete el límite de horas gratuitas.

¿Qué sucede después de crear el cluster?

Al confirmar la creación, la consola inicia el aprovisionamiento: levanta la instancia, configura las conexiones de red y deja el cluster en estado disponible [03:40]. Este proceso toma algunos minutos.

Una vez que el estado cambia a activo, el cluster está listo para recibir conexiones desde un cliente SQL y ejecutar consultas distribuidas sobre los nodos configurados [03:50]. El siguiente paso natural es conectar ese cluster a una herramienta de consultas para comenzar a trabajar con los datos.

Si ya configuraste tu cluster, comparte en los comentarios cuántos nodos elegiste y por qué.

      Configuración de Clúster en Amazon Repsheet para Big Data