Conexión y Configuración de Repsheet con Clientes Externos

Clase 7 de 33 • Curso de AWS Redshift para Manejo de Big Data

Contenido del curso

Primeros pasos en la arquitectura no transaccional

Configura tu entorno de trabajo para Redshift

Cómo diseñar tu base de datos para mejorar su desempeño

Manipular enormes cantidades de datos

Buenas prácticas para diseñar y ejecutar consultas en tu base de datos

Análisis de comportamiento y descarga de datos con Redshift

Conclusiones

33
Gestión de Datos y Consultas en Repsheat
01:58 min

Tomar examen

Resumen

Configurar la conexión entre un cliente SQL externo y un clúster de Amazon Redshift es más sencillo de lo que parece, siempre que conozcas los pasos previos en la consola de AWS. Con un clúster activo, un bucket listo y un rol de acceso configurado, solo resta ajustar unas reglas de seguridad y utilizar los datos de conexión que Redshift proporciona para empezar a escribir consultas SQL tal como lo harías en PostgreSQL.

¿Cómo habilitar el acceso público al clúster de Redshift?

Antes de conectarte desde cualquier editor SQL, es necesario preparar el clúster para recibir conexiones externas. Dentro de la consola de administración de AWS, al ingresar a Amazon Redshift y seleccionar el clúster previamente creado, encontrarás la pestaña de Propiedades [0:42].

Al final de esa pestaña hay un indicador clave: el flag de acceso público. Este parámetro define si el clúster acepta conexiones desde fuera de la red interna de AWS. Para trabajar con un cliente externo como DBeaver, este valor debe estar en yes [1:07].

¿Qué configuración de firewall necesita el clúster?

El siguiente paso involucra las reglas del VPC Security Group, que funcionan como reglas de firewall para controlar el tráfico de entrada y salida del clúster [1:16]. Al acceder al grupo de seguridad asignado, puedes agregar una regla de entrada específica para Redshift.

El puerto por defecto de Redshift es el 5439 [1:40]. Al crear la regla y seleccionar "Redshift" como tipo, el sistema autocompleta ese puerto. Aunque para este ejercicio se permite el acceso desde cualquier IP, la buena práctica consiste en especificar exactamente qué direcciones IP tienen permiso de conexión [1:55].

¿Dónde encontrar los datos de conexión JDBC y ODBC?

De vuelta en la pestaña de Propiedades del clúster, en la parte derecha aparecen los detalles de conexión [2:25]. Redshift ofrece dos tipos de drivers para conectarse a bases de datos:

JDBC: orientado a aplicaciones Java.
ODBC: estándar abierto compatible con múltiples herramientas.

Para este caso se copia la cadena de conexión ODBC y se lleva al editor SQL elegido [2:40].

¿Cómo conectar DBeaver a Redshift paso a paso?

DBeaver es un editor SQL gratuito, ligero y compatible con Windows, Linux y macOS [2:52]. Soporta conexiones a múltiples motores: Redshift, PostgreSQL, Oracle, Apache Hive y muchos más.

Al crear una nueva conexión de base de datos y seleccionar Redshift, el programa solicita estos campos [3:20]:

Host (o server): se extrae de la cadena ODBC copiada.
Puerto: 5439 por defecto.
Base de datos: el nombre asignado durante la creación del clúster.
Username y password: las credenciales configuradas al crear el clúster.

Tras completar los campos y probar la conexión, DBeaver confirma el enlace exitoso con el clúster en la nube [4:07].

¿Es realmente SQL estándar lo que se usa en Redshift?

Una de las grandes ventajas de Redshift es que utiliza SQL prácticamente idéntico al de PostgreSQL [4:30]. Para comprobarlo, se ejecutan operaciones básicas directamente desde DBeaver.

Primero, el clásico SELECT 'Hola Mundo' funciona sin problemas [4:40]. Luego se crean dos tablas con sentencias DDL estándar:

sql CREATE TABLE estudiante ( id INT2, nombre VARCHAR(30), pais_id INT2 );

CREATE TABLE pais ( pais_id INT2, nombre VARCHAR(60) );

Un detalle importante: en Redshift, el número dentro de VARCHAR no representa la longitud en caracteres, sino la cantidad de bytes que admite la cadena [5:15]. Esta diferencia resulta crucial al diseñar tablas con datos en idiomas que usan caracteres multibyte.

¿Cómo funcionan los INSERT y los JOIN en Redshift?

La inserción de registros se realiza con INSERT INTO convencional [5:45]. Sin embargo, esta no es la forma más eficiente de cargar datos en Redshift; existen métodos optimizados como el comando COPY.

Los joins funcionan exactamente igual que en otras bases de datos relacionales. Un INNER JOIN entre estudiante y país devuelve solo los registros con coincidencia en ambas tablas [6:30]. Si un estudiante tiene un pais_id que no existe en la tabla país, el inner join lo excluye. La solución es un LEFT JOIN, que conserva todos los registros de la tabla izquierda sin importar si hay coincidencia [7:00].

Finalmente, las tablas se eliminan con DROP TABLE sin inconvenientes [7:15]. El atajo Ctrl + Enter en DBeaver permite ejecutar sentencias de forma rápida.

Lo que se demuestra aquí es poderoso: desde un programa local, sin relación alguna con Amazon, es posible crear, consultar y eliminar objetos en un clúster alojado en la nube, usando el mismo SQL de toda la vida. No hay que aprender una nomenclatura nueva ni un lenguaje diferente. ¿Ya probaste conectarte a tu propio clúster? Comparte tu experiencia y cualquier duda que tengas.

Comentarios

Robin Angel Romero

student•

trate de seguir los pasos del instructor, pero hay algunas diferencias en la interfaz de amazon a día de hoy que me ocasionaron unos problemas al realizar la conexión con DBeaver. asi que comparto algunas cosas a tener en cuenta para evitar los errores que tuve.

primer asegurarse de que de la opción "Publicy accesible" se encuentre en "Enabled", en el video esta activa por default, pero pueden editarla dando click en "Edit publicly accesible", podran ver las opciones Seleccionando su cluster, van a la pestaña "Properties", hacen un poco de scroll y encontraran este flag

luego en en DBeaver cuando vayan a agregar la coneccion, si es primera vez que lo usan les aparecerá un cuadro de dialogo para descargar un controlador de AWS, acepten todo

notaran que cuando el profe copia el ODBC URL, hace uso del boton Copy en la interfaz de amazon,

en la nueva interfaz estos datos están en el primer flag de "General information"

si usan el botón para copiar el odbc o el jdbc, estarán copiando el témplate completo con el siguiente formato

jdbc:redshift://{host}:{port}/{database}

y si pegan todo el url en la casilla 'Host' cuando estén dentro DBeaver les dará error en la conexión, lo que deben colocar ahi es solo lo que les aprese escrito en esta parte

asi cuando peguen borren todo lo demás que viene cuando copian el link , llenan los demás campos y listo testeen la conexión

Brayan Betancourt Villegas

student•

Muchas gracias por tu aporte.

Miguel Angel Velazquez Romero

student•

Ojo!! La opción para modificar la accesibilidad ya no está ahí, está aquí:

Marcando el cluster y después en actions

Nestor Mamani

student•

Ahora para editar Publicly accesible si está Disabled por defecto, le damos clic a Actions y luego a Modify publicly accesible setting

Cesar Augusto Morales Godoy

student•

DBeaver solo te da una licencia de 14 días de prueba gratis para usar su IDE, pero puedes pedir una licencia Academica gratis si tienes correo electronico finalizado con .edu, acá dejo el formulario para pedir la licencia Academica free.

Cesar Augusto Morales Godoy

student•

Actualizo que hoy llegò mi licencia de DBeaver por un año: 😃🎉

Eider Diaz

student•

**aqui esta todo, no lo escriba **

SELECT "hola mundo";


CREATE table estudiante(
id int2,
nombre varchar(30),
pais_id int2
);


CREATE table pais (
psid_id int2,
nombre varchar(60),
pais_is int2 
);

INSERT into estudiante values (1,'David',1),(2,'Rocio',1),(3,'Carlos',3);
INSERT into pais values (1,'Colombia'),(3,'Mexico')

SELECT * FROM estudiante

inner join pais p 
on e.pais_id = p.pais_id;

Martin DAVILA

student•

Les dejo el código solo denle formato recuerden que como buenas practicas debe ir en mayúsculas.

SELECT 'hola mundo¡¡' texto;
CREATE table estudiante(
id int2
nombre varchar(30),
pais_id int2
);

CREATE table pais (
psid_id int2,
nombre varchar(60),
pais_is int2 
);
INSERT into estuadiante values (1,'David',1),(2,'Rocio',1),(3,'Carlos');
INSERT into pai values (1,'Colombia'),(3,'Mexico')

SELECT * FROM estudiamnte
inner join pais p 
on e.pais_id = p.pais_id; ```

Eider Diaz

student•

me ahorraste la fatiga ⭐️⭐️⭐️⭐️⭐️

Eider Diaz

student•

btw le faltó una coma en el int2 de la tabla estudiante ;)

Mario Alexander Vargas Celis

student•

Consumir datos desde un clúster de AWS Redshift implica interactuar con las tablas que has cargado y ejecutar consultas SQL optimizadas para obtener insights o alimentar aplicaciones downstream. Aquí te explico cómo empezar a consumir Redshift:

1. Configuración inicial

Asegúrate de que:

Tu clúster de Redshift está creado y funcionando.
Los datos están cargados en Redshift (puedes usar Amazon S3 para cargar datos).
Las herramientas de consulta están configuradas para acceder al clúster.

2. Conectar a Redshift

Puedes conectarte al clúster de Redshift mediante:

Cliente SQL: Herramientas como DBeaver, SQL Workbench/J o cualquier herramienta compatible con JDBC/ODBC.
AWS Query Editor: Disponible directamente en la consola de AWS Redshift.
Librerías de programación: Usando librerías como boto3 (Python) o conectores JDBC/ODBC en lenguajes como Java o C#.

Pasos para conectarte

Obtén el endpoint del clúster desde la consola de AWS.
Configura tu cliente SQL:
- Endpoint (ejemplo: redshift-cluster-name.cluster-abc123xyz.us-west-2.redshift.amazonaws.com).
- Usuario y contraseña configurados al crear el clúster.
- Puerto (por defecto: 5439).
- Nombre de la base de datos.
Proporciona credenciales:
- Al usar herramientas externas, asegúrate de que las credenciales coincidan con las configuradas.

3. Escribe y ejecuta consultas SQL

Consulta básica

SELECT * FROM employees LIMIT 10;

Extrae los primeros 10 registros de la tabla employees.

Filtrar datos

SELECT name, department FROM employees WHERE department = 'Sales';

Filtra empleados cuyo departamento sea "Ventas".

Agrupar datos

SELECT department, COUNT(*) AS num_employees FROM employees GROUP BY department;

Cuenta el número de empleados por departamento.

Optimizar con SORTKEY

Si tienes una tabla configurada con una clave de ordenación (SORTKEY), aprovecha este diseño en tus consultas para mejorar el rendimiento.

4. Integración con herramientas

Puedes consumir datos desde Redshift para alimentar dashboards, sistemas de análisis o aplicaciones usando:

Amazon QuickSight: Visualiza datos directamente desde tu clúster Redshift.
ETL Tools: Conecta Redshift con herramientas como Apache Airflow o Glue para mover datos entre sistemas.
Python (psycopg2):import psycopg2

conn = psycopg2.connect( dbname='your_dbname', host='your_endpoint', port='5439', user='your_username', password='your_password' ) cur = conn.cursor() cur.execute("SELECT * FROM employees LIMIT 10;") rows = cur.fetchall() for row in rows: print(row) conn.close()

5. Monitorear y ajustar

Usa la consola de Redshift Performance para identificar consultas que consumen demasiados recursos.
Aplica estrategias como la partición de tablas, claves de distribución (DISTKEY) y claves de ordenación (SORTKEY) para mejorar tiempos de consulta.

6. Automatización y despliegue

Amazon EventBridge: Programa la ejecución de consultas.
Airflow: Automatiza la extracción, transformación y carga desde y hacia Redshift.

ROGER DIAZ

student•

Para los curiosos, en VScode se puede realizar la conexion, solo descarguen las extensiones correctas y les servira, hay opciones, en mi caso instale SQLTools y redshift driver, con esos dos pude desde mi vscode hacer la conexion a redshift y hacer las consultas. No digo que sera igual que usar dbeaver, yo particularmente ya lo habia manejado y estaba instalado en mi sistema, sin embargo quise probar a usar el vscode.

JAVIER SANTIAGO SALGADO

student•

Ya entiendo por que Sheldon ama Amazon

José Alberto Ortiz Vargas

student•

Es posible ejecutar codigo y tipos de datos #postgresql con esta configuracion de Redshift?

Alarcon7a

student•

Si, codigo sql tal cual la estrucutra de consultas de postgresql

Mario Alberto García Meza

teacher•

Tengo un problema. Siempre me sale SocketTimeoutException. Creo que no estoy pudiendo conectar mi base de datos. ¿Que podría ser el problema?

Alarcon7a

student•

tendras los puertos expuestos correctamente?

Domingo Ramírez

student•

Y no olviden siempre eliminar el cluster cuando terminen de practicar xD yo justo me acabo de llevar una sorpresa con la facturación de mi cuenta

Juan David López González

student•

Que version de DBeaver debo instalar, ma aparecen varias la late, interpraise???

Carlos Astorga

student•

Por si alguien no puede conectar y al parecer está todo bien, prueben modificando la contraseña del usuario de la base de datos. A mí me funcionó. Slds

Gustavo Medina

student•

Alguien tuvo problemas al instalar DBeaverEE en mac? Me sale un error cuando voy a crear la conexion. El log muestra que es por la falta del driver. Pero busque en el directorio y estan los drivers para redshift, aunque no encontre exactamente este driver 'com.amazon.redshift.jdbc42.Driver' alguna ayuda? abajo esta el error logeado Can't create driver instance Error creating driver 'AWS / Redshift' instance. Most likely required jar files are missing. You should configure jars in driver settings.

Reason: can't load driver class 'com.amazon.redshift.jdbc42.Driver' Error creating driver 'AWS / Redshift' instance. Most likely required jar files are missing. You should configure jars in driver settings.

Reason: can't load driver class 'com.amazon.redshift.jdbc42.Driver' SHA1 digest error for com/amazon/redshift/jdbc42/Driver.class SHA1 digest error for com/amazon/redshift/jdbc42/Driver.class

Cesar Pineda

student•

Hola, le recomiendo que instale mejor la versión Community Edition, le versión que usted tiene instalada es de pago. https://dbeaver.io/download/?start&os=mac&arch=x86_64

Carlos Javier Guevara Contreras

student•

interesante

Israel Yance

student•

Para los que no les funciona sin el AS:

SELECT * FROM estudiante AS e
LEFT JOIN pais AS p
ON e.pais_id = p.pais_id;

Juan Carlos Hernández

student•

Ademas de DBeaver ¿Qué otros gestores recomiendan?

Alarcon7a

student•

Datagrip y Pgadmin son muy conocidos tambien

Edward Toledo López

student•

Por si alguien estaba buscando el link para descargar DBeaver:

https://dbeaver.com/download/lite/

Carlos Javier Guevara Contreras

student•

Excelente la clase

Carlos Javier Guevara Contreras

student•

de verdad no me puedo conectar

Conexión y Configuración de Repsheet con Clientes Externos

Primeros pasos en la arquitectura no transaccional

Manejo de Big Data con Reptiit en Amazon AWS

Data Warehouse y Modelo Dimensional en Amazon Repsheet

Bases de Datos Columnares: Eficiencia en Consultas Analíticas

Procesamiento de Datos con Repsheet y Clústeres SQL

Configura tu entorno de trabajo para Redshift

Configuración de IAM y S3 en AWS para Repsheet

Configuración de Clúster en Amazon Repsheet para Big Data