Crear tablas en AWS Redshift
Clase 14 de 25 • Curso de Fundamentos de ETL con Python y Pentaho
¡Hola nuevamente!
Ya que tienes tu clúster de Redshift y tu bucket de S3 en AWS, es momento de crear las tablas donde depositaremos los datos que transformamos en el ETL.
Por ahora lo que haremos será crear la estructura de las tablas para que en la siguiente clase podamos llevar los datos transformados a archivos CSV que subiremos a S3 y que automáticamente serán cargados como registros en nuestro Redshift.
1. Crea las tablas
Abre una nueva Query Console. Da clic derecho sobre la base de datos dev, luego presiona el botón New y por último el botón Query Console.
El script contiene lo siguiente:
💡Cada comando ha sido creado con base en las necesidades de datos que se insertarán en ellas. Aprenderás a diseñar este tipo de tablas con más detalle en cursos de Datawarehousing y modelamiento OLAP que tomarás más adelante en la ruta de Data Engineer.
Copia y pega el contenido del script de SQL en el Query Console.
⚠️Es normal que veas otras tablas que no creaste. Son las que se crean por defecto para la prueba gratis de Redshift. No hace falta que las borres.
2. Configura las variables de entorno en tu OS
Antes de continuar es muy importante que guardes como variables de tu entorno de trabajo los datos de acceso a tu cuenta de AWS y clúster de Redshift.
⚠️Esto se hace por seguridad para que los datos de acceso no queden expuestos en el código y que puedan ser obtenidos por personas que no deberían tenerlas.
Para ello ve a la consola de AWS y selecciona en la parte superior derecha tu nombre de usuario. Esto despliega un menú. Da clic en el botón Credenciales de seguridad.
Una vez guardadas las claves da clic en el botón naranja Listo.
- aws_access_key_id: es la clave de acceso IAM de AWS.
- aws_secret_access_key: es la clave de acceso secreta IAM de AWS.
- host: la dirección del clúster de Redshift. Es la url del punto de enlace que copiaste eliminando la parte final ":5439/dev". Tendrá una forma como server.redshift.amazonaws.com
- database: dev
- user: demoplatzi
- password: la que le hayas puesto a tu clúster de AWS Redshift cuando lo creaste.
Si no recuerdas cómo crear variables de entorno, te sugiero vuelvas a ver esta clase del Curso de Introducción a la Terminal y Línea de Comandos.
¡Listo, ya tienes las variables de entorno creadas! Las usarás en la próxima clase para conectarte de Python a tu bucket de S3 y tu clúster de AWS.
⚠️Recuerda que la notebook que estés usando debe estar corriendo desde el entorno del sistema operativo donde configuraste las variables de entorno, de lo contrario no funcionará tu código porque no encontrará esas variables que se accederán con
os.environ.get('nombre_variable_entorno).
¡Sigue avanzando con el curso! En la próxima clase comenzarás a cargar datos en tu clúster de Redshift. ⚙️🚀