No tienes acceso a esta clase

¡Continúa aprendiendo! Únete y comienza a potenciar tu carrera

Creando mi Datalake en S3 – Parte 2

21/23
Recursos

¿Cómo implementar la arquitectura Medageon en AWS S3?

Comenzar con la implementación de una arquitectura de datos, como Medageon, en AWS S3 puede parecer una tarea desafiante, pero con los pasos adecuados, es posible crear una estructura eficiente y funcional. En este proceso, configuraremos capas de bronce, plata y oro, esenciales para la gestión de datos. También exploraremos la carga de datos manual y remota, utilizando diferentes técnicas y herramientas ofrecidas por AWS.

¿Cómo crear capas en S3?

Nuestra primera tarea es crear una estructura dentro de un bucket en S3 que representará nuestras distintas capas de almacenamiento: bronce, plata y oro. Vamos a guiarte en la configuración de estas capas dentro del bucket.

Crear carpetas en el bucket:

  • Bronce: El primer paso es seleccionar la opción para crear una carpeta y nombrarla "bronce". Aunque AWS permite configuraciones adicionales como la encriptación, para este ejercicio no es necesario.
  • Plata: Repite el proceso anterior, creando una segunda carpeta llamada "silver" o "plata".
  • Oro: Finalmente, crea una tercera carpeta llamada "gold".

Con estos pasos sencillos, ya cuentas con tu arquitectura estructurada en S3.

¿Cómo cargar datos manualmente en S3?

Ahora que hemos configurado las capas, el siguiente paso es aprender a cargar datos. Comenzaremos con una carga manual, incorporando archivos de diferentes formatos para demostrar la versatilidad de S3 con distintos tipos de datos.

  1. Acceder a la capa de bronce:
  • Elige la opción "upload" para cargar datos.
  • Puedes arrastrar y soltar los archivos o seleccionarlos directamente desde tu computadora.

2. Ejemplos de carga de datos:

  • Archivos estructurados: Carga un archivo CSV. Por ejemplo, un archivo llamado "Disney.csv" se carga arrastrándolo a la carpeta "bronce".
  • Archivos semiestructurados: Similar al proceso anterior, carga un archivo JSON, como "Batman.json".
  • Archivos no estructurados: Por último, carga una imagen, por ejemplo, "Argentina.jpg".

Para cada uno de estos archivos, asegúrate de validar el destino y las configuraciones de permisos antes de presionar "upload".

¿Cómo realizar una carga remota con Cloud9?

La carga manual es útil, pero para optimizar la gestión de datos, una carga remota es más eficiente. Utilizaremos AWS Cloud9, un servicio que proporciona un IDE completo en la nube, para facilitar esta tarea.

  1. Configurar Cloud9:
  • Busca el servicio Cloud9 en AWS y créate un entorno de trabajo virtual (EC2) llamado, por ejemplo, "ClownEye_ilatsi44". Asegúrate de seleccionar la versión T2 Micro para entrar dentro del nivel de uso gratuito.
  • Dentro de las configuraciones, puedes dejar todo por defecto o especificar preferencias como sistema operativo, autoapagado y etiquetas.
  1. Interacción con S3 desde Cloud9:
  • Una vez que el entorno está listo, abre Cloud9 IDE y crea un directorio llamado "dataset".

  • Dentro de este directorio, carga un archivo de ejemplo, como "Spotify_tracks.csv".

  • Usa el terminal para copiarlo al bucket S3 con el comando:

    aws s3 cp Spotify_tracks.csv s3://nombre_del_bucket/bronce

Este proceso confirma que el archivo se ha cargado correctamente, validándose al regresar al bucket en S3.

Estos pasos subrayan cómo AWS S3 y servicios adicionales como Cloud9 pueden integrarse para realizar operaciones de manejo de datos de varios tipos, demostrando la versatilidad de esta plataforma en la gestión avanzada de datos. ¡Continúa explorando y aprovechando estas herramientas en tu arquitectura de datos!

Aportes 4

Preguntas 1

Ordenar por:

¿Quieres ver más aportes, preguntas y respuestas de la comunidad?

Asi como uso Cloud9 para subir el archivo, si tienes instalado el Amazon CLI, puedes usar el mismo comando de forma local ent u Pc o Laptop y mandar cualquier archivo a un S3 bucket
En la vida laboral, si en DL hago un upload con drag and drop de archivos, me echan!
Me inquieta un poco ver que en lugar de una referencia, introducción explicación de ETL en este punto o al menos una recomendación a realizar curso de ETL e ingesta de datos con Python, se instruya sobre la carga manual de archivos en un Data Lake esto en el mundo real empresarial NO se usa, no es una práctica recomendada, aun si los archivos a cargar son pequeños de baja complejidad, en una empresa los datos no provienen de la máquina local del DE y nunca se cargan de esta forma, recomiendo que ajusten el contenido y enseñen en esta infraestructura donde puede aplicar el concepto de ETL para esos mismos datos, en lugar de subir un archivo con drag and drop.
No puedo acceder a Cloud9 :(