Python y boto3 para listar buckets S3
Clase 10 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
Viendo ahora - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Potencia tus flujos de big data con Python y AWS desde un entorno en la nube listo para trabajar. Aquí verás cómo usar Cloud9, configurar una instancia de EC2 de bajo costo, y crear un script con boto3 para listar buckets en S3, apoyándote en la AWS SDK y la CLI.
¿Por qué usar Python y AWS para big data?
Python te permite orquestar recursos en la nube y aprovechar librerías de procesamiento de datos. Además, se integra de forma nativa con los servicios de AWS.
- AWS ofrece SDKs para varios lenguajes: JavaScript, Python, PHP, .NET, Ruby, Go, Node.js, C++ y Java.
- Con Python y la SDK puedes automatizar recursos de big data en AWS.
- Librerías clave: Pandas, Anaconda, Pipenv, Pyenv para flexibilidad en transformación de datos.
- Integración directa con servicios de big data en AWS usando boto3.
¿Cómo crear un IDE con Cloud9 en AWS?
Cloud9 es un IDE en la nube que te conecta a servicios de AWS sin configurar nada en local. Permite escribir, ejecutar y probar código con runners para múltiples lenguajes y terminal con AWS CLI.
¿Qué configuración de instancia conviene?
- Crea un Environment con nombre descriptivo, por ejemplo: Platzi ENV.
- Elige “Create Environment” y usa una instancia EC2 dedicada.
- Selecciona instancia pequeña por costos: t2.micro en la capa gratuita.
¿Qué opciones de red y permisos aplicar?
- Networking por defecto: VPC y subred de la región (por ejemplo, Virginia, us-east-1).
- Asigna un IAM Role al Environment desde Cloud9: Actions > Instance Settings > Attach/Replace IAM Role.
- El rol permite a Cloud9 interactuar con otros servicios de AWS con permisos controlados.
¿Cómo ahorrar costos en Cloud9?
- Habilita el auto-stop por inactividad (por defecto, 30 minutos).
- Puedes ajustar a horas, días o semana según uso.
¿Cómo ejecutar un script en Python con boto3 para S3?
Desde Cloud9, crea un archivo y usa boto3 para inicializar un cliente S3, pasar la región como argumento y listar buckets. Si olvidas el argumento, el runner marcará error: agrega la región (ej.: us-east-1) y ejecuta de nuevo.
- Abre la terminal e interactúa con la AWS CLI:
aws s3 lspara listar buckets. - Crea un archivo, por ejemplo:
s3.py. - Importa las librerías necesarias: boto3 y sys.
- Inicializa el cliente con
region_namerecibido como argumento. - Llama a
list_buckets()y imprime la respuesta en formato JSON.
# s3.py
import sys
import boto3
# Región como primer argumento: us-east-1, eu-west-1, etc.
region = sys.argv[1]
# Cliente de S3 inicializado con región dinámica
s3 = boto3.client('s3', region_name=region)
# Listar buckets y mostrar respuesta
response = s3.list_buckets()
print(response)
Ejecuta el script desde el runner de Python en Cloud9 o desde la terminal:
python s3.py us-east-1
Más opciones útiles en Cloud9: - Usa el panel de runners para seleccionar el lenguaje de ejecución. - Cambia a bash para comandos de la CLI cuando lo prefieras. - Verifica la instancia EC2 creada automáticamente al aprovisionar Cloud9.
¿Quieres que revisemos permisos detallados del IAM Role o extender el script para crear y borrar buckets? Cuéntame en comentarios qué necesitas construir.