Python y boto3 para listar buckets S3

Clase 10 de 52 • Curso de Big Data en AWS

Resumen

Potencia tus flujos de big data con Python y AWS desde un entorno en la nube listo para trabajar. Aquí verás cómo usar Cloud9, configurar una instancia de EC2 de bajo costo, y crear un script con boto3 para listar buckets en S3, apoyándote en la AWS SDK y la CLI.

¿Por qué usar Python y AWS para big data?

Python te permite orquestar recursos en la nube y aprovechar librerías de procesamiento de datos. Además, se integra de forma nativa con los servicios de AWS.

AWS ofrece SDKs para varios lenguajes: JavaScript, Python, PHP, .NET, Ruby, Go, Node.js, C++ y Java.
Con Python y la SDK puedes automatizar recursos de big data en AWS.
Librerías clave: Pandas, Anaconda, Pipenv, Pyenv para flexibilidad en transformación de datos.
Integración directa con servicios de big data en AWS usando boto3.

¿Cómo crear un IDE con Cloud9 en AWS?

Cloud9 es un IDE en la nube que te conecta a servicios de AWS sin configurar nada en local. Permite escribir, ejecutar y probar código con runners para múltiples lenguajes y terminal con AWS CLI.

¿Qué configuración de instancia conviene?

Crea un Environment con nombre descriptivo, por ejemplo: Platzi ENV.
Elige “Create Environment” y usa una instancia EC2 dedicada.
Selecciona instancia pequeña por costos: t2.micro en la capa gratuita.

¿Qué opciones de red y permisos aplicar?

Networking por defecto: VPC y subred de la región (por ejemplo, Virginia, us-east-1).
Asigna un IAM Role al Environment desde Cloud9: Actions > Instance Settings > Attach/Replace IAM Role.
El rol permite a Cloud9 interactuar con otros servicios de AWS con permisos controlados.

¿Cómo ahorrar costos en Cloud9?

Habilita el auto-stop por inactividad (por defecto, 30 minutos).
Puedes ajustar a horas, días o semana según uso.

¿Cómo ejecutar un script en Python con boto3 para S3?

Desde Cloud9, crea un archivo y usa boto3 para inicializar un cliente S3, pasar la región como argumento y listar buckets. Si olvidas el argumento, el runner marcará error: agrega la región (ej.: us-east-1) y ejecuta de nuevo.

Abre la terminal e interactúa con la AWS CLI: aws s3 ls para listar buckets.
Crea un archivo, por ejemplo: s3.py.
Importa las librerías necesarias: boto3 y sys.
Inicializa el cliente con region_name recibido como argumento.
Llama a list_buckets() y imprime la respuesta en formato JSON.

# s3.py
import sys
import boto3

# Región como primer argumento: us-east-1, eu-west-1, etc.
region = sys.argv[1]

# Cliente de S3 inicializado con región dinámica
s3 = boto3.client('s3', region_name=region)

# Listar buckets y mostrar respuesta
response = s3.list_buckets()
print(response)

Ejecuta el script desde el runner de Python en Cloud9 o desde la terminal:

python s3.py us-east-1

Más opciones útiles en Cloud9:

Usa el panel de runners para seleccionar el lenguaje de ejecución.
Cambia a bash para comandos de la CLI cuando lo prefieras.
Verifica la instancia EC2 creada automáticamente al aprovisionar Cloud9.

¿Quieres que revisemos permisos detallados del IAM Role o extender el script para crear y borrar buckets? Cuéntame en comentarios qué necesitas construir.

Comentarios

Daniel G Perico Sánchez

student•

Para aquellos que quieren trabajar con python 3.3+ y al momento de correr el script les sale un error de que el módulo boto3 no está. Deben correr en la consola (bash) : sudo pip-3.6 install boto3 😁

Valentina Arenas Lozano

student•

muchas gracias!!! 💚

Pedro Perez

student•

Para versiones más recientes, recuerden cambiar la version sudo pip-3.7 install boto3

Erick Herrera

student•

Para aquellos que les aparece el error de que necesita instalar boto3, probar con:

pip install boto3

si no funciona, probar:

pip3 install boto3

si no funciona por este error: PermissionError: [Errno 13] Permission denied: '/usr/local/lib/python3.7/site-packages/botocore-1.20.41.dist-info/INSTALLER' usar:

python -m pip install --user boto3

Espero les sirva, Un abrazo!

Natalia Berríos Peña

student•

gracias, me funcionó :)

Erick Herrera

student•

Que bueno Natalia! :D

Usuario anónimo

user•

Tengan mucho cuidado con el presupuesto y especialmente con servicios como Glue, Kinesis y Managed Streaming for Apache Kafka. Yo estuve activa en la plataforma por 14 días mientras desarrollaba las actividades del curso y, al finalizar el mes, me generaron una factura por 785 dólares, por lo que me tocó abrir una disputa en AWS.

Diego Alejandro Lesmes

student•

wow fuerte el tema y en que resulto finalmente?

Jesus

student•

Tienes q instalar boto3 Para ello tienes que saber que version de python tienes "pyhton --version" Si tienes la 3 "pip3 install boto3" Si tienes la 2 "pip install boto3"

Jhon Wilson Mendoza Cutipa

student•

en setiembre 2024 Cloud9 ya no esta disponible. :(

AUGUSTO SAMILLAN PISFIL

student•

Como puedo poner en práctica esta clase.. habra una cuenta gratuita o comunitaria? 😟

Brezhnev Ramiro Gutiérrez Ayala

student•

es gratuito. creo que debes de inicar con el curso de cloud computing... salu2

Jorge Hernández

student•

Tambien podemos pedir que se digité el nombre de la region

import boto3 
import sys
import botocore

region = 'us-east-1'
#region = str(input("Digita "))
#us-east-1

s3 = boto3.client(
's3',
region_name = region)

response = s3.list_buckets()

print(response)```

Mario Alexander Vargas Celis

student•

cloud9 ya no se usa así que toca por terminal normas

Paula Velosa

student•

A partir de este año no se puede acceder a Cloud9 como nuevos clientes

Pedro Matías Cuevas Meza

student•

cloud9 está siendo deprecado en AWS.

Ubaldo EspinosaGuerrero

student•

siento que esta bien, pero saltas muchos pasos se que no es clase de como usar boto3 pero si decir por que puede fallar y por que los buckets no se muestran son pequeñas cosas que hay que mejorar y no eres el único en casi todos los cursos les falta eso. se arrancan o hay errores que no corrigen o los corrigen, pero ya cuando pasaste no explicaste el como lo corregiste

Juanita Alejandra Castro

student•

Lo que llevo hasta el momento de este curso me ha enseñado profunda y claramente. Yo tengo algo de fundamentos en AWS y en Python, lo cual creo que es necesario para este curso. Muy claro y muy bueno.

Franz H. Flores

student•

si desde el batch console corro este comando: **ec2-user:~/environment $ aws s3 ls ** me muestra la lista de buckets que tengo creado en s3

sin embargo si corro el codigo python: ** s3.py us-east-1c** Me sale este error: botocore.exceptions.EndpointConnectionError: Could not connect to the endpoint URL: "https://s3.us-east-1c.amazonaws.com/"

"tengo configurado un IAM role con los permisos" Alguien sabe que puede ser??

Franz H. Flores

student•

ah la REGION es s3.py us-east-1 y NO s3.py us-east-1c

David fernando Pinzon suarez

student•

Para ver en que región esta tu instancia de EC2 puedes ir a : https://console.aws.amazon.com/ec2/ Y buscar la instancia que se creo para AWS Cloud 9

Miguel Angel Almeyda Ramos

student•

Me genero eñ siguiente error al ejecutar el programa "S3"

Jhon Valencia

student•

pip install boto3

Gerson Mejía

student•

lo hice pero ahora me genero un error mas grande...

Traceback (most recent call last):

File "/usr/lib/python3.9/site-packages/urllib3/connection.py", line 159, in _new_conn

conn = connection.create_connection(

File "/usr/lib/python3.9/site-packages/urllib3/util/connection.py", line 61, in create_connection

for res in socket.getaddrinfo(host, port, family, socket.SOCK_STREAM):

File "/usr/lib64/python3.9/socket.py", line 954, in getaddrinfo

for res in _socket.getaddrinfo(host, port, family, type, proto, flags):

socket.gaierror: [Errno -2] Name or service not known

During handling of the above exception, another exception occurred:

Traceback (most recent call last):

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/httpsession.py", line 464, in send

urllib_response = conn.urlopen(

File "/usr/lib/python3.9/site-packages/urllib3/connectionpool.py", line 726, in urlopen

retries = retries.increment(

File "/usr/lib/python3.9/site-packages/urllib3/util/retry.py", line 379, in increment

raise six.reraise(type(error), error, _stacktrace)

File "/usr/lib/python3.9/site-packages/urllib3/packages/six.py", line 709, in reraise

raise value

File "/usr/lib/python3.9/site-packages/urllib3/connectionpool.py", line 670, in urlopen

httplib_response = self._make_request(

File "/usr/lib/python3.9/site-packages/urllib3/connectionpool.py", line 381, in _make_request

self._validate_conn(conn)

File "/usr/lib/python3.9/site-packages/urllib3/connectionpool.py", line 978, in _validate_conn

conn.connect()

File "/usr/lib/python3.9/site-packages/urllib3/connection.py", line 309, in connect

conn = self._new_conn()

File "/usr/lib/python3.9/site-packages/urllib3/connection.py", line 171, in _new_conn

raise NewConnectionError(

urllib3.exceptions.NewConnectionError: <botocore.awsrequest.AWSHTTPSConnection object at 0x7fafc4efa700>: Failed to establish a new connection: [Errno -2] Name or service not known

During handling of the above exception, another exception occurred:

Traceback (most recent call last):

File "/home/ec2-user/environment/prueba_2.py", line 15, in <module>

response = s3.list_buckets()

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/client.py", line 565, in _api_call

return self._make_api_call(operation_name, kwargs)

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/client.py", line 1001, in _make_api_call

http, parsed_response = self._make_request(

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/client.py", line 1027, in _make_request

return self._endpoint.make_request(operation_model, request_dict)

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/endpoint.py", line 119, in make_request

return self._send_request(request_dict, operation_model)

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/endpoint.py", line 202, in _send_request

while self._needs_retry(

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/endpoint.py", line 354, in _needs_retry

responses = self._event_emitter.emit(

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/hooks.py", line 412, in emit

return self._emitter.emit(aliased_event_name, **kwargs)

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/hooks.py", line 256, in emit

return self._emit(event_name, kwargs)

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/hooks.py", line 239, in _emit

response = handler(**kwargs)

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/retryhandler.py", line 207, in __call__

if self._checker(**checker_kwargs):

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/retryhandler.py", line 284, in __call__

should_retry = self._should_retry(

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/retryhandler.py", line 320, in _should_retry

return self._checker(attempt_number, response, caught_exception)

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/retryhandler.py", line 363, in __call__

checker_response = checker(

return self._check_caught_exception(

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/retryhandler.py", line 416, in _check_caught_exception

raise caught_exception

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/endpoint.py", line 281, in _do_get_response

http_response = self._send(request)

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/endpoint.py", line 377, in _send

return self.http_session.send(request)

File "/home/ec2-user/.local/lib/python3.9/site-packages/botocore/httpsession.py", line 493, in send

raise EndpointConnectionError(endpoint_url=request.url, error=e)

botocore.exceptions.EndpointConnectionError: Could not connect to the endpoint URL: "https://s3.eu-north-1a.amazonaws.com/"

Process exited with code: 0

Pane is dead

NATALIA CHAPARRO CEDIEL

student•

Me genera error "Pane is dead" ¿Cómo corregirlo?

Mario Alberto García Meza

teacher•

No me aparece la opción de Attach IAM role. Tal vez ya cambió de lugar con la versión. Esto se hará después en el curso?

Darvin Orozco

student•

Mi cuenta en AWS está asignada a Ohio pero ¿Por qué me funciona el script hecho en Python con la región "us-east-1" (la región de Virginia)? Está extraño.

Carlos Andrés Zambrano Barrera

teacher•

Depende de lo que estes haciendo, en BigData es recomendado que si usas servicios todos sean en la misma región para minimizar temas de latencia. Pueda que te funcione algun script cross region pero su rendimiento no sea el mismo si no esta en la misma región que la data.

Darvin Orozco

student•

Interesante eso que mencionas que el rendimiento mi script no será el óptimo al estar en otra región. Mil gracias @czam01

Jhon Alexander Bravo

student•

Hola, alguién me puede indicar si existe alguna otra forma de obtener una cuenta en AWS que no sea con una tarjeta débito, ya que hago el proceso ingreso los datos de mi tarjeta, pero aún así continue sin poder acceder a las herramientas de la capa gratuita?.

Diego Forero

Team Platzi•

El registro se debe hacer un una tarjeta de crédito, que sepa no hay forma de hacerlo de otra manera, esto es porque si pasas de los limites de la capa gratuita te pueden hacer el cargo por el exceso de consumo que tengas.

Juan Nishiguchi Mendoza

company_admin•

Hola Alex, cuales son esos servicios de capa gratuita que deseas usar.

Te dejo el link de todos los servicios de capa gratuita.

https://aws.amazon.com/es/free/?all-free-tier.sort-by=item.additionalFields.SortRank&all-free-tier.sort-order=asc

Gabriela Andreina García Uzcategui

student•

Yo lo estoy haciendo con SageMaker, Cloud9 esta deprecado

Alexis Lugo Garcia

student•

Debe de existir un video donde poder pre-configurar el entorno de la nube con tres o cuatro opciones de la nube (gustos colores).

import boto3 
import sys
import botocore

region = 'us-east-1'
#region = str(input("Digita "))
#us-east-1

s3 = boto3.client(
's3',
region_name = region)

response = s3.list_buckets()

print(response)```

Python y boto3 para listar buckets S3

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL

Cómo funciona AWS Athena con S3

Redshift vs Athena: cuándo usar cada uno

Configuración de cluster Redshift en AWS

AWS Lake Formation automatiza tu data lake

Consumo de información

Cómo dimensionar shards de Elasticsearch en AWS

Cómo crear un clúster Elasticsearch en AWS

Cómo funciona Kibana con Elasticsearch

QuickSight: el BI en cloud de AWS

Configuración completa de QuickSight en AWS

Seguridad, Orquestación y Automatización

5 reglas de seguridad para Big Data en AWS

Cómo AWS Macie protege datos en S3

Configuración de AWS Macie en 5 pasos

Apache Airflow vs Step Functions para ETL

Despliegue de Apache Airflow en GCP

Arquitecturas batch y streaming en AWS

Clase pública

Las cinco B de big data explicadas