Cómo funciona AWS Athena con S3

Clase 37 de 52 • Curso de Big Data en AWS

Resumen

Con AWS Athena ejecutas consultas SQL sobre datos en S3 sin mover archivos, apoyándote en Glue Catalog para descubrir esquemas. Aquí verás cómo usar el preview table, ajustar límites, entender el costo por data escaneada, guardar queries, revisar historial, descargar resultados y conectar con QuickSight. Todo centrado en prácticas claras y accionables.

¿Qué es Athena y cómo consulta datos en S3?

Athena permite consultar directamente archivos en S3 usando SQL estándar. El esquema lo provee Glue Catalog, alimentado por crawlers que detectan bases de datos y tablas a partir de los datos. Así puedes apuntar a tablas de origen o a tablas transformadas tras tu ETL y obtener resultados al instante.

Consultas SQL sobre S3. No requiere servidores ni cargas complejas.
Catálogo de datos con Glue Catalog. Descubre bases de datos, tablas y campos.
Origen y transformada. Trabaja sobre la data inicial o la producida tras el ETL.
Vista rápida con preview table. Ejecuta un SELECT con LIMIT 10 para validar.
Costo por data escaneada. El pricing depende de los bytes leídos por consulta.

¿Cómo funciona Glue Catalog y los crawlers?

Los crawlers detectan esquemas a partir de datos en S3.
Se crean bases de datos y tablas visibles en Athena.
Puedes explorar campos de cada tabla y validar el mapeo.

¿Qué muestra preview table y cómo ajustar el límite?

Preview table corre una consulta con LIMIT 10 para una muestra rápida.
Puedes cambiar el límite (por ejemplo, 100) y volver a ejecutar.
Útil para validar la transformación del ETL y la estructura.

¿Cómo impacta el pricing por data escaneada?

Athena cobra en función de la cantidad de data escaneada por consulta.
El historial muestra data escaneada y tiempo de ejecución para estimar costos.
Optimiza límites y filtros para reducir lectura de datos.

¿Cómo gestionar queries, historial y resultados en Athena?

Además de ejecutar consultas, Athena facilita el ciclo completo: guardar queries, revisar historial, volver a ejecutar y descargar resultados. Esto agiliza el análisis repetible y el control de costos.

Múltiples queries en paralelo. Abre y ejecuta varias pestañas.
Guardado con nombre y descripción. Crea una biblioteca de consultas recurrentes.
Historial detallado. Estado, tiempo de ejecución y data escaneada.
Descarga de resultados. Exporta salidas para compartir o auditar.

¿Cómo guardar y reutilizar queries con nombre y descripción?

Escribe la query y asígnale un nombre y descripción.
Reúsa consultas frecuentes sin reescribir.
Estandariza análisis en el equipo.

¿Qué ofrece el historial de ejecuciones y métricas clave?

Visualiza estado de cada ejecución.
Consulta tiempo de ejecución y data escaneada.
Repite consultas desde el historial con un clic.

¿Cómo descargar resultados y ver esquemas de tablas?

Descarga resultados de cada consulta.
Explora campos de cada tabla para entender el esquema.
Navega al servicio de Glue para ver la misma base y tablas.

¿Cómo integrar permisos y visualización con Glue y QuickSight?

La seguridad y el acceso están gobernados por roles y políticas. Además, los resultados pueden conectarse a herramientas de visualización como QuickSight para construir tableros.

¿Cómo definir permisos granulares con roles y políticas?

Configura el rol con permisos sobre una base de datos o tabla específica.
Aplica controles a nivel de base de datos y tablas (por ejemplo, Platzi, X, Y o Z).
Asegura que solo se consulte lo autorizado.

¿Cómo conectar con servicios de visualización como QuickSight?

Usa Athena como fuente en QuickSight.
Publica resultados de consultas y habilita análisis visual.
Comparte métricas sin mover los datos de S3.

¿Tienes dudas sobre límites, costos o permisos en Athena? Deja un comentario y conversemos sobre tu caso de uso.

Usuario anónimo

user•

Amazon Athena es un servicio de consultas interactivo que facilita el análisis de datos directamente en Amazon Simple Storage Service (Amazon S3) mediante SQL estándar. Unas pocas acciones en la consola de administración de AWS le permitirán apuntar Athena a los datos guardados en Amazon S3 y comenzar a usar SQL estándar para realizar consultas ad hoc y obtener resultados en cuestión de segundos.

Milton Garcia

student•

Aspectos de Athena:

Consultas SQL sobre data S3.
Se apoya en el glue catalog, base de datos, tablas y campos.
Almacenar quieres recurrentes.
Gestión de Permisos granulares encontrados en el rol y política asignada al rol que va a consultar esto.
Historia de las consultas realizadas, cuanta data hemos procesado e identificar aproximación al costo.
Herramientas de visualización como QuickSight.

Alexander Bolaño Cervantes

student•

Me preocupa cuando intento crear una tabla en Athena con datos de S3 debo conocer el nombre de cada una de las columnas para poder añadirlas antes de poder hacer una consulta , en ese orden de ideas tendría que usar otra herramienta como AWS glue crear los glue catalogs antes de usar Athena ??? , me parece que es una especie de letra pequeña de tiene este servicio ..

Carlos Andrés Zambrano Barrera

teacher•

Tienes que usar el crawler para identificar la data, depende de la estructura si es muy particular usas un classifier dentro del crawler... Después consultas la data con Athena.

Juan Ulloa

student•

Desde cuanta data procesada te cobra AWS? Como puedo calcular para que no se me dispare el precio de cuenta free???

john ct

student•

Athena helps you analyze unstructured, semi-structured, and structured data stored in Amazon S3. Examples include CSV, JSON, or columnar data formats such as Apache Parquet and Apache ORC. You can use Athena to run ad-hoc queries using ANSI SQL, without the need to aggregate or load the data into Athena.

Athena integrates with Amazon QuickSight for easy data visualization. You can use Athena to generate reports or to explore data with business intelligence tools or SQL clients connected with a JDBC or an ODBC driver. For more information, see What is Amazon QuickSight in the Amazon QuickSight User Guide and Connecting to Amazon Athena with ODBC and JDBC Drivers.

Athena integrates with the AWS Glue Data Catalog, which offers a persistent metadata store for your data in Amazon S3. This allows you to create tables and query data in Athena based on a central metadata store available throughout your AWS account and integrated with the ETL and data discovery features of AWS Glue. For more information, see Integration with AWS Glue and What is AWS Glue in the AWS Glue Developer Guide.

john ct

student•

Dbs availables used by the crawlers

john ct

student•

Pivot table a query with alot of information

Andres Camilo Graciano Higuita

student•

Para mantener actualizado el Glue Catalog cuando los datos en S3 cambian con frecuencia, se pueden implementar las siguientes estrategias:

Crawlers de Glue: Configura crawlers que escaneen periódicamente los datos en S3 para detectar cambios y actualizar el Glue Catalog automáticamente.
Triggers de ETL: Implementa triggers en tus trabajos de ETL para que se ejecuten cada vez que se detecten cambios en los datos de S3.
Versionado de datos: Utiliza un enfoque de versionado, donde guardes versiones anteriores de los datos y actualices el Glue Catalog solo cuando se introduzcan cambios significativos.
Programación de tareas: Programa tareas regulares que ejecuten crawlers o scripts para verificar y actualizar el Glue Catalog.

Estas estrategias ayudarán a mantener la integridad y actualidad de los metadatos en el Glue Catalog.

Juan Nishiguchi Mendoza

company_admin•

Cuando creo tablas en Athena a partir de otras tablas ya existentes, la data se guardan en S3 con nombres extraños, hay manera de enviarlo a una ruta especifica con un nombre adecuado??

Carlos Andrés Zambrano Barrera

teacher•

te presente que como tal no son tablas de athena, Athena utiliza el Glue Catalog para interpretar los datos en S3 como tablas. Ahora referente a tu pregunta podes usar la SDK Boto3 de athena para personalizar las tablas, bases de datos --> https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/glue.html#Glue.Client.create_table Referente a los nombres son aleatorios y usualmente uno no se enfoca en los nombres, en proyectos de bigdata tendras millones, lo importante ahi es la estructura dentro del file que pueda ser interpretada por el crawler y la compresión.

Luis Martin Grados Salinas

student•

Hola jnishiguchi espero este ejemplo te pueda ayudar:

CREATE TABLE prueba.usuario_parquet WITH ( format='PARQUET', external_location='s3://data-athena-tables/usuario-parquet/' ) AS select * from prueba.usuario;

Mario Alexander Vargas Celis

student•

Amazon Athena es un servicio de consulta interactiva sin servidor que permite analizar datos almacenados en Amazon S3 utilizando SQL estándar. Se basa en Presto y es ideal para ejecutar consultas ad hoc sobre grandes volúmenes de datos sin necesidad de configurar servidores.

🔹 Pasos para consultar datos con Amazon Athena

1️⃣ Habilitar Amazon Athena

Antes de consultar datos, asegúrate de que Athena esté habilitado en la consola de AWS:

Ve a la consola de AWS.
Busca "Athena" en la barra de búsqueda y ábrelo.
Configura un "S3 Query result location" donde se almacenarán los resultados de las consultas.

2️⃣ Crear una base de datos en Athena

Ejecuta el siguiente comando en el editor de Athena para crear una base de datos:

CREATE DATABASE mi_base_de_datos;

Para usar la base de datos en futuras consultas:

USE mi_base_de_datos;

3️⃣ Crear una tabla basada en datos almacenados en S3

Si los datos están en Amazon S3, puedes crear una tabla en Athena sin mover los datos, solo definiendo el esquema:

CREATE EXTERNAL TABLE mi_tabla ( id STRING, nombre STRING, edad INT, ciudad STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE LOCATION 's3://ruta-del-bucket/datos/';

4️⃣ Consultar datos con SQL

Puedes hacer consultas como en una base de datos tradicional:

📌 Obtener todos los registros:

SELECT * FROM mi_tabla LIMIT 10;

📌 Filtrar por una condición:

SELECT * FROM mi_tabla WHERE ciudad = 'Bogotá';

📌 Agrupar datos:

SELECT ciudad, COUNT(*) AS total FROM mi_tabla GROUP BY ciudad;

🔹 Consejos para optimizar las consultas en Athena

✅ Usa formatos eficientes: Convertir los datos a Parquet o ORC en lugar de CSV o JSON mejora la velocidad y reduce costos. ✅ Crea particiones: Para mejorar la velocidad de consulta, usa particiones en columnas con alta cardinalidad como fecha o ciudad. ✅ Usa compresión: Archivos comprimidos con Snappy o Gzip reducen el costo de escaneo.

Luis Miguel Gómez Acuña

student•

Excelente la explicación!

Cómo funciona AWS Athena con S3

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información

Cómo Athena consulta datos en S3 con SQL