Cómo funciona AWS Athena con S3

Clase 37 de 52Curso de Big Data en AWS

Resumen

Con AWS Athena ejecutas consultas SQL sobre datos en S3 sin mover archivos, apoyándote en Glue Catalog para descubrir esquemas. Aquí verás cómo usar el preview table, ajustar límites, entender el costo por data escaneada, guardar queries, revisar historial, descargar resultados y conectar con QuickSight. Todo centrado en prácticas claras y accionables.

¿Qué es Athena y cómo consulta datos en S3?

Athena permite consultar directamente archivos en S3 usando SQL estándar. El esquema lo provee Glue Catalog, alimentado por crawlers que detectan bases de datos y tablas a partir de los datos. Así puedes apuntar a tablas de origen o a tablas transformadas tras tu ETL y obtener resultados al instante.

  • Consultas SQL sobre S3. No requiere servidores ni cargas complejas.
  • Catálogo de datos con Glue Catalog. Descubre bases de datos, tablas y campos.
  • Origen y transformada. Trabaja sobre la data inicial o la producida tras el ETL.
  • Vista rápida con preview table. Ejecuta un SELECT con LIMIT 10 para validar.
  • Costo por data escaneada. El pricing depende de los bytes leídos por consulta.

¿Cómo funciona Glue Catalog y los crawlers?

  • Los crawlers detectan esquemas a partir de datos en S3.
  • Se crean bases de datos y tablas visibles en Athena.
  • Puedes explorar campos de cada tabla y validar el mapeo.

¿Qué muestra preview table y cómo ajustar el límite?

  • Preview table corre una consulta con LIMIT 10 para una muestra rápida.
  • Puedes cambiar el límite (por ejemplo, 100) y volver a ejecutar.
  • Útil para validar la transformación del ETL y la estructura.

¿Cómo impacta el pricing por data escaneada?

  • Athena cobra en función de la cantidad de data escaneada por consulta.
  • El historial muestra data escaneada y tiempo de ejecución para estimar costos.
  • Optimiza límites y filtros para reducir lectura de datos.

¿Cómo gestionar queries, historial y resultados en Athena?

Además de ejecutar consultas, Athena facilita el ciclo completo: guardar queries, revisar historial, volver a ejecutar y descargar resultados. Esto agiliza el análisis repetible y el control de costos.

  • Múltiples queries en paralelo. Abre y ejecuta varias pestañas.
  • Guardado con nombre y descripción. Crea una biblioteca de consultas recurrentes.
  • Historial detallado. Estado, tiempo de ejecución y data escaneada.
  • Descarga de resultados. Exporta salidas para compartir o auditar.

¿Cómo guardar y reutilizar queries con nombre y descripción?

  • Escribe la query y asígnale un nombre y descripción.
  • Reúsa consultas frecuentes sin reescribir.
  • Estandariza análisis en el equipo.

¿Qué ofrece el historial de ejecuciones y métricas clave?

  • Visualiza estado de cada ejecución.
  • Consulta tiempo de ejecución y data escaneada.
  • Repite consultas desde el historial con un clic.

¿Cómo descargar resultados y ver esquemas de tablas?

  • Descarga resultados de cada consulta.
  • Explora campos de cada tabla para entender el esquema.
  • Navega al servicio de Glue para ver la misma base y tablas.

¿Cómo integrar permisos y visualización con Glue y QuickSight?

La seguridad y el acceso están gobernados por roles y políticas. Además, los resultados pueden conectarse a herramientas de visualización como QuickSight para construir tableros.

¿Cómo definir permisos granulares con roles y políticas?

  • Configura el rol con permisos sobre una base de datos o tabla específica.
  • Aplica controles a nivel de base de datos y tablas (por ejemplo, Platzi, X, Y o Z).
  • Asegura que solo se consulte lo autorizado.

¿Cómo conectar con servicios de visualización como QuickSight?

  • Usa Athena como fuente en QuickSight.
  • Publica resultados de consultas y habilita análisis visual.
  • Comparte métricas sin mover los datos de S3.

¿Tienes dudas sobre límites, costos o permisos en Athena? Deja un comentario y conversemos sobre tu caso de uso.