Cómo funciona AWS Athena con S3
Clase 37 de 52 • Curso de Big Data en AWS
Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19
Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Con AWS Athena ejecutas consultas SQL sobre datos en S3 sin mover archivos, apoyándote en Glue Catalog para descubrir esquemas. Aquí verás cómo usar el preview table, ajustar límites, entender el costo por data escaneada, guardar queries, revisar historial, descargar resultados y conectar con QuickSight. Todo centrado en prácticas claras y accionables.
¿Qué es Athena y cómo consulta datos en S3?
Athena permite consultar directamente archivos en S3 usando SQL estándar. El esquema lo provee Glue Catalog, alimentado por crawlers que detectan bases de datos y tablas a partir de los datos. Así puedes apuntar a tablas de origen o a tablas transformadas tras tu ETL y obtener resultados al instante.
- Consultas SQL sobre S3. No requiere servidores ni cargas complejas.
- Catálogo de datos con Glue Catalog. Descubre bases de datos, tablas y campos.
- Origen y transformada. Trabaja sobre la data inicial o la producida tras el ETL.
- Vista rápida con preview table. Ejecuta un SELECT con LIMIT 10 para validar.
- Costo por data escaneada. El pricing depende de los bytes leídos por consulta.
¿Cómo funciona Glue Catalog y los crawlers?
- Los crawlers detectan esquemas a partir de datos en S3.
- Se crean bases de datos y tablas visibles en Athena.
- Puedes explorar campos de cada tabla y validar el mapeo.
¿Qué muestra preview table y cómo ajustar el límite?
- Preview table corre una consulta con LIMIT 10 para una muestra rápida.
- Puedes cambiar el límite (por ejemplo, 100) y volver a ejecutar.
- Útil para validar la transformación del ETL y la estructura.
¿Cómo impacta el pricing por data escaneada?
- Athena cobra en función de la cantidad de data escaneada por consulta.
- El historial muestra data escaneada y tiempo de ejecución para estimar costos.
- Optimiza límites y filtros para reducir lectura de datos.
¿Cómo gestionar queries, historial y resultados en Athena?
Además de ejecutar consultas, Athena facilita el ciclo completo: guardar queries, revisar historial, volver a ejecutar y descargar resultados. Esto agiliza el análisis repetible y el control de costos.
- Múltiples queries en paralelo. Abre y ejecuta varias pestañas.
- Guardado con nombre y descripción. Crea una biblioteca de consultas recurrentes.
- Historial detallado. Estado, tiempo de ejecución y data escaneada.
- Descarga de resultados. Exporta salidas para compartir o auditar.
¿Cómo guardar y reutilizar queries con nombre y descripción?
- Escribe la query y asígnale un nombre y descripción.
- Reúsa consultas frecuentes sin reescribir.
- Estandariza análisis en el equipo.
¿Qué ofrece el historial de ejecuciones y métricas clave?
- Visualiza estado de cada ejecución.
- Consulta tiempo de ejecución y data escaneada.
- Repite consultas desde el historial con un clic.
¿Cómo descargar resultados y ver esquemas de tablas?
- Descarga resultados de cada consulta.
- Explora campos de cada tabla para entender el esquema.
- Navega al servicio de Glue para ver la misma base y tablas.
¿Cómo integrar permisos y visualización con Glue y QuickSight?
La seguridad y el acceso están gobernados por roles y políticas. Además, los resultados pueden conectarse a herramientas de visualización como QuickSight para construir tableros.
¿Cómo definir permisos granulares con roles y políticas?
- Configura el rol con permisos sobre una base de datos o tabla específica.
- Aplica controles a nivel de base de datos y tablas (por ejemplo, Platzi, X, Y o Z).
- Asegura que solo se consulte lo autorizado.
¿Cómo conectar con servicios de visualización como QuickSight?
- Usa Athena como fuente en QuickSight.
- Publica resultados de consultas y habilita análisis visual.
- Comparte métricas sin mover los datos de S3.
¿Tienes dudas sobre límites, costos o permisos en Athena? Deja un comentario y conversemos sobre tu caso de uso.