Contenido del curso
Arquitecturas
Extracción de información
- 9

Cómo mover datos a cloud con SDK y CLI
02:21 min - 10

Python y boto3 para listar buckets S3
10:16 min - 11

Boto3: inicializar clients de AWS en Python
03:56 min - 12

API Gateway como puerta de big data
03:40 min - 13

Storage Gateway: puerta entre on-premise y S3
03:13 min - 14

AWS Kinesis: streaming masivo de datos
05:53 min - 15

Cómo crear Kinesis Data Stream en AWS
06:50 min - 16

Despliegue automatizado de Kinesis con CloudFormation
10:42 min - 17

Cómo Kinesis Firehose entrega datos en tiempo real
03:27 min - 18

Configuración de Kinesis Firehose en AWS
05:45 min - 19

Configuración Básica de Amazon Kinesis Firehose en AWS
02:53 min - 20

MSK vs Kinesis: cuál elegir en AWS
03:42 min - 21

Creación de clúster AWS MSK desde la consola
07:21 min
Transformación de Información
- 22

Cómo AWS Glue transforma datos en la nube
06:33 min - 23

Instalación de Apache Zeppelin paso a paso
04:49 min - 24

Configurar developer endpoint de AWS Glue con Zeppelin
05:38 min - 25

Conexión de Apache Zeppelin con AWS
08:29 min - 26

Configurar AWS Glue Crawler para poblar catálogo
08:15 min - 27

Configuración de Developer Endpoint en AWS Glue
08:00 min - 28

Cómo configurar AWS Glue ETL desde S3 a Parquet
10:23 min - 29

Qué es EMR y cuándo usarlo
05:30 min - 30

Crear tu primer cluster de AWS EMR
09:01 min - 31

Conectar Apache Zeppelin a EMR
03:18 min - 32

EMR automatizado con CloudFormation
06:32 min - 33

AWS Lambda para proyectos de big data
07:02 min - 34

Lambdas en big data: real time y batch
04:54 min - 35

Configuración de AWS Lambda para Big Data
07:16 min
Carga de Información
Consumo de información
Seguridad, Orquestación y Automatización
Clase pública
Cómo Athena consulta datos en S3 con SQL
Resumen
AWS Athena permite ejecutar consultas SQL interactivas directamente sobre datos en Amazon S3 sin administrar servidores. Aquí verás cómo se conecta con Glue Catalog, qué formatos soporta y cómo encaja en un flujo de Big Data desde las fuentes hasta la visualización, con énfasis en integración nativa y seguridad granular.
¿Qué es AWS Athena y por qué importa en Big Data?
Athena es un servicio completamente administrado y serverless para consultar datos con SQL almacenados en S3. Se apoya en Glue Catalog para resolver el esquema y la ubicación de los archivos, permitiendo análisis ágiles sin crear ni operar servidores.
- Consultas interactivas en SQL. Ejecutas queries sobre datos en S3 usando Glue Catalog como metastore.
- Arquitectura serverless. Sin provisión ni administración de infraestructura.
- Amplio soporte de formatos. CSV, JSON, Parquet, ORC y más.
- Integración nativa en AWS. Se integra con Glue, S3, Redshift, DynamoDB y Kinesis.
¿Qué formatos y conectores admite?
- Formatos de archivo: CSV, JSON, Parquet, ORC.
- Conectividad con terceros: JDBC y ODBC para herramientas externas.
- Cliente sugerido: SQL Workbench para ejecutar queries remotas contra Athena.
¿Cómo funciona la seguridad granular?
- Permisos por base de datos y tabla definidos sobre el Glue Catalog.
- Control de acceso para usuarios que solo deban consultar, por ejemplo, la tabla de usuarios.
- Historial de queries para reutilizar consultas frecuentes de forma segura.
¿Cómo se integra Athena con S3, Glue Catalog y otros servicios?
La consulta ocurre así: Athena usa Glue Catalog para conocer esquemas y rutas; lee los datos en S3; ejecuta SQL; y devuelve resultados sin mover innecesariamente los archivos. Esta posición lo coloca como pieza central en la cadena de Big Data.
- Con Glue y S3. Glue Catalog define tablas; los datos viven en S3; Athena consulta sobre ellos.
- Con Redshift y DynamoDB. Integración para complementar análisis y cargas en el ecosistema.
- Con Kinesis. Parte del flujo cuando los datos llegan por ingesta en tiempo cercano al real.
- Con herramientas externas. Conexión vía JDBC/ODBC y clientes como SQL Workbench.
¿Qué beneficios aporta esta integración?
- Menos acoplamiento: consultas sobre formatos abiertos en S3.
- Rapidez para explorar datos sin ETL obligatoria.
- Reutilización de esquemas en Glue Catalog.
- Control de acceso consistente en tablas y bases.
¿Cómo usar Athena en un flujo de Big Data con visualización?
Imagina un flujo típico de extremo a extremo que conecta fuentes, procesamiento y visualización. Athena participa en varios puntos, permitiendo consultas en cada etapa sin fricción.
- Fuentes de datos: una app móvil genera logs que se guardan en S3.
- Descubrimiento inicial: un crawl sobre los logs permite verlos directo en Athena.
- Procesamiento: transformación con EMR o AWS Glue para depurar y optimizar.
- Almacenamiento preparado: los resultados van a un bucket de destino en S3.
- Catálogo: se ejecuta un nuevo crawling para registrar las tablas en Glue Catalog.
- Consulta: Athena lee el esquema y ejecuta SQL sobre el bucket de destino.
- Almacén analítico: se alimenta un data warehouse en Redshift si se requiere.
- Visualización: conexión de Athena con QuickSight para crear gráficas y paneles.
Habilidades que se ponen en práctica:
- Escritura de queries SQL eficientes sobre datos en S3.
- Configuración de conexiones JDBC/ODBC con clientes como SQL Workbench.
- Ejecución de crawling y gestión de esquemas en Glue Catalog.
- Definición de permisos por tabla y base para seguridad granular.
¿Has integrado Athena con QuickSight o con Redshift en tu entorno? Comparte tu experiencia y qué formatos te han funcionado mejor.