Cómo Athena consulta datos en S3 con SQL

Clase 36 de 52 • Curso de Big Data en AWS

Contenido del curso

Bienvenida e introducción al curso

Arquitecturas

Extracción de información

Transformación de Información

Carga de Información

Consumo de información

Seguridad, Orquestación y Automatización

Clase pública

52
Las cinco B de big data explicadas
01:44 min

Tomar examen

Resumen

AWS Athena permite ejecutar consultas SQL interactivas directamente sobre datos en Amazon S3 sin administrar servidores. Aquí verás cómo se conecta con Glue Catalog, qué formatos soporta y cómo encaja en un flujo de Big Data desde las fuentes hasta la visualización, con énfasis en integración nativa y seguridad granular.

¿Qué es AWS Athena y por qué importa en Big Data?

Athena es un servicio completamente administrado y serverless para consultar datos con SQL almacenados en S3. Se apoya en Glue Catalog para resolver el esquema y la ubicación de los archivos, permitiendo análisis ágiles sin crear ni operar servidores.

Consultas interactivas en SQL. Ejecutas queries sobre datos en S3 usando Glue Catalog como metastore.
Arquitectura serverless. Sin provisión ni administración de infraestructura.
Amplio soporte de formatos. CSV, JSON, Parquet, ORC y más.
Integración nativa en AWS. Se integra con Glue, S3, Redshift, DynamoDB y Kinesis.

¿Qué formatos y conectores admite?

Formatos de archivo: CSV, JSON, Parquet, ORC.
Conectividad con terceros: JDBC y ODBC para herramientas externas.
Cliente sugerido: SQL Workbench para ejecutar queries remotas contra Athena.

¿Cómo funciona la seguridad granular?

Permisos por base de datos y tabla definidos sobre el Glue Catalog.
Control de acceso para usuarios que solo deban consultar, por ejemplo, la tabla de usuarios.
Historial de queries para reutilizar consultas frecuentes de forma segura.

¿Cómo se integra Athena con S3, Glue Catalog y otros servicios?

La consulta ocurre así: Athena usa Glue Catalog para conocer esquemas y rutas; lee los datos en S3; ejecuta SQL; y devuelve resultados sin mover innecesariamente los archivos. Esta posición lo coloca como pieza central en la cadena de Big Data.

Con Glue y S3. Glue Catalog define tablas; los datos viven en S3; Athena consulta sobre ellos.
Con Redshift y DynamoDB. Integración para complementar análisis y cargas en el ecosistema.
Con Kinesis. Parte del flujo cuando los datos llegan por ingesta en tiempo cercano al real.
Con herramientas externas. Conexión vía JDBC/ODBC y clientes como SQL Workbench.

¿Qué beneficios aporta esta integración?

Menos acoplamiento: consultas sobre formatos abiertos en S3.
Rapidez para explorar datos sin ETL obligatoria.
Reutilización de esquemas en Glue Catalog.
Control de acceso consistente en tablas y bases.

¿Cómo usar Athena en un flujo de Big Data con visualización?

Imagina un flujo típico de extremo a extremo que conecta fuentes, procesamiento y visualización. Athena participa en varios puntos, permitiendo consultas en cada etapa sin fricción.

Fuentes de datos: una app móvil genera logs que se guardan en S3.
Descubrimiento inicial: un crawl sobre los logs permite verlos directo en Athena.
Procesamiento: transformación con EMR o AWS Glue para depurar y optimizar.
Almacenamiento preparado: los resultados van a un bucket de destino en S3.
Catálogo: se ejecuta un nuevo crawling para registrar las tablas en Glue Catalog.
Consulta: Athena lee el esquema y ejecuta SQL sobre el bucket de destino.
Almacén analítico: se alimenta un data warehouse en Redshift si se requiere.
Visualización: conexión de Athena con QuickSight para crear gráficas y paneles.

Habilidades que se ponen en práctica:

Escritura de queries SQL eficientes sobre datos en S3.
Configuración de conexiones JDBC/ODBC con clientes como SQL Workbench.
Ejecución de crawling y gestión de esquemas en Glue Catalog.
Definición de permisos por tabla y base para seguridad granular.

¿Has integrado Athena con QuickSight o con Redshift en tu entorno? Comparte tu experiencia y qué formatos te han funcionado mejor.

Comentarios

Usuario anónimo

user•

Es un servicio completamente administrado cuyas características más importantes son:

Podemos realizar consultas SQL a la data almacenada en S3. Soporta diferentes formatos de archivo de información. Provee una integración nativa con otros servicios de AWS de almacenamiento como S3, RedShift, DynamoDB y Kinesis. Podemos integrarlo con otras herramientas utilizando JDBC o ODBC. Puedes almacenar las queries que realices y que más utilices.

Milton Garcia

student•

AWS - Athena Es un servicio completamente administrado cuyas características más importantes son: • Podemos realizar consultas SQL a la data almacenada en S3. • Soporta diferentes formatos de archivo de información. • Provee una integración nativa con otros servicios de AWS de almacenamiento como S3, RedShift, DynamoDB y Kinesis. • Podemos integrarlo con otras herramientas utilizando JDBC o ODBC. • Puedes almacenar las queries que realices y que más utilices. • Servicio de consultas interactivo para data en S3 utilizando SQL. • Es serverless, creado en presto y soporta diferentes formatos csv, json, parquet, ORC, tsv…) • Provee interacción con otros servicios de AWS como S3, Redshift, DynamoDB y Kinesis.

JDBC / ODBC: Conexión con herramientas usando JDBC ejemplo: SQL Workbench. Queries: Consultas pueden ser guardadas para utilizar más adelante. Seguridad: Permisos granulares por base de datos y por tabla.

Juan David Cajamarca Acuña

student•

AWS Athena es un servicio de consultas completamente administrado.

Características

Podemos tomar ventajas de realizar consultas SQL a través de Athena sobre la información que esté almacenada en S3. Athena se conectaría a un Glue Catalog, el cual le indicaría dónde está la información almacenada en S3.
Es serverless; es decir, no tendremos cargas de administración o de creación de servidores para utilizar este servicio.
Podemos consultar diferentes tipos de archivos a través de SQL, como por ejemplo, csv, JSON, parquet, ORC, tsv, etc.
Este servicio provee una integración nativa con otros servicios de AWS como Glue, S3, RedShift, DynamoDB y Kinesis.
También podemos integrar este servicio haciendo uso de JDBC y ODBC con otras herramientas. Por ejemplo, podríamos trabajar con MySQL Workbrench, y a través de JDBC nos conectaríamos a Athena para realizar consultas a la información almacenada en S3.
Las consultas pueden ser guardadas para utilizarlas más adelante.
En cuanto a seguridad, tenemos permisos granulares a nivel de bases de datos y de tablas.

Es así como este servicio está en una parte muy importante de la cadena de BigData.

john ct

student•

Amazon Athena is an interactive query service that makes it easy to analyze data in Amazon S3 using standard SQL. Athena is serverless, so there is no infrastructure to setup or manage, and you pay only for the queries you run. To get started, simply point to your data in S3, define the schema, and start querying using standard SQL.

Usuario anónimo

user•

Atehana es un servicio de consultas sql, no requiere crear un servidor para el uso del servicio. Posee integración nativa con muchos otros servicios.

Andres Camilo Graciano Higuita

student•

AWS Athena demuestra que no siempre necesitamos infraestructura compleja para analizar grandes volúmenes de datos: con la combinación adecuada de S3 y SQL, el análisis puede ser tan simple como poderoso.

Mario Alexander Vargas Celis

student•

Amazon Athena es un servicio de consulta interactivo que permite analizar datos directamente en Amazon S3 utilizando SQL estándar. No requiere servidores, ya que es completamente administrado por AWS y se basa en Presto, optimizado para grandes volúmenes de datos.

Casos de uso de Athena

Análisis de registros y monitoreo de seguridad
Exploración de datos en un Data Lake en S3
Generación de informes sin necesidad de ETL
Integración con herramientas como Quicksight o Power BI

Pasos básicos para usar Athena

Configurar un bucket en S3: Asegúrate de que los datos estén almacenados en S3 en formatos como Parquet, ORC, JSON o CSV.
Crear una base de datos y tablas: Se usa AWS Glue Data Catalog o se definen manualmente en Athena.
Ejecutar consultas SQL: Puedes usar SQL estándar para explorar los datos.
Optimizar el rendimiento: Usar particiones, compresión y formatos eficientes como Parquet para reducir costos.

john ct

student•

Athena - unido a quicksight para visualizar toda los datos y las consultas

john ct

student•

muy util para hacer consultas Sql a S3 , y es serverless

Milton Garcia

student•

Ivan Acosta

student•

Excelente!. En resumen es como tener un IDE (Integrated Development Environment) de consultas SQL pero como servicio.

Cómo Athena consulta datos en S3 con SQL

Bienvenida e introducción al curso

Big Data en la Nube: Análisis, Transformación y Seguridad

Big Data en Cloud desde origen a visualización

Por qué big data en cloud es más eficiente

Extracción vs ingesta en proyectos big data

Comparativa de AWS y GCP para proyectos BigData

Arquitecturas

Arquitectura Lambda: 3 capas para datos en tiempo real

Arquitectura capa: el tiempo real como ventaja

Cómo funciona la arquitectura batch

Extracción de información

Cómo mover datos a cloud con SDK y CLI

Python y boto3 para listar buckets S3

Boto3: inicializar clients de AWS en Python

API Gateway como puerta de big data

Storage Gateway: puerta entre on-premise y S3

AWS Kinesis: streaming masivo de datos

Cómo crear Kinesis Data Stream en AWS

Despliegue automatizado de Kinesis con CloudFormation

Cómo Kinesis Firehose entrega datos en tiempo real

Configuración de Kinesis Firehose en AWS

Configuración Básica de Amazon Kinesis Firehose en AWS

MSK vs Kinesis: cuál elegir en AWS

Creación de clúster AWS MSK desde la consola

Transformación de Información

Cómo AWS Glue transforma datos en la nube

Instalación de Apache Zeppelin paso a paso

Configurar developer endpoint de AWS Glue con Zeppelin

Conexión de Apache Zeppelin con AWS

Configurar AWS Glue Crawler para poblar catálogo

Configuración de Developer Endpoint en AWS Glue

Cómo configurar AWS Glue ETL desde S3 a Parquet

Qué es EMR y cuándo usarlo

Crear tu primer cluster de AWS EMR

Conectar Apache Zeppelin a EMR

EMR automatizado con CloudFormation

AWS Lambda para proyectos de big data

Lambdas en big data: real time y batch

Configuración de AWS Lambda para Big Data

Carga de Información