¿Necesitas elegir un servicio de AWS para analizar, procesar o visualizar datos y no sabes cuál encaja con tu caso? Aquí encontrarás un mapa claro de los servicios de data en AWS, desde consultas serverless hasta data warehouses de petabytes, pensado para arquitectos de soluciones y equipos de datos.
La pregunta que abre la clase es directa: ¿cuál es el servicio de AWS donde puedes crear dashboards inteligentes, conectarlos a múltiples recursos, generar gráficas interactivas y compartirlas con stakeholders? Las opciones son Athena, Glue, EMR, Kinesis y QuickSight. Spoiler corto: la respuesta es Amazon QuickSight, pero el camino para entender por qué pasa por conocer todo el ecosistema.
¿Qué es Amazon Athena y cuándo conviene usarlo?
Athena es un motor de consultas serverless que corre sobre Presto SQL y permite analizar datos sin administrar servidores [1:13].
Lo interesante es que puedes consultar archivos JSON, CSV o Parquet directamente en S3, y con la feature de queries federadas combinar S3 con una RDS o incluso una base Mongo en la misma consulta. Athena trabaja sobre data estructurada, semiestructurada y no estructurada.
¿Cómo cobra Athena? Cobra por la cantidad de datos procesados para responder tu consulta y por el tiempo que tarda recorriendo esos datos.
¿Para qué sirve EMR y en qué se diferencia de Glue?
EMR significa Elastic MapReduce y es el servicio para correr proyectos de big data con todo el stack de Apache: Hadoop, Spark, Hudi y compañía [2:30].
Detrás hay un clúster real, organizado en tres tipos de instancias:
- Instancias maestras, que orquestan el clúster.
- Instancias core, que distribuyen la información.
- Instancias task, que ejecutan el procesamiento.
Piensa en EMR cuando necesitas procesar terabytes de datos o hacer ETL pesado con escalamiento agresivo.
¿Y entonces qué hace AWS Glue?
Glue es el primo serverless de EMR. Te quita la carga de administrar servidores y te da una interfaz visual para crear workflows de ETL completos: extraer, transformar y cargar en uno o varios destinos [3:50].
Uno de sus componentes estrella es el Crawler, un rastreador que entra a tus buckets de S3, identifica la sintaxis y la organización de los datos, y alimenta un catálogo con esa estructura. Eso te ahorra horas de mapeo manual.
¿Qué servicios usa AWS para datos en tiempo real?
Cuando hablamos de real time, el objetivo es usar la información lo más cerca posible al momento en que se produce. AWS ofrece dos caminos principales: MSK y Kinesis.
Amazon MSK para cargas en Kafka
Amazon MSK es 100% compatible con Apache Kafka, así que puedes migrar cargas on premise sin reescribir tu código [5:30]. Suma alta disponibilidad y simplifica la configuración del clúster.
Tiene dos sabores:
- Versión basada en servidores, con más control y flexibilidad.
- Versión serverless, con mejor escalamiento pero menos ajuste fino.
Amazon Kinesis y sus variantes
Kinesis es el servicio de streaming nativo de AWS, completamente serverless, y procesa datos en near real time. Su unidad de medida es el shard, y puede escalar a cientos de millones de eventos por minuto [6:50]. Es habitual usarlo para IoT y datos de sensores.
Dentro de Kinesis encuentras:
- Kinesis Data Firehose: entrega el dato a S3, OpenSearch, Redshift, Datadog, New Relic, Dynatrace u otros destinos.
- Kinesis Video Streams: procesamiento de video en tiempo real.
- Managed Apache Flink (antes Kinesis Analytics): analiza la data con queries SQL mientras pasa por el streaming.
¿Cómo funcionan OpenSearch, QuickSight y Redshift?
Estos tres servicios cubren búsqueda, visualización y análisis a gran escala. Cada uno responde a una necesidad muy distinta.
Amazon OpenSearch para búsqueda e indexación
OpenSearch organiza la información en index y permite análisis interactivo de registros y monitoreo de aplicaciones en tiempo real [8:40]. Detrás de muchos buscadores web hay un OpenSearch corriendo.
Una advertencia desde la experiencia: dimensionar mal el clúster cuesta caro. En un caso real, un clúster desbalanceado hizo que cada evento tardara 30 minutos en procesarse, perdiendo el real time.
Amazon QuickSight para business intelligence
QuickSight es el servicio de BI de AWS. Se conecta a S3, RDS, Redshift, Athena e incluso bases fuera del ecosistema de AWS, y su motor de inteligencia artificial sugiere el mejor gráfico según el tipo de datos [9:40].
¿Qué hace especial a QuickSight? Permite crear dashboards interactivos, compartirlos con stakeholders y recibe recomendaciones automáticas de visualización gracias a su motor de IA.
Por eso es la respuesta a la pregunta inicial: dashboards inteligentes, múltiples fuentes y colaboración en un solo lugar.
Amazon Redshift para data warehouse a escala de petabytes
Cuando piensas en Redshift, piensa en data warehouse y en consultas sobre petabytes de información [10:40]. Athena puede consultar mucho, pero con dos petabytes se queda corto en tiempo. Redshift levanta un clúster dedicado y devuelve resultados en minutos.
Permite consultas complejas tipo join entre tablas masivas y crear nuevas tablas derivadas. Tiene versión basada en servidores, con más control sobre el clúster, y versión serverless. La basada en servidores suele ser la favorita cuando necesitas ajustar el tipo de clúster a tus cargas.
¿Cuándo elegir Redshift en vez de Athena? Cuando manejas petabytes y necesitas consultas complejas frecuentes; Athena brilla con volúmenes menores y uso esporádico.
Si quieres seguir explorando AWS y dar el salto al mundo de machine learning, cuéntame en los comentarios qué servicio de datos usas hoy y cuál te gustaría dominar primero.