Servicios de datos en AWS para analistas

Curso AWS Cloud Practitioner Certification

Contenido del curso

Fundamentos de la Infraestructura Global de AWS

Redes en AWS

Servicios de cómputo en AWS

Balanceo de Carga y Auto escalamiento

Almacenamiento en AWS

Bases de datos en AWS

Seguridad en AWS

Costos en AWS

Servicios Complementarios

Migracion a la nube de AWS

Cómo aprobar la certificación AWS Cloud Practitioner

Tomar examen

Servicios de datos en AWS para analistas

Resumen

¿Necesitas elegir un servicio de AWS para analizar, procesar o visualizar datos y no sabes cuál encaja con tu caso? Aquí encontrarás un mapa claro de los servicios de data en AWS, desde consultas serverless hasta data warehouses de petabytes, pensado para arquitectos de soluciones y equipos de datos.

La pregunta que abre la clase es directa: ¿cuál es el servicio de AWS donde puedes crear dashboards inteligentes, conectarlos a múltiples recursos, generar gráficas interactivas y compartirlas con stakeholders? Las opciones son Athena, Glue, EMR, Kinesis y QuickSight. Spoiler corto: la respuesta es Amazon QuickSight, pero el camino para entender por qué pasa por conocer todo el ecosistema.

¿Qué es Amazon Athena y cuándo conviene usarlo?

Athena es un motor de consultas serverless que corre sobre Presto SQL y permite analizar datos sin administrar servidores [1:13].

Lo interesante es que puedes consultar archivos JSON, CSV o Parquet directamente en S3, y con la feature de queries federadas combinar S3 con una RDS o incluso una base Mongo en la misma consulta. Athena trabaja sobre data estructurada, semiestructurada y no estructurada.

¿Cómo cobra Athena? Cobra por la cantidad de datos procesados para responder tu consulta y por el tiempo que tarda recorriendo esos datos.

¿Para qué sirve EMR y en qué se diferencia de Glue?

EMR significa Elastic MapReduce y es el servicio para correr proyectos de big data con todo el stack de Apache: Hadoop, Spark, Hudi y compañía [2:30].

Detrás hay un clúster real, organizado en tres tipos de instancias:

Instancias maestras, que orquestan el clúster.
Instancias core, que distribuyen la información.
Instancias task, que ejecutan el procesamiento.

Piensa en EMR cuando necesitas procesar terabytes de datos o hacer ETL pesado con escalamiento agresivo.

¿Y entonces qué hace AWS Glue?

Glue es el primo serverless de EMR. Te quita la carga de administrar servidores y te da una interfaz visual para crear workflows de ETL completos: extraer, transformar y cargar en uno o varios destinos [3:50].

Uno de sus componentes estrella es el Crawler, un rastreador que entra a tus buckets de S3, identifica la sintaxis y la organización de los datos, y alimenta un catálogo con esa estructura. Eso te ahorra horas de mapeo manual.

¿Qué servicios usa AWS para datos en tiempo real?

Cuando hablamos de real time, el objetivo es usar la información lo más cerca posible al momento en que se produce. AWS ofrece dos caminos principales: MSK y Kinesis.

Amazon MSK para cargas en Kafka

Amazon MSK es 100% compatible con Apache Kafka, así que puedes migrar cargas on premise sin reescribir tu código [5:30]. Suma alta disponibilidad y simplifica la configuración del clúster.

Tiene dos sabores:

Versión basada en servidores, con más control y flexibilidad.
Versión serverless, con mejor escalamiento pero menos ajuste fino.

Amazon Kinesis y sus variantes

Kinesis es el servicio de streaming nativo de AWS, completamente serverless, y procesa datos en near real time. Su unidad de medida es el shard, y puede escalar a cientos de millones de eventos por minuto [6:50]. Es habitual usarlo para IoT y datos de sensores.

Dentro de Kinesis encuentras:

Kinesis Data Firehose: entrega el dato a S3, OpenSearch, Redshift, Datadog, New Relic, Dynatrace u otros destinos.
Kinesis Video Streams: procesamiento de video en tiempo real.
Managed Apache Flink (antes Kinesis Analytics): analiza la data con queries SQL mientras pasa por el streaming.

¿Cómo funcionan OpenSearch, QuickSight y Redshift?

Estos tres servicios cubren búsqueda, visualización y análisis a gran escala. Cada uno responde a una necesidad muy distinta.

Amazon OpenSearch para búsqueda e indexación

OpenSearch organiza la información en index y permite análisis interactivo de registros y monitoreo de aplicaciones en tiempo real [8:40]. Detrás de muchos buscadores web hay un OpenSearch corriendo.

Una advertencia desde la experiencia: dimensionar mal el clúster cuesta caro. En un caso real, un clúster desbalanceado hizo que cada evento tardara 30 minutos en procesarse, perdiendo el real time.

Amazon QuickSight para business intelligence

QuickSight es el servicio de BI de AWS. Se conecta a S3, RDS, Redshift, Athena e incluso bases fuera del ecosistema de AWS, y su motor de inteligencia artificial sugiere el mejor gráfico según el tipo de datos [9:40].

¿Qué hace especial a QuickSight? Permite crear dashboards interactivos, compartirlos con stakeholders y recibe recomendaciones automáticas de visualización gracias a su motor de IA.

Por eso es la respuesta a la pregunta inicial: dashboards inteligentes, múltiples fuentes y colaboración en un solo lugar.

Amazon Redshift para data warehouse a escala de petabytes

Cuando piensas en Redshift, piensa en data warehouse y en consultas sobre petabytes de información [10:40]. Athena puede consultar mucho, pero con dos petabytes se queda corto en tiempo. Redshift levanta un clúster dedicado y devuelve resultados en minutos.

Permite consultas complejas tipo join entre tablas masivas y crear nuevas tablas derivadas. Tiene versión basada en servidores, con más control sobre el clúster, y versión serverless. La basada en servidores suele ser la favorita cuando necesitas ajustar el tipo de clúster a tus cargas.

¿Cuándo elegir Redshift en vez de Athena? Cuando manejas petabytes y necesitas consultas complejas frecuentes; Athena brilla con volúmenes menores y uso esporádico.

Si quieres seguir explorando AWS y dar el salto al mundo de machine learning, cuéntame en los comentarios qué servicio de datos usas hoy y cuál te gustaría dominar primero.

Servicio	Tipo	Uso Principal	Características Clave
Amazon QuickSight	Business Intelligence	Visualización de datos a través de dashboards	Conexión a múltiples fuentes, sugerencias gráficas, compartición
Amazon Athena	Motor de consultas	Consultas sobre datos en S3 y otras fuentes	Serverless, queries federadas, cobro por datos procesados
AWS Glue	ETL (Extracción, Transformación, Carga)	Procesamiento de datos y creación de workflows visuales	Serverless, interfaz gráfica, crawler para catalogar datos
Amazon EMR	Big Data	Procesamiento de grandes volúmenes de datos	Basado en clúster, soporte para Hadoop y Spark
Amazon Kinesis	Streaming	Procesamiento de datos en tiempo real	Serverless, escalabilidad alta, opciones de entrega de datos
Amazon MSK	Streaming	Compatible con Apache Kafka para procesamiento en tiempo real	Alta disponibilidad, configuraciones serverless y basadas en servidores
Amazon Redshift	Data Warehouse	Almacenamiento y análisis de datos a gran escala	Escalabilidad a petabytes, consultas complejas
Amazon OpenSearch	Análisis de registros	Monitoreo y búsqueda de datos en tiempo real	Alta velocidad de búsqueda, basado en índices

Mario Alexander Vargas Celis

Estudiante

🚀 Servicios de Datos en AWS

AWS ofrece una amplia gama de servicios para la gestión, procesamiento, análisis y almacenamiento de datos. Se pueden clasificar en varias categorías según su propósito.

📌 1. Almacenamiento de Datos

Servicios para almacenar grandes volúmenes de datos de forma segura y escalable.

ServicioDescripciónCasos de usoAmazon S3Almacenamiento de objetos escalable y duradero.Backup, Data Lakes, contenido multimedia.Amazon EBSVolúmenes de almacenamiento para instancias EC2.Almacenamiento persistente para máquinas virtuales.Amazon EFSSistema de archivos escalable basado en NFS.Compartición de datos entre instancias EC2.Amazon FSxSistemas de archivos administrados (Windows y Lustre).Aplicaciones que requieren almacenamiento de alto rendimiento.AWS GlacierAlmacenamiento en frío para archivos de largo plazo.Archivos de cumplimiento y backup de datos antiguos.

📌 2. Bases de Datos

Servicios para almacenar y administrar datos estructurados y no estructurados.

ServicioTipoCasos de usoAmazon RDSRelacionalBases de datos SQL (MySQL, PostgreSQL, SQL Server, etc.).Amazon AuroraRelacionalBase de datos escalable y compatible con MySQL y PostgreSQL.Amazon DynamoDBNoSQLAplicaciones con alta disponibilidad y baja latencia.Amazon RedshiftData WarehouseAnálisis de datos a gran escala.Amazon ElastiCacheMemoria cachéOptimización del rendimiento con Redis y Memcached.Amazon NeptuneGrafosAplicaciones de redes sociales, recomendaciones y fraude.Amazon TimestreamSeries temporalesDatos de IoT, monitoreo y analítica en tiempo real.

📌 3. Análisis y Procesamiento de Datos

Servicios para analizar y transformar grandes volúmenes de datos.

ServicioDescripciónCasos de usoAWS GlueServicio ETL sin servidor.Integración y transformación de datos.Amazon AthenaConsulta SQL en S3 sin servidor.Análisis rápido de datos sin infraestructura.Amazon EMRHadoop, Spark, Presto y más.Big Data y procesamiento distribuido.AWS Lake FormationCreación de Data Lakes.Gestión centralizada de datos empresariales.Amazon KinesisProcesamiento de datos en streaming.IoT, logs en tiempo real y analítica.AWS Data PipelineAutomatización de flujos de datos.Integración de datos entre servicios de AWS.

📌 4. Machine Learning y Ciencia de Datos

Servicios para entrenar, desplegar y escalar modelos de Machine Learning (ML).

ServicioDescripciónCasos de usoAmazon SageMakerPlataforma completa de ML.Entrenamiento y despliegue de modelos de IA.AWS ForecastPredicciones basadas en IA.Análisis de demanda y pronósticos.AWS ComprehendProcesamiento de lenguaje natural (NLP).Análisis de sentimientos y clasificación de texto.AWS RekognitionAnálisis de imágenes y videos.Detección de rostros y objetos en imágenes.AWS TextractExtracción de texto de documentos.OCR y procesamiento de documentos.

📌 5. Integración y Gobernanza de Datos

Servicios para administrar el acceso y la seguridad de los datos.

ServicioDescripciónCasos de usoAWS DataSyncMigración de datos a AWS.Transferencia rápida y segura.AWS Glue Data CatalogCatálogo centralizado de datos.Metadatos y gestión de esquemas de bases de datos.AWS Lake FormationAdministración de Data Lakes.Centralización y control de acceso a los datos.AWS IAMGestión de acceso.Control de permisos sobre datos y servicios.

🔥 Resumen: Servicios de Datos en AWS

💾 Almacenamiento → Amazon S3, EBS, Glacier. 🛢 Bases de Datos → RDS, DynamoDB, Redshift. 📊 Análisis y Big Data → AWS Glue, EMR, Athena. 🤖 Machine Learning → SageMaker, Rekognition. 🔐 Seguridad y Gobernanza → Lake Formation, IAM.

Servicios de datos en AWS para analistas

Fundamentos de la Infraestructura Global de AWS

Qué es AWS y por qué aprenderlo

Cómo crear tu cuenta en AWS sin sorpresas

Seguridad en AWS: Prácticas Esenciales y Gestión de Accesos

Modelo de Responsabilidad Compartida en AWS: Seguridad y Cumplimiento

Creación y gestión de usuarios en AWS IAM

Regiones y Zonas de Disponibilidad en AWS

Local Zones, Outposts y Edge Locations en AWS

Gestión de DNS y dominios con AWS Route 53

Redes en AWS

Componentes y configuración de una VPC en AWS

Seguridad en VPC: Grupos de Seguridad y Network ACLs

Creación de una VPC en AWS: Paso a Paso Práctico

Cómo conectar subredes con NAT e IGW en AWS

Opciones de Conectividad en AWS: VPN y DirectConnect

CloudFront vs Global Accelerator en AWS

Servicios de cómputo en AWS

Qué es EC2 y cómo funciona

Creación de un Servidor Web en AWS Paso a Paso

Conexión a Servidor AWS EC2 usando SSH en Mac y Linux

Conexión a Servidor con PuTTY en Windows

Instalación de un Servidor Web Apache en AWS EC2

Tipos de Instancias EC2 y Casos de Uso en AWS

Comparación de precios y tipos de instancias EC2 en AWS

Servicios de Contenedores en AWS: Docker, ECS, EKS y Fargate

Conceptos Básicos de Serverless y AWS Lambda

Balanceo de Carga y Auto escalamiento

Tipos de balanceadores de carga en AWS

Autoescalamiento en AWS: Gestión Dinámica de Recursos en la Nube

Implementación de Aplicación Web en AWS con Alta Disponibilidad

Conexión SSH a servidores privados en AWS

Configuración de Balanceador de Carga en AWS EC2

Cómo borrar recursos de AWS sin cargos

Almacenamiento en AWS

Opciones de Almacenamiento en la Nube con AWS

Tipos de almacenamiento en AWS: bloques, archivos y objetos

Almacenamiento y Seguridad en Amazon S3: Uso y Configuración

Clases de Almacenamiento en Amazon S3: Usos y Características

Migración de Datos a AWS con Snow Family y Amazon S3

Creación y Configuración de Buckets en Amazon S3

Funciones clave de un bucket en AWS S3

Qué es Amazon EBS y cómo funciona

Tipos de volúmenes EBS y sus casos de uso en AWS

Almacenamiento de Archivos en AWS: EFS y FSx

Almacenamiento Híbrido con AWS Storage Gateway

Bases de datos en AWS

Creación y Gestión de Bases de Datos Relacionales en AWS

Bases de Datos en AWS: Relacionales vs No Relacionales

Creación de una Base de Datos MySQL en AWS Paso a Paso

Conectar MySQL en AWS RDS con DBeaver

Introducción a DynamoDB: Características y Ventajas en AWS

Crea tu primera tabla en DynamoDB

Seguridad en AWS

Seguridad en AWS: Protección de Recursos y Aplicaciones en la Nube

Gestión de Roles, Grupos y Políticas en AWS IAM

AWS Shield vs WAF contra ataques DDoS

Administración de Llaves de Seguridad en AWS KMS y CloudHSM

Cómo crear y usar tu primera llave KMS

Gestión de Secretos en AWS con Amazon Secrets Manager

Seguridad en AWS: Artifact, GuardDuty, Inspector y Config

Monitoreo y Auditoría de Recursos AWS: CloudTrail y AWS Config

Servicios de Seguridad en AWS: Amazon Macie, Security Hub y más

Costos en AWS

Modelos de Precios y Costos en AWS: Comprensión y Estrategias

Cómo analizar costos diarios con Cost Explorer

Gestión de Presupuestos con AWS Budgets

Costos de Infraestructura: On-Premises vs Nube y Herramientas AWS

Creación de alertas de presupuesto en AWS

Saving Plans de AWS: hasta 72% de descuento

Planes de Soporte AWS: Diferencias y Selección Adecuada

Frameworks AWS: Well-Architected y Cloud Adoption

Servicios Complementarios

Gestión Multicuenta en AWS con Control Tower y Organizations

Servicios de datos en AWS para analistas

Servicios de machine learning en AWS

Principales Servicios de Desarrollo en AWS

Servicios Avanzados de AWS para Aplicaciones Modernas y Seguras

Migracion a la nube de AWS

Estrategias de Migración a la Nube: Las 7 R's de AWS