Servicios de datos en AWS para tu examen

Curso de AWS Certified Solutions Architect Associate

Contenido del curso

Fundamentos de AWS

Identidad, Acceso y Gobernanza Multicuenta

Servicios de Computo en AWS

Contenedores en AWS

Redes en AWS

Escalamiento y balanceo en AWS

Almacenamiento en AWS

Bases de datos en AWS

Migración en AWS

Monitoreo y Auditoria en AWS

DNS y CDN en AWS

Servicios de Seguridad

Serverless

Servicios de Datos en AWS

Servicios de AI y ML em AWS

64
Servicios de IA y ML en AWS
04:09 min

Servicios de Backup y Recuperación ante desastres

Architect Solutions Certificate

Tomar examen

Servicios de datos en AWS para tu examen

Resumen

Los servicios de datos en AWS son una pieza clave para cualquier persona que se prepara para una certificación de nivel fundamental o asociado. Aquí entenderás qué hace cada uno, para qué casos de uso sirve y por qué los datos importan tanto dentro de una estrategia cloud moderna.

La información que manejas sobre clientes internos y externos es uno de los activos más valiosos de tu empresa. Con esos datos puedes crear nuevos productos, mejorar la experiencia de usuario y, sobre todo, alimentar modelos de inteligencia artificial. Y es justo ahí donde AWS entra con un catálogo amplio de servicios pensados para distintos momentos del ciclo de vida del dato.

¿Por qué los datos son tan importantes en AWS?

La explosión de la inteligencia artificial se apalanca de los datos. Antes de entrenar un modelo o construir un dashboard, necesitas limpiar, transformar y minar la información. AWS ofrece una ruta completa de capacitación y certificación enfocada solo en datos, pero para tu examen actual basta con dominar las bases.

¿Qué servicios de AWS sirven para analizar datos en S3? Athena para consultas SQL, Glue para procesos ETL, Redshift como warehouse y Lake Formation para construir un data lake completo sobre S3.

¿Qué servicios de AWS debes conocer para gestionar datos?

Cada servicio resuelve un problema específico. Conocer su mensaje principal y sus limitaciones te ahorra confusiones en el examen y en la práctica real.

¿Cómo consultar datos en S3 con Athena?

Athena te permite hacer consultas interactivas usando Structured Query Language directamente sobre los objetos almacenados en tus buckets de S3. Es totalmente serverless, lo administra AWS por completo y se integra de forma natural con Glue.

El modelo de cobro es por consulta, así que pagas solo por lo que escaneas. Ideal cuando necesitas explorar logs, archivos CSV o JSON sin montar infraestructura.

¿Qué hace AWS Glue y cuándo usarlo?

Glue es el servicio de ETL gestionado de AWS. ETL significa Extract, Transform and Load: extraer información de una fuente, transformarla y cargarla en un destino.

Lo interesante de Glue está en tres puntos:

Genera el código ETL de forma automática.
Centraliza el catálogo de datos para que otros servicios lo consuman.
No requiere que administres servidores.

¿Qué diferencia hay entre Athena y Glue? Athena consulta datos donde están; Glue los mueve y transforma para dejarlos listos para análisis.

¿Para qué sirve Amazon Redshift?

Redshift es un almacén de datos en columna de alta velocidad, lo que en inglés conocemos como data warehouse. Está pensado para escalar a volúmenes muy grandes sin perder rendimiento.

Se integra bien con herramientas de Business Intelligence y con plataformas ETL externas, así que suele ser la pieza final en una arquitectura analítica donde los datos ya vienen limpios y modelados.

¿Cómo procesar grandes volúmenes y datos en tiempo real?

No todos los datos llegan ordenados ni en lotes. A veces necesitas procesar terabytes históricos y otras veces analizar eventos al segundo. AWS tiene un servicio para cada escenario.

¿Qué es EMR y qué herramientas open source soporta?

EMR significa Elastic MapReduce y es la plataforma de AWS para procesar grandes volúmenes de información usando frameworks de código abierto. Soporta:

Hadoop.
HBase.
Spark.
Otros motores del ecosistema big data.

Lo usas cuando tienes cargas pesadas de procesamiento distribuido y quieres aprovechar herramientas que ya conoces del mundo open source, sin tener que administrar el clúster manualmente.

¿Qué hace Kinesis con datos en tiempo real?

Kinesis te permite hacer ingesta y análisis de datos en tiempo real sobre grandes volúmenes de información. Piensa en clics de una app, telemetría de dispositivos IoT o transacciones financieras que necesitas leer al instante.

Dentro de Kinesis hay varios subtipos que verás más adelante, cada uno con un propósito distinto. Toma nota de este servicio porque suele aparecer en preguntas de certificación.

¿Cuándo uso Kinesis y cuándo EMR? Kinesis para streaming en tiempo real; EMR para procesamiento por lotes de datos históricos.

¿Cómo construir un data lake con Lake Formation?

Lake Formation simplifica la creación y gestión de un lago de datos. Por debajo usa S3 como capa de almacenamiento, así que aprovechas su durabilidad y costo bajo, pero le sumas controles de acceso, catalogación y permisos centralizados.

Es la opción cuando quieres consolidar fuentes diversas (bases de datos, archivos, streams) en un solo lugar gobernado.

¿Qué otros servicios de datos ofrece AWS?

El catálogo no termina ahí. También existen OpenSearch para búsqueda y análisis de logs, y QuickSight para visualización tipo Business Intelligence. Cada uno cubre una capa distinta del flujo de datos, desde la ingesta hasta el dashboard final.

La idea no es memorizar todos los servicios, sino entender qué problema resuelve cada uno y cómo se conectan entre sí. ¿Cuál de estos servicios crees que usarías primero en tu proyecto actual? Cuéntame en los comentarios.

Servicios de datos en AWS para tu examen

Fundamentos de AWS

Certificación AWS Solutions Architect Associate: Fundamentos y Preparación

Preparación para certificación AWS Arquitecto de Soluciones

Configuración de presupuestos en AWS para controlar costos

Los 6 pilares del Well-Architected Framework

Identidad, Acceso y Gobernanza Multicuenta

Cómo evitar brechas de seguridad con IAM

Creación de usuarios administrador y practicante en AWS IAM

Gestión de cuentas con AWS Organizations

Detecta recursos AWS expuestos con Access Analyzer

Cómo gestionar múltiples cuentas AWS

Servicios de Computo en AWS

Servicios de cómputo AWS: EC2, procesadores Graviton y AMIs

Compute Savings Plan para EC2 y Lambda

Cómo lanzar tu primera instancia EC2

Optimizar latencia en EC2 con tenencia dedicada

Cómo consultar metadatos de EC2 con IMDSv2

AWS Outposts: ejecutar AWS en tu data center

Despliegue de app web en Elastic Beanstalk

Contenedores en AWS

Contenedores en AWS: ECS, EKS y ECR

Gestión de imágenes de contenedores con ECR y Fargate

Configuración de clusters, tareas y servicios en Amazon ECS

Redes en AWS

Direccionamiento IP y bloques CIDR para redes AWS

NAT Gateway para subredes privadas en AWS

Configuración de instancias públicas y privadas con NAT Gateway

NACL y Security Groups en AWS

Cómo reparar un Security Group en EC2

Conectividad híbrida en AWS: VPC Peering, Transit Gateway y Endpoints

Escalamiento y balanceo en AWS

Tipos de balanceadores de carga en AWS

Configuración de balanceadores de carga en AWS para alta disponibilidad

Autoescalamiento en EC2 con Auto Scaling Groups

Cómo crear un Auto Scaling Group en EC2

Almacenamiento en AWS

Tipos de almacenamiento en AWS: EBS, EFS y S3

Instance Store vs EBS en AWS

EFS vs FSx para compartir archivos en AWS

Creación y configuración de volúmenes EBS en AWS

Transfer Acceleration para datos globales en S3

Configuración de EFS para compartir almacenamiento entre instancias

Recuperar objetos borrados en Amazon S3

Bases de datos en AWS

Bases de datos relacionales vs no relacionales en AWS

Cómo funciona DynamoDB en AWS

Creación y configuración de bases de datos Dynamo en AWS

Elasticache y DAX

RDS vs Aurora: réplicas y alta disponibilidad

Cómo configurar Aurora con alta disponibilidad en RDS

Migración en AWS

Estrategias de migración AWS: las 6 R para trasladar aplicaciones

Cómo migramos 500 TB a AWS sin downtime

Migración de datos con AWS Snow Family: opciones y características

DMS y SCT para migrar bases de datos en AWS

Monitoreo y Auditoria en AWS

CloudTrail y EventBridge en arquitecturas AWS

Monitoreo de AWS con CloudWatch

DNS y CDN en AWS

Zonas locales y de borde en AWS

CloudFront vs Global Accelerator en AWS

Failover en Route 53 para arquitectura activo-pasiva

Configuración de políticas de geoproximidad en AWS Route 53

Servicios de Seguridad

KMS vs CloudHSM para datos regulados

AWS Shield y WAF contra ataques DDoS

Servicios AWS para detectar vulnerabilidades

GuardDuty y Trusted Advisor para detectar amenazas en AWS

Serverless

API Gateway y Lambda en arquitecturas serverless

Creación y configuración de funciones Lambda para automatización

AWS SQS: Tipos de filas y configuración para arquitecturas serverless

AWS SNS y Step Functions para comunicación y workflows visuales

Servicios de Datos en AWS

Servicios de datos en AWS para tu examen

Kinesis, EMR, Glue

Casos de uso de Amazon Redshift en AWS

Servicios de AI y ML em AWS

Servicios de IA y ML en AWS