Elasticache y DAX

Clase 44 de 76 • Curso de AWS Certified Solutions Architect Associate

ElastiCache y DAX: Acelerando Aplicaciones con Caché en AWS

En 2021, durante el Black Friday, Nexiabank experimentó un aumento de tráfico del 400% en cuestión de minutos. Gracias a su arquitectura basada en ElastiCache, lograron mantener tiempos de respuesta por debajo de 100ms mientras sus bases de datos principales permanecían protegidas de la avalancha de consultas. Este es el poder real de una estrategia de caché bien implementada en entornos cloud.

ElastiCache: Fundamentos y Opciones

Amazon ElastiCache es un servicio completamente gestionado que facilita la implementación, operación y escalado de almacenes de datos en memoria. AWS ofrece dos motores de caché populares: Redis y Memcached. Aunque ambos proporcionan almacenamiento en memoria de alta velocidad, tienen diferencias significativas que determinan cuál elegir según el caso de uso.

Redis vs. Memcached

Redis:

Estructura de datos avanzada: strings, hashes, lists, sets, sorted sets
Persistencia: puede guardar datos en disco
Replicación y alta disponibilidad con Multi-AZ
Soporte para transacciones
Pub/Sub para mensajería
Geoespacial y búsqueda de texto
Ideal para: aplicaciones que necesitan estructuras de datos complejas, persistencia o alta disponibilidad

Memcached:

Estructura de datos simple (key-value)
Sin persistencia (puramente en memoria)
Arquitectura multihilo para mejor uso de CPU
Escalado horizontal simple
Menor consumo de memoria
Ideal para: caché simple, objetos grandes, escalado horizontal

# Ejemplo de configuración de ElastiCache para Redis en CloudFormation
Resources:
  RedisCluster:
    Type: AWS::ElastiCache::ReplicationGroup
    Properties:
      ReplicationGroupId: production-redis
      ReplicationGroupDescription: Redis cluster for production
      Engine: redis
      EngineVersion: 6.2
      CacheNodeType: cache.r6g.large
      NumNodeGroups: 2
      ReplicasPerNodeGroup: 1
      AutomaticFailoverEnabled: true
      MultiAZEnabled: true

Patrones de Caché y Estrategias de Escalado

Patrones Comunes de Caché

Cache-Aside (Lazy Loading): La aplicación primero busca en la caché; si hay un miss, obtiene los datos de la base de datos y los almacena en la caché.

def get_user(user_id):
    # Intentar obtener de la caché
    user = cache.get(f"user:{user_id}")
    if user is None:
        # Cache miss - obtener de la base de datos
        user = database.query(f"SELECT * FROM users WHERE id = {user_id}")
        # Guardar en caché para futuras consultas
        cache.set(f"user:{user_id}", user, ttl=3600)  # TTL de 1 hora
    return user

Write-Through: Cada escritura a la base de datos también actualiza la caché.
Write-Behind (Write-Back): Las escrituras van primero a la caché y luego se sincronizan con la base de datos de forma asíncrona.
Time-to-Live (TTL): Configurar la expiración de elementos para mantener la caché actualizada.

Estrategias de Escalado

Para Redis:

Clustering: Redis permite particionar datos entre múltiples nodos (hasta 500 nodos por cluster).
Sharding: Distribuir datos entre múltiples instancias basado en la clave.
Replicación: Crear réplicas de solo lectura para distribuir la carga de lectura.

Para Memcached:

Escalado horizontal: Añadir más nodos al cluster.
Auto Discovery: Los clientes detectan automáticamente los cambios en la topología del cluster.

DynamoDB Accelerator (DAX)

DAX es un servicio de caché en memoria totalmente gestionado y de alta disponibilidad específicamente diseñado para Amazon DynamoDB. Proporciona tiempos de respuesta en microsegundos para lecturas de DynamoDB.

Características Principales de DAX

Caché de lectura transparente para DynamoDB
Reduce la latencia de lectura de milisegundos a microsegundos
Compatible con la API de DynamoDB (cambio mínimo en el código)
Caché de elementos individuales y resultados de consultas
Escritura directa (write-through) a DynamoDB
Clústeres de hasta 10 nodos para alta disponibilidad
Cifrado en tránsito y en reposo

// Ejemplo de configuración de cliente DAX en Node.js
const AmazonDaxClient = require('amazon-dax-client');
const AWS = require('aws-sdk');

const daxEndpoint = 'dax-cluster.region.amazonaws.com:8111';
const dax = new AmazonDaxClient({endpoints: [daxEndpoint]});
const docClient = new AWS.DynamoDB.DocumentClient({service: dax});

// Las operaciones ahora pasan por DAX
const result = await docClient.get({
  TableName: 'Users',
  Key: { userId: '123' }
}).promise();

Comparación de Rendimiento

Escenarios para Implementar Caché

La implementación de una capa de caché es especialmente beneficiosa en los siguientes escenarios:

Reducción de carga en bases de datos:
- Consultas frecuentes y costosas
- Picos de tráfico predecibles (eventos, promociones)
- Datos que cambian con poca frecuencia
Mejora de latencia:
- Aplicaciones sensibles al tiempo de respuesta
- Experiencias de usuario en tiempo real
- APIs con SLAs estrictos
Reducción de costos:
- Disminución de RCUs/WCUs en DynamoDB
- Menor necesidad de escalar instancias de RDS
- Optimización de consultas costosas
Sesiones de usuario:
- Almacenamiento de tokens JWT
- Datos de sesión entre microservicios
- Carritos de compra temporales

Integraciones con Servicios AWS

Con Amazon RDS

ElastiCache se integra perfectamente con RDS para reducir la carga en la base de datos relacional:

# Patrón de caché para consultas SQL frecuentes
def get_top_products(category_id):
    cache_key = f"top_products:{category_id}"
    cached_result = redis.get(cache_key)

    if cached_result:
        return json.loads(cached_result)

    # Cache miss - consultar RDS
    sql = """
        SELECT p.id, p.name, p.price, COUNT(o.id) as order_count
        FROM products p
        JOIN order_items o ON p.id = o.product_id
        WHERE p.category_id = %s
        GROUP BY p.id
        ORDER BY order_count DESC
        LIMIT 10
    """
    result = execute_sql(sql, [category_id])

    # Guardar en caché
    redis.set(cache_key, json.dumps(result), ex=1800)  # 30 minutos
    return result

Con DynamoDB

Además de DAX, ElastiCache puede complementar a DynamoDB para casos de uso específicos:

Agregaciones complejas que DynamoDB no soporta nativamente
Almacenamiento de resultados de múltiples consultas
Implementación de contadores de alta concurrencia
Gestión de datos de sesión

En Arquitecturas Serverless

La caché es un componente crucial en arquitecturas serverless para:

Reducir costos: Menos invocaciones de Lambda y operaciones de base de datos
Mejorar rendimiento: Reducir la latencia en APIs serverless
Compartir estado: Comunicación entre funciones Lambda sin estado

// Ejemplo de Lambda con ElastiCache (Redis) usando VPC
const redis = require('redis');
const { promisify } = require('util');

let client;
const getRedisClient = async () => {
  if (!client) {
    client = redis.createClient({
      host: process.env.REDIS_ENDPOINT,
      port: 6379
    });
    client.getAsync = promisify(client.get).bind(client);
    client.setAsync = promisify(client.set).bind(client);
  }
  return client;
};

exports.handler = async (event) => {
  const redis = await getRedisClient();
  const cacheKey = `user:${event.userId}`;

  // Intentar obtener de caché
  let userData = await redis.getAsync(cacheKey);

  if (!userData) {
    // Lógica para obtener datos de la fuente original
    userData = await fetchUserData(event.userId);
    // Guardar en caché
    await redis.setAsync(cacheKey, JSON.stringify(userData), 'EX', 3600);
  } else {
    userData = JSON.parse(userData);
  }

  return {
    statusCode: 200,
    body: JSON.stringify(userData)
  };
};

Consideraciones de Diseño

Al implementar soluciones de caché, es importante considerar:

Estrategia de invalidación: Determinar cuándo y cómo actualizar la caché
Consistencia vs. disponibilidad: Evaluar las implicaciones del modelo eventual
Tamaño de la caché: Dimensionar adecuadamente para evitar evictions
Monitoreo: Configurar alarmas para hit ratio, memoria y latencia
Seguridad: Implementar cifrado en tránsito y en reposo

ElastiCache y DAX son herramientas poderosas que pueden transformar el rendimiento de nuestras aplicaciones en AWS. La clave está en entender cuándo y cómo implementarlas correctamente. Una estrategia de caché bien diseñada no solo mejora la experiencia del usuario final con tiempos de respuesta más rápidos, sino que también optimiza los costos al reducir la carga en las bases de datos principales. Como arquitectos de soluciones, debemos considerar la caché como un componente esencial en cualquier arquitectura que requiera alta escalabilidad y rendimiento consistente, especialmente en entornos con patrones de acceso a datos predecibles y repetitivos.