Escalabilidad: Implementación de Throttling y Retry Policy

Clase 24 de 25 • Curso Práctico de Arquitectura Backend

Contenido del curso

Introducción a conceptos

Arquitectura y planeación

Desarrollo e implementación

Challenges

Conclusión

25
Preparación Profesional para Desarrolladores Back End Avanzados
05:29 min

Tomar examen

Resumen

Cuando un servicio recibe más peticiones de las que puede procesar, necesita mecanismos inteligentes para protegerse sin dejar de atender a los usuarios. Exactamente eso resuelven el throttling y las retry policies, dos conceptos que empresas como Amazon, Microsoft y Google aplican a diario en sistemas que reciben millones de requests cada segundo.

¿Qué es el throttling y por qué protege tu servicio?

El throttling consiste en establecer un límite máximo de peticiones que un servicio puede procesar en un intervalo de tiempo [01:52]. Si ese límite se supera, las peticiones adicionales se rechazan intencionalmente con un código de error. Es importante entender que no se trata de una falla real del servidor, sino de una decisión deliberada para evitar la sobrecarga.

En el ejemplo planteado, el servicio de publicación de reviews tiene un límite de una request por segundo (1 RPS) [05:40]. Si en algún momento llegan más peticiones de las permitidas, el servicio regresa un error 500 con un mensaje como "throttled" en el cuerpo de la respuesta [07:17]. Cada producto o servicio puede implementar su propia estrategia de throttling; si usas proveedores cloud como AWS o Azure, puedes investigar las policies disponibles para controlar esta limitación directamente en la infraestructura [06:30].

¿Por qué reintentar inmediatamente genera un efecto cascada?

El problema más peligroso aparece cuando los clientes reintentan sus peticiones fallidas de forma inmediata [08:16]. Imaginemos este escenario:

Segundo 1: llegan 2 peticiones, se procesa 1, falla 1.
Segundo 2: llegan 2 nuevas más 1 reintento, total 3 peticiones, se procesa 1, fallan 2.
Segundo 3: llegan 2 nuevas más 2 reintentos, total 4 peticiones, se procesa 1, fallan 3.

Este patrón genera un crecimiento lineal de fallas a lo largo del tiempo [09:28]. Cada segundo acumula más peticiones pendientes hasta que el sistema colapsa por completo. Es un ciclo destructivo donde el propio mecanismo de reintento se convierte en el problema.

¿Cómo funciona el exponential backoff para evitar el colapso?

La solución se llama Exponential Backoff [07:30], un patrón de reintento donde el tiempo de espera entre cada intento crece de forma exponencial en lugar de ser inmediato. En vez de reintentar al siguiente segundo, el cliente espera 20 segundos, luego 40 segundos, y así sucesivamente.

Reduce la presión sobre el servicio al espaciar los reintentos.
Permite la recuperación cuando el tráfico baja temporalmente.
Aplana la curva de fallas en lugar de dejarla crecer sin control [10:03].

Si en algún momento el tráfico se reduce, por ejemplo a cero peticiones en el segundo cinco, el servicio puede procesar las peticiones pendientes y las fallas comienzan a disminuir [10:10]. Así el sistema se estabiliza por sí mismo.

¿Dónde se implementa: en el backend o en el cliente?

El reto tiene dos partes bien diferenciadas [05:02]:

En el backend: implementar el throttling que limite las peticiones a 1 RPS para el servicio de publicación de reviews.
En el cliente HTTP: crear métodos como crearReview (para POST) y opcionalmente uno de lectura (para GET) que detecten el error 500 con mensaje de throttling y apliquen exponential backoff automáticamente [06:50].

Es fundamental que el cliente que construyas encapsule esta lógica de reintento, de modo que quien lo utilice en el frontend no tenga que preocuparse por gestionar los reintentos manualmente [11:09]. Si el backoff no está implementado correctamente, la única alternativa es fallar las requests directamente.

¿Qué habilidades desarrollas al resolver este tipo de problemas?

Resolver este reto implica trabajar con conceptos de escalabilidad que se enfrentan diariamente en compañías de gran escala [11:36]. Comprender el concepto de RPS (requests por segundo) te permite dimensionar las capacidades reales de un servicio. Dominar las retry policies te da herramientas para diseñar sistemas resilientes que se recuperan solos ante picos de tráfico.

La experiencia compartida desde el trabajo en Amazon en 2018 [00:43] muestra que estos no son problemas teóricos; son situaciones reales donde productos utilizados en todo el mundo necesitan mecanismos robustos para mantenerse saludables bajo presión extrema.

Si te interesa profundizar, los recursos recomendados están disponibles en la clase y cubren en detalle las estrategias de exponential backoff y throttling policies. ¿Has enfrentado alguna vez un problema de escalabilidad similar? Comparte tu experiencia en los comentarios.

Comentarios

Carlos Eduardo Gomez García

teacher•

Vale, en este reto no sé exactamente qué tengo que hacer xD, no tengo un servicio Cloud ahora mismo(?, pero resumiendo conceptos: . Throtling: Es básicamente hacer que tu servidor devuelva un error intencionado, no es un error real, yo regresaría un error 503 (Service Unavailable Error) . BackOff: Por lo que entiendo, es el cómo manejamos los retry's, es decir, en lugar de hacer el retry un segundo después, podemos posponerlo a que se reintente en X segundos, cuando es posible que el servidor tenga menos requests . Lo que aún no me queda claro es, si regreso un error, ¿el retry debería ser automático? ¿o el retry tiene que hacerlo el usuario manualmente? 🤔

Erick Suarez Zavala

student•

No se si aun tengas dudas :p Pero el retry tiene que ser de manera automática, en un proyecto recuerdo que teníamos un policy exponencial, si fallaba lo intentaba 2 seg. Después, si fallaba el segundo intento, 4 seg después si fallaba 8 seg. asi hasta cierto limite. Espero este ejemplo te ayude

Francisco Serrato Jiménez

student•

Mi aporte a los conceptos serian:

++Throttiling++: patrón arquitectónico permite controlar la cantidad de recursos que una aplicación puede utilizar antes de estrangular los procesos no esenciales a favor de mantener a flote el servicio, evitando una interrupción o caída de instancias o aplicaciones.
++Circuite Braker++: evita que una aplicación intente de manera reiterada una operación que con probabilidad vaya a fallar, permitiendo que esta continúe con su ejecución sin malgastar recursos mientras el problema no se resuelva. puede detectar cuando se ha resuelto el problema permitiendo de esta manera volver a ejecutar la operación comprometida.
++BackOff++: lo veo más como el estado cuando los recursos ya fueron sobre pasados y el back no responde.

Usuario anónimo

user•

Recuerdo que en un proyecto realice una tarea en la que tenía que subir una gran cantidad de usuarios a Firebase (20k?), sin embargo yo tenía una tabla en csv donde me daban los usuarios y contraseñas, no hice uso del SDK que daba Firebase, decidí hacer un código en el Frontend para que subiera las cuentas con un for, recuerdo que cuando lo intente habían fallado casi todas las peticiones, y es debido a este concepto. Ahora se bien porque ocurría ese error y bueno que se le conoce en la industria como Throtling. Pienso que es una excelente forma de lidiar con este trafico poco común.

Diego Forero

Team Platzi•

Para Throttling sería mejor retornar un código 429 que es Too Many Requests en lugar de un error de servidor.

Flavio Andres Pareja Torres

student•

Claro, para mi también debería responder 429 ya que no es un error del servidor sino del cliente intentando hacer demasiados llamados a la API.

Las APIs publicas como las de twilio/stripe/tmdb por lo general dicen cuanto es su throttling y de esa manera es un 4XX. en resumen, es culpa del usuario😅

Gabriel Acosta

student•

el 429 no se refiere al cliente haciendo demasiadas peticiones? Creo que es mejor usar un error 500 puesto que al final nuestro escenario es el de muchos usuarios haciendo muchas peticiones y la incapacidad de nuestra infraestructura para hacer frente a eso. El del error 429 es el usuario intentando pegarle mucho a nuestros servidores, quizás por ejemplo, rebasando un quota limit.

Sebastian Gamba

student•

Si nuestros servicios van a recibir mucha carga, no es viable escalar nuestras instancias basados en el computo o tiempos de respuesta ?

No entiendo como escalarían nuestros servicios si al mismo tiempo estamos rechanzando solicitudes.

Alan Mamani Huayllani

student•

Tuve un problema similar, sin embargo, en ocaciones no se puede adquirir mas recursos dado las especificaciones del cliente dado que usamos servicios de AWS, en una lluvia de ideas se nos ocurrio una solución.

El trabajo en cuestión era de cargar una gran cantidad de datos de usuarios desde un CSV, el cual habia que convertirlo a formato JSON, para luego realizar la peticion a nuestro backend.

La solución que se nos ocurrio fue fragmentar o dividir toda esa informacion en pequeños trozos para cargar datos en poco tiempo.
otra solución fue que para solo ese proceso, en ese mismo instante cambiar la instancia del VPS, aumentando la memoria, y para cuando termine el proceso volver a la instancia comun.

Nosotros decidimos usar ambas opciones para facilitar la interaccion con el usuario, viendo en tiempo real el estado de cada petición.

Carlos Fernando Aguilar González

student•

Cristian Garcia

student•

Para mi solución de Throttling con Firebase Realtime lo implemente de la siguiente manera

Optimizar Consultas y Estructura de Datos:

Asegúrate de que tus consultas sean eficientes y solo obtengan los datos necesarios.

Estructura tus datos de manera que minimice la cantidad de lecturas y escrituras necesarias.

Implementar Backoff Exponencial:

Si recibes un error indicando que has alcanzado el límite de solicitudes (como un código de estado 429), retrasa tus solicitudes de manera incremental.

function retryWithBackoff(retryCount) {

const delay = Math.pow(2, retryCount) * 100; // Exponential backoff

return new Promise((resolve) => setTimeout(resolve, delay));

}

async function fetchDataWithRetries(ref, retryCount = 0) {

try {

const data = await ref.get();

return data;

} catch (error) {

if (error.code === 'RESOURCE_EXHAUSTED' && retryCount < 5) {

await retryWithBackoff(retryCount);

return fetchDataWithRetries(ref, retryCount + 1);

} else {

throw error;

}

Carlos Eduardo Magallon Zepeda

student•

Si manejan Nginx pueden leer como implementar throttling aquí

juan david jaramillo zuñiga

student•

Exponential backoff es basicamente multiplicar el backoff time por una constante para modificar asi el tiempo en el cual el retry será realizado. Sin embargo, este approach no resuelve el problema del todo porque aun se generarian picos/valles de requests, lo que en ultimas podria sobrecargar el servidor.

Para esto, existe el approach de Jitter. Jitter es basicamente usar exponential backoff más un componente de randomness para asi repartir los subsecuentes requests de manera equitativa.

exponential_backoff = attempt_number * constant jitter = random(0, exponential_backoff)

Asi entendi los conceptos del Blog de Arquitectura de AWS

Carlos Alberto

student•

Para este caso seria utilizar un servicio de colas como SQS de AWS?

Rodrigo Hernández

student•

¡Hola! te podría servir para lograr tener desacoplamiento entre componentes o sistemas, y evitar por ejemplo perdida de datos (cuando por ejemplo, el sistema/componente receptor esta de baja o apagado y en lo que se restablece, podemos mantener en la cola lo que esta enviando el sistema emisor y cuando se restablezca el receptor ya los vamos liberando de la cola), también puede ayudar para temas de evitar saturación/cuellos de botella entre componentes, para mas info puedes ver la documentación oficial de AWS: https://aws.amazon.com/sqs/

Capacitacion 2

student•

Hola. Dejo mi resolución de actividad: https://drive.google.com/drive/folders/1T_4hpEiuAvFCyhziCMMEYFSnSTPqoZA6?usp=sharing Gracias, saludos!

Christian Valenzuela

student•

Super interesante este tema, la verdad es que es algo muy bueno ir aprendiendo de experiencias de personas como el profesor, ya que son cosas del mundo real. Este es un tema que no había escuchado en mi vida y me intereso demasiado saber como grandes empresas pueden utilizarlo

José Antonio De La Paz Fonseca

student•

Ojalá actualicen el curso

Gonzalo Peñaranda

student•

Eso mismo iba a comentar.

Sobre todo, reenfocarlo según los conceptos más recientes, además de cómo impactaría la IA en él.

ROMMEL DUAREZ SAENZ

student•

si pongo un balanceador de carga al inicio que cuente las peticiones y lance la creación de VM según cantidad de peticiones? con eso no es suficiente?

J. Sebastián Botello. H.

student•

Tengo varias preguntas...

¿De que tipo es el request?, es decir... si el request es de tipo GET, cómo lo pongo en la "cola" y al mismo tiempo envió un código de respuesta HTTP. El usuario va a recibir el error, pero la petición no respondió la información que esperaba, el usuario va a volver a enviar la petición.

En el caso de que nunca se detenga el proceso, y cada segundo entren de a dos peticiones, cómo en el ejemplo. Entonces ahí... ¿?

¿Exactamente para que tipo de peticiones el Throttling y RetryPolicies se aplicaría?

¿La escalabilidad dónde estaría...? ¿Una vez llegado a un tope de peticiones se abre una réplica o algo similar?

Brandon Rivera

student•

Buenas, me gustaría compartir con ustedes un diagrama donde creo complementa los challenges antes mencionados. Estoy abierto a cualquier feedback para mejorar 💚.

Primero explicar que utilizo las bases de datos de SQL Server y DynamoDB. La primera para la escritura y la segunda para lectura ya que tiene un sistema de filtrado que funciona como las tablas hash, haciendo eficiente el querying.
Segundo uso los servicios de SNS y SQS para realizar un patrón Pub-Sub en donde por cada review insertada está también la manda hasta DynamoDB.
Tercero y último utilizo AWS Step Functions para aplicar un patrón de saga que funciona como una máquina de estados en la que se verifica la autenticación, el backoff, etc. (aquí se puede hacer otro diagrama low level para ser más especificos)

Aquí dejo recursos por si les interesa saber más:

DynamoDB:
Saga Pattern:
SNS + SQS:

Juan Pablo Meza Gazabón

student•

El status code que se podría devolver en ese caso podría ser un 429 (too many request) y no un 500 como se muestra en la clase.

Reinaldo Mendoza

student•

No logro terminar de entender como cargar el futuro con un monton de peticiones puede ser bueno, lo entiendo como solucion a un momento pero pensando en un google que creo recibira peticiones todo el tiempo no se si existan horas valle, y si los usuarios reciben peticiones negadas buscaran otro proveedor, no lo entiendo de cara al usuario final

Alejandro Lazcano

student•

Pasa todo el tiempo. No es novedad que incluso grandes cloud o plataformas tienen sus días de caída, no todo es perfecto. Debes planificar una política de reintentos por si falla una petición, durante un milisegundo o durante horas, luego al recomponerse todo se vuelva a conectar.

Por ejemplo: imaginate que estás esperando un paquete, el correo va informando a X plataforma que te notifique minuto a minuto la ubicación de ese paquete. El cartero pasa por un tunel y queda sin señal durante 10 minutos, pero al volver a la superficie va a mandar nuevamente la ubicación porque hay reintentos. Si no tuviera reintentos, no recibirías más actualizaciones, se cortaría todo.

Además es tremendamente difícil que un sistema escalable se mueva de proveedor, no es lo mismo que una app de hobby que quizás hoy tu subes a un hosting y mañana a otro, no es sencillo migrar una empresa.

Escalabilidad: Implementación de Throttling y Retry Policy

Introducción a conceptos

Arquitectura de Backend: Diseño e Implementación de Sistemas Avanzados

Conceptos Fundamentales de Back End en Arquitectura Web

Sistemas Monolíticos vs. Distribuidos en Arquitectura Backend

Componentes de un Sistema Backend Distribuido

Conexión de Componentes Backend mediante APIs

Diseño e Implementación de Sistemas Backend Prácticos

Arquitectura y planeación

Definición de Requerimientos de Negocio para Desarrolladores Backend

Creación de Documentos de Diseño de Software

Creación de Documentos de Diseño en Markdown para Proyectos de Software

Revisión Efectiva de Documentos de Diseño en Equipo

Diseño de Arquitectura de Sistemas Distribuidos

Diseño de Sistemas: Documentación de Bajo Nivel y Pruebas

Planificación de Integración Continua y Rollout de Software

Definición y aplicación del concepto "Code Complete" en proyectos software

Decisiones en Diseño de Sistemas Basados en Requerimientos del Negocio

Desarrollo e implementación

Desarrollo e Implementación de Sistemas Backend

Diseño de Entidades para Reseñas de Cámaras y Productos

Diseño e Implementación de Interfaces en C para Productos y Reseñas

Desarrollo de Pruebas Unitarias con TDD en C#

Implementación de pruebas unitarias con TDD en proyectos de software

Desarrollo de un Sistema de Reseñas en Azure

Challenges

Diseño de Servicios de Lectura Escalables y Stateless

Diseño e Implementación de un Servicio de Autenticación

Escalabilidad: Implementación de Throttling y Retry Policy

Conclusión

Preparación Profesional para Desarrolladores Back End Avanzados