Resiliencia y pruebas en sistemas de alta concurrencia

Clase 5 de 17 • Audiocurso de Fundamentos de Arquitectura de Alta Concurrencia

Contenido del curso

Introducción a alta concurrencia

Escalabilidad

Herramientas

Seguridad

13
Cómo manejar ataques DDOS en alta concurrencia
02:37 min

Protocolos

14
gRPC o REST en alta concurrencia
02:43 min

Negocios y casos de uso

Conclusiones

17
Conclusiones
02:07 min

Tomar examen

Resumen

Cuando una aplicación enfrenta miles de solicitudes simultáneas, no basta con que funcione correctamente: necesita resistir fallos, distribuir carga y recuperarse de problemas sin afectar la experiencia del usuario. Lograr esa capacidad de resistencia implica combinar estrategias de escalamiento, servicios externos y pruebas rigurosas que validen el comportamiento bajo presión.

¿Cómo mejorar la resiliencia con escalamiento y CDN?

La resiliencia es la capacidad de un sistema para seguir operando incluso cuando alguno de sus componentes falla. Garantizarla al cien por ciento es difícil, pero existen métodos probados para acercarse a ese objetivo [0:15].

El primer paso es elegir bien entre escalamiento vertical y escalamiento horizontal. El escalamiento vertical consiste en hacer más grande un único servidor (más RAM, más CPU), mientras que el escalamiento horizontal implica crear múltiples copias de la aplicación distribuidas en varios servidores. La diferencia es crítica: si escalas verticalmente y ese servidor falla, toda la plataforma cae. Con escalamiento horizontal, las demás instancias absorben el tráfico [4:25].

Otro recurso fundamental es el uso de un CDN (Content Distribution Network) [1:00]. Un CDN actúa como un proxy ubicado delante de la aplicación que cachea contenido estático en servidores distribuidos geográficamente. De esta forma:

La mayoría del tráfico se sirve sin llegar a tus servidores.
Reduces la necesidad de escalar tu infraestructura propia.
Los usuarios reciben respuestas más rápidas desde un servidor cercano.

¿Qué tipos de pruebas validan un sistema de alta concurrencia?

Probar la aplicación no es solo verificar que devuelva resultados correctos; también significa medir cuánta carga puede soportar antes de degradarse [1:42].

¿Qué papel juegan el unit testing y el end-to-end testing?

El unit testing permite simular distintos casos de uso de forma automatizada. Cada vez que subes cambios al repositorio, estas pruebas se ejecutan automáticamente, lo que evita que una nueva feature rompa funcionalidades existentes [1:50].

El end-to-end testing va un paso más allá: prueba la aplicación de forma completa para asegurar que todas las partes funcionen bien en conjunto [2:20]. Sin embargo, ninguna de estas pruebas mide la capacidad real de la aplicación para recibir tráfico masivo.

¿Qué es el stress testing y por qué es imprescindible?

Para medir esa capacidad se recurre al stress testing (también llamado load testing) [2:42]. Esta técnica utiliza herramientas especializadas que simulan cientos o miles de usuarios interactuando con la aplicación al mismo tiempo. No es lo mismo que tú hagas clic manualmente: se trata de automatizar quinientas personas simultáneas haciendo peticiones para observar cómo responde el sistema. Los resultados permiten dimensionar correctamente los recursos que la aplicación necesita en la nube [3:18].

¿Cómo proteger la aplicación ante fallos de CPU o memoria en producción?

Una vez en producción, problemas como un leak de memoria o un consumo excesivo de CPU pueden tumbar la plataforma completa si dependes de un solo servidor [3:30].

La solución más efectiva combina escalamiento horizontal con sistemas de orquestación como Kubernetes [4:50]. Kubernetes permite definir lo que se conoce como health checks: un path específico en la aplicación que el orquestador consulta constantemente para verificar si la instancia está lista para recibir tráfico [5:00].

El flujo funciona así:

Si una instancia tiene el CPU saturado, el health check empieza a fallar.
El orquestador detecta que esa instancia no está disponible.
El tráfico se redirige automáticamente a otras instancias saludables.
La instancia problemática puede reiniciarse o reemplazarse sin afectar a los usuarios.

Esta combinación de múltiples copias de la aplicación más health checks automatizados es la forma más común y robusta de enfrentar problemas de alta concurrencia en entornos reales de producción [5:30].

Si has enfrentado situaciones similares en tus proyectos, comparte qué estrategias te han funcionado mejor para mantener tu aplicación en pie bajo presión.

Comentarios

Gonzalo Amador Hernández

student•

Para garantizar la Resiliencia de un sistema, debemos probar nuestro systema, desde la app hasta la infra de nuestra appa, para esto podemos hacer uso de estas dos grandes teorias:

Functional Testing Son los tests que se llevan acabo para probar la funcionalidad de los features desarrollados de la app, podemos desarrollar por ej:

Unit Testing
Integration Testing
end to end testing

Non-Functional Testing Estos son los tests que se llevan acabo en la aplicacion ya desplegada, no en produccion sino un hambiente controlado, lo mas parecido a prod, por ejemplo:

Performance Testing o pruebas de stress: donde medimos la capacidad de nuestra app de respodenr normalmente bajo una carga de stress
Recovery Testing: comprobamos que tan bien un sistema se recupera de un fallo de hardware
Security testing

Alexander Sencion Cespedes

student•

grande chee!

Alexis Dorado Muñoz

student•

Gracias por tomarte el trabajo de publicar este amplio aporte.

Kevin Andrés Torrecilla Martínez

student•

no paga que sea un audiocurso, quiero video

Juan Sebastián Ricaurte Macías

student•

Y con ejemplos concretos, es una entrevista más que un curso.

Eduardo José Gil Apastillar

student•

A mí me parece bien, de hecho dicen que es un podcast, esta perfecto si quieres aprender la teoría, de hecho todo esto es teoría.

Omar Alvarez

student•

Algunas herramientas para hacer pruebas de carga o de estres podrian revisar estas:

Apache JMeter
Locust
k6
Gatling

Dany live

student•

y LoadNinja de smartbear y Blazemeter

Alexis Dorado Muñoz

student•

No conocía K6, gracias.

Sebastián Ospino

student•

Resiliencia y pruebas efectivas

CDN → Content delivery network
- Son redes de servidores distribuidas a lo largo del mundo que nos permiten cachear contenido estático y pesado
- Funciona como un proxy delante de nuestra aplicación que recibe cierto tráfico, si la petición que recibe cierto nodo de la CDN está buscando cierto contenido que se encuentra en el nodo, entonces este último responde con este contenido y evita que llegue este tráfico a los servidores de la aplicación
Pruebas funcionales → verificar que el sistema funcione correctamente y que cumpla con los requerimientos funcionales, se deben hacer antes de mandar a producción, en ambientes controlados que simulan producción
- Unit testing
  - Debe ser automatizado
- End to end testing
  - Todas las partes del sistema deben funcionar en conjunto
- Integration testing
  - Prueba entre la integración de dos o más componentes del sistema
Pruebas no funcionales → Se hacen en ambientes controlados que simulan al de producción
- Recovery testing
  - Simular caídas y recuperaciones del sisema
- Stress test
  - Simular muchas peticiones o usuarios para medir qué tan bien soporta el sistema estas cargas
    - Apache Jmeter es una herramienta popular para esto
  - Permite identificar capacidad máxima y estimar estrategias de escalabilidad y desempeño
- Seguridad
  - Simular ataques comunes o clásicos
El escalamiento horizontal es una buena forma de prevenir errores y tener resistencia a caídas
- Kubernetes es un orquestador de servidores
- El orquestador permite redireccionar tráfico

Alexis Dorado Muñoz

student•

¡Muy completo y bien estructurado tu aporte! Me gusta la claridad con la que defines cada tipo de prueba y las herramientas que mencionas. Quizás podrías añadir ejemplos de cómo aplicarlas en un caso real para hacerlo aún más práctico.

Alfredo Olmedo

student•

Load Testing, básicamente es un DoS con buenas intenciones que ayuda en la detección y reacción de los servidores y tecnología para anticiparnos a eventos no deseados

Juan David Cajamarca Acuña

student•

¿Cómo podemos garantizar la resiliencia en un sistema de alta concurrencia? Podemos implementar métodos para mejorar la resiliencia de nuestra aplicación.

Ya hemos tocado el tema de escalamiento vertical, escalamiento horizontal y cuándo usar cada uno; esto ya nos ayudará muchísimo a la hora de afrontar problemas en alta concurrencia. Después hay varios servicios externos que nos pueden ayudar; el más común, es el CDN (Content Delivery Network) que nos permite hostear o cachear generalmente contenido estático en servidores externos a los nuestros. Básicamente trabaja como un proxy delante de nuestra aplicación, el cual que va a recibir la mayoría del tráfico y va a servir el contenido para los clientes sin que todo el tráfico llegue a nuestros servidores. Con esto, la necesidad de escalamiento disminuye ya que la mayoría del tráfico no la recibirían nuestros servidores.

¿Cómo se prueba de manera efectiva y eficiente un sistema de alta concurrencia? Para comenzar, primero hay que asegurarnos de que nuestra aplicación funcione bien (pruebas unitarias y end to end testing). A la hora de medir la capacidad de nuestra aplicación para recibir tráfico, tenemos que acudir al stress testing. El stress testing usa diferentes herramientas para simular tráfico a nuestra aplicación, tráfico como si fuesen muchos usuarios al mismo tiempo. Hay muchos sistemas que pueden ayudarnos en esto, y esto es muy importante a la hora de medir los recursos que nuestra aplicación necesita para correr en la nube.

¿Cómo protegernos de las caídas de los recursos en producción? Esto está muy relacionado con el escalamiento vertical y horizontal. Si escalamos nuestra aplicación monolita verticalmente, al final seguiremos teniendo un solo servidor; si dicho servidor falla y se cae, toda la aplicación dejará de funcionar.

Esta es otra de las ventajas del escalamiento horizontal: al nosotros tener diferentes copias de nuestra aplicación corriendo, podemos asegurarnos de que si uno de los recursos comienza a fallar, los otros estarán disponibles para recibir el tráfico. Esta sería la principal forma de protegernos de las caídas de recursos (leak de memoria, uso excesivo de CPU, etc.).

Hay sistemas de orquestamiento de recursos (el más común es Kubernetes) que nos permiten definir health checks, que sería básicamente definir un path de nuestra aplicación para que nuestro orquestador sepa si el recurso está listo para recibir tráfico o no. En caso de que un recurso tenga un leak de memoria o un uso excesivo de CPU, el health check comenzará a fallar por lo que el orquestador no le enviará tráfico.

Esta es la forma más común de escalar horizontalmente y la forma más común de enfrentar este problema en alta concurrencia.

Pablo Aquino

student•

Para mejorar la resiliencia de los servidores en alta concurrencia, usara CDN(Content Distribution Network), nos permite hostear o cachear contenido estático de nuestro servidores.
Stress Testing, para medir la carga de trátfico de nuestra aplicación, Orquestadores para alta disponiblidad como kubernetes.

Omar Alvarez

student•

Cristian Andres España Carpio

student•

Un CDN, o Content Delivery Network, es una red de servidores distribuidos geográficamente que trabaja para entregar contenido estático (como imágenes, videos y archivos JavaScript) de manera más rápida y eficiente a los usuarios. Al utilizar un CDN, los datos se almacenan en múltiples ubicaciones (nodos), permitiendo que el tráfico se redirija al servidor más cercano al usuario, reduciendo así la latencia y mejorando la velocidad de carga de las páginas. Esto es especialmente útil en sistemas de alta concurrencia, ya que alivia la carga en los servidores principales.

Daniel Eduardo Rojas Pulido

student•

Muy buen resumen, gracias, me ha quedado muy claro el concepto

Ernesto Jose Gabriel Lopez Bravo

student•

Con los load testing hay que tener cuidado, se deben hacer, solo hay que estar seguro que el load test no afecte a otros servicios que comparten infraestructura, de preferencia hacerlas si el ambiente esta aislado, si no están aislados se debe notificar a los que podrían verse afectados.

Gonzalo Osco Hernandez

student•

Automatizar pruebas funcionales implica realizar pruebas unitarias, pruebas de integracion y pruebas punta a punta basicamente. Es decir, hacer prueba en el codigo, pruebas en los servicios y realizar pruebas en la interfaz grafica respectivamente. Como se muestra en la piramide de automatizacion.

!Piramide de automatizacion

La forma que tiene esta grafica indica que la base son las pruebas unitarias, es decir que cuantas mas y mejor elaboradas sean, mejor. Mientras las pruebas de UI son que tenemos que se debe evitar haciendo pocas como sea posibles debido a lo costosas y fragiles que son. En otras palabras, mientras mas antes sean descubiertos los defectos en nuestro software menos costosas seran para las empresas el arreglarlos.

Tambien, se debe estar conciente que es imposible automatizar TODO debido a que implicaria un gasto enorme de implementacion y mantenimineto constante en cada ciclo de desarrollo. Es decir, estas pruebas tienen que ser eficientes y aplicadas solo a flujos robustos e importantes para el funcionamiento del sistema.

David Armando Velazquez

student•

al hacer escalabilodas horizontal es lo que se le llama redundancia?

Daniel Eduardo Rojas Pulido

student•

Así es, puedes usar kubernetes

Daniel Eduardo Rojas Pulido

student•

CDN "Content Delivery Network", para recibir la mayoría del tráfico y ayudar a nuestros servidores.

Palabras claves: Kubernetes, pruebas

Mario Ruiz

student•

Hola a todos, que herramientas recomiendan para hacer pruebas de estres?, solo se de loader io y octoperf pero hay algunas otras?

Jainelker Jesus Yepez

student•

¡Hola! Alonso :D

Te recomiendo la siguiente pagina: Test de Estrés. No olvides contarnos tu apreciacion a la comunidad 👍

¡Nunca pares de aprender! 💚

Juan Orozco

student•

Hola Mario.

Puedes realizar tus stress testing o load testing desde esta url: https://www.flood.io/

Saludos.

Alexis Dorado Muñoz

student•

¡A probar se ha dicho! Garantizando la Resiliencia con Functional & Non-Functional Testing

La resiliencia de un sistema es clave para asegurar su estabilidad y disponibilidad frente a fallos o situaciones inesperadas. Para lograrlo, es fundamental probar exhaustivamente tanto la aplicación como la infraestructura. Aquí es donde entran en juego dos grandes categorías de pruebas:

Functional Testing: Se centra en verificar que la aplicación funciona como se espera, que cada componente cumple su función y que la integración entre ellos es correcta. Algunos ejemplos son:

Unit Testing: Pruebas individuales de pequeñas unidades de código.
Integration Testing: Verificar la interacción entre diferentes módulos.
End-to-End Testing: Probar el flujo completo de la aplicación, desde la interfaz de usuario hasta la base de datos.

Non-Functional Testing: Evalúa características que no están directamente relacionadas con la funcionalidad, pero que son cruciales para la resiliencia, como el rendimiento, la seguridad y la capacidad de recuperación. Algunos ejemplos son:

Performance Testing: Simular cargas de tráfico elevadas para identificar cuellos de botella.
Recovery Testing: Probar cómo se recupera el sistema ante fallos de hardware o software.
Security Testing: Identificar vulnerabilidades que puedan comprometer la seguridad del sistema.

Implementar ambos tipos de pruebas de forma complementaria nos permite construir sistemas más robustos y confiables, capaces de afrontar los desafíos del mundo real.

Irving Juárez

student•

Kubernetes tiene sus health checks, pero es importante mencionar que todos los proovedores cloud te ayudan a escalar tus servicios de una manera mucho mas sencillas, donde tu solo especificas el limite de servidores para escalar y el parametro para escalar, ya sea poner más o menos servidores activos. En ese caso ya no es necesario preocuparnos por los health checks de kubernetes, que tiende a ser un proceso más manual

MARIA TERESA PANIAGUA RIVERA

student•

Gracias

Daniel Cristaldo

student•

CDN = Content DELIVERY Network

Juan David Acosta González

student•

Kubernetes para la gestión y el orquestamiento del escalamiento horizontal

Juan David Acosta González

student•

Tipos de pruebas de testing: unit-tech, end2end testing. Para medir la capacidad de nuestra app se utiliza el stress-testing, para simular altas tasas de tráfico. PS: CDN en ingles es: Content Delivery Network, no Content Distribution Network. Fuente: CDN.

Resiliencia y pruebas en sistemas de alta concurrencia

Introducción a alta concurrencia

Sistemas de Arquitectura de Alta Concurrencia y DevOps

Fundamentos de Arquitectura de Alta Concurrencia

Escalabilidad

Escalamiento Vertical vs Horizontal: Cuándo y Cómo Usarlos

Diferencias entre servidores Stateless y Stateful en alta concurrencia