Optimización de Swarm: Mantenimiento, Logs y Monitoreo Avanzado

Clase 23 de 24 • Curso de Swarm

Contenido del curso

Conceptos básicos

Primeros pasos

Administrando Servicios

Swarm avanzado

Swarm productivo

Conclusiones

24
Escalabilidad con Docker Swarm: listo para millones
00:52 min

Tomar examen

Resumen

Si vas a usar Docker Swarm en producción, evita caídas y downtime con tres prácticas clave: housekeeping de disco, gestión de logs y monitoreo. Aquí se explican riesgos reales, cómo mitigarlos con modo global, elegir log drivers y limitar su tamaño, además de visualizar métricas con herramientas probadas.

¿Cómo hacer housekeeping de disco en Docker Swarm?

Mantener limpio el disco es crítico. Aunque los servicios parezcan stateless, bajo el capó se acumulan imágenes y capas en cada nodo, y con deployments frecuentes el espacio se agota. Swarm depende del algoritmo Raft, por lo que un nodo sin disco puede degradar el clúster.

Implementa un servicio de cleanup que borre imágenes sin contenedores activos y contenedores detenidos tras N tiempo.
Ejecútalo en todos los nodos con modo global. Así siempre habrá un contenedor limpiando por nodo.
Conéctalo al Docker daemon vía el socket para usar comandos como eliminación de imágenes y contenedores.
Recuerda: las imágenes son locales a cada host. No se gestionan desde el plano de Swarm.

¿Qué es el modo global y cuándo usarlo?

El modo global asegura una tarea por nodo, incluido cualquier nodo nuevo que se una. Es perfecto para utilidades de sistema como cleanup. A diferencia de mode replicated, no defines réplicas; defines cobertura total por nodo.

docker service ls

Verás servicios comunes en mode replicated y, para la limpieza, en mode global. Esto garantiza que cada host mantenga su disco bajo control.

¿Por qué “stateless” no evita llenar disco?

Con muchas versiones y rollouts, los layers se acumulan. Al cabo de días o semanas, el disco puede llenarse. Sin espacio, el Docker daemon no descarga nuevas imágenes ni escribe metadatos, y el nodo puede quedar inutilizable.

¿Cómo limitar y enrutar los logs en Swarm?

Los logs también consumen disco. Un servicio ruidoso como un pinger puede crecer sin control y bloquear el nodo. La elección del log driver importa: necesitas ver logs desde Swarm y, a la vez, limitar su tamaño.

json-file es el predeterminado y junto con journald soporta docker service logs.
También puedes enviar logs a Logstash de AWS, Splunk o syslog de Linux.
Si quieres ver los logs vía Swarm, usa journald o json-file y configura límites.

¿Qué configuración mínima evita sorpresas?

Define rotación con tamaño y conteo de archivos. Ejemplo: un máximo de 1 MB y 2 archivos. Cuando el segundo llega a 1 MB, se borra el primero y se reinicia el ciclo. Así garantizas que un servicio nunca supere el espacio asignado a logs.

¿Cuándo usar servicios externos de logs?

Cuando necesites centralización, búsqueda y retención amplia, envía logs a Logstash, Splunk o syslog. Aun así, mantén límites locales para que un pico de logs no consuma todo el disco del host.

¿Qué monitoreo necesitas para un Swarm productivo?

Además de fijar límites de CPU y RAM por servicio, necesitas ver qué sucede. Sin visibilidad no hay diagnóstico. El enfoque recomendado es adoptar monitoreo desde el primer día y activar alertas.

Usa herramientas abiertas como Prometheus con Grafana y CI2. Permiten tableros y alertas por Slack.
Considera opciones de pago como Datadog o New Relic si buscas menos mantenimiento.
Visualiza estrés por nodo, consumo por servicio y eventos del clúster.
Principio clave: no puedes arreglar lo que no puedes ver.

¿Qué prácticas incorporar desde el primer día?

Definir límites de CPU y RAM por servicio. Evita acaparamiento de recursos.
Desplegar tableros de métricas y alertas operativas. Reacciona a tiempo.
Probar escenarios de disco lleno por logs. Verifica que la rotación funciona.
Auditar la limpieza periódica en todos los nodos. Evita acumulación silenciosa.

¿Qué estrategia de limpieza, logs y monitoreo estás aplicando en tu Swarm? Comparte tu enfoque y dudas en los comentarios.

Comentarios

Nicolas Molina

teacher•

docker service create -d \
-e CLEAN_PERIOD=900 \
-e DELAY_TIME=600 \
--log-driver json-file \
--log-opt max-size=1m \
--log-opt max-file=2 \
--name=cleanup \
--mode global \
--mount type=bind,source=/var/run/docker.sock,target=/var/run/docker.sock \
meltwater/docker-cleanup

Carlos Enrique Ramírez Flores

student•

Las 3 cosas importantes!

Mantener limpio el entorno de docker con una herramienta global de clean-up
Tener en cuenta cómo se van administrar los logs de las aplicaciones
Tener una herramienta de visualización

++"Si no lo ves no lo puedes arreglar"++

Abraham Martínez Ponce

student•

Creo que fue un buen curso, en lo personal ya uso swarm productivo y mejoro mucho mi disponibilidad, y estos tres puntos me los enfrente también.

Creo que hacen falta mas ejemplos de alzar los contenedores como stacks y no como services, los modos de deploy y en lo personal me parece mejor la solución de un reverse proxy con nginx y no con traefik.

PD. Buen curso, claro y conciso.

Juan David Gómez Escobar

student•

Gracias por tu aporte sería genial si puedes explicar un poco por qué prefieres nginx por encima de traefik, yo he usado traefik y el hecho que sea docker friendly lo hace muy simple, pero la verdad no constó mucho de nginx como reverse proxy

Yohan Estiven Arias Vasquez

student•

Totalmente de acuerdo contigo, el reverse proxy con nginx pinta mejor por la flexibilidad y la robustes que ofrece

DAVID EDUARDO BAEZ SANCHEZ

student•

Muy buenos concejos y herramientas para nuestro entorno productivo en swarm.

docker service create -d \
-e CLEAN_PERIOD=900 \
-e DELAY_TIME=600 \
--log-driver json-file \
--log-opt max-size=1m \
--log-opt max-file=2 \
--name=cleanup \
--mode global \
--mount type=bind,source=/var/run/docker.sock,target=/var/run/docker.sock \
meltwater/docker-cleanup

docker service ls

Sergio Alexander Florez Galeano

student•

Está genial el cleaner, es un problema que suelo tener constantemente, voy a implementarlo en mis servicios productivos :). Algo que quizas me genera inquietud es que el proyecto parece abandonado https://github.com/meltwater/docker-cleanup, hace 3 años no se actualiza.

Gonzalo Amador Hernández

student•

Quizas sea por el feature de docker llamado prune, con un solo comando te desas de lo que ya no se esta utilizando:

docker system prune

eliminas de todo, contenedores detenidos, redes sin uso, imagenes, cache, solo que no estoy seguro, porque se tiene que correr en cada uno de los nodos

source:

Oscar Adolfo Vargas López

student•

el tema de la limpieza es importante tanto por disponibilidad, adminisración y sobre todo si nos estamos en un Cloud podemos sufrir con el tema de disco
para administrar los logs se podrian enviar a s3 cada hora o dia y es muchos mas economico respecto a la cantidad almacenada.
para graficas de monitoreo tambien existe la posibilidad de instalar agente como datadog, AWS Cloudwatch o Dynatrace

Gonzalo Amador Hernández

student•

WOW Guido es un verdadero ninga de docker y swarm!!!!

Braulio Agustín Firpo Banegas

student•

prometheus + grafana: es MUY BUEN COMBO

Hans Arias

student•

Muchas gracias por el curso, realmente aprendi muchisimo, sobre swarm, ahora si, mi proximo express ya es con kubernetes.

Alberto Gurrion

student•

¿En la práctica se podría considerar que docker swarm puede competir contra kubernetes?

Learning Cleverit

student•

crack que clase tan brutal saludos desde venezuela

Diego Alexander Leon Duarte

student•

Un profesor de excelente calidad. Que gusto ver tus cursos Guido, realmente siento que aprendo!

Usuario anónimo

user•

Muy buen curso su forma de explicar ayuda a mucho aentender los comando ejecutados y los beneficios de manejar el swarm y las herramientas de mas como las metricas

Jesus David Posada Escobar

student•

Excelente curso

Pablo Aquino

student•

docker system prune -a 
docker volume prune

Con estos comandos podemos mantener limpio nuestra arquitectura docker.

Juan

student•

dijo que el docker deamon se baja las imagenes? tenia entendido que el deamon hace el management , y que el containerd era el que hacia pull a las imagenes… alguien me confirma?

Juan Camilo Sarmiento Reyes

student•

Antes de crear un contenedor, el docker deamon revisa que la imagen este en tu equipo (loca, productivo, instancia de algún proveedor, etc), si la imagen no está, es bajada desde el repositorio de imágenes configurado. Entonces es el propio docker deamond el que baja las imágenes.

Alexander Henry Obispo Buendia

student•

Me encantó el curso.

Wilson Fernando Antury Torres

student•

Problema Docker housekeeping : Hay que hacer mantenimiento del espacio en disco.
Lo que hace es crear un servicio global que podrá tomar las imágenes que no tengan un contenedor y contenedores inactivos por un tiempo y los borra.
Este servicio estará en cada nodo.
Hay que tener una herramienta de monitoreo de mis servicios.

Juan Camilo Sarmiento Reyes

student•

Me encantó este curso. Desde el introductorio con docker hasta swarm, uff excelente

docker service create -d \
-e CLEAN_PERIOD=900 \
-e DELAY_TIME=600 \
--log-driver json-file \
--log-opt max-size=1m \
--log-opt max-file=2 \
--name=cleanup \
--mode global \
--mount type=bind,source=/var/run/docker.sock,target=/var/run/docker.sock \
meltwater/docker-cleanup

docker service create -d \
-e CLEAN_PERIOD=900 \
-e DELAY_TIME=600 \
--log-driver json-file \
--log-opt max-size=1m \
--log-opt max-file=2 \
--name=cleanup \
--mode global \
--mount type=bind,source=/var/run/docker.sock,target=/var/run/docker.sock \
meltwater/docker-cleanup

docker service ls

Optimización de Swarm: Mantenimiento, Logs y Monitoreo Avanzado

Conceptos básicos

Docker Swarm sin gastar dinero en la nube

Escalando Docker con Docker Swarm

Por qué Docker Swarm es esencial para producción

Arquitectura de Docker Swarm: managers y workers

Los 12 factores para aplicaciones en Docker Swarm

Primeros pasos

Instalación de Docker en Mac, Ubuntu y Windows

Cómo iniciar Docker Swarm en tu máquina

Creando servicios en Docker Swarm

Cómo funciona docker service ps internamente

Qué es Play with Docker para practicar

Creando un Docker Swarm multinodo real

Administrando Servicios

Docker Swarm: escalado y rolling updates

Gestión de actualizaciones y fallos en Docker Swarm

Cómo exponer servicios Docker Swarm

Swarm avanzado

Cómo Docker Swarm enruta tráfico sin perder peticiones

Docker Swarm constraints: dónde correr cada tarea

Cómo drenar nodos en Docker Swarm sin downtime

Redes Overlay en Docker Swarm: Comunicación entre Servicios

Docker Stack: automatiza despliegues multinodo

Implementación de Reverse Proxy con Traefik en Docker Swarm

Swarm productivo

Implementación de Docker Swarm en Producción: Arquitectura y Gestión

Administración de Swarm con Portainer: Gestión y Despliegue

Optimización de Swarm: Mantenimiento, Logs y Monitoreo Avanzado

Conclusiones

Escalabilidad con Docker Swarm: listo para millones