Debugging de errores comunes en Kubernetes

Curso de Kubernetes

Contenido del curso

Introducción a Kubernetes

Objetos y Recursos de Kubernetes

Redes y Almacenamiento en Kubernetes

Cargas de Trabajo y Escalado

Kubernetes en la Nube

Troubleshooting, Casos de uso y Certificaciones K8s

Tomar examen

Debugging de errores comunes en Kubernetes

Resumen

Cuando despliegas aplicaciones en Kubernetes, los errores son parte del día a día. La buena noticia es que con un puñado de comandos como kubectl describe, kubectl logs y kubectl exec puedes resolver la mayoría de fallas en clusters productivos sin volverte loco. Esta guía está pensada para personas DevOps, SRE y desarrolladores que despliegan microservicios en EKS y necesitan un flujo claro de troubleshooting Kubernetes.

A lo largo del recorrido vas a ver cuatro errores reales que aparecen una y otra vez: ImagePullBackOff, errores de configuración por secretos mal nombrados, OOMKilled por límites de recursos mal calculados y problemas de conectividad de red hacia una base de datos RDS.

¿Cómo se diagnostica un error ImagePullBackOff en Kubernetes?

El primer pod del namespace backend aparece con el estado ImagePullBackOff, una señal clásica de que el kubelet no pudo descargar la imagen del contenedor [02:10].

Para confirmarlo usas kubectl describe pod <nombre> -n backend y revisas la sección de Events. Ahí el kubelet te dice exactamente qué pasó: la imagen k8s-backend:v2 no existe en el registry, porque la única versión publicada es v1.

¿Qué significa ImagePullBackOff? Es el error que aparece cuando Kubernetes intenta descargar una imagen del registry y falla repetidamente. Suele deberse a un tag inexistente, un registry privado sin credenciales o un nombre de imagen mal escrito.

La solución es directa: editar el manifiesto YAML del backend, corregir el tag a v1 y volver a aplicar con kubectl apply -f k8s/backend.yaml -n backend.

¿Por qué siempre debo especificar el namespace al aplicar un YAML?

Un detalle fácil de pasar por alto: si no incluyes -n backend en el apply, los recursos caen en el namespace default y parece que nada cambió [05:30]. Por eso conviene ser explícito en el comando o configurar un contexto por defecto que apunte al namespace correcto.

¿Cómo soluciono un error de configuración por un secret mal referenciado?

Después de corregir la imagen, el pod cambia de estado y ahora muestra CreateContainerConfigError. Vuelves a ejecutar kubectl describe pod y los eventos te dicen que el contenedor descargó la imagen, pero al iniciar no encontró el secret mysql-secret [07:45].

Al listar los secretos con kubectl get secrets -n backend descubres que el secret existe, pero se llama mysql, sin el sufijo -secret. Es un typo en el manifiesto.

Editas el YAML, reemplazas las cuatro ocurrencias de mysql-secret por mysql, aplicas de nuevo y el pod por fin entra en estado Running. Errores así son comunes en clusters productivos y por eso muchos equipos automatizan la generación de manifiestos con herramientas como Helm o Kustomize.

¿Por qué un pod entra en CrashLoopBackOff con OOMKilled?

La aplicación responde, pero el endpoint /getmyinfo devuelve vacío y al rato el pod cae en CrashLoopBackOff. El describe revela un nuevo culpable: OOMKilled, es decir, Out of Memory Killed.

En la sección de Limits y Requests del manifiesto ves valores ridículamente bajos: 5000m de CPU y 16 MB de memoria, y además los límites son iguales a los requests, sin margen para crecer.

¿Qué es OOMKilled en Kubernetes? Es la señal que envía el sistema operativo cuando un contenedor consume más memoria de la asignada en sus limits. Kubernetes lo mata y lo reinicia, generando ciclos de CrashLoopBackOff.

La corrección consiste en darle aire al pod:

Requests: 50m de CPU y 256 MB de memoria como punto de arranque.
Limits: 100m de CPU y 512 MB de memoria para permitir crecimiento.
Mantener una diferencia entre requests y limits para absorber picos.

Con esos valores el pod arranca limpio y deja de reiniciarse [13:20].

¿Cómo verifico la conectividad desde un pod hacia una base de datos RDS?

El pod ya corre, pero la API sigue respondiendo vacía y los logs no muestran errores. Toca entrar al contenedor con kubectl exec -it <pod> -n backend -- sh. Como la imagen está basada en Alpine, no trae bash, así que usas sh directamente.

Dentro del pod instalas el cliente de MySQL y revisas las variables de entorno con env | grep DB para extraer DB_USER, DB_HOST y DB_NAME. Al intentar conectarte con mysql -u $DB_USER -h $DB_HOST $DB_NAME -p, la conexión se queda colgada [17:50].

¿Qué tengo que revisar en los security groups de AWS?

El problema no está en Kubernetes sino en la red de AWS. El security group de la instancia RDS solo permitía tráfico desde una IP específica, no desde el security group de los nodos del cluster EKS.

La solución pasa por editar las reglas de entrada de la base de datos:

Identificar el security group de los nodos del cluster (no el del control plane).
Eliminar la regla con la IP fija.
Agregar una regla que permita el tráfico entrante desde el security group de los nodos.

La propagación tarda unos segundos. Al reintentar la conexión y ejecutar SELECT * FROM user_info;, los datos aparecen y la API empieza a responder con información real.

Comandos clave para hacer troubleshooting en Kubernetes

De todo el recorrido salen los comandos que conviene tener a la mano cuando algo se rompe en producción.

kubectl describe pod <nombre> -n <namespace> para leer eventos y configuración.
kubectl logs <pod> -n <namespace> para ver la salida de la aplicación.
kubectl exec -it <pod> -n <namespace> -- sh para entrar al contenedor y depurar desde dentro.
kubectl get events -n <namespace> para ver el historial de eventos del cluster.
kubectl apply -f <archivo>.yaml -n <namespace> para aplicar cambios sin olvidar el namespace.

Cada error que viste tiene un patrón claro: lee los eventos, valida el manifiesto, revisa los recursos asignados y cuando todo lo demás falla, entra al pod y prueba la conectividad manualmente. ¿Cuál de estos errores te ha tocado resolver últimamente? Cuéntalo en los comentarios.

Alfredo Olmedo

Estudiante

Troubleshooting en Kubernetes

Resolver problemas en Kubernetes requiere una metodología estructurada para diagnosticar fallas en aplicaciones, nodos, Pods, o configuraciones del clúster.

1. Diagnóstico Inicial

**Verifica los componentes básicos del clúster:**kubectl get nodes kubectl get pods -A kubectl get services -A
Identifica errores: Busca estados como CrashLoopBackOff, Pending, o Error en Pods:kubectl get pods -n <namespace>

2. Problemas Comunes y Soluciones

A. Pods en estado Pending

Esto ocurre cuando Kubernetes no puede programar el Pod en un nodo.

**Verifica los eventos del Pod:**kubectl describe pod <pod-name> -n <namespace> Busca errores como:
- Falta de recursos (Insufficient CPU o Insufficient memory).
- Problemas con los tolerations o nodos etiquetados.
Soluciones:
- Aumenta los recursos del clúster: Escala los nodos.kubectl scale nodepool <nodepool-name> --replicas=3
- Revisa los límites del Pod: Ajusta las solicitudes de recursos (requests y limits) en el manifiesto YAML.

B. Pods en CrashLoopBackOff

Esto indica que el contenedor del Pod falla repetidamente.

**Verifica los logs del Pod:**kubectl logs <pod-name> -n <namespace>
Investiga las causas comunes:
- Configuración incorrecta (variables de entorno, secretos, etc.).
- La imagen de contenedor tiene errores o está corrupta.
- El contenedor no encuentra servicios necesarios.
Soluciones:
- Revisa y corrige la configuración.
- Actualiza la imagen del contenedor.
- Verifica las dependencias del contenedor.

C. Servicios no accesibles

El servicio no responde o no expone correctamente el tráfico.

**Verifica el servicio:**kubectl describe service <service-name> -n <namespace> kubectl get endpoints -n <namespace> Asegúrate de que haya Pods disponibles en los endpoints.
Soluciones:
- Revisa las etiquetas del selector del servicio y asegúrate de que coincidan con los Pods.
- Si usas un LoadBalancer, verifica que se haya creado en el proveedor de la nube.

D. Problemas con ConfigMaps o Secrets

Errores en la configuración de aplicaciones debido a ConfigMaps o Secrets incorrectos.

**Verifica los datos:**kubectl describe configmap <configmap-name> -n <namespace> kubectl describe secret <secret-name> -n <namespace>
Soluciones:
- Corrige los datos directamente en el ConfigMap o Secret.
- Actualiza el despliegue para recargar los cambios:kubectl rollout restart deployment <deployment-name>

E. Fallas en Nodos

Un nodo puede no estar listo o tener problemas de rendimiento.

**Verifica el estado de los nodos:**kubectl get nodes kubectl describe node <node-name>
Soluciones:
- Si un nodo está en NotReady, revisa los logs de kubelet:journalctl -u kubelet
- Escala el clúster si hay nodos saturados.

3. Herramientas Útiles

Logs

Ver logs de Pods:kubectl logs <pod-name> -n <namespace>
Ver logs de un contenedor específico:kubectl logs <pod-name> -c <container-name> -n <namespace>

Describe

Obtener información detallada sobre recursos:kubectl describe <resource> <name> -n <namespace> Ejemplo:kubectl describe pod my-app -n default

Eventos del clúster

Verifica eventos recientes para detectar problemas:kubectl get events -n <namespace>

Top (Uso de recursos)

Verifica el uso de CPU y memoria:kubectl top nodes kubectl top pods -n <namespace>

4. Soluciones Proactivas

A. Liveness y Readiness Probes

Configura pruebas de vida y disponibilidad para garantizar que los contenedores se comporten como se espera:

livenessProbe: httpGet: path: /healthz port: 8080 initialDelaySeconds: 5 periodSeconds: 10

readinessProbe: httpGet: path: /ready port: 8080 initialDelaySeconds: 5 periodSeconds: 10

B. Escalabilidad

Habilita el HPA para garantizar que la aplicación escale automáticamente en función de la demanda.

C. Monitoreo

Implementa herramientas como Prometheus y Grafana para monitorear métricas del clúster.
Usa CloudWatch, Azure Monitor o Stackdriver dependiendo del proveedor.

5. Comandos de Limpieza

Elimina Pods en mal estado:kubectl delete pod <pod-name> -n <namespace>
Reinstala un Deployment:kubectl rollout restart deployment <deployment-name> -n <namespace>
Limpia todos los eventos:kubectl delete events -n <namespace>

6. Flujograma de Troubleshooting

Identifica el problema:
- Estado del Pod (Pending, CrashLoopBackOff, etc.).
- Logs o eventos relacionados.
Verifica configuraciones:
- YAML de recursos (Deployments, Services, ConfigMaps, etc.).
- Solicitudes y límites de recursos.
Soluciona y valida:
- Aplica los cambios.
- Verifica el estado del recurso actualizado.
Documenta y automatiza:
- Registra la causa raíz y la solución.
- Implementa herramientas para prevenir futuros problemas.

Debugging de errores comunes en Kubernetes

Introducción a Kubernetes

Qué es Kubernetes y cómo orquesta contenedores

Kubernetes local con Minikube y kubectl

Arquitectura de Kubernetes: nodos, pods y componentes clave

kubectl: get, describe, apply y delete

Imperativo vs declarativo en Kubernetes

Objetos y Recursos de Kubernetes

Pods, Replica Sets y Deployments en kubectl

Servicios e Ingress: Exposición de aplicaciones

ConfigMaps y Secrets en Kubernetes

Redes y Almacenamiento en Kubernetes

Modelo de red en Kubernetes: Pods y servicios

Tipos de servicios: ClusterIP, NodePort, LoadBalancer y ExternalName

PV y PVC para datos persistentes en Kubernetes

DaemonSets y StatefulSets

Cargas de Trabajo y Escalado

Desplegando frontend y backend en Minikube

Jobs y CronJobs para backups en Kubernetes

HPA vs VPA en Kubernetes con ejemplos

Escalamiento automático de pods en Kubernetes

Kubernetes en la Nube

Crea tu primer clúster en Google Kubernetes Engine

Crea tu primer clúster AKS con CLI

Crea tu primer clúster EKS con eksctl

Despliegue de app en EKS con RDS

Troubleshooting, Casos de uso y Certificaciones K8s

Debugging de errores comunes en Kubernetes

DeepSeek rodando en tu cluster Kubernetes

Certificaciones profesionales en K8s

Kubernetes: de pods a producción en la nube

Resumen