Aller au contenu

Troubleshooting

Solutions aux problèmes les plus fréquents.

Symptôme : le cluster reste en statut provisioning depuis plus de 10 minutes.

Solutions :

  1. Vérifiez le statut de la plateforme
  2. Attendez encore quelques minutes — certains provisioning peuvent prendre jusqu’à 10 minutes en cas de charge
  3. Si le problème persiste, supprimez le cluster et recréez-le
  4. Contactez le support si le problème se reproduit

Symptôme : kubectl get nodes retourne connection refused ou timeout.

Solutions :

Fenêtre de terminal
# Vérifiez que le kubeconfig est bien configuré
echo $KUBECONFIG
# Vérifiez que le fichier existe et est valide
cat $KUBECONFIG | head -5
# Testez la connectivité
kubectl cluster-info
# Re-téléchargez le kubeconfig si nécessaire
deployme cluster kubeconfig mon-cluster > kubeconfig.yaml
export KUBECONFIG=$(pwd)/kubeconfig.yaml

Symptôme : kubectl get nodes montre un ou plusieurs nodes en NotReady.

Solutions :

Fenêtre de terminal
# Vérifiez les conditions du node
kubectl describe node <node-name>
# Vérifiez les événements
kubectl get events --sort-by='.lastTimestamp'

Causes fréquentes :

  • Mise à jour en cours : les nodes sont mis à jour séquentiellement, un node peut être temporairement NotReady
  • Ressources saturées : le node manque de CPU ou de mémoire
  • Problème réseau : le node ne peut pas communiquer avec le control plane

Symptôme : des pods restent en statut Pending.

Fenêtre de terminal
# Vérifiez pourquoi le pod est en Pending
kubectl describe pod <pod-name>

Causes fréquentes :

  • Ressources insuffisantes : les requests dépassent les ressources disponibles → scalez les workers
  • PersistentVolumeClaim : pas de PV disponible pour le PVC demandé
  • Affinité/Tolérations : contraintes de scheduling non satisfaites
Fenêtre de terminal
# Vérifiez les ressources disponibles
kubectl top nodes
kubectl describe nodes | grep -A 5 "Allocated resources"

Symptôme : l’agent ne se connecte pas au control plane.

Solutions :

  1. Vérifiez la connectivité sortante :

    Fenêtre de terminal
    curl -v https://api.deployme.cloud/health
  2. Vérifiez la configuration de l’agent :

    Fenêtre de terminal
    cat /etc/deployme/agent.yaml
  3. Vérifiez les logs de l’agent :

    Fenêtre de terminal
    journalctl -u deployme-agent -f
  4. Vérifiez que le token agent est valide dans le Manager

CodeMessageSolution
401UnauthorizedToken invalide ou expiré → régénérez-le
403ForbiddenPermissions insuffisantes → vérifiez les scopes
404Not FoundRessource inexistante → vérifiez l’ID
409ConflictOpération en cours → attendez et réessayez
422Validation ErrorParamètres invalides → vérifiez le body
429Too Many RequestsRate limit atteint → attendez et réessayez
503Service UnavailableMaintenance → consultez status.deployme.cloud