Monitoring

Deployme.cloud fournit des métriques intégrées dans le Manager et supporte l’intégration avec vos outils de monitoring existants.

Dashboard intégré (Manager)

Le Manager affiche en temps réel pour chaque cluster :

CPU et mémoire — utilisation par node et globale
Nombre de pods — total, running, pending, failed
État des nodes — ready, not ready, conditions
Stockage — utilisation des volumes persistants
Réseau — trafic entrant/sortant

Prometheus + Grafana

Pour un monitoring avancé, déployez Prometheus et Grafana sur votre cluster :

Installation via Helm

# Ajouter le repo Helm
helm repo add prometheus-community https://prometheus-community.github.io/helm-charts
helm repo update

# Installer le stack kube-prometheus
helm install monitoring prometheus-community/kube-prometheus-stack \
  --namespace monitoring \
  --create-namespace \
  --set grafana.adminPassword=your-password

Accéder à Grafana

kubectl port-forward -n monitoring svc/monitoring-grafana 3000:80

Ouvrez http://localhost:3000 (admin / your-password).

Dashboards recommandés

Dashboard	ID Grafana	Description
Kubernetes Cluster Monitoring	315	Vue globale du cluster
Node Exporter Full	1860	Métriques détaillées par node
Kubernetes Pods	6417	Monitoring des pods

Alerting

Exemples d’alertes Prometheus

# alerts.yaml
apiVersion: monitoring.coreos.com/v1
kind: PrometheusRule
metadata:
  name: deployme-alerts
  namespace: monitoring
spec:
  groups:
    - name: cluster
      rules:
        - alert: HighCPUUsage
          expr: 100 - (avg by(instance) (rate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
          for: 5m
          labels:
            severity: warning
          annotations:
            summary: "CPU usage above 80% on {{ $labels.instance }}"

        - alert: HighMemoryUsage
          expr: (1 - node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100 > 85
          for: 5m
          labels:
            severity: warning
          annotations:
            summary: "Memory usage above 85% on {{ $labels.instance }}"

        - alert: PodCrashLooping
          expr: rate(kube_pod_container_status_restarts_total[15m]) > 0
          for: 5m
          labels:
            severity: critical
          annotations:
            summary: "Pod {{ $labels.pod }} is crash-looping"

Logs

Pour la centralisation des logs, vous pouvez déployer :

Loki + Promtail (stack Grafana) — léger, intégré avec Grafana
Fluentd / Fluent Bit — vers un stockage externe (Elasticsearch, S3, etc.)

# Installation de Loki via Helm
helm install loki grafana/loki-stack \
  --namespace monitoring \
  --set promtail.enabled=true \
  --set grafana.enabled=false  # Utiliser le Grafana existant