📡 Storage Systems — Chapitre 38 : Monitoring système
Première page de la Partie 12 — Observabilité et monitoring. Ce chapitre couvre le monitoring système du stockage : outils Linux, SMART, NVMe CLI, usage filesystem, RAID monitoring, LVM, multipath, SAN/Fibre Channel, iSCSI, NFS, SMB, ZFS, Btrfs, Ceph, Kubernetes storage, Prometheus exporters, Grafana dashboards, logs système, alerting, capacity planning, détection d’anomalies, runbooks incidents, SLO stockage et checklist production.
Linux tools
iostat, vmstat, dstat, sar, lsblk, smartctl : boîte à outils de base pour diagnostiquer CPU, mémoire, bloc, FS et disques.
LinuxiostatsarSMART
Santé disque, erreurs, température, secteurs réalloués, pending sectors, wear leveling, power-on hours et prédiction panne.
SMARTHealthTemperatureNVMe CLI
nvme smart-log, health, firmware, error-log, endurance, media errors, thermal throttling et namespace inventory.
NVMesmart-logFirmwareFilesystem usage
df, du, inodes, quotas, reserved blocks, fragmentation, top directories et détection croissance anormale.
dfduinodesRAID monitoring
mdadm, storcli, perccli, arcconf, MegaRAID, BBU, patrol read, rebuild, consistency check et alerting.
RAIDmdadmstorcliLVM monitoring
PV/VG/LV, thin pool metadata, snapshots, cache, usage, writecache, device mapper et alertes saturation.
LVMThin poolSnapshotsMultipath monitoring
DM-Multipath : paths actifs/passifs, ALUA, failover, queue_if_no_path, path errors et asymétrie.
MultipathALUAPathsSAN / Fibre Channel
HBA, WWPN, link errors, CRC, buffer credits, zoning, fabric events, latency et path imbalance.
SANFCHBAiSCSI monitoring
Sessions, portals, timeouts, retransmits, TCP, multipath, login errors, latency et réseau dédié.
iSCSITCPSessionsNFS monitoring
nfsstat, nfsiostat, mount stats, retrans, timeouts, rsize/wsize, nconnect, locks et server latency.
NFSnfsiostatretransSMB monitoring
smbstatus, locks, oplocks, sessions, shares, throughput, signing/encryption overhead et fichiers ouverts.
SMBsmbstatuslocksZFS monitoring
zpool status, scrub, resilver, ARC, L2ARC, SLOG, errors, fragmentation, snapshots et capacity headroom.
ZFSARCscrubBtrfs monitoring
scrub, balance, device stats, metadata fullness, snapshots, qgroups, COW overhead et space cache.
BtrfsscrubbalanceCeph monitoring
OSD, MON, MGR, PG states, recovery, backfill, slow ops, CRUSH, disk health et cluster capacity.
CephOSDPGKubernetes storage monitoring
PVC/PV, CSI, VolumeSnapshot, node disk pressure, kubelet eviction, Longhorn/Ceph/OpenEBS metrics.
K8sPVCCSIPrometheus exporters
node_exporter, smartctl_exporter, nvme_exporter, ceph exporter, blackbox, custom scripts et labels.
PrometheusExportersMetricsGrafana dashboards
Dashboards stockage : capacity, latency, IOPS, queue, SMART, RAID, NVMe, filesystems, alerts et drill-down.
GrafanaDashboardsDrill-downLogs système
journalctl, dmesg, kernel I/O errors, SCSI sense, NVMe errors, filesystem warnings et corrélation temporelle.
LogsdmesgjournalctlAlerting et seuils
Seuils critiques : capacity, inodes, latency p99, SMART failure, rebuild, snapshot growth, replication lag et backup failure.
AlertsThresholdsSLOCapacity planning
Prévoir croissance : taux quotidien, saisonnalité, headroom, thin provisioning, snapshots, compression et seuils budget.
CapacityForecastHeadroomDétection anomalies
Détecter dérives : IOPS spike, latency tail, mass delete, entropy, disk wear, temperature, noisy neighbor et runaway logs.
AnomalyDriftSpikeRunbooks incidents monitoring
Disque dégradé, FS full, inodes full, RAID rebuild, NVMe overheating, NFS timeouts, SAN path down.
RunbookIncidentTriageSLO stockage
Définir SLO/SLA : disponibilité, latence p99, capacité, RPO/RTO, restore confidence et error budget.
SLOSLAError budgetChecklist monitoring stockage
GO/NO-GO : exporters, logs, alertes, dashboards, runbooks, tests alertes, owners, escalade et preuves.
ChecklistGO/NO-GOOwnersDéfinition opérationnelle
iostat, vmstat, dstat, sar, lsblk, smartctl : boîte à outils de base pour diagnostiquer CPU, mémoire, bloc, FS et disques.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
Santé disque, erreurs, température, secteurs réalloués, pending sectors, wear leveling, power-on hours et prédiction panne.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
nvme smart-log, health, firmware, error-log, endurance, media errors, thermal throttling et namespace inventory.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
df, du, inodes, quotas, reserved blocks, fragmentation, top directories et détection croissance anormale.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
mdadm, storcli, perccli, arcconf, MegaRAID, BBU, patrol read, rebuild, consistency check et alerting.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
PV/VG/LV, thin pool metadata, snapshots, cache, usage, writecache, device mapper et alertes saturation.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
DM-Multipath : paths actifs/passifs, ALUA, failover, queue_if_no_path, path errors et asymétrie.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
HBA, WWPN, link errors, CRC, buffer credits, zoning, fabric events, latency et path imbalance.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
Sessions, portals, timeouts, retransmits, TCP, multipath, login errors, latency et réseau dédié.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
nfsstat, nfsiostat, mount stats, retrans, timeouts, rsize/wsize, nconnect, locks et server latency.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
smbstatus, locks, oplocks, sessions, shares, throughput, signing/encryption overhead et fichiers ouverts.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
zpool status, scrub, resilver, ARC, L2ARC, SLOG, errors, fragmentation, snapshots et capacity headroom.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
scrub, balance, device stats, metadata fullness, snapshots, qgroups, COW overhead et space cache.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
OSD, MON, MGR, PG states, recovery, backfill, slow ops, CRUSH, disk health et cluster capacity.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
PVC/PV, CSI, VolumeSnapshot, node disk pressure, kubelet eviction, Longhorn/Ceph/OpenEBS metrics.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
node_exporter, smartctl_exporter, nvme_exporter, ceph exporter, blackbox, custom scripts et labels.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
Dashboards stockage : capacity, latency, IOPS, queue, SMART, RAID, NVMe, filesystems, alerts et drill-down.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
journalctl, dmesg, kernel I/O errors, SCSI sense, NVMe errors, filesystem warnings et corrélation temporelle.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
Seuils critiques : capacity, inodes, latency p99, SMART failure, rebuild, snapshot growth, replication lag et backup failure.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
Prévoir croissance : taux quotidien, saisonnalité, headroom, thin provisioning, snapshots, compression et seuils budget.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
Détecter dérives : IOPS spike, latency tail, mass delete, entropy, disk wear, temperature, noisy neighbor et runaway logs.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
Disque dégradé, FS full, inodes full, RAID rebuild, NVMe overheating, NFS timeouts, SAN path down.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
Définir SLO/SLA : disponibilité, latence p99, capacité, RPO/RTO, restore confidence et error budget.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
Définition opérationnelle
GO/NO-GO : exporters, logs, alertes, dashboards, runbooks, tests alertes, owners, escalade et preuves.
Pipeline observabilité
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric source | Kernel, block layer, filesystem, controller RAID, NVMe, SMART, SAN/NAS, cloud API, application. |
| Collector | Commandes Linux, Prometheus exporters, agents, syslog, journald, SNMP, REST APIs, vendor tools. |
| Storage signals | Capacity, inodes, IOPS, latency, throughput, queue, errors, retries, temperature, wear, rebuild. |
| Correlation | Aligner métriques storage avec CPU, mémoire, réseau, application, backups, snapshots, replication and deploys. |
| Alerting | Seuils, burn rate, alert fatigue, escalation, ownership, severity, maintenance windows and deduplication. |
| Evidence | Dashboards, logs, incident timeline, commands outputs, before/after graphs and postmortem artifacts. |
Cas d’usage
- Détecter disque en pré-failure avant panne
- Diagnostiquer latence storage p99
- Prévenir filesystem full ou inodes full
- Surveiller RAID rebuild ou path SAN down
- Corréler erreurs kernel et problèmes application
- Construire dashboards NOC/SRE pour stockage
Apports
- Transforme les incidents storage en signaux actionnables
- Permet capacity planning et budget prévisible
- Réduit MTTR avec runbooks et corrélation temporelle
- Détecte dérives avant panne utilisateur
- Rend exploitation auditée et transmissible
Risques / limites
- Trop d’alertes non priorisées génèrent fatigue
- Dashboard joli mais sans owner ni runbook
- Seuils statiques non adaptés aux workloads
- Métriques hôte sans métriques baie/cloud
- Absence de test d’alerte et d’escalade réelle
Matrice de décision monitoring storage
| Question | Décision à prendre |
|---|---|
| Quel niveau observer ? | Hôte, filesystem, bloc, RAID, SAN/NAS, object, cloud, Kubernetes, application et backup. |
| Quelle métrique critique ? | Capacity, inodes, p99 latency, IOPS, throughput, error rate, SMART health, rebuild state, replication lag. |
| Quel seuil ? | Seuil statique, baseline dynamique, burn rate, seuil par workload, fenêtre temporelle et maintenance. |
| Quel owner ? | Chaque alerte doit avoir responsable, escalade, documentation, impact et runbook. |
| Quelle preuve ? | Dashboard, logs, commands output, incident timeline, ticket, postmortem et actions correctives. |
| Quel test ? | Simuler disk full, inode full, exporter down, SMART warning, path down, backup fail et vérifier escalade. |
Runbook monitoring système storage
- Inventorier disques, volumes, filesystems, RAID, SAN/NAS mounts, PVC, buckets et backups.
- Activer collecte : node_exporter, smartctl/nvme exporter, logs kernel, vendor tools, SNMP/API.
- Créer dashboards : capacity, latency, IOPS, throughput, queue, errors, health, rebuild, snapshots.
- Définir alertes critiques : disk failing, FS full, inode full, path down, RAID degraded, high p99, backup fail.
- Documenter runbook par alerte avec commandes, owner, escalade, rollback et validation.
- Tester alertes en environnement contrôlé et corriger bruit/faux positifs.
- Revoir seuils chaque trimestre avec croissance capacité et incidents réels.
# Linux storage monitoring quick checks iostat -x 1 vmstat 1 sar -d 1 lsblk -o NAME,TYPE,SIZE,ROTA,SCHED,MOUNTPOINT,FSTYPE df -hT df -ih du -xhd1 /data | sort -h journalctl -k -p warning --since "24 hours ago" dmesg -T | egrep -i "error|fail|timeout|reset|nvme|scsi|blk|xfs|ext4" # Disk / NVMe health smartctl -a /dev/sda smartctl -H /dev/sda nvme smart-log /dev/nvme0 nvme error-log /dev/nvme0 nvme list # RAID / multipath cat /proc/mdstat mdadm --detail /dev/md0 storcli /c0 show all perccli /c0 show all multipath -ll # NFS / SMB / ZFS nfsstat -m nfsiostat 1 smbstatus zpool status -v zpool iostat -v 1
