☁️ Storage Systems — Chapitre 39 : Monitoring enterprise et cloud
Chapitre dense consacré au monitoring stockage à l’échelle entreprise et cloud : Prometheus exporters, Grafana dashboards, CloudWatch, Azure Monitor, Google Cloud Monitoring, alerting, capacity planning, SLO/SLA, multi-cloud, AWS/Azure/GCP storage metrics, object storage, backup, snapshots, réplication, sécurité, FinOps, outils constructeurs, SNMP/REST/syslog, CMDB/tags, incident management, AIOps, dashboards direction, runbooks et checklist production.
Prometheus exporters
node_exporter, smartctl_exporter, ceph_exporter : collecter métriques stockage hôte, disques, clusters et services.
PrometheusExportersMetricsGrafana dashboards
Latence, IOPS, capacité, erreurs, santé disque, saturation, snapshots, réplication et drill-down opérationnel.
GrafanaDashboardsLatencyCloud monitoring
CloudWatch, Azure Monitor, Google Cloud Monitoring : disques, buckets, files, snapshots, API, quotas et throttling.
CloudWatchAzure MonitorGCPAlerting
Capacité, erreurs disque, latence, snapshots échoués, backup failed, replication lag, public buckets et SLO burn rate.
AlertingSLOIncidentsCapacity planning
Prévision d’épuisement stockage : croissance, saisonnalité, snapshots, retention, compression, thin provisioning et budget.
CapacityForecastBudgetSLO/SLA enterprise storage
Définir objectifs : disponibilité, latence p99, RPO/RTO, restore confidence, error budget et engagements métiers.
SLOSLAError budgetMonitoring multi-cloud
Comparer AWS, Azure, GCP, OVH, Scaleway : métriques hétérogènes, tags, coûts, latence, régions et quotas.
Multi-cloudTagsRegionsAWS storage monitoring
EBS, EFS, FSx, S3 : BurstBalance, VolumeQueueLength, latency, request metrics, replication, lifecycle et costs.
AWSEBSS3Azure storage monitoring
Managed Disks, Blob, Files, NetApp Files : transactions, ingress/egress, throttling, availability, capacity et alerts.
AzureBlobDisksGoogle Cloud storage monitoring
Persistent Disk, Hyperdisk, Filestore, GCS : IOPS, throughput, latency, operations, quota, bucket metrics.
GCPGCSHyperdiskObject storage monitoring
S3-compatible : request rate, 4xx/5xx, lifecycle, Object Lock, replication lag, inventory, size, versions et delete markers.
ObjectS3APIBackup monitoring
Suivre jobs, succès/échec, durée, throughput, immutability, last restore test, RPO réel et capacity repository.
BackupRPORestoreSnapshot monitoring
Snapshots échoués, croissance, âge, orphan snapshots, consistency groups, retention, quota et coûts cachés.
SnapshotsRetentionCostsReplication monitoring
Lag, RPO réel, broken sessions, resync, bandwidth, queue, consistency, failover readiness et alertes DR.
ReplicationLagDRSecurity monitoring stockage
Buckets publics, IAM changes, KMS decrypt spike, mass delete, ransomware behavior, admin logins et policy drift.
SecurityIAMKMSFinOps monitoring stockage
Coûts stockage, egress, retrieval, API calls, snapshots, versions, orphan volumes, cold tiers et rightsizing.
FinOpsEgressRightsizingOutils constructeurs enterprise
Dell CloudIQ, NetApp Active IQ/BlueXP, HPE GreenLake/InfoSight, IBM Storage Insights, Pure1, Hitachi Ops Center.
Vendor toolsAIOpsEnterpriseSNMP, REST API et syslog
Intégrer baies, NAS, SAN switches, UPS, tape libraries : traps, polling, REST, syslog et normalisation.
SNMPRESTSyslogCMDB, tags et ownership
Relier métriques à applications, owners, coûts, environnements, criticité, RPO/RTO, data classification et tickets.
CMDBTagsOwnersIncident management
PagerDuty/Opsgenie/ServiceNow/Jira : sévérité, escalade, déduplication, maintenance windows et postmortems.
IncidentEscalationPostmortemAIOps et détection d’anomalies
Détecter dérives : seasonality, burst, p99, capacity runway, noisy neighbor, ransomware, firmware regression et forecast.
AIOpsAnomalyForecastDashboards direction / executive
Vue C-level : capacité, risque, coûts, disponibilité, cyber readiness, RPO/RTO, incidents, compliance et dette technique.
ExecutiveRiskCostRunbooks enterprise monitoring
Alertes storage : qui reçoit, quoi vérifier, comment escalader, quelle preuve collecter, comment clôturer et améliorer.
RunbookOpsEvidenceChecklist monitoring enterprise/cloud
GO/NO-GO : exporters, cloud metrics, alert routing, dashboards, tags, cost, security, RPO/RTO, owners et tests.
ChecklistGO/NO-GOCloudDéfinition opérationnelle
node_exporter, smartctl_exporter, ceph_exporter : collecter métriques stockage hôte, disques, clusters et services.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Latence, IOPS, capacité, erreurs, santé disque, saturation, snapshots, réplication et drill-down opérationnel.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
CloudWatch, Azure Monitor, Google Cloud Monitoring : disques, buckets, files, snapshots, API, quotas et throttling.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Capacité, erreurs disque, latence, snapshots échoués, backup failed, replication lag, public buckets et SLO burn rate.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Prévision d’épuisement stockage : croissance, saisonnalité, snapshots, retention, compression, thin provisioning et budget.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Définir objectifs : disponibilité, latence p99, RPO/RTO, restore confidence, error budget et engagements métiers.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Comparer AWS, Azure, GCP, OVH, Scaleway : métriques hétérogènes, tags, coûts, latence, régions et quotas.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
EBS, EFS, FSx, S3 : BurstBalance, VolumeQueueLength, latency, request metrics, replication, lifecycle et costs.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Managed Disks, Blob, Files, NetApp Files : transactions, ingress/egress, throttling, availability, capacity et alerts.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Persistent Disk, Hyperdisk, Filestore, GCS : IOPS, throughput, latency, operations, quota, bucket metrics.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
S3-compatible : request rate, 4xx/5xx, lifecycle, Object Lock, replication lag, inventory, size, versions et delete markers.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Suivre jobs, succès/échec, durée, throughput, immutability, last restore test, RPO réel et capacity repository.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Snapshots échoués, croissance, âge, orphan snapshots, consistency groups, retention, quota et coûts cachés.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Lag, RPO réel, broken sessions, resync, bandwidth, queue, consistency, failover readiness et alertes DR.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Buckets publics, IAM changes, KMS decrypt spike, mass delete, ransomware behavior, admin logins et policy drift.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Coûts stockage, egress, retrieval, API calls, snapshots, versions, orphan volumes, cold tiers et rightsizing.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Dell CloudIQ, NetApp Active IQ/BlueXP, HPE GreenLake/InfoSight, IBM Storage Insights, Pure1, Hitachi Ops Center.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Intégrer baies, NAS, SAN switches, UPS, tape libraries : traps, polling, REST, syslog et normalisation.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Relier métriques à applications, owners, coûts, environnements, criticité, RPO/RTO, data classification et tickets.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
PagerDuty/Opsgenie/ServiceNow/Jira : sévérité, escalade, déduplication, maintenance windows et postmortems.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Détecter dérives : seasonality, burst, p99, capacity runway, noisy neighbor, ransomware, firmware regression et forecast.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Vue C-level : capacité, risque, coûts, disponibilité, cyber readiness, RPO/RTO, incidents, compliance et dette technique.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
Alertes storage : qui reçoit, quoi vérifier, comment escalader, quelle preuve collecter, comment clôturer et améliorer.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link Définition opérationnelle
GO/NO-GO : exporters, cloud metrics, alert routing, dashboards, tags, cost, security, RPO/RTO, owners et tests.
Architecture monitoring enterprise
Composants à instrumenter
| Composant | Rôle / explication |
|---|---|
| Metric plane | Prometheus, cloud metrics, vendor APIs, SNMP, syslog, logs, traces and synthetic checks. |
| Data model | Labels, tags, owners, environment, region, account, workload, service tier, cost center and CMDB link. |
| Dashboards | Operational drill-down, service dashboard, capacity runway, executive risk view and FinOps view. |
| Alert routing | Severity, escalation, maintenance windows, deduplication, grouping, on-call schedule and ownership. |
| Governance | SLO/SLA, RPO/RTO, compliance evidence, audit trail, postmortem, review cadence and budget planning. |
| Automation | Runbooks, remediation scripts, IaC checks, anomaly detection, ticketing and evidence collection. |
Cas d’usage
- Surveiller un parc stockage hybride datacenter + cloud
- Centraliser alertes AWS/Azure/GCP et baies enterprise
- Prévoir saturation capacité et budget
- Suivre RPO/RTO réel et état des snapshots/backups
- Détecter incidents sécurité : buckets publics, mass delete, KMS spikes
- Produire dashboards direction et preuves d’audit
Apports
- Unifie vision technique, financière et risque
- Réduit MTTR avec alert routing et runbooks
- Améliore capacity planning et FinOps
- Rend le stockage compréhensible par métiers et direction
- Transforme observabilité en gouvernance opérationnelle
Risques / limites
- Trop de métriques sans modèle de données commun
- Tags/owners absents rendant alertes inexploitées
- Cloud metrics non corrélées avec application et coûts
- Alert fatigue si seuils et déduplication mal conçus
- Dashboards non testés en situation d’incident
Matrice de décision monitoring enterprise/cloud
| Question | Décision à prendre |
|---|---|
| Quel périmètre ? | Datacenter, cloud, multi-cloud, NAS/SAN/Object, backup, Kubernetes, databases, vendors et applications critiques. |
| Quel modèle de tags ? | owner, app, env, region, account, cost_center, data_class, service_tier, rpo, rto, retention. |
| Quelle plateforme ? | Prometheus/Grafana, cloud-native monitoring, vendor AIOps, SIEM, ITSM ou plateforme unifiée. |
| Quelles alertes ? | Capacity runway, latency p99, error rate, failed snapshots, replication lag, backup failure, public exposure, cost anomaly. |
| Quel routage ? | On-call, severity, escalation, maintenance windows, suppression rules, deduplication et ownership. |
| Quelle preuve ? | Dashboards exportés, tickets, postmortems, runbooks testés, alert history, cost reports et compliance evidence. |
Runbook monitoring enterprise/cloud
- Définir taxonomie des tags : owner, application, environnement, criticité, région, compte, coût et RPO/RTO.
- Brancher sources : Prometheus exporters, CloudWatch, Azure Monitor, Google Cloud Monitoring, vendor APIs, syslog/SNMP.
- Créer dashboards : ops, capacity, DR, security, cloud cost, executive risk et service-level views.
- Définir alertes et routage : sévérité, déduplication, maintenance, escalation et ownership.
- Tester incidents : bucket public, snapshot failed, replication lag, disk full, cost spike, exporter down.
- Collecter preuves : graphes, logs, ticket, commandes, décisions, postmortem et actions correctives.
- Revoir chaque mois : coûts, capacité, seuils, owners, dette technique et alert fatigue.
# Prometheus examples
up{job=~"node|smartctl|ceph"}
node_filesystem_avail_bytes / node_filesystem_size_bytes
rate(node_disk_read_bytes_total[5m])
rate(node_disk_written_bytes_total[5m])
node_disk_io_time_seconds_total
smartctl_device_smart_healthy
ceph_health_status
# AWS CLI examples
aws cloudwatch get-metric-statistics --namespace AWS/EBS --metric-name VolumeQueueLength --start-time 2026-01-01T00:00:00Z --end-time 2026-01-01T01:00:00Z --period 300 --statistics Average --dimensions Name=VolumeId,Value=vol-xxxx
aws s3api get-bucket-metrics-configuration --bucket my-bucket --id EntireBucket
aws backup list-backup-jobs --by-state FAILED
# Azure / GCP examples
az monitor metrics list --resource --metric "Transactions"
gcloud monitoring metrics list --filter="storage.googleapis.com"
# Alert test checklist
# 1. simulate exporter down
# 2. simulate capacity threshold
# 3. simulate failed snapshot/backup
# 4. verify routing, escalation, ticket and runbook link 