Project Oxygen & Ideo-LabIDEO LAB Dashboard 2026

🖥️ Storage Systems — Chapitre 15 : Stockage pour hyperviseurs

Le stockage est le socle réel de la virtualisation : datastores VMware, CSV Hyper-V, ZFS/Ceph Proxmox, qcow2/raw/RBD KVM, SR Xen/XCP-ng. Cette page densifie les choix techniques, critères de performance, snapshots, backup integration, HA, live migration, réseau stockage, sécurité et runbooks incidents pour concevoir une plateforme hyperviseur robuste.

VMware vSphereHyper-VProxmoxKVM / libvirtXen / XCP-ngBackup / HA / Latency
15.1

VMware vSphere

Datastores VMFS, NFS, vSAN, VVOLs : architecture, policies, multipathing, snapshots, HA/DRS et backup integration.

VMFSNFSvSAN
15.2

Hyper-V

CSV, SMB3, Storage Spaces Direct, ReFS, VHDX, checkpoints, Failover Cluster, MPIO et backup VSS.

CSVSMB3S2D
15.3

Proxmox

ZFS, Ceph, LVM-thin, NFS, iSCSI : choix de stockage, HA, snapshots, backups PBS et clusters.

ZFSCephLVM-thin
15.4

KVM / libvirt

qcow2, raw, LVM, Ceph RBD, virtio-scsi, discard, cache modes, snapshots, live migration et storage pools.

qcow2rawRBD
15.5

Xen / XCP-ng

SR, NFS, iSCSI, local storage, VDI/VHD, multipath, snapshots, XOA backup et pools Xen.

SRNFSiSCSI
15.6

Critères importants

IOPS, latency, queue depth, snapshot consistency, backup integration, HA, migration, datastore locking et RPO/RTO.

IOPSLatencyBackup
15.7

Types de datastores

Local, shared, distributed, object-backed, block-backed, file-backed : avantages, limites et cas d’usage.

LocalSharedDistributed
15.8

Formats disques VM

VMDK, VHDX, qcow2, raw, VDI : thin/thick, sparse, snapshots chains, fragmentation et conversion.

VMDKVHDXqcow2
15.9

Snapshots & cohérence

Snapshots hyperviseur, storage snapshots, application-consistent, crash-consistent, quiescing, VSS et guest agents.

SnapshotsVSSQuiesce
15.10

Backup hyperviseurs

Veeam, Proxmox Backup Server, XOA, agentless backup, CBT, Changed Block Tracking, immutable repositories.

VeeamPBSCBT
15.11

HA & migrations

Live migration, vMotion, Storage vMotion, Hyper-V Live Migration, Proxmox migration, shared-nothing et constraints.

vMotionLive MigrationHA
15.12

Performance storage VM

Datastore latency, guest latency, cache, write amplification, sync writes, queue depth, multipath et noisy neighbor.

p99Queue depthCache
15.13

Réseau stockage

NFS/iSCSI/SMB3/vSAN/Ceph networks, VLAN, MTU, RDMA, multipath, isolation et monitoring réseau.

iSCSINFSRDMA
15.14

Sécurité stockage VM

Encryption at rest, VM encryption, datastore ACL, RBAC, secrets, ransomware protection, secure delete et isolation tenants.

EncryptionRBACRansomware
15.15

Virtualisation & Kubernetes

VMs et pods : CSI, Tanzu, OpenShift Virtualization, KubeVirt, Portworx, Longhorn, RBD/CephFS et migration hybride.

CSIKubeVirtTanzu
15.16

Matrice de décision

Choisir stockage pour hyperviseur selon taille, budget, HA, performance, backup, compétences et stratégie VMware/proxmox/cloud.

DecisionTCOHA
15.17

Runbooks incidents

Datastore full, snapshot bloqué, VM stun, latency spike, path down, backup failed, corruption chain, restore urgent.

IncidentRestoreLatency
15.18

Checklist production

Préprod hyperviseur : datastore design, HA, backup restore, snapshots, monitoring, network, multipath, capacity et documentation.

Prod-readyAuditChecklist
15.1 VMware vSphere : VMFS, NFS, vSAN, VVOLs
Stockage vSphere

vSphere peut consommer du stockage local, SAN bloc, NFS, vSAN ou VVOLs. Le choix impacte directement HA, vMotion, snapshots, backup, performance, coût et complexité. Le stockage est au cœur de la disponibilité des VMs.

Point clé : vSphere sépare datastore, fichiers VM, policies, multipathing et intégration backup. Un datastore est une abstraction, pas seulement un disque.
Vue logique
VMVMDKDatastoreVMFS/NFS/vSAN/VVOLStorage backend
TypeNatureForcesPoints d’attention
VMFSFilesystem cluster sur LUN bloc.Classique SAN, robuste, multi-host.Multipath, LUN sizing, queue depth.
NFSDatastore fichier réseau.Simple, flexible, NAS.Réseau, locking, latence.
vSANStockage distribué HCI.Policies par VM, intégré vSphere.Réseau et licences.
VVOLsVolumes par VM exposés par baie.Granularité VM côté baie.Support VASA/provider.

Sur SAN bloc, ESXi utilise des chemins multiples vers les LUN. Les policies comme Round Robin, Fixed ou Most Recently Used dépendent du type de baie et des recommandations constructeur.

  • Vérifier tous les chemins actifs/standby.
  • Valider ALUA et preferred paths.
  • Surveiller datastore latency et path failover.
  • Aligner firmware HBA/driver/array.
  • VADP/CBT pour backup agentless.
  • Snapshots VMware courts, jamais rétention longue.
  • Application-aware backup pour DB/AD.
  • Immutable repository externe.
  • Test restore VM complet et fichiers.
# ESXi shell examples
esxcli storage filesystem list
esxcli storage core path list
esxcli storage nmp device list
esxtop  # storage views : d/u/v
vmkfstools -P /vmfs/volumes/datastore1
15.2 Hyper-V : CSV, SMB3, Storage Spaces Direct

Hyper-V peut utiliser stockage local, volumes CSV dans un cluster, SMB3, SAN iSCSI/FC, ou Storage Spaces Direct pour HCI. Le format disque principal est VHDX, généralement sur NTFS/ReFS.

VMVHDXCSV / SMB3 / S2DStorage backend
ConceptRôle
Cluster Shared VolumesVolumes partagés par les nœuds Hyper-V.
Coordinator nodeNœud propriétaire logique du CSV.
Redirected I/OChemin alternatif si accès direct indisponible.
ReFSClones rapides, intégration Hyper-V.

Hyper-V supporte les VMs stockées sur partages SMB3 si la plateforme fournit continuous availability, SMB Multichannel, permissions correctes et réseau adapté.

  • SMB Multichannel pour débit/résilience.
  • SMB Direct/RDMA si disponible.
  • Kerberos et permissions constrained delegation si nécessaire.
  • Monitoring latency côté host et file server.

Storage Spaces Direct agrège des disques locaux entre nœuds Windows Server/Azure Local. Il fournit une architecture HCI Microsoft avec resiliency, tiers, cache et volumes partagés.

S2D exige matériel validé, réseau solide, firmware cohérent et procédures de maintenance strictes.
Get-ClusterSharedVolume
Get-VMHardDiskDrive -VMName VM01
Get-VHD -Path "C:\ClusterStorage\Volume1\VM01\disk.vhdx"
Get-StoragePool
Get-PhysicalDisk
Get-ClusterNode
15.3 Proxmox : ZFS, Ceph, LVM-thin, NFS, iSCSI

Proxmox VE supporte de nombreux backends : local directory, LVM, LVM-thin, ZFS, NFS, iSCSI, Ceph RBD, CephFS. Ce choix définit snapshot, HA, migration, backup et performance.

Proxmox est très flexible, mais cette flexibilité exige de bien comprendre quel backend supporte quoi.
BackendSnapshotsSharedUsage
ZFS localOuiNon natifStandalone, réplication ZFS.
Ceph RBDOuiOuiCluster HA, live migration.
LVM-thinOuiNonLocal performant.
NFSDépend backendOuiISO, backups, VM selon perf.
iSCSISelon couche dessusOuiSAN bloc.
  • Checksums, snapshots, compression.
  • Très bon pour serveur standalone ou petits clusters avec réplication.
  • Exige RAM, disques fiables, scrub.
  • Attention sync writes et SLOG pour certains workloads.
zpool status
zfs list
pvesm status
qm config 100

Ceph intégré à Proxmox permet un stockage distribué partagé. Il facilite HA et migration, mais demande réseau, monitoring, capacity headroom et compétences Ceph.

ceph -s
ceph osd tree
pveceph status
rbd ls -p vm-pool

Proxmox Backup Server fournit sauvegarde dédupliquée, incrémentale, vérification, chiffrement et restauration fine. C'est presque indispensable pour une production Proxmox sérieuse.

15.4 KVM / libvirt : qcow2, raw, LVM, Ceph RBD

KVM/libvirt consomme du stockage via storage pools : directory, filesystem, LVM, iSCSI, NFS, Ceph RBD, GlusterFS selon stack. Les formats courants sont raw et qcow2.

Guest VMvirtio-blk/scsiqcow2/raw/RBDStorage pool
FormatForcesLimites
rawSimple, performant, prévisible.Pas de snapshots internes riches.
qcow2Snapshots, thin, compression optionnelle.Overhead possible, chains à surveiller.
RBDDistribué Ceph, snapshots, clones.Complexité Ceph.
LVMBloc local robuste.Moins flexible sans couche cluster.
  • cache=none : souvent recommandé pour éviter double cache.
  • cache=writeback : performant mais risques si mal protégé.
  • io=native ou io_uring selon versions.
  • discard/unmap pour thin provisioning.
virsh pool-list --all
virsh vol-list default
virsh domblklist vm01
qemu-img info disk.qcow2
qemu-img convert -O raw disk.qcow2 disk.raw
virtio-scsi + discard/unmap for thin reclaim

La migration live est simple avec stockage partagé ; en shared-nothing, il faut copier le disque pendant la migration, ce qui augmente durée, réseau et risque de rollback.

15.5 Xen / XCP-ng : SR, NFS, iSCSI, local storage

Xen/XCP-ng organise le stockage autour des Storage Repositories, ou SR. Un SR peut être local, NFS, iSCSI, Fibre Channel, LVM, EXT, ZFS selon intégrations. Les disques VM sont des VDI.

VMVDISRNFS/iSCSI/local
SRUsageAttention
LocalStandalone, lab, edge.HA/migration limitées.
NFSPartage simple.Latence réseau/NAS.
iSCSI/FCSAN bloc partagé.Multipath, LUN masking.
SMBSelon version/support.Compatibilité.

Xen Orchestra/XOA fournit backup, delta backup, continuous replication selon édition/configuration, orchestration et visibilité des pools. Les tests de restauration restent essentiels.

xe sr-list
xe vdi-list sr-uuid=
xe pbd-list
xe vm-disk-list vm=
xe sr-scan uuid=
15.6 Critères importants : IOPS, latency, queue depth, snapshot consistency, backup integration
IOPSpeak

Charge par VM et datastore.

Latencyp99

Ressenti VM.

Queuedepth

Host/HBA/backend.

Backuprestore

RPO/RTO réels.

CritèreQuestion de design
HALes VMs doivent-elles redémarrer ailleurs automatiquement ?
MigrationLive migration sans downtime ou migration à froid ?
SnapshotsCrash-consistent ou application-consistent ?
BackupAgentless, guest-aware, immutable repository ?
PerformanceDB, VDI, file server, generic VM ?
CapacityThin provisioning, snapshots, croissance 24 mois ?
  • Ne jamais juger un stockage VM uniquement au débit séquentiel.
  • La latence p95/p99 est plus révélatrice que la moyenne.
  • Snapshots longs dégradent performance et augmentent risque.
  • Un datastore full est un incident critique.
  • Tester restore avant de valider le design.
15.7 Types de datastores : local, shared, distributed
TypeAvantageLimiteUsage
LocalSimple, rapide, économique.HA/migration limitées.Standalone, edge, lab.
Shared blockHA et migration.SAN/multipath.Clusters enterprise.
Shared fileSimple à partager.Latence réseau/locking.NFS/SMB datastores.
DistributedScale-out, HCI.Réseau critique.vSAN, Ceph, S2D.
Object-backedArchive/backup/images.Pas disque VM direct classique.Backup, templates, cloud images.
  • Local si la simplicité et la latence locale priment.
  • Shared si HA/live migration indispensable.
  • Distributed si scale-out/HCI souhaité.
  • Object pour backups, archives, images, pas datastores transactionnels.
Un stockage partagé mal dimensionné peut être moins fiable qu'un stockage local bien sauvegardé. La HA ne remplace pas la performance, la sauvegarde ni les tests restore.
15.8 Formats disques VM : VMDK, VHDX, qcow2, raw, VDI
FormatPlateformeForcesRisques
VMDKVMwareÉcosystème vSphere.Snapshot chains à surveiller.
VHDXHyper-VRobuste, ReFS, grandes tailles.Checkpoints longs.
qcow2KVM/ProxmoxThin, snapshots, clones.Overhead/chains.
rawKVM/ProxmoxSimple, performant.Moins de fonctions intégrées.
VDIXen/XCP-ngIntégré SR.Dépend tooling.
  • Thin économise capacité au départ mais risque datastore full.
  • Thick est plus prévisible mais consomme immédiatement.
  • Lazy/eager zeroing impacte préparation/performance selon plateforme.
  • Surveiller provisioned vs used.
# KVM examples
qemu-img info disk.qcow2
qemu-img convert -p -O raw disk.qcow2 disk.raw
qemu-img convert -p -O qcow2 disk.raw disk.qcow2

# Toujours valider boot, drivers, UUID, fstab, bootloader après migration
15.9 Snapshots & cohérence : hyperviseur, storage, application
TypeDescriptionUsage
Crash-consistentÉtat comme coupure courant.VM stateless ou systèmes robustes.
Application-consistentGuest quiesced, VSS/fsfreeze.DB, AD, applications critiques.
Storage snapshotSnapshot côté backend.Rapide, intégré baie/SDS.
Hypervisor snapshotDelta chain côté hyperviseur.Maintenance courte, backup temporaire.
Un snapshot de VM n'est pas une sauvegarde. Un snapshot long peut dégrader fortement la performance et compliquer la restauration.
  • Durée courte.
  • Nommer avec raison et date.
  • Surveiller consolidation.
  • Vérifier espace datastore.
  • Ne pas snapshoter une DB critique sans cohérence applicative.

Pour obtenir une cohérence applicative, l'hyperviseur ou l'outil backup demande au guest de flusher filesystem et applications. Sous Windows, VSS coordonne writers ; sous Linux, on utilise agents, scripts ou fsfreeze selon cas.

15.10 Backup hyperviseurs : Veeam, PBS, XOA, CBT, immutabilité
ApprocheAvantageLimite
Agentless hypervisorSimple, VM-level.Guest app consistency à configurer.
Agent in guestTrès applicatif.Gestion agents.
Storage snapshot integratedRapide, faible impact.Dépend backend.
ReplicationRTO réduit.Pas remplacement backup.
  • Veeam : très présent sur VMware/Hyper-V/Nutanix/Proxmox selon versions.
  • Proxmox Backup Server : déduplication, incrémental, vérification.
  • Xen Orchestra/XOA : backups XCP-ng/Xen.
  • Restic/Borg agents : complément fichiers/applications.
Les repositories de backup doivent être isolés et immuables. Sinon, un compte compromis peut supprimer la dernière ligne de défense.
  1. Tester restore VM complète.
  2. Tester restore fichier.
  3. Tester restore applicatif DB/AD.
  4. Mesurer RTO/RPO réel.
  5. Documenter procédure et écarts.
15.11 HA & migrations : vMotion, Live Migration, Proxmox migration
FonctionBesoin stockage
HA restartVM accessible depuis autre hôte ou restaurable vite.
Live migration computeStockage partagé ou disque non déplacé.
Storage migrationCopie disque entre datastores.
Shared-nothing migrationCopie mémoire + disque, plus longue.
  • vMotion nécessite réseau rapide et compatibilité CPU.
  • Storage vMotion déplace VMDK entre datastores.
  • HA nécessite datastores accessibles ou vSAN conforme.
  • Hyper-V Live Migration avec CSV/SMB/S2D ou shared-nothing.
  • Proxmox migration live plus simple avec stockage partagé/Ceph.
  • Local storage demande réplication ou déplacement disque.
15.12 Performance storage VM : latency, queue depth, cache
Guestlat

Vu dans la VM.

Datastorep99

Backend hyperviseur.

Queuedepth

Host/HBA/virtual disk.

Snapshotchain

Impact delta files.

Noisy neighborUne VM consomme trop d'I/O.
Snapshots longsChaines delta et consolidation.
Datastore fullThin provisioning dangereux.
Path downMultipath réduit.
Network storage saturatedNFS/iSCSI/SMB/Ceph/vSAN impactés.
# Dans une VM de test uniquement
fio --name=vm-randrw --filename=/data/testfile --size=20G --rw=randrw --rwmixread=70 --bs=4k --iodepth=32 --numjobs=4 --direct=1 --time_based --runtime=120 --group_reporting

# Corréler guest latency + hypervisor latency + backend metrics
15.13 Réseau stockage : NFS, iSCSI, SMB3, vSAN, Ceph
ProtocolePorts/fluxPoint critique
NFSClient vers NASLatence, locking, throughput.
iSCSITCP blockMPIO, VLAN, jumbo cohérent.
SMB3File serverMultichannel/RDMA, auth.
vSAN/CephEast-westRéseau cluster critique.
  • Réseau stockage séparé ou QoS stricte.
  • Redondance switches/uplinks.
  • MTU cohérent bout-en-bout.
  • Surveiller drops, retransmits, latency.
  • Ne pas mélanger backup massif et storage critique sans contrôle.
iperf3 -c storage01
ping -s 8972 -M do storage01
ethtool -S eth0
ss -ti
mtr storage01
15.14 Sécurité stockage VM : encryption, RBAC, ransomware
  • RBAC hyperviseur strict.
  • Chiffrement VM/datastore si données sensibles.
  • Isolation tenants et datastores.
  • Accès backup séparés.
  • Logs admin vers SIEM.
  • Secure delete lors de sortie VM si nécessaire.
Un compte admin hyperviseur compromis peut supprimer snapshots, chiffrer VMs, supprimer backups accessibles et couper la production. Séparer droits, MFA, bastion et immutabilité sont essentiels.

Les clés de chiffrement, credentials backup, access keys S3 et comptes hyperviseurs doivent être gérés comme secrets critiques, pas stockés dans scripts en clair.

15.15 Virtualisation & Kubernetes : CSI, Tanzu, OpenShift Virtualization, KubeVirt

Les architectures modernes mélangent VMs et containers. Le stockage doit servir à la fois VMDK/VHDX/qcow2 et volumes CSI pour pods. Les migrations se font workload par workload.

TanzuKubernetes intégré écosystème VMware.
OpenShift VirtualizationVMs via KubeVirt dans OpenShift.
KubeVirtVMs dans Kubernetes.
Portworx/Longhorn/Ceph CSIStockage persistant pods.
  • Garder VM pour legacy stable.
  • Moderniser apps candidates containers.
  • Séparer storage VM et storage pods si SLO différents.
  • Tester backup/restore des deux mondes.
15.16 Matrice de décision stockage hyperviseurs
BesoinOption pertinenteAttention
Petit standaloneZFS/local SSD/NVMeBackup externe obligatoire.
Cluster VMwareVMFS SAN, NFS, vSANCoût/licences/compatibilité.
Cluster Proxmox HACeph RBDRéseau/ops Ceph.
Hyper-V enterpriseCSV/S2D/SMB3Design Windows cluster.
XCP-ngNFS/iSCSI + XOASR et backup à valider.
  • Combien d'hôtes ?
  • Live migration obligatoire ?
  • Quel outil backup ?
  • Quelle latence p99 acceptable ?
  • Quel budget 3-5 ans ?
  • Quelle compétence interne ?
Score = HA + performance + backup/restore + coût + simplicité ops + migration + support + sortie possible
15.17 Runbooks incidents stockage hyperviseurs
Datastore full = incident critique : VMs suspendues, snapshots impossibles, corruption possible.
  1. Stopper snapshots/backups non critiques.
  2. Identifier VMs/snapshots gros consommateurs.
  3. Libérer capacité validée ou étendre datastore.
  4. Consolider snapshots prudemment.
  5. Vérifier logs et état VMs.
  1. Identifier VM et chaîne snapshot.
  2. Vérifier espace datastore.
  3. Éviter reboot sauvage.
  4. Lancer consolidation selon plateforme.
  5. Valider backup récent avant action risquée.
  1. Comparer plusieurs VMs/datastores.
  2. Vérifier path down ou réseau storage.
  3. Vérifier backup/rebuild/resync en cours.
  4. Identifier noisy neighbor.
  5. Corréler backend metrics.
  1. Définir point de restauration.
  2. Restaurer isolé si possible.
  3. Valider boot et application.
  4. Basculer réseau/DNS.
  5. Documenter RTO/RPO.
15.18 Checklist production stockage hyperviseurs
ContrôleOK ?Note
Backend adapté au SLALocal/shared/distributed.
HA/live migration testésPas seulement configurés.
Capacité avec headroomSnapshots + croissance.
Multipath/réseau redondantSAN/NFS/iSCSI/Ceph/vSAN.
Monitoring latencyGuest + datastore + backend.
  • Backup externe immuable.
  • Test restore VM complet.
  • Application-aware pour DB/AD.
  • RPO/RTO mesurés.
  • Repository isolé des admins hyperviseur si possible.
  • Runbook datastore full.
  • Runbook snapshot bloqué.
  • Runbook path down.
  • Procédure upgrade hyperviseur/storage.
  • Inventaire VMs/datastores/backends.
NO-GO si : pas de restore testé, datastore déjà >80%, snapshots non gouvernés, réseau storage non monitoré, aucun runbook, backup sur même stockage que les VMs.