🖥️ Storage Systems — Chapitre 15 : Stockage pour hyperviseurs

Le stockage est le socle réel de la virtualisation : datastores VMware, CSV Hyper-V, ZFS/Ceph Proxmox, qcow2/raw/RBD KVM, SR Xen/XCP-ng. Cette page densifie les choix techniques, critères de performance, snapshots, backup integration, HA, live migration, réseau stockage, sécurité et runbooks incidents pour concevoir une plateforme hyperviseur robuste.

VMware vSphereHyper-VProxmoxKVM / libvirtXen / XCP-ngBackup / HA / Latency

15.1

VMware vSphere

Datastores VMFS, NFS, vSAN, VVOLs : architecture, policies, multipathing, snapshots, HA/DRS et backup integration.

VMFSNFSvSAN

15.2

Hyper-V

CSV, SMB3, Storage Spaces Direct, ReFS, VHDX, checkpoints, Failover Cluster, MPIO et backup VSS.

CSVSMB3S2D

15.3

Proxmox

ZFS, Ceph, LVM-thin, NFS, iSCSI : choix de stockage, HA, snapshots, backups PBS et clusters.

ZFSCephLVM-thin

15.4

KVM / libvirt

qcow2, raw, LVM, Ceph RBD, virtio-scsi, discard, cache modes, snapshots, live migration et storage pools.

qcow2rawRBD

15.5

Xen / XCP-ng

SR, NFS, iSCSI, local storage, VDI/VHD, multipath, snapshots, XOA backup et pools Xen.

SRNFSiSCSI

15.6

Critères importants

IOPS, latency, queue depth, snapshot consistency, backup integration, HA, migration, datastore locking et RPO/RTO.

IOPSLatencyBackup

15.7

Types de datastores

Local, shared, distributed, object-backed, block-backed, file-backed : avantages, limites et cas d’usage.

LocalSharedDistributed

15.8

Formats disques VM

VMDK, VHDX, qcow2, raw, VDI : thin/thick, sparse, snapshots chains, fragmentation et conversion.

VMDKVHDXqcow2

15.9

Snapshots & cohérence

Snapshots hyperviseur, storage snapshots, application-consistent, crash-consistent, quiescing, VSS et guest agents.

SnapshotsVSSQuiesce

15.10

Backup hyperviseurs

Veeam, Proxmox Backup Server, XOA, agentless backup, CBT, Changed Block Tracking, immutable repositories.

VeeamPBSCBT

15.11

HA & migrations

Live migration, vMotion, Storage vMotion, Hyper-V Live Migration, Proxmox migration, shared-nothing et constraints.

vMotionLive MigrationHA

15.12

Performance storage VM

Datastore latency, guest latency, cache, write amplification, sync writes, queue depth, multipath et noisy neighbor.

p99Queue depthCache

15.13

Réseau stockage

NFS/iSCSI/SMB3/vSAN/Ceph networks, VLAN, MTU, RDMA, multipath, isolation et monitoring réseau.

iSCSINFSRDMA

15.14

Sécurité stockage VM

Encryption at rest, VM encryption, datastore ACL, RBAC, secrets, ransomware protection, secure delete et isolation tenants.

EncryptionRBACRansomware

15.15

Virtualisation & Kubernetes

VMs et pods : CSI, Tanzu, OpenShift Virtualization, KubeVirt, Portworx, Longhorn, RBD/CephFS et migration hybride.

CSIKubeVirtTanzu

15.16

Matrice de décision

Choisir stockage pour hyperviseur selon taille, budget, HA, performance, backup, compétences et stratégie VMware/proxmox/cloud.

DecisionTCOHA

15.17

Runbooks incidents

Datastore full, snapshot bloqué, VM stun, latency spike, path down, backup failed, corruption chain, restore urgent.

IncidentRestoreLatency

15.18

Checklist production

Préprod hyperviseur : datastore design, HA, backup restore, snapshots, monitoring, network, multipath, capacity et documentation.

Prod-readyAuditChecklist

15.1 VMware vSphere : VMFS, NFS, vSAN, VVOLs

Stockage vSphere

vSphere peut consommer du stockage local, SAN bloc, NFS, vSAN ou VVOLs. Le choix impacte directement HA, vMotion, snapshots, backup, performance, coût et complexité. Le stockage est au cœur de la disponibilité des VMs.

Point clé : vSphere sépare datastore, fichiers VM, policies, multipathing et intégration backup. Un datastore est une abstraction, pas seulement un disque.

Vue logique

VM→VMDK→Datastore→VMFS/NFS/vSAN/VVOL→Storage backend

Type	Nature	Forces	Points d’attention
VMFS	Filesystem cluster sur LUN bloc.	Classique SAN, robuste, multi-host.	Multipath, LUN sizing, queue depth.
NFS	Datastore fichier réseau.	Simple, flexible, NAS.	Réseau, locking, latence.
vSAN	Stockage distribué HCI.	Policies par VM, intégré vSphere.	Réseau et licences.
VVOLs	Volumes par VM exposés par baie.	Granularité VM côté baie.	Support VASA/provider.

Sur SAN bloc, ESXi utilise des chemins multiples vers les LUN. Les policies comme Round Robin, Fixed ou Most Recently Used dépendent du type de baie et des recommandations constructeur.

Vérifier tous les chemins actifs/standby.
Valider ALUA et preferred paths.
Surveiller datastore latency et path failover.
Aligner firmware HBA/driver/array.

VADP/CBT pour backup agentless.
Snapshots VMware courts, jamais rétention longue.
Application-aware backup pour DB/AD.
Immutable repository externe.
Test restore VM complet et fichiers.

# ESXi shell examples
esxcli storage filesystem list
esxcli storage core path list
esxcli storage nmp device list
esxtop  # storage views : d/u/v
vmkfstools -P /vmfs/volumes/datastore1

15.2 Hyper-V : CSV, SMB3, Storage Spaces Direct

Hyper-V peut utiliser stockage local, volumes CSV dans un cluster, SMB3, SAN iSCSI/FC, ou Storage Spaces Direct pour HCI. Le format disque principal est VHDX, généralement sur NTFS/ReFS.

VM→VHDX→CSV / SMB3 / S2D→Storage backend

Concept	Rôle
Cluster Shared Volumes	Volumes partagés par les nœuds Hyper-V.
Coordinator node	Nœud propriétaire logique du CSV.
Redirected I/O	Chemin alternatif si accès direct indisponible.
ReFS	Clones rapides, intégration Hyper-V.

Hyper-V supporte les VMs stockées sur partages SMB3 si la plateforme fournit continuous availability, SMB Multichannel, permissions correctes et réseau adapté.

SMB Multichannel pour débit/résilience.
SMB Direct/RDMA si disponible.
Kerberos et permissions constrained delegation si nécessaire.
Monitoring latency côté host et file server.

Storage Spaces Direct agrège des disques locaux entre nœuds Windows Server/Azure Local. Il fournit une architecture HCI Microsoft avec resiliency, tiers, cache et volumes partagés.

S2D exige matériel validé, réseau solide, firmware cohérent et procédures de maintenance strictes.

Get-ClusterSharedVolume
Get-VMHardDiskDrive -VMName VM01
Get-VHD -Path "C:\ClusterStorage\Volume1\VM01\disk.vhdx"
Get-StoragePool
Get-PhysicalDisk
Get-ClusterNode

15.3 Proxmox : ZFS, Ceph, LVM-thin, NFS, iSCSI

Proxmox VE supporte de nombreux backends : local directory, LVM, LVM-thin, ZFS, NFS, iSCSI, Ceph RBD, CephFS. Ce choix définit snapshot, HA, migration, backup et performance.

Proxmox est très flexible, mais cette flexibilité exige de bien comprendre quel backend supporte quoi.

Backend	Snapshots	Shared	Usage
ZFS local	Oui	Non natif	Standalone, réplication ZFS.
Ceph RBD	Oui	Oui	Cluster HA, live migration.
LVM-thin	Oui	Non	Local performant.
NFS	Dépend backend	Oui	ISO, backups, VM selon perf.
iSCSI	Selon couche dessus	Oui	SAN bloc.

Checksums, snapshots, compression.
Très bon pour serveur standalone ou petits clusters avec réplication.
Exige RAM, disques fiables, scrub.
Attention sync writes et SLOG pour certains workloads.

zpool status
zfs list
pvesm status
qm config 100

Ceph intégré à Proxmox permet un stockage distribué partagé. Il facilite HA et migration, mais demande réseau, monitoring, capacity headroom et compétences Ceph.

ceph -s
ceph osd tree
pveceph status
rbd ls -p vm-pool

Proxmox Backup Server fournit sauvegarde dédupliquée, incrémentale, vérification, chiffrement et restauration fine. C'est presque indispensable pour une production Proxmox sérieuse.

15.4 KVM / libvirt : qcow2, raw, LVM, Ceph RBD

KVM/libvirt consomme du stockage via storage pools : directory, filesystem, LVM, iSCSI, NFS, Ceph RBD, GlusterFS selon stack. Les formats courants sont raw et qcow2.

Guest VM→virtio-blk/scsi→qcow2/raw/RBD→Storage pool

Format	Forces	Limites
raw	Simple, performant, prévisible.	Pas de snapshots internes riches.
qcow2	Snapshots, thin, compression optionnelle.	Overhead possible, chains à surveiller.
RBD	Distribué Ceph, snapshots, clones.	Complexité Ceph.
LVM	Bloc local robuste.	Moins flexible sans couche cluster.

cache=none : souvent recommandé pour éviter double cache.
cache=writeback : performant mais risques si mal protégé.
io=native ou io_uring selon versions.
discard/unmap pour thin provisioning.

virsh pool-list --all
virsh vol-list default
virsh domblklist vm01
qemu-img info disk.qcow2
qemu-img convert -O raw disk.qcow2 disk.raw
virtio-scsi + discard/unmap for thin reclaim

La migration live est simple avec stockage partagé ; en shared-nothing, il faut copier le disque pendant la migration, ce qui augmente durée, réseau et risque de rollback.

15.5 Xen / XCP-ng : SR, NFS, iSCSI, local storage

Xen/XCP-ng organise le stockage autour des Storage Repositories, ou SR. Un SR peut être local, NFS, iSCSI, Fibre Channel, LVM, EXT, ZFS selon intégrations. Les disques VM sont des VDI.

VM→VDI→SR→NFS/iSCSI/local

SR	Usage	Attention
Local	Standalone, lab, edge.	HA/migration limitées.
NFS	Partage simple.	Latence réseau/NAS.
iSCSI/FC	SAN bloc partagé.	Multipath, LUN masking.
SMB	Selon version/support.	Compatibilité.

Xen Orchestra/XOA fournit backup, delta backup, continuous replication selon édition/configuration, orchestration et visibilité des pools. Les tests de restauration restent essentiels.

xe sr-list
xe vdi-list sr-uuid=
xe pbd-list
xe vm-disk-list vm=
xe sr-scan uuid=

15.6 Critères importants : IOPS, latency, queue depth, snapshot consistency, backup integration

IOPSpeak

Charge par VM et datastore.

Latencyp99

Ressenti VM.

Queuedepth

Host/HBA/backend.

Backuprestore

RPO/RTO réels.

Critère	Question de design
HA	Les VMs doivent-elles redémarrer ailleurs automatiquement ?
Migration	Live migration sans downtime ou migration à froid ?
Snapshots	Crash-consistent ou application-consistent ?
Backup	Agentless, guest-aware, immutable repository ?
Performance	DB, VDI, file server, generic VM ?
Capacity	Thin provisioning, snapshots, croissance 24 mois ?

Ne jamais juger un stockage VM uniquement au débit séquentiel.
La latence p95/p99 est plus révélatrice que la moyenne.
Snapshots longs dégradent performance et augmentent risque.
Un datastore full est un incident critique.
Tester restore avant de valider le design.

15.7 Types de datastores : local, shared, distributed

Type	Avantage	Limite	Usage
Local	Simple, rapide, économique.	HA/migration limitées.	Standalone, edge, lab.
Shared block	HA et migration.	SAN/multipath.	Clusters enterprise.
Shared file	Simple à partager.	Latence réseau/locking.	NFS/SMB datastores.
Distributed	Scale-out, HCI.	Réseau critique.	vSAN, Ceph, S2D.
Object-backed	Archive/backup/images.	Pas disque VM direct classique.	Backup, templates, cloud images.

Local si la simplicité et la latence locale priment.
Shared si HA/live migration indispensable.
Distributed si scale-out/HCI souhaité.
Object pour backups, archives, images, pas datastores transactionnels.

Un stockage partagé mal dimensionné peut être moins fiable qu'un stockage local bien sauvegardé. La HA ne remplace pas la performance, la sauvegarde ni les tests restore.

15.8 Formats disques VM : VMDK, VHDX, qcow2, raw, VDI

Format	Plateforme	Forces	Risques
VMDK	VMware	Écosystème vSphere.	Snapshot chains à surveiller.
VHDX	Hyper-V	Robuste, ReFS, grandes tailles.	Checkpoints longs.
qcow2	KVM/Proxmox	Thin, snapshots, clones.	Overhead/chains.
raw	KVM/Proxmox	Simple, performant.	Moins de fonctions intégrées.
VDI	Xen/XCP-ng	Intégré SR.	Dépend tooling.

Thin économise capacité au départ mais risque datastore full.
Thick est plus prévisible mais consomme immédiatement.
Lazy/eager zeroing impacte préparation/performance selon plateforme.
Surveiller provisioned vs used.

# KVM examples
qemu-img info disk.qcow2
qemu-img convert -p -O raw disk.qcow2 disk.raw
qemu-img convert -p -O qcow2 disk.raw disk.qcow2

# Toujours valider boot, drivers, UUID, fstab, bootloader après migration

15.9 Snapshots & cohérence : hyperviseur, storage, application

Type	Description	Usage
Crash-consistent	État comme coupure courant.	VM stateless ou systèmes robustes.
Application-consistent	Guest quiesced, VSS/fsfreeze.	DB, AD, applications critiques.
Storage snapshot	Snapshot côté backend.	Rapide, intégré baie/SDS.
Hypervisor snapshot	Delta chain côté hyperviseur.	Maintenance courte, backup temporaire.

Un snapshot de VM n'est pas une sauvegarde. Un snapshot long peut dégrader fortement la performance et compliquer la restauration.

Durée courte.
Nommer avec raison et date.
Surveiller consolidation.
Vérifier espace datastore.
Ne pas snapshoter une DB critique sans cohérence applicative.

Pour obtenir une cohérence applicative, l'hyperviseur ou l'outil backup demande au guest de flusher filesystem et applications. Sous Windows, VSS coordonne writers ; sous Linux, on utilise agents, scripts ou fsfreeze selon cas.

15.10 Backup hyperviseurs : Veeam, PBS, XOA, CBT, immutabilité

Approche	Avantage	Limite
Agentless hypervisor	Simple, VM-level.	Guest app consistency à configurer.
Agent in guest	Très applicatif.	Gestion agents.
Storage snapshot integrated	Rapide, faible impact.	Dépend backend.
Replication	RTO réduit.	Pas remplacement backup.

Veeam : très présent sur VMware/Hyper-V/Nutanix/Proxmox selon versions.
Proxmox Backup Server : déduplication, incrémental, vérification.
Xen Orchestra/XOA : backups XCP-ng/Xen.
Restic/Borg agents : complément fichiers/applications.

Les repositories de backup doivent être isolés et immuables. Sinon, un compte compromis peut supprimer la dernière ligne de défense.

Tester restore VM complète.
Tester restore fichier.
Tester restore applicatif DB/AD.
Mesurer RTO/RPO réel.
Documenter procédure et écarts.

15.11 HA & migrations : vMotion, Live Migration, Proxmox migration

Fonction	Besoin stockage
HA restart	VM accessible depuis autre hôte ou restaurable vite.
Live migration compute	Stockage partagé ou disque non déplacé.
Storage migration	Copie disque entre datastores.
Shared-nothing migration	Copie mémoire + disque, plus longue.

vMotion nécessite réseau rapide et compatibilité CPU.
Storage vMotion déplace VMDK entre datastores.
HA nécessite datastores accessibles ou vSAN conforme.

Hyper-V Live Migration avec CSV/SMB/S2D ou shared-nothing.
Proxmox migration live plus simple avec stockage partagé/Ceph.
Local storage demande réplication ou déplacement disque.

15.13 Réseau stockage : NFS, iSCSI, SMB3, vSAN, Ceph

Protocole	Ports/flux	Point critique
NFS	Client vers NAS	Latence, locking, throughput.
iSCSI	TCP block	MPIO, VLAN, jumbo cohérent.
SMB3	File server	Multichannel/RDMA, auth.
vSAN/Ceph	East-west	Réseau cluster critique.

Réseau stockage séparé ou QoS stricte.
Redondance switches/uplinks.
MTU cohérent bout-en-bout.
Surveiller drops, retransmits, latency.
Ne pas mélanger backup massif et storage critique sans contrôle.

iperf3 -c storage01
ping -s 8972 -M do storage01
ethtool -S eth0
ss -ti
mtr storage01

15.16 Matrice de décision stockage hyperviseurs

Besoin	Option pertinente	Attention
Petit standalone	ZFS/local SSD/NVMe	Backup externe obligatoire.
Cluster VMware	VMFS SAN, NFS, vSAN	Coût/licences/compatibilité.
Cluster Proxmox HA	Ceph RBD	Réseau/ops Ceph.
Hyper-V enterprise	CSV/S2D/SMB3	Design Windows cluster.
XCP-ng	NFS/iSCSI + XOA	SR et backup à valider.

Combien d'hôtes ?
Live migration obligatoire ?
Quel outil backup ?
Quelle latence p99 acceptable ?
Quel budget 3-5 ans ?
Quelle compétence interne ?

Score = HA + performance + backup/restore + coût + simplicité ops + migration + support + sortie possible

15.18 Checklist production stockage hyperviseurs

Contrôle	OK ?	Note
Backend adapté au SLA	☐	Local/shared/distributed.
HA/live migration testés	☐	Pas seulement configurés.
Capacité avec headroom	☐	Snapshots + croissance.
Multipath/réseau redondant	☐	SAN/NFS/iSCSI/Ceph/vSAN.
Monitoring latency	☐	Guest + datastore + backend.

Backup externe immuable.
Test restore VM complet.
Application-aware pour DB/AD.
RPO/RTO mesurés.
Repository isolé des admins hyperviseur si possible.

Runbook datastore full.
Runbook snapshot bloqué.
Runbook path down.
Procédure upgrade hyperviseur/storage.
Inventaire VMs/datastores/backends.

NO-GO si : pas de restore testé, datastore déjà >80%, snapshots non gouvernés, réseau storage non monitoré, aucun runbook, backup sur même stockage que les VMs.

Noisy neighbor	Une VM consomme trop d'I/O.
Snapshots longs	Chaines delta et consolidation.
Datastore full	Thin provisioning dangereux.
Path down	Multipath réduit.
Network storage saturated	NFS/iSCSI/SMB/Ceph/vSAN impactés.

Tanzu	Kubernetes intégré écosystème VMware.
OpenShift Virtualization	VMs via KubeVirt dans OpenShift.
KubeVirt	VMs dans Kubernetes.
Portworx/Longhorn/Ceph CSI	Stockage persistant pods.