Project Oxygen & Ideo-LabIDEO LAB Dashboard 2026

🏗️ Storage Systems — Chapitre 14 : Stockage hyperconvergé

Le stockage hyperconvergé regroupe compute, storage et network dans le même cluster. Il transforme les disques locaux des nœuds en datastore distribué, fortement intégré à la virtualisation et parfois à Kubernetes. Cette page densifie : définition, solutions majeures, avantages, limites, design réseau, sizing, HA, sécurité, alternatives ouvertes, exploitation et impact des migrations VMware/Broadcom en 2026.

HCIVMware vSANNutanix AHVStorage Spaces DirectProxmox + CephVMware/Broadcom migration
14.1

Définition

Compute + storage + network dans le même cluster : les disques locaux deviennent un datastore distribué partagé.

ComputeStorageNetwork
14.2

Solutions

VMware vSAN, Nutanix, Microsoft Storage Spaces Direct, StarWind, Scale Computing, Azure Local et offres Kubernetes/HCI.

vSANNutanixS2D
14.3

Avantages

Simplicité, scalabilité nœud par nœud, intégration virtualisation, réduction SAN, provisioning rapide, exploitation unifiée.

Scale nodeVirtualizationSimplicity
14.4

Limites

Vendor lock-in, coût, réseau critique, rebuild impactant, scaling parfois couplé, design hardware strict et support obligatoire.

Lock-inCostNetwork
14.5

Impact migration VMware

En 2026, les changements VMware/Broadcom poussent beaucoup d’entreprises à réévaluer HCI, hyperviseurs et plateformes ouvertes.

VMwareBroadcomMigration
14.6

Architecture HCI

Nœuds, hyperviseur, datastore distribué, policy storage, witness/quorum, réseau east-west, cache/capacity tiers.

NodesDatastoreQuorum
14.7

Storage policies

FTT, RAID-1/5/6, dedup, compression, encryption, thin provisioning, QoS, snapshots et placement par VM/workload.

FTTRAIDPolicy
14.8

Réseau HCI

Trafic VM, management, vMotion/live migration, storage replication, witness, 10/25/100G, MTU, latency, QoS.

East-west25GQoS
14.9

Sizing & capacity

CPU/RAM/disques, cache tier, capacity tier, usable capacity, N+1/N+2, slack space, growth et rebuild budget.

SizingN+1Headroom
14.10

Performance

Latence p99, IOPS, cache hit, resync/rebuild, noisy neighbor, VM latency, queue depth, benchmark et SLO.

p99IOPSSLO
14.11

HA & résilience

Cluster HA, failure domains, witness, quorum, node failure, disk groups, stretched cluster et disaster recovery.

HAWitnessDR
14.12

Sécurité

RBAC, chiffrement, microsegmentation, TPM/Secure Boot, secrets, isolation tenants, patching et ransomware protection.

RBACEncryptionZero Trust
14.13

HCI et Kubernetes

Tanzu, OpenShift, Nutanix Karbon/NKE, Portworx, Longhorn, CSI, bare-metal K8s et hybrid apps.

KubernetesCSIOpenShift
14.14

Alternatives ouvertes

Proxmox + Ceph, OpenShift + ODF, KVM/libvirt, Harvester, OpenNebula, OpenStack, architectures composables.

ProxmoxCephOpenShift
14.15

Exploitation

Lifecycle management, firmware, rolling upgrades, capacity alerts, resync, maintenance mode, hardware replacement.

LCMUpgradeOps
14.16

Matrice de décision

Choisir vSAN, Nutanix, S2D, StarWind, Scale, Proxmox/Ceph, OpenShift/ODF selon budget, équipe et workloads.

DecisionTCOWorkloads
14.17

Runbooks incidents

Nœud down, disque mort, resync bloqué, cluster full, latence VM, split-brain/witness, upgrade raté, rollback.

IncidentResyncRecovery
14.18

Checklist production

Préprod HCI : réseau, sizing, witness, policies, backup externe, DR, monitoring, upgrades, migration plan et documentation.

Prod-readyAuditChecklist
14.1 Définition : stockage hyperconvergé
Définition opérationnelle

Le stockage hyperconvergé regroupe compute, stockage et réseau dans le même cluster. Les disques locaux des nœuds deviennent un datastore distribué utilisable par les machines virtuelles, containers ou services applicatifs. L'objectif est de supprimer ou réduire le SAN externe en intégrant le stockage directement dans la plateforme de virtualisation ou cloud privé.

Idée centrale : chaque nœud apporte CPU, RAM, réseau et capacité disque. Le cluster réplique ou encode les données entre nœuds pour survivre aux pannes.
Vue logique
VMs / PodsHypervisorDistributed datastoreLocal disks across nodes
ModèleComputeStorageComplexité
Classique 3-tierServeurs hyperviseursSAN/NAS séparéRéseau stockage, baies, zoning, LUN.
HCINœuds clusterDisques locaux agrégésPlus simple côté SAN, plus exigeant côté réseau cluster.
ComposableRessources désagrégéesPools séparésTrès flexible mais plus complexe.
  • Datastore distribué ou storage pool.
  • Policies par VM ou volume.
  • Witness/quorum pour petits clusters ou stretched cluster.
  • Cache tier et capacity tier selon solution.
  • Resync/rebuild après panne ou maintenance.
HCI ne remplace pas la sauvegarde externe, le PRA, la gouvernance des données ni le monitoring. Un cluster HCI peut être hautement disponible localement et perdre quand même des données en cas d'erreur humaine, ransomware ou corruption logique.
14.2 Solutions : vSAN, Nutanix, S2D, StarWind, Scale Computing
SolutionPositionnementForcesPoints d’attention
VMware vSANHCI intégré vSphere.Intégration VMware, policies VM, écosystème historique.Coût/licensing, dépendance VMware.
NutanixPlateforme HCI enterprise.Stack intégrée, AHV, Prism, migration VMware.Coût, plateforme propriétaire.
Microsoft Storage Spaces DirectHCI Windows/Azure Local.Écosystème Microsoft, Hyper-V, Windows Admin Center.Hardware validé, design réseau strict.
StarWindHCI/virtual SAN PME/edge.Scénarios 2 nœuds, coût, simplicité.Bien valider support et architecture.
Scale ComputingHCI PME/edge.Simplicité opérationnelle.Écosystème plus ciblé.

vSAN agrège les disques locaux des hôtes ESXi en datastore distribué piloté par policies. Il est fort dans les environnements VMware existants, avec intégration vCenter, HA, DRS, snapshots et écosystème backup.

  • ESA/OSA selon génération.
  • Storage Policy Based Management.
  • Stretched clusters possibles.
  • Hardware Compatibility List critique.

Nutanix fournit une plateforme HCI complète : AHV, Prism, stockage distribué, services data, automatisation, intégration cloud hybride. Elle est souvent étudiée comme alternative VMware, surtout quand l'entreprise cherche une plateforme intégrée plutôt qu'un assemblage open source.

Storage Spaces Direct agrège des disques locaux Windows Server/Azure Local pour fournir du stockage hautement disponible à Hyper-V et workloads Microsoft. Le design réseau, RDMA, firmware et validation matériel sont déterminants.

VMware vSANhttps://www.vmware.com/products/cloud-infrastructure/vsan
Nutanix Cloud Infrastructurehttps://www.nutanix.com/products/cloud-infrastructure
Microsoft Azure Local / S2Dhttps://learn.microsoft.com/en-us/azure/azure-local/
StarWindhttps://www.starwindsoftware.com/
Scale Computinghttps://www.scalecomputing.com/
14.3 Avantages : simplicité, scalabilité nœud par nœud, intégration virtualisation
Simplicitéstack

Moins de SAN dédié.

Scalingnode

Ajout progressif de nœuds.

VM awarepolicy

Storage par VM/workload.

Opsunifié

Console intégrée.

L'HCI réduit le nombre de briques séparées : moins de baies SAN, moins de zoning FC, moins de LUN manuelles. L'administrateur pilote compute et stockage depuis une console unique ou presque.

  • Ajouter un nœud augmente CPU, RAM et stockage.
  • Le cluster rééquilibre les données.
  • La capacité grandit par blocs standardisés.
  • Les sites distants peuvent être déployés comme appliances.

L'HCI est souvent très proche de l'hyperviseur : policies par VM, snapshots, HA, live migration, DRS/placement, dashboards VM-level. Cela accélère l'exploitation quotidienne.

Le TCO peut être inférieur à une architecture SAN traditionnelle si la taille, les licences, le support et les compétences sont bien alignés. Il peut aussi exploser si l'on surdimensionne, si les licences augmentent ou si le réseau doit être refait.
14.4 Limites : vendor lock-in, coût, design réseau critique
Le stockage HCI dépend lourdement du réseau east-west. Une latence réseau, un switch saturé ou une mauvaise configuration MTU peut impacter directement les VM.
LimiteImpactMitigation
Vendor lock-inDépendance stack/licence.Étudier export, migration, formats VM.
CoûtLicences par cœur/nœud/capacité.TCO 3-5 ans, renouvellement.
Réseau critiqueLatence, resync, VM stun.25G+, redondance, QoS.
Scaling coupléBesoin stockage mais pas CPU.Nœuds storage-heavy si supportés.
RebuildCharge production pendant réparation.Headroom, throttling, monitoring.

L'HCI promet la simplicité, mais cette simplicité vient souvent d'une forte intégration verticale : hyperviseur, stockage, management, licensing, support, backup ecosystem. Il faut anticiper la sortie avant d'entrer.

TCO HCI = serveurs + disques + réseau + licences + support + backup + migration + formation + renouvellement
  • Pas de réseau dédié ou QoS.
  • Pas de backup externe.
  • Capacité utile mal calculée.
  • Cluster trop petit pour tolérer panne + maintenance.
  • Hardware non certifié par la solution.
14.5 Impact de la migration VMware/Broadcom en 2026

Depuis l'acquisition de VMware par Broadcom, beaucoup d'organisations réévaluent leurs architectures virtualisées, leurs renouvellements, leur dépendance fournisseur et leurs trajectoires Kubernetes/cloud privé. Les scénarios discutés en 2025-2026 incluent : rester sur VMware, négocier, hybrider, migrer une partie des workloads, ou sortir progressivement vers Nutanix, Hyper-V/Azure Local, Proxmox/KVM, OpenShift/ODF, OpenStack, Portworx ou cloud public.

Le bon choix dépend moins du bruit de marché que de l'inventaire réel : nombre de VM, criticité, dépendances réseau, backup, licences, compétences, fenêtres de migration et exigences support.
OptionAvantageRisque
Rester VMware/vSANContinuité technique, écosystème connu.Coût, renouvellement, dépendance.
Nutanix AHVPlateforme HCI intégrée, migration VM ciblée.Nouvelle dépendance, coût.
Hyper-V / Azure LocalÉcosystème Microsoft.Design S2D et compétences Windows HCI.
Proxmox + CephOuvert, coût licence réduit.Support/ops à structurer fortement.
OpenShift + ODF/PortworxCloud-native/Kubernetes.Pas remplacement VM 1:1 simple.
Cloud publicManagé, élasticité.Refactoring, coûts récurrents, egress.
  1. Inventorier VMs, dépendances, snapshots, RDM, datastores, VLAN, backup.
  2. Classer workloads : garder, migrer, refactorer, retirer.
  3. Créer landing zone cible.
  4. Tester migration V2V sur lots non critiques.
  5. Valider performance, backup, restore, supervision.
  6. Planifier vagues par criticité.
  7. Conserver rollback jusqu'à stabilisation.
Ne pas choisir une alternative uniquement sur le prix licence. Évaluer : support, compétences, écosystème backup, HA, migration, monitoring, sécurité, DR, coûts réseau et exploitation 5 ans.
VMware/BroadcomRenouvellements, bundles, support, VCF.
AnalystesGuides alternatives VMware, HCI, hybrid infrastructure.
CommunautésRetours terrain Proxmox, Nutanix, Hyper-V, OpenShift.
Éditeurs backupCompatibilité et restore sur cible choisie.
14.6 Architecture HCI : nœuds, datastore distribué, quorum
VMsHypervisorStorage policyDistributed datastoreDisk groups across nodes
ÉlémentRôle
Compute nodeCPU/RAM pour VM et services storage.
Cache tierAccélération écritures/lectures selon solution.
Capacity tierStockage principal HDD/SSD/NVMe.
WitnessQuorum pour 2-node ou stretched cluster.
Management planeConsole, policies, upgrades, health.

Les petits clusters et stretched clusters utilisent souvent un witness pour éviter split-brain. Le witness ne stocke pas forcément les données complètes, mais porte des votes/metadata nécessaires à la décision.

Disk
Disk group
Node
Rack
Site
  • Définir ce que le cluster doit tolérer.
  • Ne pas mettre toutes les copies dans le même nœud/rack.
  • Dimensionner la capacité après panne.
14.7 Storage policies : FTT, RAID, compression, encryption
PolicySens
FTTFailures To Tolerate : nombre de pannes tolérées.
RAID-1Mirroring, performance, overhead élevé.
RAID-5/6 ECMeilleur rendement capacité, coût CPU/latence.
Dedup/compressionÉconomie capacité selon données.
EncryptionProtection données au repos.
QoSLimiter ou garantir I/O.
  • DB critique : policy performance, mirroring, faible latence.
  • VDI : dedup/compression utile, attention boot storm.
  • Archive VM : EC/RAID-5/6 si supporté.
  • Infrastructure management : policy très résiliente.
Une policy trop protectrice consomme trop de capacité ; une policy trop économique peut dégrader performance ou résilience. Les policies doivent être nommées et documentées.
14.8 Réseau HCI : east-west, storage replication, live migration
FluxRôleCriticité
ManagementAdmin, API, monitoring.Moyenne/haute.
VM trafficApplications.Haute.
Live migrationDéplacement VM.Haute en maintenance.
Storage east-westRéplication/resync.Très haute.
WitnessQuorum.Très haute pour petits/stretched clusters.
  • 10G minimum dans petits environnements ; 25G+ recommandé pour clusters modernes.
  • Redondance switches et uplinks.
  • MTU cohérent si jumbo frames.
  • QoS ou séparation de trafic.
  • Mesurer latence, drops, retransmits.
iperf3 -c node02
ethtool -S eth0
ss -ti
mtr node02
sar -n DEV 1
# côté plateforme : vérifier latency datastore, resync, dropped packets
14.9 Sizing & capacity : CPU/RAM/disques, N+1, headroom
Capacité utile ≠ capacité brute
Capacité utile = brute - overhead protection - slack space - snapshots - rebuild headroom - croissance

Le cluster doit continuer à fonctionner après perte d'un nœud et idéalement pendant maintenance. N+1 signifie capacité et performance suffisantes malgré une perte. N+2 ajoute une marge pour panne + maintenance.

  • Combien de VM et quelle croissance 24 mois ?
  • Ratio vCPU/pCPU et RAM overcommit ?
  • Profil I/O : random, sequential, write heavy ?
  • Snapshots et rétention ?
  • FTT/RAID policies ?
  • Fenêtre rebuild acceptable ?
RessourceÀ mesurer
CPUPeak, ready time, consolidation ratio.
RAMActive, consumed, balloon/swap.
StorageUsed, provisioned, growth, snapshots.
IOPSAverage, peak, p95/p99 latency.
NetworkEast-west, migration, backup, replication.
14.10 Performance HCI : latence p99, resync, noisy neighbor
VMp99

Latence ressentie.

Resyncload

Charge rebuild.

Cachehit

Efficacité tier.

Networkdrops

Backplane HCI.

Une VM très intensive peut impacter les autres via CPU, disque, cache ou réseau. Les outils QoS, reservations, limits, storage policies et observabilité par VM sont essentiels.

Un resync/rebuild peut dégrader les performances pendant des heures. Le cluster doit avoir assez de headroom pour réparer sans mettre les applications critiques à genoux.
# Exemple fio dans une VM de test
fio --name=hci-randrw --filename=/data/testfile --size=20G --rw=randrw --rwmixread=70 --bs=4k --iodepth=32 --numjobs=4 --direct=1 --time_based --runtime=120 --group_reporting

# Toujours mesurer côté VM + hyperviseur + datastore
14.11 HA & résilience : node failure, witness, stretched cluster

L'HCI permet souvent de redémarrer automatiquement les VM sur d'autres nœuds après panne d'un hôte. Les données restent disponibles si les policies et le quorum le permettent.

Stretched clusterDonnées réparties sur deux sites.
WitnessDécide quorum en cas de partition.
Latency inter-siteCritique pour écritures synchrones.
Failure domain siteProtection contre perte salle/site.
  • HCI HA locale ≠ PRA complet.
  • Réplication distante nécessaire pour site perdu.
  • Runbook failover/failback.
  • Tests réguliers.
14.12 Sécurité HCI : RBAC, chiffrement, microsegmentation
  • RBAC et comptes nominatifs.
  • MFA admin si disponible.
  • Chiffrement datastore.
  • Secure Boot, TPM, firmware signé.
  • Microsegmentation réseau VM.
  • Logs vers SIEM.
Snapshots locaux peuvent être supprimés par un compte admin compromis. Il faut backup externe immuable, séparation des droits et surveillance des actions massives.

Les clusters HCI regroupent hyperviseur, drivers, firmware, stockage distribué et management. Le patching doit suivre une matrice de compatibilité et un rolling upgrade contrôlé.

14.13 HCI et Kubernetes : Tanzu, OpenShift, Portworx, CSI
ApprocheDescription
K8s sur VMs HCISimple pour exploiter HA existante.
K8s bare-metal HCIPlus performant mais plus exigeant.
OpenShift + ODFCloud-native complet avec stockage intégré.
Portworx/LonghornStockage Kubernetes distribué au-dessus des nœuds.
PodPVCCSIHCI datastore / SDS

La sortie VMware ne signifie pas tout basculer en Kubernetes. Les bonnes migrations séparent : VMs à déplacer, apps à moderniser, données à garder, services à retirer.

14.14 Alternatives ouvertes : Proxmox + Ceph, OpenShift + ODF, KVM
StackForcesRisques
Proxmox + CephOuvert, coût réduit, KVM, Ceph intégré.Ops Ceph et support à structurer.
OpenShift + ODFKubernetes enterprise, Ceph/Rook intégré.Pas remplacement VM direct simple.
HarvesterHCI Kubernetes-oriented.Maturité/fit à valider.
OpenStackCloud privé complet.Complexité élevée.
OpenNebulaCloud/virtualisation plus léger.Écosystème selon besoins.

Proxmox + Ceph est une option sérieuse pour organisations capables d'opérer Linux, KVM, réseau et Ceph. Le coût licence peut être attractif, mais le coût compétence et support doit être budgété.

OpenShift/ODF est pertinent pour modernisation applicative et Kubernetes enterprise. Il ne remplace pas automatiquement un parc VMware traditionnel sans refonte partielle des applications.

14.15 Exploitation HCI : lifecycle, firmware, maintenance

Le lifecycle management HCI doit aligner hyperviseur, drivers, firmware contrôleurs, NICs, BIOS, disques, management plane et plugins backup.

  • Lire matrices de compatibilité.
  • Tester sur cluster non critique.
  • Rolling upgrades.
  • Health check avant/après.
  1. Vérifier cluster healthy.
  2. Vérifier capacité de resync et policy compliance.
  3. Mettre nœud en maintenance selon procédure.
  4. Appliquer firmware/patch.
  5. Sortir maintenance.
  6. Attendre resync complet avant nœud suivant.
  • Capacity high.
  • Policy non-compliance.
  • Resync stuck.
  • Disk group degraded.
  • Witness unreachable.
  • VM latency spike.
14.16 Matrice de décision HCI
SolutionMeilleur fitAttention
VMware vSANEnvironnement VMware mature.Coût et trajectoire Broadcom.
NutanixHCI enterprise intégré.Plateforme propriétaire.
S2D/Azure LocalMicrosoft/Hyper-V.Hardware/réseau validés.
StarWind/ScalePME/edge/2-node.Cas d'usage ciblés.
Proxmox + CephOpen infra, coût licence.Compétence Ceph nécessaire.
OpenShift + ODFKubernetes enterprise.Modernisation, pas lift-and-shift VM pur.
  • Combien de VMs et quels SLA ?
  • Quelle équipe opérera jour 2 ?
  • Quelle dépendance backup actuelle ?
  • Quel budget renouvellement 3-5 ans ?
  • Faut-il remplacer VMware ou moderniser applications ?
Score = fit technique + coûts 5 ans + support + migration + compétences + écosystème backup + sortie possible
14.17 Runbooks incidents HCI
  1. Identifier nœud et VMs impactées.
  2. Vérifier HA restart.
  3. Vérifier datastore compliance.
  4. Analyser cause : power, network, hardware, hypervisor.
  5. Réintégrer nœud seulement après diagnostic.
  6. Surveiller resync.
  1. Identifier disque/groupe.
  2. Vérifier policy compliance.
  3. Remplacer disque certifié.
  4. Surveiller rebuild/resync.
  5. Valider retour healthy.
Cluster full HCI = urgence. Les snapshots, thin provisioning et resync peuvent aggraver la situation.
  1. Stopper créations/snapshots non critiques.
  2. Identifier VMs/snapshots volumineux.
  3. Libérer capacité validée ou ajouter nœud/disques.
  4. Ne pas supprimer à l'aveugle.
  1. Comparer VM latency, datastore latency, network latency.
  2. Vérifier resync/rebuild.
  3. Identifier noisy neighbor.
  4. Vérifier cache tier et disk groups.
  5. Vérifier drops réseau.
14.18 Checklist production HCI
ContrôleOK ?Note
Hardware certifiéHCL/vendor matrix.
Réseau storage redondant10/25G+, switches, MTU.
Witness/quorum validé2-node/stretched.
Capacity headroomN+1/N+2 + resync.
Policies VM documentéesFTT, RAID, encryption.
  • Backup externe immuable.
  • Test restore VM complet.
  • Plan DR site.
  • Runbook failover/failback.
  • Snapshots locaux non considérés comme backup.
  • Monitoring VM/datastore/network.
  • Alertes capacity/resync/witness.
  • RBAC admin.
  • Upgrade plan.
  • Documentation nœuds, disques, firmwares.
  • Inventaire VM et dépendances.
  • Classification workloads.
  • POC migration V2V.
  • Validation backup sur cible.
  • Plan rollback.
  • Fenêtres de migration par vagues.
NO-GO si : réseau non testé, pas de backup externe, capacité trop juste, hardware non certifié, pas de runbook, pas de test de restauration, migration sans rollback.