Storage Systems — Chapitre 14 Stockage hyperconvergé

14.1 Définition : stockage hyperconvergé

Définition opérationnelle

Le stockage hyperconvergé regroupe compute, stockage et réseau dans le même cluster. Les disques locaux des nœuds deviennent un datastore distribué utilisable par les machines virtuelles, containers ou services applicatifs. L'objectif est de supprimer ou réduire le SAN externe en intégrant le stockage directement dans la plateforme de virtualisation ou cloud privé.

Idée centrale : chaque nœud apporte CPU, RAM, réseau et capacité disque. Le cluster réplique ou encode les données entre nœuds pour survivre aux pannes.

Vue logique

VMs / Pods→Hypervisor→Distributed datastore→Local disks across nodes

Modèle	Compute	Storage	Complexité
Classique 3-tier	Serveurs hyperviseurs	SAN/NAS séparé	Réseau stockage, baies, zoning, LUN.
HCI	Nœuds cluster	Disques locaux agrégés	Plus simple côté SAN, plus exigeant côté réseau cluster.
Composable	Ressources désagrégées	Pools séparés	Très flexible mais plus complexe.

Datastore distribué ou storage pool.
Policies par VM ou volume.
Witness/quorum pour petits clusters ou stretched cluster.
Cache tier et capacity tier selon solution.
Resync/rebuild après panne ou maintenance.

HCI ne remplace pas la sauvegarde externe, le PRA, la gouvernance des données ni le monitoring. Un cluster HCI peut être hautement disponible localement et perdre quand même des données en cas d'erreur humaine, ransomware ou corruption logique.

14.2 Solutions : vSAN, Nutanix, S2D, StarWind, Scale Computing

Solution	Positionnement	Forces	Points d’attention
VMware vSAN	HCI intégré vSphere.	Intégration VMware, policies VM, écosystème historique.	Coût/licensing, dépendance VMware.
Nutanix	Plateforme HCI enterprise.	Stack intégrée, AHV, Prism, migration VMware.	Coût, plateforme propriétaire.
Microsoft Storage Spaces Direct	HCI Windows/Azure Local.	Écosystème Microsoft, Hyper-V, Windows Admin Center.	Hardware validé, design réseau strict.
StarWind	HCI/virtual SAN PME/edge.	Scénarios 2 nœuds, coût, simplicité.	Bien valider support et architecture.
Scale Computing	HCI PME/edge.	Simplicité opérationnelle.	Écosystème plus ciblé.

vSAN agrège les disques locaux des hôtes ESXi en datastore distribué piloté par policies. Il est fort dans les environnements VMware existants, avec intégration vCenter, HA, DRS, snapshots et écosystème backup.

ESA/OSA selon génération.
Storage Policy Based Management.
Stretched clusters possibles.
Hardware Compatibility List critique.

Nutanix fournit une plateforme HCI complète : AHV, Prism, stockage distribué, services data, automatisation, intégration cloud hybride. Elle est souvent étudiée comme alternative VMware, surtout quand l'entreprise cherche une plateforme intégrée plutôt qu'un assemblage open source.

Storage Spaces Direct agrège des disques locaux Windows Server/Azure Local pour fournir du stockage hautement disponible à Hyper-V et workloads Microsoft. Le design réseau, RDMA, firmware et validation matériel sont déterminants.

VMware vSAN	https://www.vmware.com/products/cloud-infrastructure/vsan
Nutanix Cloud Infrastructure	https://www.nutanix.com/products/cloud-infrastructure
Microsoft Azure Local / S2D	https://learn.microsoft.com/en-us/azure/azure-local/
StarWind	https://www.starwindsoftware.com/
Scale Computing	https://www.scalecomputing.com/

14.3 Avantages : simplicité, scalabilité nœud par nœud, intégration virtualisation

Simplicitéstack

Moins de SAN dédié.

Scalingnode

Ajout progressif de nœuds.

VM awarepolicy

Storage par VM/workload.

Opsunifié

Console intégrée.

L'HCI réduit le nombre de briques séparées : moins de baies SAN, moins de zoning FC, moins de LUN manuelles. L'administrateur pilote compute et stockage depuis une console unique ou presque.

Ajouter un nœud augmente CPU, RAM et stockage.
Le cluster rééquilibre les données.
La capacité grandit par blocs standardisés.
Les sites distants peuvent être déployés comme appliances.

L'HCI est souvent très proche de l'hyperviseur : policies par VM, snapshots, HA, live migration, DRS/placement, dashboards VM-level. Cela accélère l'exploitation quotidienne.

Le TCO peut être inférieur à une architecture SAN traditionnelle si la taille, les licences, le support et les compétences sont bien alignés. Il peut aussi exploser si l'on surdimensionne, si les licences augmentent ou si le réseau doit être refait.

14.4 Limites : vendor lock-in, coût, design réseau critique

Le stockage HCI dépend lourdement du réseau east-west. Une latence réseau, un switch saturé ou une mauvaise configuration MTU peut impacter directement les VM.

Limite	Impact	Mitigation
Vendor lock-in	Dépendance stack/licence.	Étudier export, migration, formats VM.
Coût	Licences par cœur/nœud/capacité.	TCO 3-5 ans, renouvellement.
Réseau critique	Latence, resync, VM stun.	25G+, redondance, QoS.
Scaling couplé	Besoin stockage mais pas CPU.	Nœuds storage-heavy si supportés.
Rebuild	Charge production pendant réparation.	Headroom, throttling, monitoring.

L'HCI promet la simplicité, mais cette simplicité vient souvent d'une forte intégration verticale : hyperviseur, stockage, management, licensing, support, backup ecosystem. Il faut anticiper la sortie avant d'entrer.

TCO HCI = serveurs + disques + réseau + licences + support + backup + migration + formation + renouvellement

Pas de réseau dédié ou QoS.
Pas de backup externe.
Capacité utile mal calculée.
Cluster trop petit pour tolérer panne + maintenance.
Hardware non certifié par la solution.

14.5 Impact de la migration VMware/Broadcom en 2026

Depuis l'acquisition de VMware par Broadcom, beaucoup d'organisations réévaluent leurs architectures virtualisées, leurs renouvellements, leur dépendance fournisseur et leurs trajectoires Kubernetes/cloud privé. Les scénarios discutés en 2025-2026 incluent : rester sur VMware, négocier, hybrider, migrer une partie des workloads, ou sortir progressivement vers Nutanix, Hyper-V/Azure Local, Proxmox/KVM, OpenShift/ODF, OpenStack, Portworx ou cloud public.

Le bon choix dépend moins du bruit de marché que de l'inventaire réel : nombre de VM, criticité, dépendances réseau, backup, licences, compétences, fenêtres de migration et exigences support.

Option	Avantage	Risque
Rester VMware/vSAN	Continuité technique, écosystème connu.	Coût, renouvellement, dépendance.
Nutanix AHV	Plateforme HCI intégrée, migration VM ciblée.	Nouvelle dépendance, coût.
Hyper-V / Azure Local	Écosystème Microsoft.	Design S2D et compétences Windows HCI.
Proxmox + Ceph	Ouvert, coût licence réduit.	Support/ops à structurer fortement.
OpenShift + ODF/Portworx	Cloud-native/Kubernetes.	Pas remplacement VM 1:1 simple.
Cloud public	Managé, élasticité.	Refactoring, coûts récurrents, egress.

Inventorier VMs, dépendances, snapshots, RDM, datastores, VLAN, backup.
Classer workloads : garder, migrer, refactorer, retirer.
Créer landing zone cible.
Tester migration V2V sur lots non critiques.
Valider performance, backup, restore, supervision.
Planifier vagues par criticité.
Conserver rollback jusqu'à stabilisation.

Ne pas choisir une alternative uniquement sur le prix licence. Évaluer : support, compétences, écosystème backup, HA, migration, monitoring, sécurité, DR, coûts réseau et exploitation 5 ans.

VMware/Broadcom	Renouvellements, bundles, support, VCF.
Analystes	Guides alternatives VMware, HCI, hybrid infrastructure.
Communautés	Retours terrain Proxmox, Nutanix, Hyper-V, OpenShift.
Éditeurs backup	Compatibilité et restore sur cible choisie.

14.6 Architecture HCI : nœuds, datastore distribué, quorum

VMs→Hypervisor→Storage policy→Distributed datastore→Disk groups across nodes

Élément	Rôle
Compute node	CPU/RAM pour VM et services storage.
Cache tier	Accélération écritures/lectures selon solution.
Capacity tier	Stockage principal HDD/SSD/NVMe.
Witness	Quorum pour 2-node ou stretched cluster.
Management plane	Console, policies, upgrades, health.

Les petits clusters et stretched clusters utilisent souvent un witness pour éviter split-brain. Le witness ne stocke pas forcément les données complètes, mais porte des votes/metadata nécessaires à la décision.

Disk

Disk group

Node

Rack

Site

Définir ce que le cluster doit tolérer.
Ne pas mettre toutes les copies dans le même nœud/rack.
Dimensionner la capacité après panne.

14.7 Storage policies : FTT, RAID, compression, encryption

Policy	Sens
FTT	Failures To Tolerate : nombre de pannes tolérées.
RAID-1	Mirroring, performance, overhead élevé.
RAID-5/6 EC	Meilleur rendement capacité, coût CPU/latence.
Dedup/compression	Économie capacité selon données.
Encryption	Protection données au repos.
QoS	Limiter ou garantir I/O.

DB critique : policy performance, mirroring, faible latence.
VDI : dedup/compression utile, attention boot storm.
Archive VM : EC/RAID-5/6 si supporté.
Infrastructure management : policy très résiliente.

Une policy trop protectrice consomme trop de capacité ; une policy trop économique peut dégrader performance ou résilience. Les policies doivent être nommées et documentées.

14.8 Réseau HCI : east-west, storage replication, live migration

Flux	Rôle	Criticité
Management	Admin, API, monitoring.	Moyenne/haute.
VM traffic	Applications.	Haute.
Live migration	Déplacement VM.	Haute en maintenance.
Storage east-west	Réplication/resync.	Très haute.
Witness	Quorum.	Très haute pour petits/stretched clusters.

10G minimum dans petits environnements ; 25G+ recommandé pour clusters modernes.
Redondance switches et uplinks.
MTU cohérent si jumbo frames.
QoS ou séparation de trafic.
Mesurer latence, drops, retransmits.

iperf3 -c node02
ethtool -S eth0
ss -ti
mtr node02
sar -n DEV 1
# côté plateforme : vérifier latency datastore, resync, dropped packets

14.9 Sizing & capacity : CPU/RAM/disques, N+1, headroom

Capacité utile ≠ capacité brute
Capacité utile = brute - overhead protection - slack space - snapshots - rebuild headroom - croissance

Le cluster doit continuer à fonctionner après perte d'un nœud et idéalement pendant maintenance. N+1 signifie capacité et performance suffisantes malgré une perte. N+2 ajoute une marge pour panne + maintenance.

Combien de VM et quelle croissance 24 mois ?
Ratio vCPU/pCPU et RAM overcommit ?
Profil I/O : random, sequential, write heavy ?
Snapshots et rétention ?
FTT/RAID policies ?
Fenêtre rebuild acceptable ?

Ressource	À mesurer
CPU	Peak, ready time, consolidation ratio.
RAM	Active, consumed, balloon/swap.
Storage	Used, provisioned, growth, snapshots.
IOPS	Average, peak, p95/p99 latency.
Network	East-west, migration, backup, replication.

14.10 Performance HCI : latence p99, resync, noisy neighbor

VMp99

Latence ressentie.

Resyncload

Charge rebuild.

Cachehit

Efficacité tier.

Networkdrops

Backplane HCI.

Une VM très intensive peut impacter les autres via CPU, disque, cache ou réseau. Les outils QoS, reservations, limits, storage policies et observabilité par VM sont essentiels.

Un resync/rebuild peut dégrader les performances pendant des heures. Le cluster doit avoir assez de headroom pour réparer sans mettre les applications critiques à genoux.

# Exemple fio dans une VM de test
fio --name=hci-randrw --filename=/data/testfile --size=20G --rw=randrw --rwmixread=70 --bs=4k --iodepth=32 --numjobs=4 --direct=1 --time_based --runtime=120 --group_reporting

# Toujours mesurer côté VM + hyperviseur + datastore

14.11 HA & résilience : node failure, witness, stretched cluster

L'HCI permet souvent de redémarrer automatiquement les VM sur d'autres nœuds après panne d'un hôte. Les données restent disponibles si les policies et le quorum le permettent.

Stretched cluster	Données réparties sur deux sites.
Witness	Décide quorum en cas de partition.
Latency inter-site	Critique pour écritures synchrones.
Failure domain site	Protection contre perte salle/site.

HCI HA locale ≠ PRA complet.
Réplication distante nécessaire pour site perdu.
Runbook failover/failback.
Tests réguliers.

14.12 Sécurité HCI : RBAC, chiffrement, microsegmentation

RBAC et comptes nominatifs.
MFA admin si disponible.
Chiffrement datastore.
Secure Boot, TPM, firmware signé.
Microsegmentation réseau VM.
Logs vers SIEM.

Snapshots locaux peuvent être supprimés par un compte admin compromis. Il faut backup externe immuable, séparation des droits et surveillance des actions massives.

Les clusters HCI regroupent hyperviseur, drivers, firmware, stockage distribué et management. Le patching doit suivre une matrice de compatibilité et un rolling upgrade contrôlé.

14.13 HCI et Kubernetes : Tanzu, OpenShift, Portworx, CSI

Approche	Description
K8s sur VMs HCI	Simple pour exploiter HA existante.
K8s bare-metal HCI	Plus performant mais plus exigeant.
OpenShift + ODF	Cloud-native complet avec stockage intégré.
Portworx/Longhorn	Stockage Kubernetes distribué au-dessus des nœuds.

Pod→PVC→CSI→HCI datastore / SDS

La sortie VMware ne signifie pas tout basculer en Kubernetes. Les bonnes migrations séparent : VMs à déplacer, apps à moderniser, données à garder, services à retirer.

14.14 Alternatives ouvertes : Proxmox + Ceph, OpenShift + ODF, KVM

Stack	Forces	Risques
Proxmox + Ceph	Ouvert, coût réduit, KVM, Ceph intégré.	Ops Ceph et support à structurer.
OpenShift + ODF	Kubernetes enterprise, Ceph/Rook intégré.	Pas remplacement VM direct simple.
Harvester	HCI Kubernetes-oriented.	Maturité/fit à valider.
OpenStack	Cloud privé complet.	Complexité élevée.
OpenNebula	Cloud/virtualisation plus léger.	Écosystème selon besoins.

Proxmox + Ceph est une option sérieuse pour organisations capables d'opérer Linux, KVM, réseau et Ceph. Le coût licence peut être attractif, mais le coût compétence et support doit être budgété.

OpenShift/ODF est pertinent pour modernisation applicative et Kubernetes enterprise. Il ne remplace pas automatiquement un parc VMware traditionnel sans refonte partielle des applications.

14.15 Exploitation HCI : lifecycle, firmware, maintenance

Le lifecycle management HCI doit aligner hyperviseur, drivers, firmware contrôleurs, NICs, BIOS, disques, management plane et plugins backup.

Lire matrices de compatibilité.
Tester sur cluster non critique.
Rolling upgrades.
Health check avant/après.

Vérifier cluster healthy.
Vérifier capacité de resync et policy compliance.
Mettre nœud en maintenance selon procédure.
Appliquer firmware/patch.
Sortir maintenance.
Attendre resync complet avant nœud suivant.

Capacity high.
Policy non-compliance.
Resync stuck.
Disk group degraded.
Witness unreachable.
VM latency spike.

14.16 Matrice de décision HCI

Solution	Meilleur fit	Attention
VMware vSAN	Environnement VMware mature.	Coût et trajectoire Broadcom.
Nutanix	HCI enterprise intégré.	Plateforme propriétaire.
S2D/Azure Local	Microsoft/Hyper-V.	Hardware/réseau validés.
StarWind/Scale	PME/edge/2-node.	Cas d'usage ciblés.
Proxmox + Ceph	Open infra, coût licence.	Compétence Ceph nécessaire.
OpenShift + ODF	Kubernetes enterprise.	Modernisation, pas lift-and-shift VM pur.

Combien de VMs et quels SLA ?
Quelle équipe opérera jour 2 ?
Quelle dépendance backup actuelle ?
Quel budget renouvellement 3-5 ans ?
Faut-il remplacer VMware ou moderniser applications ?

Score = fit technique + coûts 5 ans + support + migration + compétences + écosystème backup + sortie possible

14.17 Runbooks incidents HCI

Identifier nœud et VMs impactées.
Vérifier HA restart.
Vérifier datastore compliance.
Analyser cause : power, network, hardware, hypervisor.
Réintégrer nœud seulement après diagnostic.
Surveiller resync.

Identifier disque/groupe.
Vérifier policy compliance.
Remplacer disque certifié.
Surveiller rebuild/resync.
Valider retour healthy.

Cluster full HCI = urgence. Les snapshots, thin provisioning et resync peuvent aggraver la situation.

Stopper créations/snapshots non critiques.
Identifier VMs/snapshots volumineux.
Libérer capacité validée ou ajouter nœud/disques.
Ne pas supprimer à l'aveugle.

Comparer VM latency, datastore latency, network latency.
Vérifier resync/rebuild.
Identifier noisy neighbor.
Vérifier cache tier et disk groups.
Vérifier drops réseau.

14.18 Checklist production HCI

Contrôle	OK ?	Note
Hardware certifié	☐	HCL/vendor matrix.
Réseau storage redondant	☐	10/25G+, switches, MTU.
Witness/quorum validé	☐	2-node/stretched.
Capacity headroom	☐	N+1/N+2 + resync.
Policies VM documentées	☐	FTT, RAID, encryption.

Backup externe immuable.
Test restore VM complet.
Plan DR site.
Runbook failover/failback.
Snapshots locaux non considérés comme backup.

Monitoring VM/datastore/network.
Alertes capacity/resync/witness.
RBAC admin.
Upgrade plan.
Documentation nœuds, disques, firmwares.

Inventaire VM et dépendances.
Classification workloads.
POC migration V2V.
Validation backup sur cible.
Plan rollback.
Fenêtres de migration par vagues.

NO-GO si : réseau non testé, pas de backup externe, capacité trop juste, hardware non certifié, pas de runbook, pas de test de restauration, migration sans rollback.

🏗️ Storage Systems — Chapitre 14 : Stockage hyperconvergé

Définition

Solutions

Avantages

Limites

Impact migration VMware

Architecture HCI

Storage policies

Réseau HCI

Sizing & capacity

Performance

HA & résilience

Sécurité

HCI et Kubernetes

Alternatives ouvertes

Exploitation

Matrice de décision

Runbooks incidents

Checklist production