Project Oxygen & Ideo-LabIDEO LAB Dashboard 2026

💾 Storage Systems — Chapitre 4 : Interfaces, bus et protocoles physiques

Guide hyper-densifié sur la couche basse du stockage : SATA, SAS, PCIe/NVMe, Fibre Channel, Ethernet, USB, Thunderbolt, eSATA, câbles, connecteurs, latence, débit, files de commandes, topologies, zoning, fabrics, multipathing, risques physiques et critères de choix production.

Partie 2 — Supports physiquesNiveau : Admin / Architecte / DBA / InfraFocus : bus, protocoles, latence, datacenterFormat : cartes + modales + onglets
SATA III brut
6 Gb/s
SAS-4 brut
24 Gb/s
PCIe 5.0 x4 brut
128 GT/s
FC moderne
64/128GFC
4.1

SATA

Architecture AHCI, 6 Gb/s, câble point-à-point, NCQ, limites serveur, usages NAS et compatibility layer.

AHCINCQLegacy
4.2

SAS

Serial Attached SCSI, dual-port, expanders, multipath, 12G/24G, fiabilité enterprise et backplanes datacenter.

SCSIDual PortExpander
4.3

PCIe

Base physique du NVMe moderne : lanes, générations, switches, retimers, signal integrity, NUMA et CPU affinity.

NVMex4/x8/x16DMA
4.4

Fibre Channel

SAN enterprise à faible latence : WWN, zoning, fabric, ISL, NPIV, multipathing, isolation réseau et hautes vitesses.

SANFabricWWPN
4.5

Ethernet Storage

iSCSI, NFS, SMB, NVMe/TCP, NVMe/RDMA, Ceph, S3 et cloud storage sur IP.

TCP/IPRoCES3
4.6

USB, Thunderbolt, eSATA

Stockage externe, workstation, backup local, DAS moderne, limites de fiabilité et pièges de connectique.

DASBackupExternal
4.7

Matrice de choix

Comparatif synthétique : latence, débit, coût, disponibilité, scalabilité, compatibilité et dette technique.

DecisionArchitecture
4.8

Câbles, connecteurs, backplanes

SFF, SlimSAS, U.2/U.3, M.2, EDSFF, DAC/AOC, fibre optique, cages, airflow et erreurs physiques.

SFFU.2EDSFF
4.9

Stack protocolaire

De l'application au disque : filesystem, block layer, driver, queue, HBA/NIC, fabric, target, LUN, namespace.

BlockFileObject
4.10

Latence & files de commandes

AHCI vs SCSI vs NVMe : profondeur de queue, interruptions, polling, CPU overhead, tail latency et QoS.

IOPSp99QoS
4.11

Redondance & multipathing

MPIO, ALUA, ANA, chemins actifs/passifs, failover, zoning dual-fabric, tests de coupure.

HAMPIOANA
4.12

Runbooks production

Commandes Linux/Windows, fio, smartctl, nvme-cli, lsscsi, multipath, fc_host, ethtool, perf.

CLIDiagnostics
4.13

Sécurité bas niveau

Zoning, LUN masking, CHAP, TLS, DMA, Thunderbolt security, rogue initiator et segmentation physique.

SecurityRisk
4.14

Cloud & hyperscale

Comment AWS/GCP/Azure abstraient PCIe, NVMe, Ethernet, Nitro-like offload, EBS, local SSD et object storage.

CloudNVMeObject
4.15

Références & normes

Liens utiles : SATA-IO, T10/T11, PCI-SIG, FCIA, SNIA, NVM Express, IEEE, USB-IF.

StandardsURLs
4.1 SATA — Simple, économique, mais limité par l'héritage AHCI
Principe SATA

SATA est une liaison point-à-point historiquement pensée pour les disques grand public, postes de travail, petits serveurs et NAS. Un port SATA relie généralement un contrôleur hôte à un périphérique : HDD, SSD SATA ou lecteur optique. Sa grande force est le coût, la compatibilité et la simplicité ; sa faiblesse est l'absence native de dual-port enterprise, la profondeur de queue modeste et la latence de pile AHCI.

CPUPCH / SATA ControllerAHCISATA LinkDisk / SSD
  • SATA I : 1.5 Gb/s brut.
  • SATA II : 3 Gb/s brut.
  • SATA III : 6 Gb/s brut, environ 600 MB/s utiles selon overhead.
  • Topologie : point-à-point, pas un fabric SAN.
Positionnement moderne
ContexteApport SATALimite
NAS domestique / PMEExcellent coût par ToPas de dual path natif
Serveur simpleBoot, logs, cache secondairePeu adapté aux workloads critiques
SSD SATACompatibilité universellePlafond à ~550 MB/s
Archivage HDDTrès économiquePas optimisé pour haute disponibilité multi-chemin
Débit, latence et vrai plafond
Lien brut
6 Gb/s
SSD réel
500–560 MB/s
HDD 7200 rpm
150–280 MB/s
Queue AHCI
32 cmds

Le débit SATA III suffit encore largement à un HDD mécanique, mais bride fortement un SSD moderne. Dans un serveur, le problème principal n'est pas seulement le débit : c'est la profondeur de queue, la gestion des interruptions, l'absence de multipath natif et la faible densité de commandes parallèles par rapport à NVMe.

WorkloadSATA acceptable ?Commentaire
Boot OSOuiTrès courant, surtout si miroir RAID1.
Base OLTP lourdeNonPréférer NVMe enterprise ou SAN.
Sauvegarde séquentielleOuiLe disque HDD est souvent le facteur limitant.
Virtualisation denseLimitéQueue depth et latence p99 deviennent bloquantes.
NCQ : Native Command Queuing

NCQ permet au disque de réordonner des commandes pour réduire les mouvements de tête sur HDD ou optimiser l'accès côté SSD. C'est utile, mais très loin de la philosophie NVMe qui expose des dizaines de milliers de files et commandes.

Piège : un SSD SATA rapide en benchmark séquentiel peut devenir médiocre en latence p99 sous charge mixte, car la pile AHCI n'est pas conçue pour le parallélisme massif.
AHCI vs NVMe
CritèreAHCI/SATANVMe/PCIe
Queues1 queueJusqu'à 65k queues
Commandes / queue32Jusqu'à 65k
Objectif initialHDDFlash / SSD
Latence stackPlus élevéeTrès faible
Usage serveur et règles d'architecture
OK

Boot RAID1, stockage froid, petit NAS, sauvegarde locale, repository offline.

À surveiller

Backplane grand public, absence de TLER/ERC côté disque, contrôleur sans cache protégé, câbles de mauvaise qualité.

À éviter

Cluster critique, base transactionnelle lourde, haute disponibilité multi-chemin, virtualisation dense avec latence stricte.

Erreur fréquenteSymptômeCorrection
Câble SATA fatiguéCRC errors, reset linkRemplacer câble, vérifier latch.
Disque SMR non adaptéDébits qui s'effondrentChoisir CMR/NAS/Enterprise.
Contrôleur saturéLatency spikesLimiter queue, changer HBA.
Diagnostics Linux / Windows
# Linux: identify SATA disks and link speed
lsblk -o NAME,MODEL,SERIAL,ROTA,SIZE,TRAN
sudo smartctl -a /dev/sdX
sudo dmesg -T | egrep -i 'ata|sata|link|crc|reset'

# Check SATA negotiated speed
sudo smartctl -a /dev/sdX | egrep -i 'SATA Version|SATA'

# Windows PowerShell
Get-PhysicalDisk | Select FriendlyName,MediaType,BusType,HealthStatus,Size
Get-StorageReliabilityCounter -PhysicalDisk (Get-PhysicalDisk)[0]
Indicateur critique : les erreurs UDMA CRC indiquent souvent un problème câble/backplane, pas forcément un disque défaillant.
4.2 SAS — Le standard enterprise des disques et backplanes
Pourquoi SAS existe

SAS reprend la richesse du protocole SCSI sur un lien série moderne. Il est conçu pour les serveurs : adressage robuste, commandes SCSI, dual-port, expanders, zoning de domaine SAS, meilleure intégration RAID/HBA et comportement plus prévisible sous panne.

Host ASAS ExpanderDual-Port DriveSAS ExpanderHost B
SAS vs SATA
CritèreSATASAS
ProtocoleATA/AHCISCSI sur serial
Dual-port natifNonOui
UsageCost/capacityEnterprise HA
Backplane densePossibleConçu pour
MultipathNon natifOui
Dual-port, ALUA et chemins redondants

Un disque SAS enterprise peut exposer deux ports indépendants. Dans une baie, chaque contrôleur voit le disque par un chemin différent. C'est la base des architectures de stockage redondantes : maintenance contrôleur, panne câble, panne expander ou upgrade firmware sans perte d'accès.

ConceptDescriptionImpact
Dual PortDeux chemins physiques vers le même disqueRésilience
ALUAAsymmetric Logical Unit AccessChemin optimisé / non optimisé
Persistent ReservationsVerrouillage SCSI clusterCluster HA
SESSCSI Enclosure ServicesLED, slots, température, PSU
Règle datacenter : un serveur critique doit avoir deux HBA SAS reliés à deux chemins/backplanes/contrôleurs distincts si la baie le supporte.
Évolutions de débit
SAS-2
6G
SAS-3
12G
SAS-4
24G
Usage
SSD/HDD

12G SAS reste très répandu en datacenter. 24G SAS vise les environnements où les SSD SAS doivent suivre les plateformes PCIe Gen4. Pour des latences extrêmes et un parallélisme maximal, NVMe/PCIe remplace souvent SAS sur les baies full-flash modernes ; mais SAS reste très fort pour les backplanes HDD denses et les environnements enterprise éprouvés.

Expanders SAS

Un expander est l'équivalent d'un switch interne SAS. Il permet de connecter beaucoup de disques à un nombre limité de ports HBA. Il peut être intégré dans un backplane de serveur, un JBOD ou une baie.

  • Fan-out : beaucoup de disques derrière peu de ports.
  • Domain SAS : topologie interne adressée.
  • Oversubscription : possible si trop de disques rapides partagent trop peu de liens uplink.
  • Firmware : élément critique, souvent négligé.
Risques
Expander saturéDébits instables sur rebuild ou backup.
Firmware ancienTimeouts SCSI, disques qui disparaissent.
Backplane chaudErreurs lien, thermal throttling SSD.
Diagnostics SAS
# Linux: list SCSI/SAS devices
lsscsi -g
sudo sg_map -i
sudo sg_ses --page=0x2 /dev/sgX
sudo smartctl -a -d scsi /dev/sdX

# HBA / expander depending on vendor tools
storcli /c0 show all
storcli /c0/eall/sall show
sas3ircu LIST
sas3ircu 0 DISPLAY

# Multipath
multipath -ll
multipathd show paths
À retenir : un disque SAS qui disparaît peut être victime d'un chemin, d'un expander ou d'une alimentation de slot, pas uniquement d'une panne disque.
4.3 PCIe — Le bus qui a rendu NVMe possible
Lanes, générations et bande passante

PCIe est un bus série point-à-point composé de lanes. Un SSD NVMe client utilise souvent x4 ; un HBA, une NIC 100/200/400G ou une carte GPU utilise x8/x16. Chaque génération double approximativement le débit brut par lane, mais la bande passante réellement exploitable dépend du protocole, de l'encodage, de la plateforme, du root complex, des switches et de la charge CPU.

GénérationDébit par lanex4 théoriqueUsage stockage
PCIe 3.08 GT/s~3.94 GB/sNVMe Gen3
PCIe 4.016 GT/s~7.88 GB/sServeurs modernes, SSD enterprise
PCIe 5.032 GT/s~15.75 GB/sNVMe haute perf, AI, DB
PCIe 6.064 GT/s~31.5 GB/sDéploiements enterprise émergents
Important : PCIe 6.0 introduit PAM4, FLIT mode et FEC, ce qui améliore le débit mais rend l'intégrité du signal encore plus exigeante.
NVMe : protocole natif flash

NVMe n'est pas seulement un SSD plus rapide : c'est un modèle d'I/O pensé pour la mémoire non volatile. Il réduit la profondeur logicielle, expose énormément de queues, limite les verrous globaux et s'aligne mieux avec les CPU multicœurs.

Submission QueueQueue où l'hôte dépose les commandes.
Completion QueueQueue où le périphérique signale les réponses.
DoorbellMécanisme MMIO pour notifier le device.
NamespaceUnité logique exposée par un contrôleur NVMe.
Flux simplifié
AppFilesystemBlock LayerNVMe DriverPCIe DMASSD Controller
# NVMe namespaces and controllers
nvme list
nvme id-ctrl /dev/nvme0
nvme id-ns /dev/nvme0n1
Switches PCIe, bifurcation, retimers

Dans les serveurs denses, tous les SSD ne sont pas directement reliés au CPU. Des switches PCIe, retimers et backplanes permettent de multiplier les slots NVMe, mais ajoutent coût, complexité, consommation et points de panne.

ÉlémentRôleRisque
PCIe SwitchFan-out de lanesOversubscription, firmware
RetimerRégénère le signalLatence minime, compatibilité
RedriverRenforce le signalMoins intelligent qu'un retimer
BifurcationDécoupe x16 en 4×x4Dépend BIOS/plateforme
NUMA, CPU affinity et latence

Un SSD PCIe est attaché à un root complex, donc souvent à un socket CPU. Sur serveur bi-socket, accéder à un SSD attaché au socket opposé peut traverser l'interconnexion inter-CPU et ajouter de la latence. Pour les bases de données, moteurs de cache, logs haute fréquence ou NVMe-oF target, placer threads, IRQ et mémoire sur le bon NUMA node change fortement les p99/p999.

# Linux NUMA and PCI topology
lspci -tv
cat /sys/block/nvme0n1/device/numa_node
numactl --hardware
cat /proc/interrupts | grep nvme

# Pin a benchmark to a NUMA node
numactl --cpunodebind=0 --membind=0 fio job.fio
Diagnostics PCIe
# Link speed and width
sudo lspci -vv -s 0000:xx:yy.z | egrep 'LnkCap|LnkSta'

# AER errors
sudo dmesg -T | egrep -i 'pcie|aer|corrected|uncorrected|nvme reset'

# NVMe SMART and error log
sudo nvme smart-log /dev/nvme0
sudo nvme error-log /dev/nvme0
sudo nvme get-log /dev/nvme0 --log-id=2 --log-len=512
Symptôme grave : des resets NVMe ou AER uncorrected peuvent provenir de température, firmware, signal integrity, slot, riser, retimer ou alimentation, pas uniquement du SSD.
4.4 Fibre Channel — SAN isolé, stable et prévisible
Pourquoi Fibre Channel reste présent

Fibre Channel est conçu pour transporter du block storage SCSI dans un réseau dédié, avec une latence basse, une perte contrôlée et une isolation forte. Là où Ethernet doit souvent être configuré pour devenir prévisible, FC part d'un modèle SAN spécialisé : HBA, switches FC, WWPN, fabric login, zoning et multipathing.

  • Initiator : HBA serveur.
  • Target : ports contrôleurs baie.
  • LUN : volume logique présenté au serveur.
  • WWPN : identifiant port mondial.
Architecture type
Server HBA AFabric AArray Ctrl A
Server HBA BFabric BArray Ctrl B
Zoning + LUN Masking

La sécurité SAN se fait par couches. Le zoning limite quels WWPN peuvent se voir au niveau fabric. Le LUN masking côté baie décide quels volumes sont visibles par quels initiators. Les deux sont nécessaires : le zoning seul ne suffit pas, le masking seul expose trop le fabric.

CoucheContrôleBonne pratique
Fabric zoningSwitch FCSingle initiator zoning
LUN maskingBaie de stockageHost group par cluster
MultipathOS/HyperviseurPolicy vendor-aware
AuditCMDB / SAN toolTracer WWPN ↔ host
Best practice : une zone contient généralement un seul initiator et un ou plusieurs target ports. Cela réduit le bruit, les erreurs et les risques de visibilité indésirable.
Vitesses et générations
NomUsageCommentaire
8GFCLegacy encore visibleÀ moderniser si SAN actif.
16GFCTrès répanduEncore suffisant pour beaucoup de workloads.
32GFCStandard moderneBon compromis datacenter.
64GFCHaut débitBaies modernes et consolidation.
128GFCNouvelle générationProduits en arrivée progressive.
Dual fabric : règle d'or SAN

Un SAN sérieux évite le point unique de défaillance : deux fabrics totalement séparés, deux switches ou directors, deux HBA côté serveur, deux chemins vers chaque contrôleur de baie. Les ISL doivent être dimensionnés, mais il faut éviter de mélanger Fabric A et Fabric B.

Erreur classique : relier les deux fabrics pour “faire simple”. Cela détruit l'isolation de panne et peut transformer une erreur de zoning en incident global.
TestAttendu
Débrancher HBA AI/O continue via HBA B
Reboot switch Fabric APas d'arrêt applicatif
Masquer un target portChemins réduits, volume toujours online
Diagnostics Fibre Channel
# Linux FC hosts
ls /sys/class/fc_host/
cat /sys/class/fc_host/host*/port_name
cat /sys/class/fc_host/host*/port_state
cat /sys/class/fc_host/host*/speed

# Rescan SCSI
for h in /sys/class/scsi_host/host*; do echo "- - -" | sudo tee $h/scan; done

# Multipath view
multipath -ll
multipathd show paths

# Vendor tools examples
systool -c fc_host -v
sanlun lun show
4.5 Ethernet — Le stockage sur IP, du NAS au NVMe/TCP
Ethernet est devenu le bus universel du stockage distribué

Ethernet transporte aujourd'hui du block, du file, de l'object et du NVMe-oF. L'avantage : coût, standardisation, scalabilité, exploitation réseau connue. Le risque : latence variable, congestion, mauvaise QoS, jumbo frames incohérentes, pertes microburst et dépendance au design réseau.

FamilleProtocolesUsage
Block over IPiSCSI, NVMe/TCPVolumes pour serveurs, virtualisation, DB
FileNFS, SMBPartage fichiers, VM datastores, home dirs
ObjectS3, Swift, Ceph RGWArchives, data lakes, cloud-native
RDMARoCEv2, iWARPLatence faible, CPU réduit
iSCSI

iSCSI encapsule des commandes SCSI dans TCP/IP. Il permet d'exposer des LUNs block sur Ethernet standard. Bien configuré, il est robuste ; mal configuré, il souffre vite de congestion, perte de paquets, MTU incohérente ou mauvaise séparation réseau.

  • IQN : identifiant initiator/target.
  • CHAP : authentification simple.
  • MPIO : chemins multiples, pas du bonding naïf.
  • VLAN dédié : recommandé pour isolation.
# Linux iSCSI discovery and login
iscsiadm -m discovery -t sendtargets -p 10.10.10.10
iscsiadm -m node --login
iscsiadm -m session -P 3

# Multipath
multipath -ll
Piège : ne pas confondre bonding réseau et multipathing stockage. Deux sessions iSCSI doivent être vues comme deux chemins MPIO indépendants.
NFS et SMB
CritèreNFSSMB
CultureUnix/Linux, VMwareWindows, AD, fichiers utilisateurs
Version moderneNFSv4.1/4.2SMB3.x
HApNFS, cluster NASContinuous Availability, witness
SécuritéKerberos, export policiesNTFS ACL, Kerberos, signing/encryption

Le file storage est plus simple à consommer que le block, mais il impose une attention forte aux locks, aux ACLs, aux caches clients, aux snapshots et aux workloads de petits fichiers.

NVMe over Fabrics

NVMe-oF transporte les commandes NVMe sur un fabric : TCP, RDMA, Fibre Channel. NVMe/TCP est attractif car il fonctionne sur Ethernet IP standard ; NVMe/RDMA réduit davantage la latence et la charge CPU mais exige un réseau lossless ou très bien maîtrisé.

TransportAvantageContrainte
NVMe/TCPDéploiement simple sur IPCPU et latence TCP
NVMe/RDMA RoCEv2Latence très basseDCB/PFC/ECN délicats
NVMe/FCIntégration SAN FCInfrastructure FC
# Linux NVMe/TCP example
modprobe nvme-tcp
nvme discover -t tcp -a 10.20.30.40 -s 4420
nvme connect -t tcp -a 10.20.30.40 -s 4420 -n nqn.2014-08.org.nvmexpress:uuid:target
Ceph, S3 et cloud storage

Object storage transforme le réseau Ethernet en couche fondamentale : les objets sont distribués, répliqués ou codés par erasure coding sur un cluster. La latence unitaire n'est pas celle d'un disque local ; l'intérêt est la durabilité, la scalabilité, la géo-distribution et le coût au To.

Client S3Load BalancerObject GatewayCluster NetworkOSD / Disks
  • Ceph public network : client traffic.
  • Ceph cluster network : replication/recovery/backfill.
  • Risque : recovery massif qui sature le réseau et dégrade les clients.
Diagnostics Ethernet Storage
# NIC and link
ethtool eth0
ethtool -S eth0 | egrep -i 'drop|error|crc|timeout|pause'
ip -s link show eth0

# Latency and path
ping -i 0.2 target
mtr -ezbw target
iperf3 -c target -P 8

# NFS / SMB / iSCSI quick checks
nfsstat -m
smbstatus
iscsiadm -m session -P 3

# NVMe/TCP
nvme list-subsys
nvme show-hostnqn
À surveiller : drops, pause frames, microbursts, MTU mismatch, ring buffers trop petits, IRQ mal réparties et congestion ToR.
4.6 USB, Thunderbolt, eSATA — Stockage externe et workstation
Interfaces externes : pratiques, mais pas toujours enterprise

USB et Thunderbolt sont excellents pour la mobilité, la sauvegarde locale, la vidéo, la photo, le dev workstation et les boîtiers NVMe externes. En revanche, ils doivent être utilisés avec prudence pour les services critiques : connectique exposée, alimentation instable, firmware de pont USB/SATA/NVMe variable, thermal throttling, absence de vraie télémétrie enterprise.

InterfaceUsageRisque
USB 3.xBackup, disque externeDéconnexion, pont USB
USB4Dock, NVMe externeCompatibilité câble/port
ThunderboltWorkstation, DAS rapideDMA/security, coût
eSATALegacy external SATAObsolescence, pas d'alimentation standard
USB : vitesse marketing vs vitesse réelle

Les noms USB ont changé plusieurs fois, ce qui crée de la confusion. Au-delà du chiffre, vérifier le câble, le contrôleur, le boîtier externe, UASP, la dissipation thermique et le support SMART pass-through.

PointImpact
UASPPermet une meilleure gestion des commandes que BOT.
Bridge chipsetDétermine stabilité, TRIM, SMART, firmware.
CâblePeut brider à une vitesse inférieure ou provoquer resets.
Power deliveryUn disque 2.5" peut devenir instable si sous-alimenté.
# Linux USB storage inspection
lsusb -t
lsblk -o NAME,TRAN,MODEL,SIZE
smartctl -a -d sat /dev/sdX
Thunderbolt : PCIe externe

Thunderbolt transporte PCIe et DisplayPort. Pour le stockage, cela permet des boîtiers NVMe externes très rapides. Mais comme il expose PCIe, les politiques de sécurité Thunderbolt, IOMMU/VT-d, autorisation périphérique et firmware deviennent importantes.

Sécurité : sur machines sensibles, ne jamais laisser un port Thunderbolt ouvert sans politique d'autorisation, surtout si l'IOMMU n'est pas correctement activé.
# Linux Thunderbolt
boltctl
cat /sys/bus/thunderbolt/devices/*/authorized 2>/dev/null
eSATA : héritage externe SATA

eSATA a longtemps servi à connecter des disques externes avec des performances proches du SATA interne, avant que USB 3.x et Thunderbolt ne dominent. Il reste utile en environnement legacy, mais n'apporte pas la souplesse moderne d'USB-C ni les performances NVMe/Thunderbolt.

  • Pas toujours d'alimentation via câble.
  • Hotplug dépend contrôleur/BIOS/OS.
  • Pas adapté aux nouveaux designs.
Bonnes pratiques
UsageRecommandation
Backup localChiffrer, vérifier, débrancher après sauvegarde.
Workstation vidéoPréférer Thunderbolt/NVMe avec boîtier ventilé.
Serveur productionÉviter pour volumes actifs critiques.
Transport donnéesUtiliser checksum, chiffrement, inventaire.
4.7 Matrice de choix — quelle interface pour quel besoin ?
Tableau comparatif synthétique
InterfaceTypeLatenceScalabilitéHACoûtPositionnement
SATADASMoyenneFaibleFaibleTrès basCapacité, NAS simple, boot
SASDAS/JBODBasseBonneTrès bonneMoyenEnterprise HDD/SSD, backplanes
PCIe/NVMeLocal blockTrès basseLocaleVariableMoyen/hautPerformance maximale locale
Fibre ChannelSAN blockBasse stableTrès bonneExcellenteHautEnterprise SAN critique
Ethernet storageBlock/file/objectVariable à basseExcellenteBonneVariableCloud, NAS, scale-out
USB/TBExternal DASVariableFaibleFaibleBas/moyenBackup, workstation, mobilité
Choix par cas d'usage
DB critique

NVMe enterprise local si performance locale, ou FC SAN si HA centralisée. Éviter SATA/USB.

Virtualisation

FC, iSCSI bien designé, NFS enterprise, NVMe/TCP. Multipath obligatoire pour block.

Data lake

Ethernet + object storage : S3/Ceph/cloud. Optimiser réseau est-ouest et recovery.

Backup

SATA/SAS HDD, object storage, Ethernet. Le coût par To prime, mais vérifier restauration.

HPC / AI

NVMe local, NVMe-oF, RDMA, parallel filesystem. Attention NUMA et congestion.

Poste vidéo

Thunderbolt NVMe ou NAS 10/25GbE. Ventilation et câble certifié.

Dette technique par interface
DetteSymptômePrévention
SATA partoutPas de HA, latence variableSAS/NVMe pour critique
FC non documentéWWPN inconnus, zones fantômesCMDB SAN stricte
Ethernet partagéMicrobursts, pertes, tail latencyQoS, VLAN/VRF, capacité dédiée
USB pour prodDéconnexion aléatoireRéserver backup/offline
NVMe sans monitoringThermal throttling, endurance cachéenvme-cli, SMART, firmware
Arbre de décision rapide
Besoin block critique ?→ oui →HA centralisée ?→ oui →FC / iSCSI / NVMe-oF→ non →NVMe local RAID/replication
Besoin fichiers ?NFS / SMB NASSnapshots + ACL + backup
Besoin archive massive ?Object / HDD denseErasure coding + lifecycle
4.8 Câbles, connecteurs, backplanes et formes physiques
Form factors modernes
FormatInterfaceUsageAttention
3.5"SATA/SASHDD capacitéVibrations, chaleur
2.5"SATA/SAS/U.2SSD/HDD enterpriseDensité thermique
M.2PCIe/SATAPC, boot, edgePas idéal hot-swap
U.2/U.3PCIe/SAS/SATA selon backplaneNVMe hot-swap serveurCompatibilité backplane
EDSFF E1.S/E3.SPCIe/NVMeServeurs densesPlateforme récente
Câbles et transceivers
TypeUsageRisque
SATA dataDisque interneCRC, latch absent
Mini-SAS / SlimSASBackplane/HBAMauvais sens, compatibilité
DACEthernet courte distanceVendor lock, longueur
AOCEthernet/FC plus longCoût, diagnostic optique
Optique FC/EthDatacenterBudget optique, poussière
Backplanes : la zone invisible des incidents

Le backplane est souvent oublié : il transporte alimentation, données, signaux de présence, LED, sideband et parfois expander/switch. Un disque “défaillant” peut en réalité être victime d'un slot, d'un câble HBA, d'un expander, d'un retimer ou d'une alimentation partagée.

# Check enclosure and slots if SES is available
lsscsi -g
sg_ses --page=0x2 /dev/sgX
storcli /c0/eall/sall show
Airflow et contraintes physiques

Les SSD NVMe haute performance dissipent beaucoup plus que les anciens SSD SATA. Un slot mal ventilé provoque thermal throttling, latence p99 élevée, resets et baisse d'endurance. Les HDD denses souffrent aussi des vibrations rotatives.

Règle : ne jamais densifier disques ou SSD sans vérifier airflow serveur, obturateurs de baies vides, firmware fans, température inlet et SMART/NVMe temperature logs.
4.9 Stack protocolaire — du write applicatif au support physique
Block storage path
DB writeFS / rawBlock layerDriverHBA/NIC/PCIeTargetMedia

Chaque couche peut ajouter latence, cache, reorder, flush, barriers, queueing et retries. Comprendre la stack est indispensable pour expliquer pourquoi un benchmark simple ne représente pas une base de données réelle.

File storage path

NFS/SMB ajoutent une sémantique fichier : locks, permissions, attributs, metadata server, cache client, oplocks/delegations, snapshots. C'est plus convivial, mais les workloads metadata-heavy peuvent saturer bien avant le débit brut.

Object storage path

S3/Ceph/Swift déplacent la complexité vers l'application : PUT/GET, multipart upload, versioning, metadata, lifecycle, erasure coding. La performance dépend fortement du parallélisme client et du réseau.

Virtualisation
CoucheExemplesAttention
Guest FSext4, XFS, NTFSAlignement, cache
Virtual diskVMDK, VHDX, QCOW2Snapshots, thin provision
DatastoreVMFS, NFS, vSANQueue depth HBA/VM
PhysicalFC/iSCSI/NVMeMultipath, latency
4.10 Latence, queue depth, interruptions et QoS
Queue depth : l'outil et le piège

Augmenter la queue depth peut améliorer le débit total, mais aussi augmenter la latence si le périphérique est saturé. Une base de données sensible à la latence préfère souvent une latence p99 stable plutôt qu'un pic d'IOPS en benchmark.

StackModèle de queueImpact
AHCI/SATAQueue unique, 32 commandesLimité
SCSI/SASTag command queuingEnterprise stable
NVMeQueues multiples massivesTrès haut parallélisme
Network storageSessions/queues selon protocoleDépend réseau
Tail latency : le vrai ennemi

La moyenne ment. Les incidents applicatifs apparaissent souvent en p99/p999 : garbage collection SSD, rebuild RAID, congestion Ethernet, path failover, pauses FC, snapshots, thin provisioning, thermal throttling, ou flush synchrones.

Mesure utile : toujours capturer min/avg/max + percentiles p95/p99/p999, et corréler avec CPU, réseau, contrôleur, température et queue depth.
CPU overhead

Plus le stockage est rapide, plus le coût CPU de la pile devient visible. NVMe local réduit l'overhead par I/O ; NVMe/TCP consomme plus de CPU que RDMA ; SMB/NFS ajoutent une sémantique fichier ; chiffrement et compression peuvent déplacer le bottleneck.

iostat -x 1
pidstat -d 1
mpstat -P ALL 1
perf top
cat /proc/interrupts | egrep 'nvme|eth|qla|lpfc'
Benchmark fio utile
[global]
ioengine=libaio
direct=1
time_based=1
runtime=120
group_reporting=1
randrepeat=0

[randread-latency]
filename=/dev/nvme0n1
rw=randread
bs=4k
iodepth=32
numjobs=4
write_lat_log=lat
log_avg_msec=1000
Bon réflexe : ne jamais benchmarker uniquement en séquentiel. Tester random read/write, mixed 70/30, sync writes, queue depths réalistes et durée suffisante.
4.11 Redondance, multipathing et chemins actifs
Multipath ≠ load balancing simple

Le multipathing permet à un serveur de voir plusieurs chemins physiques vers le même volume. Il gère failover, path grouping, retry, queueing et parfois répartition de charge. Il doit être cohérent avec le type de baie : active/active, active/passive, ALUA ou NVMe ANA.

TechnologieMultipathRôle
FCMPIO / DM-Multipath / PowerPathChemins SAN
iSCSIMPIOSessions multiples
SASMPIODual controllers/JBOD
NVMe-oFNative multipath / ANANVMe namespaces
ALUA et ANA

ALUA indique quels chemins SCSI sont optimisés. ANA joue un rôle similaire côté NVMe : certains chemins vers un namespace sont optimized, non-optimized ou inaccessible. Ignorer ces états peut provoquer des latences ou bascules inutiles.

# Linux multipath
multipath -ll
multipathd show config
multipathd show paths

# NVMe native multipath
cat /sys/module/nvme_core/parameters/multipath
nvme list-subsys
nvme list -v
Tests de coupure obligatoires
TestObjectifValidation
Débrancher un cheminFailover sans I/O errorApplication continue
Reboot contrôleur baieMaintenance transparenteChemins changent d'état
Upgrade switchDual fabric fonctionnelPas de freeze long
Stress + failoverComportement sous chargep99 acceptable
4.12 Runbooks production — commandes et checklists
Inventaire Linux stockage
lsblk -o NAME,KNAME,TYPE,SIZE,MODEL,SERIAL,ROTA,TRAN,MOUNTPOINT
lsscsi -g
findmnt
blkid
cat /proc/mounts
udevadm info --query=all --name=/dev/sdX
smartctl -a /dev/sdX
nvme list
nvme smart-log /dev/nvme0
multipath -ll
Inventaire Windows
Get-Disk
Get-PhysicalDisk
Get-StoragePool
Get-VirtualDisk
Get-Volume
Get-InitiatorPort
Get-IscsiSession
Get-MPIOAvailableHW
mpclaim -s -d
fio baseline
fio --name=seqread --filename=/dev/nvme0n1 --rw=read --bs=1M --iodepth=32 --direct=1 --runtime=60 --time_based --group_reporting
fio --name=randwrite --filename=/dev/nvme0n1 --rw=randwrite --bs=4k --iodepth=32 --numjobs=4 --direct=1 --runtime=120 --time_based --group_reporting
fio --name=mix --filename=/dev/nvme0n1 --rw=randrw --rwmixread=70 --bs=8k --iodepth=64 --numjobs=4 --direct=1 --runtime=120 --time_based --group_reporting
Checklist incident performance
ÉtapeQuestionCommande
1Disque saturé ?iostat -x 1
2Réseau stockage en erreur ?ethtool -S / switch counters
3Chemin perdu ?multipath -ll
4SSD throttle ?nvme smart-log
5Firmware/log kernel ?dmesg -T
4.13 Sécurité bas niveau — isolation, DMA, zoning, CHAP et TLS
SAN Fibre Channel
  • Single initiator zoning.
  • LUN masking strict par host/cluster.
  • Auditer régulièrement les WWPN orphelins.
  • Ne pas recycler un host group sans nettoyage.
  • Tracer fabric A/B et changements de zoning.
Stockage IP
ProtocoleProtection
iSCSICHAP/mutual CHAP, VLAN/VRF dédié, ACL target.
NFSKerberos, export policies, root squash, segmentation.
SMBKerberos, signing/encryption, ACL NTFS, audit.
NVMe/TCPHost NQN allowlist, TLS si disponible, réseau dédié.
S3IAM, bucket policy, object lock, encryption, logs.
DMA et ports externes

Thunderbolt et certains périphériques PCIe externes peuvent exposer des surfaces DMA. Sur postes sensibles, activer IOMMU/VT-d, niveaux de sécurité Thunderbolt, autorisation périphérique et blocage des ports non nécessaires.

Ops sécurité
Règle : un incident stockage est souvent un incident de disponibilité, mais peut devenir un incident de confidentialité si un mauvais host voit une mauvaise LUN ou un mauvais bucket.
Changement zoningTicket, peer review, sauvegarde config switch.
Décommission serveurRetirer WWPN/IQN/NQN et mapping baie.
Backup externeChiffrement + offline + test restore.
4.14 Cloud et hyperscale — les interfaces existent toujours, mais cachées
Volumes block cloud

EBS, Persistent Disk, Managed Disks et équivalents abstraient le réseau, le stockage, la réplication et les interfaces physiques. Pour l'OS, le volume peut apparaître comme NVMe, SCSI ou virtio selon plateforme. La performance dépend du type de volume, de la taille, des IOPS provisionnées, du throughput, de l'instance et du réseau interne.

Local NVMe / ephemeral SSD

Les disques locaux cloud offrent une latence très basse et un débit élevé, souvent via NVMe attaché à l'hôte. Mais ils sont éphémères : panne hôte, stop/start ou migration peuvent perdre les données. À utiliser avec réplication applicative ou cache reconstructible.

Object storage cloud

S3, GCS, Azure Blob et compatibles déplacent le problème de l'interface physique vers API, durabilité, lifecycle, coût de requête, egress et classes de stockage. Le design applicatif doit paralléliser et tolérer la latence réseau.

Design cloud storage
BesoinChoix
DB transactionnelleBlock provisionné IOPS / local NVMe + réplication
Data lakeObject storage + formats colonne
CacheLocal NVMe ou service managé
BackupSnapshots + object archive + immutability
4.15 Références, normes et URLs utiles
Glossaire minimal
HBAHost Bus Adapter, carte d'accès stockage block.
WWPNWorld Wide Port Name, identifiant port Fibre Channel.
IQNiSCSI Qualified Name.
NQNNVMe Qualified Name.
LUNLogical Unit Number, volume block exposé.
NamespaceUnité logique NVMe.
MTUMaximum Transmission Unit, taille paquet Ethernet.
RDMARemote Direct Memory Access.
Checklist avant choix d'interface
QuestionPourquoi
Block, file ou object ?Détermine la pile protocolaire.
Latence p99 cible ?Évite choix uniquement au débit.
Besoin HA/multipath ?Élimine SATA/USB pour critique.
Distance serveur-stockage ?Local PCIe vs SAN vs IP.
Compétences équipe ?FC, RDMA, Ceph exigent expertise.
Observabilité disponible ?Sans métriques, impossible d'opérer.
Plan firmware/câbles ?Les incidents physiques sont fréquents.