💽 Storage Systems / Le stockage — Partie 2

Chapitre 2 — Disques durs HDD : mécanique, interfaces, familles, performances, usages modernes, constructeurs et critères d'achat enterprise.

HDDSATASASCMRSMRHAMRData Center

Rotation standard5.4K / 7.2K / 10K

La mécanique fixe une latence plancher : même un excellent HDD reste limité par la rotation et le seek.

SATA actuel6 Gb/s

SATA Revision 3.0 définit le débit de liaison 6 Gb/s, largement suffisant pour la majorité des HDD.

SAS moderne12 / 24 Gb/s

SAS vise surtout la robustesse enterprise : dual-port, multipath, files de commandes, backplanes et expanders.

Capacités 202630–32 TB+

Les disques nearline hyperscale montent désormais autour de 30 à 32 To selon fabricants et technologies.

2.1

Principe de fonctionnement

Plateaux magnétiques, têtes de lecture, actuateur, pistes, secteurs, rotation, seek time, cache, servo, firmware et traduction LBA.

PlattersHeadsSeek

2.2

Interfaces

SATA, SAS, USB, Fibre Channel legacy, bridges, backplanes, multipath et différence entre débit de bus et débit réel disque.

SATASASFC

2.3

Types de disques

Desktop HDD, enterprise HDD, nearline, surveillance, archive, NAS, datacenter, CMR, SMR, helium, HAMR, MAMR, UltraSMR.

CMRSMRHAMR

2.4

Performances

RPM, débit séquentiel, IOPS faibles, latence mécanique, queue depth, cache, workload rate, rebuild RAID et effets de fragmentation.

IOPSLatencyThroughput

2.5

Usages modernes

Stockage massif, sauvegarde, vidéosurveillance, archives, cold tiers, cloud object storage, data lakes, NAS capacité et hyperscale.

BackupArchiveObject

2.6

Constructeurs

Seagate, Western Digital, Toshiba : gammes, technologies, positionnement, tendances 30+ To, endurance et lecture des fiches techniques.

SeagateWDToshiba

Technologies d'enregistrement

PMR, CMR, SMR, ePMR, HAMR, MAMR, TDMR, helium. Comprendre pourquoi la densité augmente mais pas les IOPS.

PMRTDMRHelium

RAID

HDD en RAID / Erasure Coding

RAID5/6/10, rebuild, URE, scrubbing, hot spare, ZFS RAIDZ, erasure coding objet et risques sur gros volumes.

RebuildRAID6EC

OPS

Exploitation & monitoring

S.M.A.R.T., température, vibration, secteurs réalloués, pending sectors, power-on hours, workload, erreurs interface et remplacement préventif.

SMARTTempVibration

SEC

Sécurité & effacement

Chiffrement, SED, TCG Opal, sanitize, crypto erase, destruction, chaîne de custody, conformité et risques de revente.

SEDSanitizeWORM

BUY

Guide d'achat technique

Capacité utile, coût par To, CMR/SMR, MTBF/AFR, garantie, workload rate, bruit, consommation, compatibilité NAS/SAN.

TCOAFRWarranty

CALC

Calculs & sizing

Latence moyenne, IOPS théoriques, capacité utile RAID, temps de rebuild, débit agrégé, puissance, densité rack et coût global.

FormulesSizing

FAIL

Pannes HDD & forensic

Symptômes mécaniques, erreurs SMART, secteurs instables, timeouts, click of death, récupération, priorités incident et erreurs à ne pas commettre.

IncidentSMARTForensic

SSD

HDD vs SSD / Hybrid tiering

Quand garder du HDD, quand passer au SSD/NVMe, comment concevoir une architecture hybride capacité + performance.

TieringNVMeHybrid

LAB

Cas pratiques d'architecture

NAS PME, backup repository, stockage vidéo, mini object storage, serveur Proxmox, data lake économique : designs types et erreurs classiques.

NASBackupProxmox

ABC

Glossaire HDD expert

Lexique complet : LBA, ZBR, servo, ECC, URE, AFR, MTBF, T10 PI, 512e, 4Kn, TLER, ERC, CCTL, RV sensor.

GlossaireAcronymes

Annexe expert x2

Matrice décisionnelle complète : workloads, erreurs, métriques, lifecycle, énergie, rack density, compatibilité, tests d'acceptance et checklist production.

ProductionChecklistRisks

Carte complète HDD — De la mécanique au data center

La logique complète d'un disque dur

Un HDD est une machine électromécanique de haute précision. Il transforme une requête logique de blocs en mouvements physiques : rotation des plateaux, déplacement de têtes, lecture d'une zone magnétique, correction d'erreurs, remontée au contrôleur, puis retour au système d'exploitation. Son immense avantage reste le coût par To et la densité capacitive. Sa limite fondamentale reste la mécanique : un bras doit se déplacer et un secteur doit passer sous une tête.

Application

→

Filesystem

→

LBA

→

Firmware HDD

→

Servo + tête

→

Secteurs magnétiques

Message clé

Le HDD moderne n'est pas mort. Il a changé de rôle : il n'est plus le média universel de performance, mais il reste un pilier du stockage massif, des archives actives, du backup, du nearline et des infrastructures cloud objet.

Vue en coupe simplifiée

Composant	Rôle	Symptôme si problème
Moteur spindle	Rotation stable	Bruit, non-détection, latence extrême
Actuateur	Déplacement des têtes	Click of death, seeks infinis
Firmware	Mapping LBA, cache, ECC	Timeouts, erreurs SMART, secteurs instables

2.1 Principe de fonctionnement des disques durs HDD

Lecture / écriture magnétique

Les données sont encodées sous forme d'états magnétiques sur des plateaux recouverts d'une couche magnétique. Les têtes ne touchent normalement pas la surface : elles flottent à une distance extrêmement faible grâce au coussin d'air généré par la rotation. L'actuateur positionne la tête au-dessus d'une piste, puis le disque attend que le bon secteur passe sous la tête.

Séquence simplifiée d'une lecture

Commande READ

→

Seek

→

Latence rotation

→

Lecture secteur

→

ECC

→

DMA vers host

Seek time : temps de déplacement de la tête vers la bonne piste.
Rotational latency : attente moyenne avant que le secteur recherché arrive sous la tête.
Transfer time : temps de lecture réelle une fois la tête au bon endroit.

Formules de base

Latence rotation moyenne = 60 000 / RPM / 2

RPM	Tour complet	Latence moyenne	Lecture pratique
5 400	11,11 ms	5,56 ms	Disques desktop / archive
7 200	8,33 ms	4,17 ms	Nearline / NAS / datacenter capacité
10 000	6,00 ms	3,00 ms	Ancien enterprise performance
15 000	4,00 ms	2,00 ms	Legacy haute performance remplacé par SSD

Important : un HDD ne devient pas rapide en random I/O parce que son interface est rapide. SATA 6 Gb/s ou SAS 12 Gb/s ne suppriment ni seek, ni rotation.

De CHS à LBA

Historiquement, on décrivait les disques en cylindres, têtes et secteurs. Les systèmes modernes utilisent le LBA : Logical Block Addressing. Le système demande un bloc logique, le firmware traduit ce bloc vers un emplacement physique réel, en tenant compte des zones, secteurs remappés, caches, pistes de réserve et stratégies internes.

Terme	Sens	Impact
LBA	Adresse logique vue par l'OS	Abstraction de la géométrie réelle
512e	Secteurs physiques 4K exposés en 512 octets	Compatibilité historique
4Kn	Secteurs logiques natifs 4K	Meilleure cohérence moderne
Zoning	Plus de secteurs sur pistes externes	Débit plus élevé au début du disque

Pourquoi le début du disque est souvent plus rapide

Les pistes externes ont une circonférence plus grande. À RPM identique, elles peuvent contenir plus de secteurs et donc offrir un débit séquentiel plus élevé. C'est la raison pour laquelle certains benchmarks montrent une pente descendante entre le début et la fin d'un HDD.

Pistes externes

Max

Zone médiane

Moyen

Pistes internes

Bas

Design : pour les workloads séquentiels, l'emplacement physique et la fragmentation comptent. Pour les objets cloud ou backup, l'agrégation de nombreux disques masque souvent ces écarts.

Cache disque et firmware

Le cache d'un HDD n'est pas un simple tampon. Il sert à absorber certaines écritures, précharger des lectures séquentielles, réordonner des commandes, optimiser le mouvement des têtes et réduire les allers-retours inutiles. Mais le cache peut devenir dangereux si une coupure électrique intervient avant que les données soient réellement écrites sur les plateaux.

Read-ahead : le disque anticipe la lecture séquentielle.
Write cache : le disque confirme vite puis écrit physiquement après.
NCQ / TCQ : réordonnancement des commandes pour réduire les seeks.
Firmware scheduling : arbitrage entre latence et débit global.

Effet du cache selon workload

Workload	Cache utile ?	Explication
Lecture séquentielle	Très utile	Read-ahead efficace
Écriture séquentielle	Utile	Fusion et lissage des writes
Random 4K sync	Peu utile	La mécanique domine
DB avec fsync	Risque si non protégé	Besoin de cache protégé côté contrôleur

Base de données : ne jamais confondre write cache disque grand public et cache protégé par batterie/supercap d'un contrôleur enterprise.

ECC, remapping et secteurs faibles

Les HDD intègrent des codes correcteurs d'erreurs, des secteurs de réserve et des mécanismes de remapping. Lorsqu'un secteur devient illisible ou instable, le firmware peut le réallouer. Le système voit souvent le disque comme encore fonctionnel, alors que le risque augmente.

Signal SMART	Sens	Action
Reallocated Sector Count	Secteurs remplacés	Surveiller / remplacer selon tendance
Current Pending Sector	Secteurs instables non remappés	Risque élevé : backup immédiat
Offline Uncorrectable	Erreur non corrigible	Remplacement recommandé
UDMA CRC Error	Erreur lien / câble / backplane	Vérifier câbles, ports, backplane

Lecture lente ≠ panne franche

Un disque peut ralentir fortement sans tomber immédiatement. Les retries ECC, les secteurs difficiles, les vibrations et les recalibrations peuvent générer des latences de plusieurs secondes. En RAID, cela peut provoquer un timeout contrôleur et sortir le disque de l'array.

Enterprise : les disques NAS/enterprise gèrent mieux les timeouts contrôleur via des fonctionnalités type TLER/ERC/CCTL selon constructeur, afin d'éviter que le disque passe trop longtemps à corriger seul une erreur.

# Linux - inspection rapide
smartctl -a /dev/sdX
smartctl -t long /dev/sdX
smartctl -l error /dev/sdX

# Chercher les signaux critiques :
# Reallocated_Sector_Ct, Current_Pending_Sector, Offline_Uncorrectable, UDMA_CRC_Error_Count

Limites physiques indépassables

IOPS random faibles
Un HDD 7 200 RPM délivre souvent de l'ordre de quelques dizaines à environ 100-200 IOPS selon taille d'I/O, queue depth et workload. Un SSD NVMe peut monter à des centaines de milliers ou millions d'IOPS.

Latence variable
La moyenne peut être acceptable, mais les percentiles élevés sont problématiques : seeks longs, retries, vibrations, firmware housekeeping, SMR garbage collection.

Débit séquentiel correct
Les HDD modernes restent très efficaces pour lire/écrire de gros flux continus : backup, vidéo, objet, archive active, réplication bulk.

Limite	Cause	Contournement moderne
Random I/O	Seek + rotation	SSD pour hot tier, cache, tiering
Rebuild long	Capacité élevée	RAID6/RAIDZ2, EC, spare, scrubbing
Vibration	Densité rack et rotation	Disques enterprise RV sensors
Consommation	Moteur et plateaux	Helium, spin-down contrôlé, cold tier

2.2 Interfaces HDD : SATA, SAS, USB, Fibre Channel legacy

SATA : simplicité et coût

SATA est l'interface dominante pour les HDD desktop, NAS grand public, nearline simple et stockage capacité économique. Le standard SATA 3.0 définit une liaison à 6 Gb/s. Pour les HDD, cette vitesse de bus est rarement le facteur limitant : le débit réel séquentiel d'un disque dépend surtout de sa densité surfacique, de son nombre de plateaux et de sa zone physique.

Point	SATA HDD	Commentaire
Débit lien	6 Gb/s	En pratique largement suffisant pour HDD
Ports	Single-port	Pas de multipath natif
Usage	NAS, desktop, archive, backup	Très économique
Commande	NCQ	Réordonnancement simple

Quand SATA est parfait

NAS de sauvegarde ou de fichiers avec budget maîtrisé.
Serveur de backup local non critique avec réplication externe.
Stockage séquentiel de gros fichiers : vidéo, logs compressés, archives.
Lab, homelab, staging, cold data.

Limite : SATA n'offre pas la même philosophie de disponibilité que SAS. Pour un SAN enterprise avec double contrôleur et multipath, SAS reste plus adapté.

SAS : enterprise, dual-port, multipath

SAS est l'héritier moderne de SCSI pour serveurs et baies de stockage. Son intérêt n'est pas seulement le débit. Il apporte une logique enterprise : double port, expander, topologies de backplane, meilleure intégration multipath, files de commandes robustes, diagnostics et comportement adapté aux contrôleurs RAID/SAN.

Génération	Débit lien	Usage
SAS-2	6 Gb/s	Baies anciennes, serveurs legacy
SAS-3	12 Gb/s	Enterprise courant
SAS-4 / 24G	24 Gb/s	Plateformes modernes, surtout SSD/SAS haute densité

Pourquoi SAS en baie

Controller A

↘

Dual-port SAS HDD

↙

Controller B

Dual path : deux chemins indépendants vers le disque.
HA : un contrôleur peut tomber sans couper l'accès.
Expander : beaucoup de disques derrière moins de ports physiques.
Signal integrity : meilleur contexte châssis/backplane.

USB : pratique, pas toujours robuste

Les HDD USB sont très utiles pour le transport, les sauvegardes ponctuelles, les exports, les copies hors ligne et les petits environnements. Mais USB ajoute un bridge SATA/USB ou NVMe/USB, parfois opaque pour SMART, le cache, la gestion d'alimentation et les erreurs.

Usage	OK ?	Vigilance
Backup ponctuel	Oui	Vérifier restauration
Stockage production	Non recommandé	Déconnexions, alimentation, bridge
Archivage offline	Possible	Rotation périodique, checksum
RAID USB multi-disques	Risque	Identité disque et timeouts

Piège classique : un disque externe n'est pas une stratégie de sauvegarde complète si on ne teste jamais la restauration, si le disque reste branché en permanence, ou si aucune copie hors site n'existe.

# Bon réflexe après copie massive
# 1. Générer des checksums
sha256sum bigfile.tar.zst > bigfile.tar.zst.sha256

# 2. Vérifier après transfert
sha256sum -c bigfile.tar.zst.sha256

# 3. Démonter proprement
sync
umount /mnt/backup_usb

Fibre Channel legacy HDD

Fibre Channel a longtemps été utilisé dans les baies SAN enterprise, y compris avec des disques durs FC. Aujourd'hui, on rencontre surtout FC comme protocole de fabric SAN côté hôtes, tandis que l'arrière-plan disque des baies a migré vers SAS, SSD, NVMe ou architectures propriétaires. Les vieux disques FC restent un sujet de maintenance legacy.

Époque	Utilisation	Situation actuelle
Baies SAN anciennes	Disques FC natifs	Maintenance / remplacement difficile
Fabric SAN	Serveur ↔ baie	Toujours très présent
Back-end baie moderne	SAS/NVMe	Plus courant que HDD FC natif

Conseil migration : si vous avez encore des disques FC natifs, planifier la sortie. Le vrai risque est moins le débit que la disponibilité des pièces, firmwares et compétences.

Backplanes, HBA, RAID controllers

Entre le disque et le système, on trouve souvent un backplane, un HBA, un contrôleur RAID, un expander ou une carte mère serveur. Beaucoup de pannes attribuées au disque viennent en réalité du câble, du port, du backplane, du firmware contrôleur ou d'une incompatibilité.

Élément	Rôle	Symptôme
HBA	Expose les disques au système	Timeouts globaux
RAID controller	Virtual disks + cache	Patrol read, BBU, rebuild lent
Expander	Fan-out SAS	Erreurs multiples même cage
Backplane	Connectique châssis	UDMA CRC, disques qui disparaissent

Chaîne de diagnostic

Disque

→

Caddy

→

Backplane

→

Cable

→

HBA/RAID

→

Méthode : si plusieurs disques d'une même cage remontent des erreurs lien, suspecter d'abord backplane, câble, expander, alimentation ou firmware contrôleur avant de remplacer tous les disques.

2.3 Types de disques durs HDD

Taxonomie pratique

Type	Objectif	Forces	Faiblesses	Exemples d'usage
Desktop HDD	PC individuel	Prix bas, disponibilité	Pas prévu pour baie 24/7 dense	PC, stockage personnel
NAS HDD	Petites baies	24/7, vibration modérée, firmware NAS	Moins robuste que enterprise dense	Synology, QNAP, TrueNAS
Enterprise HDD	Serveurs / baies	Workload élevé, RV sensors, garantie	Coût supérieur	SAN, hyperviseurs capacité
Nearline HDD	Capacité massive	Très gros To, bon coût/To	IOPS/To faibles	Object storage, cloud, archive active
Surveillance HDD	Écriture vidéo continue	Flux séquentiels multiples	Pas idéal DB/random	NVR, CCTV
Archive HDD	Cold/capacité	Coût bas, densité	Réécriture lente si SMR	Backup, vault, cold tiers

Desktop vs NAS

Un disque desktop est optimisé pour un environnement peu dense, une charge modérée, un coût bas et une utilisation intermittente. Un disque NAS est prévu pour rester allumé 24/7, tolérer davantage de vibrations, mieux coopérer avec un RAID logiciel/matériel et accepter une charge annuelle plus élevée.

Desktop : bon choix pour poste local, lab, stockage non critique.
NAS : meilleur choix pour 2 à 8 baies, fichiers, backup local.
NAS Pro : adapté aux boîtiers plus grands et workloads multi-utilisateurs.

Questions avant achat NAS

Question	Pourquoi
CMR ou SMR ?	CMR préférable pour RAID et réécritures
Baie de combien de disques ?	Vibration et firmware
Charge annuelle ?	Workload rate du fabricant
Garantie ?	Signal du positionnement gamme

Enterprise / Nearline

Les HDD enterprise capacité ciblent les data centers : grand nombre de disques par rack, fonctionnement 24/7, vibrations, température contrôlée, monitoring, firmware validé, workload soutenu. Le terme nearline désigne souvent un disque capacité entre le stockage online chaud et l'archive froide : accessible mais pas conçu pour des millions de petites I/O random.

Critère	Enterprise capacité
RPM	Souvent 7 200
Interface	SATA ou SAS selon baie
Capacité	Très élevée, 20 To à 30+ To
Workload	Élevé, typiquement 24/7

Usage hyperscale

Les cloud providers ne cherchent pas seulement le disque le plus rapide. Ils cherchent une équation globale : To par rack, watts par To, AFR, maintenance, qualification firmware, comportement en rebuild, intégration erasure coding et coût total.

Très bon usage : object storage, data lake, sauvegarde, réplication asynchrone, contenu média, logs compressés, snapshots froids.

Mauvais usage : base OLTP random sans cache SSD, VM boot storm, index moteur de recherche chaud, tempdb, queue transactionnelle.

Surveillance HDD

Les disques de vidéosurveillance sont optimisés pour l'écriture continue de flux vidéo multiples. Ils privilégient le streaming, la tolérance aux écritures séquentielles constantes et parfois la lecture simultanée pour relecture. Ils ne sont pas conçus en priorité pour des écritures random synchrones ou une base transactionnelle.

Caractéristique	Intérêt
Streaming séquentiel	Caméras multiples
Firmware vidéo	Limiter pertes de frames
24/7	NVR toujours actif
Capacité	Rétention longue

Dimensionnement vidéo simplifié

Capacité/jour ≈ débit caméra Mbit/s × 86 400 / 8 / 1024 / 1024

# Exemple : 32 caméras à 4 Mbit/s
# 4 Mbit/s × 32 = 128 Mbit/s
# 128 × 86400 / 8 = 1 382 400 Mo/jour ≈ 1,32 To/jour
# 30 jours ≈ 39,6 To utiles avant RAID/réplication

Archive HDD et SMR

Les disques archive privilégient la capacité et le coût. Certains utilisent le SMR, qui superpose partiellement les pistes comme des tuiles. Cela améliore la densité mais peut rendre les réécritures aléatoires beaucoup plus coûteuses. Selon le mode SMR, l'hôte peut être totalement transparent, partiellement conscient ou entièrement responsable des zones.

Type	Principe	À utiliser pour	À éviter pour
CMR	Pistes indépendantes	Usage général, RAID	Coût/To parfois supérieur
DM-SMR	SMR géré par le disque	Archive, backup séquentiel	RAID avec réécritures random
HM-SMR	Host-managed zones	Infrastructures spécialisées	OS/app non compatibles

Règle simple : pour un NAS RAID classique et des réécritures fréquentes, choisir CMR sauf maîtrise complète du workload SMR.

2.4 Performances HDD : RPM, débit, latence, IOPS

Les trois temps d'une I/O HDD

Pour une lecture non cachée, la latence n'est pas seulement le débit. Elle combine le déplacement de tête, l'attente de rotation et le transfert. En random, seek + rotation dominent. En séquentiel, le transfert domine et le HDD devient beaucoup plus efficace.

Composant	Random	Séquentiel
Seek	Très important	Faible si lecture continue
Rotation	Très importante	Amortie
Débit média	Secondaire	Critique
Cache	Variable	Très utile

Calcul rapide IOPS théoriques

IOPS ≈ 1000 / (seek moyen ms + latence rotation moyenne ms)

Cas	Hypothèse	IOPS approx.
7 200 RPM bon cas	4,2 ms rotation + 4 ms seek	~122 IOPS
7 200 RPM mauvais cas	4,2 ms + 9 ms seek	~76 IOPS
10K SAS	3 ms + 4 ms	~142 IOPS
SSD NVMe	µs	Sans commune mesure

Random I/O : pourquoi les HDD souffrent

Base OLTP
Beaucoup de petites lectures/écritures synchrones : mauvais candidat pour HDD seuls.

VM boot storm
Beaucoup de VMs lisent des petits blocs au même moment : latence explose.

Cache SSD
Solution classique : hot data sur SSD, cold data sur HDD.

Workload	HDD seul	Avec cache/tiering	Commentaire
OLTP	Mauvais	Possible	WAL/redo sur SSD
Analytics séquentiel	Correct	Bon	Lire gros fichiers
Logs append-only	Bon	Très bon	Écriture séquentielle
Recherche index chaud	Mauvais	SSD conseillé	Random + latence

Débit séquentiel

Le débit séquentiel d'un HDD moderne peut être très correct, surtout sur les zones externes et avec de gros blocs. C'est pour cela que les HDD restent efficaces pour backup, objet, média, réplication, snapshots, data lake et archivage actif.

Petits blocs random

Faible

Gros blocs séq.

Bon

Multi-disques

Très bon

Agrégation

Un seul HDD n'est pas impressionnant en IOPS. Mais 60, 90, 120 ou 1 000 disques agrégés dans un système distribué fournissent un débit massif. Les cloud object stores exploitent précisément cette logique : paralléliser les lectures/écritures sur beaucoup de nœuds.

Débit agrégé brut ≈ nombre de disques × débit séquentiel moyen × facteur d'efficacité

Attention : l'efficacité réelle dépend du réseau, du protocole, de la taille d'objet, de la réplication, de l'erasure coding et du placement.

RAID et performance

RAID	Lecture séq.	Écriture séq.	Random write	Risque
RAID1	Bon	Moyen	Moyen	Capacité 50%
RAID10	Très bon	Bon	Meilleur choix HDD	Coût capacité
RAID5	Bon	Pénalité parité	Mauvais en random	Rebuild risqué gros disques
RAID6	Bon	Pénalité plus forte	Mauvais random	Plus sûr que RAID5
Erasure Coding	Très scalable	Dépend taille objet	Pas pour petits random	Complexité

HDD modernes : plus la capacité augmente, plus le rebuild est long. RAID5 sur gros disques capacité est souvent un mauvais compromis en production sérieuse.

Benchmark propre

Benchmark un HDD sans comprendre le workload ne sert à rien. Il faut tester plusieurs profils : lecture séquentielle gros blocs, écriture séquentielle, random 4K, queue depth 1, queue depth élevée, fichier plus grand que la RAM, cache désactivé ou contrôlé.

# Exemple fio lecture séquentielle
fio --name=seqread --filename=/mnt/testfile --size=100G --rw=read --bs=1M --iodepth=16 --direct=1

# Exemple fio random 4K
fio --name=randread --filename=/mnt/testfile --size=100G --rw=randread --bs=4k --iodepth=32 --direct=1

Interpréter

Métrique	Regarder	Piège
Bandwidth	MB/s	Cache OS peut tricher
IOPS	4K random	Pas représentatif si workload séquentiel
Latency p99	Percentiles	La moyenne masque les pics
Utilization	% disque occupé	100% = saturation

2.5 Usages modernes des HDD

Le HDD comme couche capacitive

La fonction moderne du HDD est claire : stocker beaucoup, longtemps, à coût maîtrisé, avec un bon débit séquentiel agrégé. Il est rarement seul : il est combiné avec SSD cache, métadonnées SSD, journal SSD, réseau 25/100/400 GbE, replication, erasure coding et orchestration logicielle.

Plateforme	Rôle HDD	Rôle SSD
Ceph	OSD capacité	DB/WAL BlueStore, metadata, cache
ZFS NAS	Pool capacité	SLOG, L2ARC selon cas
Object Storage	Data chunks	Index/métadonnées
Backup appliance	Repository	Landing zone, dedup index

Backup repository

Les HDD restent très adaptés aux sauvegardes : gros flux séquentiels, besoin de capacité, coût par To déterminant. Mais le design doit intégrer immutabilité, réplication hors site, air gap, vérification et restauration testée.

Repository local rapide pour restauration courte.
Copie secondaire vers objet cloud ou site distant.
Protection ransomware : immutabilité, snapshots, droits séparés.
Contrôle de cohérence périodique.

Architecture backup simple

Prod

→

Backup Server

→

HDD Repository

→

Immutable Copy

→

Offsite / Cloud

Bon design : HDD pour capacité + SSD pour métadonnées/dedup + object lock/immutabilité pour défense ransomware.

Vidéo, média, surveillance

La vidéo est un usage naturel : gros fichiers, flux séquentiels, rétention longue. Les risques viennent surtout de la simultanéité, du nombre de caméras, du débit global, de la reconstruction RAID et de la lecture pendant écriture.

Cas	Profil I/O	Conseil
NVR surveillance	Écriture continue	Disques surveillance, RAID adapté
Montage vidéo	Gros fichiers + scratch	SSD scratch + HDD archive
Streaming média	Lecture séquentielle	HDD OK avec cache CDN
Transcodage	CPU/GPU + temp	Temp sur SSD

HDD derrière le cloud object storage

Les services de type S3/GCS/Azure Blob cachent la complexité physique. Derrière, les données peuvent être réparties sur de nombreux disques, nœuds, racks et zones. Le client voit des objets et des classes de stockage ; le fournisseur opère la réplication, l'erasure coding, la vérification, la réparation et le placement.

Objet

→

Chunks

→

EC/Réplication

→

Nœuds HDD

→

Scrub/Repair

Pourquoi HDD et objet vont ensemble

Les objets sont souvent gros et immuables.
L'accès random bloc n'est pas l'objectif principal.
L'échelle horizontale masque les limites d'un disque individuel.
Le coût par To reste central.

Exception : certains tiers cloud chauds ou métadonnées utilisent massivement SSD/NVMe. Le stockage objet n'est pas synonyme de HDD uniquement.

IA, data lake et HDD

L'IA ne signifie pas que tout doit être sur NVMe. Les datasets bruts, images, vidéos, logs, exports, checkpoints froids et données historiques peuvent résider sur HDD/object storage. Les phases d'entraînement ou d'inférence chargent ensuite les données chaudes vers SSD/NVMe/GPU memory.

Phase IA	Média adapté	Commentaire
Raw data lake	HDD / objet	Capacité, coût
Préprocessing actif	SSD/NVMe	Shuffle, random, petits fichiers
Training hot path	NVMe / parallel FS	Feed GPU
Checkpoints anciens	HDD / objet froid	Archivage

2.6 Constructeurs HDD : Seagate, Western Digital, Toshiba

Marché HDD moderne

Le marché HDD est concentré autour de trois grands acteurs : Seagate, Western Digital et Toshiba. Les innovations se concentrent sur la densité surfacique, l'hélium, les nouvelles méthodes d'écriture, les firmwares hyperscale, la réduction watts/To et les capacités 30 To et plus.

Constructeur	Positionnement notable	Technologies visibles
Seagate	Exos, IronWolf, SkyHawk	HAMR / Mozaic 3+, enterprise, NAS, surveillance
Western Digital	Ultrastar, WD Red, Purple	ePMR, UltraSMR, HelioSeal, ArmorCache
Toshiba	MG, N300, S300	Enterprise capacity, NAS, surveillance

Note : les noms de technologies sont marketing et techniques à la fois. Le bon choix se fait sur fiche modèle exacte, firmware, workload, compatibilité baie/NAS, garantie et retours terrain.

Seagate

Seagate met fortement en avant sa plateforme Mozaic 3+ et HAMR pour augmenter la densité. Les familles typiques : Exos pour enterprise/datacenter, IronWolf pour NAS, SkyHawk pour surveillance. Les annonces 30 To et plus ciblent prioritairement les clients hyperscale et enterprise capacité.

Exos : datacenter, nearline, capacité.
IronWolf / Pro : NAS, multi-bay.
SkyHawk : vidéo-surveillance.

Points à vérifier

Critère	Pourquoi
CMR vs SMR	RAID et réécritures
Workload rate	Charge annuelle supportée
RV sensors	Baies denses
Garantie	Positionnement gamme

Western Digital

Western Digital structure ses gammes autour d'Ultrastar pour datacenter, WD Red pour NAS et WD Purple pour surveillance. Les technologies HelioSeal, ePMR et UltraSMR visent la densité et l'efficacité énergétique. Les modèles Ultrastar récents montent jusqu'à 30/32 To selon variante.

Ultrastar : enterprise, cloud, baies.
WD Red / Red Pro : NAS.
WD Purple : surveillance.

Attention aux sous-gammes

Ne pas acheter seulement par couleur : Red, Red Plus, Red Pro, Purple, Gold, Ultrastar ne ciblent pas les mêmes workloads. Lire le modèle exact, la technologie d'enregistrement et la charge annuelle.

Toshiba

Toshiba reste un acteur important sur les disques enterprise capacity, NAS et surveillance. Ses gammes MG ciblent les environnements entreprise et cloud, tandis que N300 cible les NAS et S300 la surveillance.

Gamme	Usage
MG Series	Enterprise capacity
N300	NAS
S300	Surveillance
X300	Performance desktop

Place dans un design

Comme pour les autres marques, il faut éviter le choix générique. On valide : compatibilité contrôleur/NAS, firmware, taille de secteur, interface, workload, garantie, consommation, bruit et politique de remplacement.

Lire une fiche technique HDD

Champ	Ce qu'il dit vraiment	Piège
Capacity	Capacité brute décimale	To constructeur ≠ TiB OS
Interface	SATA/SAS + débit lien	Débit lien ≠ débit plateau
MTBF / AFR	Statistique de population	Pas une promesse sur un disque individuel
Workload Rate	To/an supportés	Important pour backup intensif
Cache	Buffer interne	Ne remplace pas SSD/cache protégé
Sector size	512e / 4Kn	Compatibilité OS/contrôleur
Power	Idle / active watts	Important à l'échelle rack
Acoustics	Bruit	Important bureau/NAS domestique

Technologies d'enregistrement : CMR, SMR, HAMR, MAMR, helium

Pourquoi ces technologies existent

L'augmentation des capacités HDD vient surtout de la densité surfacique : mettre plus de bits sur une surface comparable. Mais plus les bits sont petits et proches, plus l'écriture devient difficile et plus les interférences augmentent. Les constructeurs combinent donc matériaux, têtes, lasers, micro-ondes, hélium, correction d'erreurs et firmware.

Technologie	Principe	Effet
CMR / PMR	Pistes non superposées	Usage général fiable
SMR	Pistes partiellement superposées	Densité supérieure, réécritures plus complexes
HAMR	Chauffage laser local pendant écriture	Densité élevée, 30 To+
MAMR	Assistance micro-ondes	Amélioration écriture haute densité
Helium	Atmosphère interne hélium	Moins de turbulence, plus de plateaux, moins watts/To
TDMR	Plusieurs capteurs pour lire pistes serrées	Meilleure lecture haute densité

CMR vs SMR visuel

Implication pratique : SMR peut être excellent en append-only ou archive, mais poser problème en RAID avec réécritures dispersées.

HDD en RAID, ZFS, Erasure Coding : risques et bonnes pratiques

Le problème du rebuild

Les HDD de très grande capacité allongent les temps de reconstruction. Pendant un rebuild, les autres disques sont fortement sollicités. Le risque n'est pas seulement la panne d'un deuxième disque : c'est aussi l'apparition d'erreurs latentes, timeouts, secteurs instables ou performances dégradées.

Protection	Tolérance	Commentaire
RAID5	1 disque	À éviter avec gros disques critiques
RAID6	2 disques	Standard minimal capacité sérieuse
RAID10	Selon paires	Très bon random, coût capacité
RAIDZ2/Z3	2/3 parité	Bon avec scrubbing et RAM ECC
Erasure Coding	Configurable	Objet/distribué, très scalable

Runbook de bonnes pratiques

Ne pas confondre RAID et sauvegarde.
Activer scrubbing/patrol read périodique.
Prévoir hot spare ou spare froid disponible.
Surveiller les temps de rebuild et les secteurs pending.
Éviter RAID5 sur pools critiques gros disques.
Valider les firmwares recommandés par le constructeur de la baie.
Étaler les lots d'achat pour réduire le risque de panne corrélée.

Erreur grave : construire un pool 12 × 22 To en RAID5 pour des données importantes, sans backup vérifié, sous prétexte que la probabilité de panne semble faible.

Exemple de calcul rebuild théorique

Temps minimal ≈ capacité disque / débit de reconstruction effectif

# Exemple simplifié : 22 To reconstruits à 180 Mo/s effectifs
# 22 000 000 Mo / 180 Mo/s = 122 222 s = 33,9 h
# En réel : charge applicative, vérifications, zones lentes, erreurs et contrôleur peuvent allonger fortement.

Exploitation et monitoring HDD

Indicateurs à suivre

Signal	Pourquoi	Seuil mental
Température	Vieillissement / erreurs	Éviter extrêmes et variations fortes
Reallocated sectors	Surface dégradée	Tendance plus importante que valeur isolée
Pending sectors	Secteurs instables	Signal très sérieux
CRC errors	Lien/câble/backplane	Vérifier connectique
Power-on hours	Âge	Corréler avec modèle et parc
Load cycle count	Parking têtes	Important sur certains NAS

Commandes Linux utiles

# Liste des disques
lsblk -o NAME,SIZE,MODEL,SERIAL,ROTA,TYPE

# SMART complet
smartctl -a /dev/sdX

# Test long
smartctl -t long /dev/sdX

# Températures rapides
for d in /dev/sd?; do echo $d; smartctl -A $d | egrep 'Temperature|Reallocated|Pending|Offline'; done

# Latence disque en live
iostat -x 1

Bonne exploitation : remplacer sur tendance, pas seulement sur panne franche. Un disque instable coûte plus cher en incident qu'en remplacement anticipé.

Sécurité, chiffrement et effacement des HDD

Protection des données au repos

Un HDD retiré d'un serveur reste une fuite potentielle. La sécurité se pense dès l'achat : chiffrement logiciel, SED, gestion des clés, procédure de remplacement, effacement, destruction, traçabilité.

Méthode	Avantage	Limite
Chiffrement logiciel	Portable, maîtrisable	Gestion clés côté OS
SED	Chiffrement matériel	Dépend contrôleur/gestion
Crypto erase	Très rapide	Repose sur effacement clé
Overwrite	Compréhensible	Long sur gros disques
Destruction physique	Fin de vie sensible	Coût + preuve

Runbook de sortie disque

Identifier disque, baie, serveur, propriétaire donnée.
Vérifier chiffrement actif et statut clés.
Extraire preuve SMART / inventaire.
Appliquer sanitize ou crypto erase si possible.
Si données sensibles : destruction certifiée.
Conserver certificat d'effacement/destruction.

Erreur : revendre ou jeter des disques sortis de RAID sans effacement vérifié, surtout si le chiffrement au repos n'était pas activé.

Guide d'achat HDD technique

Grille d'achat professionnelle

Critère	Question	Décision
Usage	Backup, NAS, DB, archive, vidéo ?	Choisir gamme adaptée, pas juste capacité
CMR/SMR	Réécritures fréquentes ? RAID ?	CMR par défaut si doute
Interface	SATA ou SAS ?	SAS pour baie dual-controller/multipath
Capacité	Rebuild acceptable ?	Plus gros n'est pas toujours meilleur
Workload rate	To/an écrits/lus ?	Vérifier fiche constructeur
Vibration	Combien de baies ?	RV sensors pour châssis dense
Garantie	3 ans ou 5 ans ?	Signal gamme/pro usage
Énergie	Watts par To ?	Important à grande échelle
Bruit	Bureau ou datacenter ?	Enterprise peut être bruyant
Compatibilité	NAS/contrôleur supporte le modèle ?	Consulter HCL

Choix simple NAS :
HDD NAS CMR, capacité raisonnable, RAID6/RAIDZ2 si beaucoup de disques, backup externe.

Choix datacenter :
Enterprise nearline, firmware validé, lots tracés, monitoring, erasure coding ou RAID6+, spare.

Choix archive :
SMR possible si workload append-only, vérifier restauration, checksum, copie hors site.

Calculs et sizing HDD

Formules essentielles

Calcul	Formule	Usage
Latence rotation	60 000 / RPM / 2	Comparer 5.4K/7.2K/10K
IOPS random approx.	1000 / (seek + rotation)	Ordre de grandeur
Capacité RAID6	(N - 2) × capacité	Capacité brute utile avant FS
Capacité RAID10	N / 2 × capacité	Mirroring
Rebuild minimal	Capacité / débit effectif	Fenêtre de risque
Watts rack	N × watts disque	Énergie et chaleur

Exemple concret

# Besoin : 300 To utiles pour backup local
# Disques : 22 To, RAID6 par groupe de 12 disques
# Capacité brute groupe = 12 × 22 = 264 To
# Capacité RAID6 brute = (12 - 2) × 22 = 220 To
# Deux groupes = 440 To bruts utiles RAID avant filesystem/réserve
# Réserve exploitation recommandée : garder 15 à 25% libre
# Capacité exploitable saine ≈ 330 à 374 To

Règle d'exploitation : un pool presque plein devient lent, difficile à reconstruire et dangereux. Garder une réserve réelle.

Checklist avant sizing final

Performance
Combien de flux simultanés ? Taille moyenne des fichiers ? Random ou séquentiel ? Fenêtre backup ?

Protection
RAID6/RAIDZ2 minimum sur gros pools, backup externe, scrubbing, alerting, spare.

Risque
Temps de rebuild, panne corrélée, lots identiques, chaleur, firmware, erreurs backplane.

Pannes HDD, forensic et conduite à tenir

Symptômes mécaniques

Une panne HDD peut être mécanique, électronique, magnétique, firmware ou liée à l'environnement. Les symptômes ne sont pas équivalents : un simple compteur SMART qui dérive laisse parfois le temps de migrer ; un bruit de tête ou un disque qui disparaît peut imposer l'arrêt immédiat.

Symptôme	Hypothèse	Action
Click répétitif	Tête / actuateur / servo	Arrêt immédiat si données critiques
Disque disparaît	Power, backplane, firmware, PCB	Vérifier baie, logs contrôleur, câble
Lecture très lente	Retries ECC / secteurs faibles	Cloner avec outil adapté
CRC errors	Lien SATA/SAS	Changer câble/slot/backplane
Température élevée	Airflow insuffisant	Corriger ventilation avant tests lourds

Ne pas aggraver

À éviter : relancer 20 fois un disque qui claque, lancer un long fsck destructeur sur le seul exemplaire, reconstruire un RAID en stressant des disques déjà instables, ou écrire sur le disque source pendant la récupération.

Ordre de priorité

Stabiliser : alimentation, température, vibrations.
Identifier : disque, serial, baie, rôle RAID.
Protéger : image/clone avant réparation logique.
Restaurer depuis backup si disponible.
Documenter pour analyse racine.

SMART : utile mais pas suffisant

SMART donne des indices, pas une garantie absolue. Un disque peut mourir sans préavis SMART, et certains attributs varient selon constructeur. Ce qui compte : la tendance, la combinaison de signaux et le contexte d'utilisation.

Attribut	Lecture pratique	Gravité
5 Reallocated Sector Count	Secteurs remplacés	Moyenne à élevée si augmente
187 Reported Uncorrectable	Erreurs remontées à l'hôte	Élevée
188 Command Timeout	Commandes expirées	Élevée en RAID
197 Current Pending Sector	Secteurs en attente	Très élevée
198 Offline Uncorrectable	Non corrigible hors ligne	Très élevée
199 UDMA CRC Error	Problème transport	Souvent câble/backplane

# Rapport SMART horodaté pour dossier incident
smartctl -x /dev/sdX | tee smart_sdX_$(date +%F_%H%M).txt

# Logs kernel liés au disque
dmesg -T | egrep -i 'sdX|ata|scsi|reset|timeout|uncorrect|medium error'

# Statistiques I/O live
iostat -x 1

Runbook incident RAID

Confirmer le niveau RAID et l'état réel du contrôleur.
Identifier si l'array est dégradé, reconstruit, ou en panne logique.
Vérifier backups avant toute action intrusive.
Ne pas retirer plusieurs disques sans mapping exact slot/serial.
Exporter configuration contrôleur si possible.
Remplacer un disque à la fois selon procédure baie.
Surveiller rebuild, température, erreurs médias.

Erreurs fréquentes

Erreur 1 : remettre le mauvais disque dans le mauvais slot après manipulation.

Erreur 2 : forcer online un disque obsolète dans un RAID sans comprendre l'ordre des événements.

Erreur 3 : lancer une reconstruction alors que le backup n'est pas valide et qu'un autre disque montre des pending sectors.

Récupération logique vs physique

Cas	Outil / approche	Écrire sur source ?
Suppression fichier	Snapshot / undelete / forensic	Non
Filesystem corrompu	Image puis réparation sur copie	Non
Secteurs faibles	ddrescue vers disque sain	Non
Bruit mécanique	Laboratoire spécialisé	Non, arrêter
RAID cassé	Reconstruction virtuelle par expert	Non

# Exemple ddrescue : cloner d'abord, réparer ensuite
# Première passe rapide sans insister sur erreurs
ddrescue -f -n /dev/sdX /mnt/recovery/disk.img /mnt/recovery/disk.log

# Passe de retry limitée
ddrescue -f -r3 /dev/sdX /mnt/recovery/disk.img /mnt/recovery/disk.log

# Travailler ensuite sur disk.img, pas sur le disque malade

Prévention opérationnelle

Monitoring
SMART, logs kernel, contrôleur RAID, température, latence p95/p99, erreurs lien.

Maintenance
Scrubbing, patrol read, remplacement proactif, firmware validé, nettoyage airflow.

Architecture
RAID6/RAIDZ2, spare, backup 3-2-1, immutabilité, réplication hors site.

Fréquence	Action
Temps réel	Alerting erreurs contrôleur, disques offline, température
Quotidien	Vérifier backups et jobs échoués
Hebdo	État SMART synthétique, latence anormale
Mensuel	Scrub/patrol read, rapport capacité, test restauration
Trimestriel	Audit firmware, spare, garantie, lifecycle

HDD vs SSD : arbitrage moderne et architectures hybrides

Le vrai arbitrage

La question n'est plus “HDD ou SSD ?”, mais “quelle donnée sur quelle couche ?”. Le SSD gagne sur la latence, l'IOPS, la compacité et le silence. Le HDD gagne encore sur le coût par To pour les volumes massifs froids ou séquentiels. Les architectures modernes mélangent les deux.

Critère	HDD	SSD/NVMe
Coût par To	Excellent	Plus élevé
Latence	ms	µs
Random IOPS	Faible	Très élevé
Séquentiel massif	Bon agrégé	Excellent
Endurance écriture	Pas d'usure NAND	TBW/DWPD à surveiller
Densité froide	Très bonne	En progression

Patterns hybrides

Hot metadata

→

SSD/NVMe

Cold payload

→

HDD Pool

ZFS : HDD pool + SLOG/L2ARC selon besoin réel.
Ceph : HDD OSD + DB/WAL sur SSD.
Backup : index/dedup sur SSD + repository HDD.
IA : dataset brut sur object/HDD + staging NVMe.
VM : OS et DB sur SSD, ISO/backups/templates froids sur HDD.

Règle de décision

Situation	Choix	Raison
Petites I/O synchrones	SSD/NVMe	Latence et IOPS
Gros flux backup	HDD	Coût capacité
Métadonnées nombreuses	SSD	Random access
Data lake brut	HDD/Object	Volume
Logs chauds indexés	SSD puis tier HDD	Hot/cold lifecycle

Cas pratiques d'architecture HDD

NAS PME 8 baies

Objectif : fichiers utilisateurs, partage interne, snapshots, backup local de postes. Design : 8 disques NAS CMR, RAID6/RAIDZ2, 10GbE si plusieurs utilisateurs lourds, snapshots, réplication vers disque externe ou cloud objet.

Élément	Choix
Disques	NAS CMR, même capacité, pas forcément même lot
Protection	RAID6/RAIDZ2
Cache	SSD metadata/cache seulement si besoin mesuré
Backup	Cloud/offsite + restauration testée

Bon compromis : capacité, tolérance à deux pannes, exploitation simple.

À éviter : RAID0, RAID5 gros disques, disques SMR non maîtrisés, absence de backup externe.

Repository backup 300 To

Design : serveur avec HBA, châssis 24 baies, groupes RAID6 ou ZFS RAIDZ2/3, filesystem adapté aux gros fichiers, réseau 25GbE si fenêtre courte, immutabilité logicielle ou copie objet immuable. Ajouter SSD pour métadonnées si solution de backup dédupliquée.

Clients

→

Backup LAN

→

SSD metadata

HDD repository

→

Offsite immutable

Risque	Mitigation
Ransomware	Immutabilité, compte séparé, offsite
Rebuild long	RAID6/RAIDZ2, spare, scrubbing
Fenêtre dépassée	Parallélisme, réseau, compression
Backup inutile	Tests de restauration

Proxmox / virtualisation

Les HDD seuls sont rarement adaptés aux VMs actives. Un design acceptable sépare les couches : SSD/NVMe pour VM actives, HDD pour backups, ISO, templates, archives, VM froides. Pour un petit lab, ZFS mirror SSD + pool HDD est souvent plus sain qu'un gros RAID HDD unique.

Donnée	Média
VM production	SSD/NVMe mirror
Backups Proxmox	HDD RAIDZ2/RAID6
ISO/templates	HDD
DB VM	SSD avec sync correctement géré

Erreur : héberger 30 VMs actives sur un RAID5 de HDD 7 200 RPM puis s'étonner des latences au moindre update système.

Mini object storage sur HDD

Un cluster objet économique peut utiliser des HDD capacité pour les données et des SSD pour métadonnées/journaux. Le design doit prévoir réseau, réplication/EC, domaines de panne, monitoring et expansion. MinIO, Ceph RGW ou solutions compatibles S3 exigent une compréhension fine du mode de protection.

Paramètre	Choix de design
Fault domains	Nœud, rack, site
Protection	EC ou réplication
Disques	Enterprise/Nearline CMR
Réseau	10/25GbE minimum selon débit
Objets petits	Attention métadonnées

Vidéosurveillance 64 caméras

Design : calculer débit total, rétention, marge, RAID adapté et nombre de flux de relecture simultanés. Les HDD surveillance sont adaptés au flux séquentiel, mais la perte d'un NVR entier impose une stratégie de réplication ou segmentation.

# 64 caméras × 6 Mbit/s = 384 Mbit/s
# Par jour : 384 × 86400 / 8 / 1024 / 1024 ≈ 3,96 To/jour
# 30 jours ≈ 119 To utiles avant RAID, métadonnées et marge
# Avec marge 20% : viser environ 145 To utiles

Conseil : réduire la rétention par zone, adapter FPS/résolution, utiliser détection mouvement et séparer stockage critique/non critique.

Glossaire HDD expert

Terme	Définition	Importance
LBA	Adresse logique de bloc vue par l'hôte.	Masque la géométrie physique réelle.
ZBR	Zone Bit Recording : plus de secteurs sur pistes externes.	Débit variable selon zone du disque.
Servo	Informations de positionnement des têtes.	Critique pour précision mécanique.
ECC	Correction d'erreur intégrée.	Permet de récupérer des bits dégradés.
URE	Unrecoverable Read Error.	Risque pendant rebuild et lecture massive.
AFR	Annualized Failure Rate.	Statistique de taux de panne annualisé.
MTBF	Mean Time Between Failures.	Statistique de population, souvent mal interprétée.
512e	Secteurs physiques 4K exposés en 512 octets.	Compatibilité mais alignement important.
4Kn	Secteurs 4K natifs côté hôte.	Plus propre pour systèmes modernes.
TLER / ERC / CCTL	Limitation du temps de récupération d'erreur.	Évite timeouts RAID trop longs.
RV Sensor	Capteur de vibration rotationnelle.	Important pour baies multi-disques.
SED	Self-Encrypting Drive.	Chiffrement matériel au repos.
TCG Opal	Standard de gestion de chiffrement disque.	Sécurité enterprise.
Sanitize	Commande d'effacement sécurisé.	Fin de vie et conformité.
Helium	Disque scellé à l'hélium.	Moins de turbulence, plus de plateaux.
HAMR	Heat-Assisted Magnetic Recording.	Augmente densité via chauffage laser.
SMR	Shingled Magnetic Recording.	Densité supérieure, writes complexes.
CMR	Conventional Magnetic Recording.	Usage général, RAID plus simple.

Annexe expert — Matrices de conception HDD production

Matrice workload détaillée

Workload	Profil I/O	HDD adapté ?	Design recommandé	Erreur classique
Base OLTP	4K/8K random sync	Non seul	SSD/NVMe pour data hot + HDD backup	Mettre redo/WAL sur HDD lent
Data warehouse scan	Lecture gros blocs	Oui si parallèle	HDD agrégés + cache SSD metadata	Sous-dimensionner réseau
Object storage	Objets moyens/gros	Oui	HDD nearline + EC + scrub	Trop petits objets sans metadata SSD
Backup VMs	Écritures séq. + synthetic full	Oui	RAID6/RAIDZ2 + SSD index	SMR avec synthetic random intense
Logs bruts	Append-only	Oui	HDD + compression + rotation	Index chaud sur HDD
Elasticsearch hot	Random + merge	Non	SSD hot, HDD frozen/searchable snapshots	Mettre hot tier sur HDD
Vidéosurveillance	Flux séquentiel constant	Oui	Disques surveillance, calcul rétention	Oublier relecture simultanée
Montage vidéo	Gros fichiers + scratch	Partiel	SSD scratch, HDD archive	Scratch sur HDD
Home directories	Mix petits fichiers	Oui avec cache	NAS HDD + snapshots + SSD metadata si besoin	Pas de quotas ni snapshots
Conteneurs	Images + layers + logs	Partiel	SSD runtime, HDD registry/cache froid	Overlay FS actif sur HDD saturé
CI/CD artifacts	Gros artefacts + purge	Oui	HDD objet + lifecycle	Pas de rétention
Photos RAW	Gros fichiers	Oui	NAS HDD + backup cloud	Un seul NAS comme unique copie
Cold analytics	Lecture rare	Oui	HDD/object archive active	Pas de catalogue
HPC scratch	Parallèle, haute perf	Rare	Parallel FS SSD/NVMe, HDD archive	Confondre capacité et débit
Mail server	Petits fichiers random	Non seul	SSD mailstore, HDD archive	Maildir massif sur HDD lent

Tests d'acceptance avant mise en production

Vérifier modèles, serials, firmware, taille secteur.
Tester SMART court puis long sur chaque disque.
Vérifier température idle et charge.
Benchmark séquentiel et random hors cache.
Tester rebuild sur un disque de spare en préproduction si possible.
Valider alerting : disque retiré, température, SMART, array degraded.
Valider restauration backup vers un autre volume.
Documenter mapping slot ↔ serial ↔ /dev/sdX ↔ contrôleur.

# Exemple acceptance Linux
lsblk -o NAME,SIZE,MODEL,SERIAL,ROTA
smartctl -x /dev/sdX
smartctl -t long /dev/sdX
badblocks -sv -b 4096 /dev/sdX   # destructif si écriture, prudence
fio --name=accept_seq --filename=/mnt/pool/testfile --size=200G --rw=write --bs=1M --direct=1
fio --name=accept_rand --filename=/mnt/pool/testfile --size=100G --rw=randread --bs=4k --iodepth=32 --direct=1
iostat -x 1

Test	But	Échec typique
SMART long	Surface	Pending / uncorrectable
fio direct	Performance réelle	Cache OS trompeur évité
Retrait disque	Alerting	Aucune alerte envoyée
Rebuild test	Temps réel	Fenêtre trop longue
Restauration	Backup utile	Backup illisible ou incomplet

Énergie, chaleur et densité rack

À l'échelle d'un NAS familial, quelques watts importent peu. À l'échelle d'un rack ou d'un data center, watts par To, airflow, bruit, alimentation et chaleur deviennent structurants. Les disques helium et haute capacité peuvent améliorer le ratio watts/To, même si la puissance unitaire reste significative.

Paramètre	Impact	Action design
Watts idle	Coût permanent	Comparer watts/To
Watts active	Backup/rebuild	Dimensionner PSU et refroidissement
Température	Fiabilité	Airflow avant/arrière, nettoyage
Vibration	Latence + erreurs	Châssis enterprise, RV sensors
Densité rack	To/U	Disques 20–32 To pour cold capacity
Bruit	Confort	Éviter enterprise en bureau

# Calcul simplifié puissance annuelle
# 60 disques × 8 W idle = 480 W
# 480 W × 24 × 365 = 4 204 kWh/an
# Ajouter contrôleurs, ventilateurs, CPU, réseau, PUE datacenter.

Lifecycle de données sur HDD

Ingest

→

Hot SSD

→

Warm HDD

→

Cold HDD/Object

→

Phase	Média	Contrôle
Création	SSD/NVMe si actif	Quota, classification
Exploitation	SSD + HDD selon chaleur	Snapshots, backup
Refroidissement	HDD capacité	Compression, tiering
Archive	Objet froid / bande / HDD offline	Checksum, immutabilité
Destruction	Sanitize/destroy	Preuve et audit

Migration et remplacement de génération

Migrer des HDD n'est pas juste copier des fichiers. Il faut gérer cohérence, fenêtre d'arrêt, checksum, permissions, ACL, snapshots, liens symboliques, chemins applicatifs, sauvegarde et rollback.

Étape	Action	Preuve attendue
Inventaire	Volumes, partages, propriétaires	Table mapping
Pré-copie	rsync/robocopy initial	Logs sans erreur critique
Delta	Copie incrémentale	Temps delta connu
Gel	Stop writes / maintenance	Point cohérent
Validation	Checksums, ACL, taille, count	Rapport validation
Bascule	DNS, mount, config apps	Tests applicatifs
Rollback	Plan retour	Fenêtre définie
Décommission	Sanitize anciens disques	Certificat

# Exemple rsync conservateur
rsync -aHAXx --numeric-ids --info=progress2 /source/ /target/

# Second passage delta
rsync -aHAXx --numeric-ids --delete --info=progress2 /source/ /target/

# Validation rapide
find /source -type f | wc -l
find /target -type f | wc -l
du -sh /source /target

Runbook admin quotidien

Matin

Vérifier arrays dégradés, SMART critique, température.
Vérifier jobs de backup et restauration automatique si prévue.
Contrôler capacité libre et croissance anormale.
Lire alertes contrôleur/backplane.

Hebdomadaire

Rapport secteurs réalloués/pending.
Vérifier disques spare et firmwares.
Tester une restauration aléatoire.
Analyser latences p95/p99 et saturation.

Mensuel / trimestriel

Scrubbing complet selon politique.
Audit lots de disques et garanties.
Nettoyage airflow et vérification ventilateurs.
Revue de rétention et purge.
Exercice incident : disque en panne, restauration, notification.

Objectif mature : passer d'une gestion réactive “le disque est mort” à une gestion prédictive : tendances, capacité, risques, remplacements planifiés.