💽 Storage Systems / Le stockage — Partie 2
Chapitre 2 — Disques durs HDD : mécanique, interfaces, familles, performances, usages modernes, constructeurs et critères d'achat enterprise.
La mécanique fixe une latence plancher : même un excellent HDD reste limité par la rotation et le seek.
SATA Revision 3.0 définit le débit de liaison 6 Gb/s, largement suffisant pour la majorité des HDD.
SAS vise surtout la robustesse enterprise : dual-port, multipath, files de commandes, backplanes et expanders.
Les disques nearline hyperscale montent désormais autour de 30 à 32 To selon fabricants et technologies.
Principe de fonctionnement
Plateaux magnétiques, têtes de lecture, actuateur, pistes, secteurs, rotation, seek time, cache, servo, firmware et traduction LBA.
PlattersHeadsSeekInterfaces
SATA, SAS, USB, Fibre Channel legacy, bridges, backplanes, multipath et différence entre débit de bus et débit réel disque.
SATASASFCTypes de disques
Desktop HDD, enterprise HDD, nearline, surveillance, archive, NAS, datacenter, CMR, SMR, helium, HAMR, MAMR, UltraSMR.
CMRSMRHAMRPerformances
RPM, débit séquentiel, IOPS faibles, latence mécanique, queue depth, cache, workload rate, rebuild RAID et effets de fragmentation.
IOPSLatencyThroughputUsages modernes
Stockage massif, sauvegarde, vidéosurveillance, archives, cold tiers, cloud object storage, data lakes, NAS capacité et hyperscale.
BackupArchiveObjectConstructeurs
Seagate, Western Digital, Toshiba : gammes, technologies, positionnement, tendances 30+ To, endurance et lecture des fiches techniques.
SeagateWDToshibaTechnologies d'enregistrement
PMR, CMR, SMR, ePMR, HAMR, MAMR, TDMR, helium. Comprendre pourquoi la densité augmente mais pas les IOPS.
PMRTDMRHeliumHDD en RAID / Erasure Coding
RAID5/6/10, rebuild, URE, scrubbing, hot spare, ZFS RAIDZ, erasure coding objet et risques sur gros volumes.
RebuildRAID6ECExploitation & monitoring
S.M.A.R.T., température, vibration, secteurs réalloués, pending sectors, power-on hours, workload, erreurs interface et remplacement préventif.
SMARTTempVibrationSécurité & effacement
Chiffrement, SED, TCG Opal, sanitize, crypto erase, destruction, chaîne de custody, conformité et risques de revente.
SEDSanitizeWORMGuide d'achat technique
Capacité utile, coût par To, CMR/SMR, MTBF/AFR, garantie, workload rate, bruit, consommation, compatibilité NAS/SAN.
TCOAFRWarrantyCalculs & sizing
Latence moyenne, IOPS théoriques, capacité utile RAID, temps de rebuild, débit agrégé, puissance, densité rack et coût global.
FormulesSizingPannes HDD & forensic
Symptômes mécaniques, erreurs SMART, secteurs instables, timeouts, click of death, récupération, priorités incident et erreurs à ne pas commettre.
IncidentSMARTForensicHDD vs SSD / Hybrid tiering
Quand garder du HDD, quand passer au SSD/NVMe, comment concevoir une architecture hybride capacité + performance.
TieringNVMeHybridCas pratiques d'architecture
NAS PME, backup repository, stockage vidéo, mini object storage, serveur Proxmox, data lake économique : designs types et erreurs classiques.
NASBackupProxmoxGlossaire HDD expert
Lexique complet : LBA, ZBR, servo, ECC, URE, AFR, MTBF, T10 PI, 512e, 4Kn, TLER, ERC, CCTL, RV sensor.
GlossaireAcronymesAnnexe expert x2
Matrice décisionnelle complète : workloads, erreurs, métriques, lifecycle, énergie, rack density, compatibilité, tests d'acceptance et checklist production.
ProductionChecklistRisksLa logique complète d'un disque dur
Un HDD est une machine électromécanique de haute précision. Il transforme une requête logique de blocs en mouvements physiques : rotation des plateaux, déplacement de têtes, lecture d'une zone magnétique, correction d'erreurs, remontée au contrôleur, puis retour au système d'exploitation. Son immense avantage reste le coût par To et la densité capacitive. Sa limite fondamentale reste la mécanique : un bras doit se déplacer et un secteur doit passer sous une tête.
Message clé
Le HDD moderne n'est pas mort. Il a changé de rôle : il n'est plus le média universel de performance, mais il reste un pilier du stockage massif, des archives actives, du backup, du nearline et des infrastructures cloud objet.
Vue en coupe simplifiée
| Composant | Rôle | Symptôme si problème |
|---|---|---|
| Moteur spindle | Rotation stable | Bruit, non-détection, latence extrême |
| Actuateur | Déplacement des têtes | Click of death, seeks infinis |
| Firmware | Mapping LBA, cache, ECC | Timeouts, erreurs SMART, secteurs instables |
Lecture / écriture magnétique
Les données sont encodées sous forme d'états magnétiques sur des plateaux recouverts d'une couche magnétique. Les têtes ne touchent normalement pas la surface : elles flottent à une distance extrêmement faible grâce au coussin d'air généré par la rotation. L'actuateur positionne la tête au-dessus d'une piste, puis le disque attend que le bon secteur passe sous la tête.
Séquence simplifiée d'une lecture
- Seek time : temps de déplacement de la tête vers la bonne piste.
- Rotational latency : attente moyenne avant que le secteur recherché arrive sous la tête.
- Transfer time : temps de lecture réelle une fois la tête au bon endroit.
Formules de base
Latence rotation moyenne = 60 000 / RPM / 2
| RPM | Tour complet | Latence moyenne | Lecture pratique |
|---|---|---|---|
| 5 400 | 11,11 ms | 5,56 ms | Disques desktop / archive |
| 7 200 | 8,33 ms | 4,17 ms | Nearline / NAS / datacenter capacité |
| 10 000 | 6,00 ms | 3,00 ms | Ancien enterprise performance |
| 15 000 | 4,00 ms | 2,00 ms | Legacy haute performance remplacé par SSD |
De CHS à LBA
Historiquement, on décrivait les disques en cylindres, têtes et secteurs. Les systèmes modernes utilisent le LBA : Logical Block Addressing. Le système demande un bloc logique, le firmware traduit ce bloc vers un emplacement physique réel, en tenant compte des zones, secteurs remappés, caches, pistes de réserve et stratégies internes.
| Terme | Sens | Impact |
|---|---|---|
| LBA | Adresse logique vue par l'OS | Abstraction de la géométrie réelle |
| 512e | Secteurs physiques 4K exposés en 512 octets | Compatibilité historique |
| 4Kn | Secteurs logiques natifs 4K | Meilleure cohérence moderne |
| Zoning | Plus de secteurs sur pistes externes | Débit plus élevé au début du disque |
Pourquoi le début du disque est souvent plus rapide
Les pistes externes ont une circonférence plus grande. À RPM identique, elles peuvent contenir plus de secteurs et donc offrir un débit séquentiel plus élevé. C'est la raison pour laquelle certains benchmarks montrent une pente descendante entre le début et la fin d'un HDD.
Cache disque et firmware
Le cache d'un HDD n'est pas un simple tampon. Il sert à absorber certaines écritures, précharger des lectures séquentielles, réordonner des commandes, optimiser le mouvement des têtes et réduire les allers-retours inutiles. Mais le cache peut devenir dangereux si une coupure électrique intervient avant que les données soient réellement écrites sur les plateaux.
- Read-ahead : le disque anticipe la lecture séquentielle.
- Write cache : le disque confirme vite puis écrit physiquement après.
- NCQ / TCQ : réordonnancement des commandes pour réduire les seeks.
- Firmware scheduling : arbitrage entre latence et débit global.
Effet du cache selon workload
| Workload | Cache utile ? | Explication |
|---|---|---|
| Lecture séquentielle | Très utile | Read-ahead efficace |
| Écriture séquentielle | Utile | Fusion et lissage des writes |
| Random 4K sync | Peu utile | La mécanique domine |
| DB avec fsync | Risque si non protégé | Besoin de cache protégé côté contrôleur |
ECC, remapping et secteurs faibles
Les HDD intègrent des codes correcteurs d'erreurs, des secteurs de réserve et des mécanismes de remapping. Lorsqu'un secteur devient illisible ou instable, le firmware peut le réallouer. Le système voit souvent le disque comme encore fonctionnel, alors que le risque augmente.
| Signal SMART | Sens | Action |
|---|---|---|
| Reallocated Sector Count | Secteurs remplacés | Surveiller / remplacer selon tendance |
| Current Pending Sector | Secteurs instables non remappés | Risque élevé : backup immédiat |
| Offline Uncorrectable | Erreur non corrigible | Remplacement recommandé |
| UDMA CRC Error | Erreur lien / câble / backplane | Vérifier câbles, ports, backplane |
Lecture lente ≠ panne franche
Un disque peut ralentir fortement sans tomber immédiatement. Les retries ECC, les secteurs difficiles, les vibrations et les recalibrations peuvent générer des latences de plusieurs secondes. En RAID, cela peut provoquer un timeout contrôleur et sortir le disque de l'array.
# Linux - inspection rapide smartctl -a /dev/sdX smartctl -t long /dev/sdX smartctl -l error /dev/sdX # Chercher les signaux critiques : # Reallocated_Sector_Ct, Current_Pending_Sector, Offline_Uncorrectable, UDMA_CRC_Error_Count
Limites physiques indépassables
Un HDD 7 200 RPM délivre souvent de l'ordre de quelques dizaines à environ 100-200 IOPS selon taille d'I/O, queue depth et workload. Un SSD NVMe peut monter à des centaines de milliers ou millions d'IOPS.
La moyenne peut être acceptable, mais les percentiles élevés sont problématiques : seeks longs, retries, vibrations, firmware housekeeping, SMR garbage collection.
Les HDD modernes restent très efficaces pour lire/écrire de gros flux continus : backup, vidéo, objet, archive active, réplication bulk.
| Limite | Cause | Contournement moderne |
|---|---|---|
| Random I/O | Seek + rotation | SSD pour hot tier, cache, tiering |
| Rebuild long | Capacité élevée | RAID6/RAIDZ2, EC, spare, scrubbing |
| Vibration | Densité rack et rotation | Disques enterprise RV sensors |
| Consommation | Moteur et plateaux | Helium, spin-down contrôlé, cold tier |
SATA : simplicité et coût
SATA est l'interface dominante pour les HDD desktop, NAS grand public, nearline simple et stockage capacité économique. Le standard SATA 3.0 définit une liaison à 6 Gb/s. Pour les HDD, cette vitesse de bus est rarement le facteur limitant : le débit réel séquentiel d'un disque dépend surtout de sa densité surfacique, de son nombre de plateaux et de sa zone physique.
| Point | SATA HDD | Commentaire |
|---|---|---|
| Débit lien | 6 Gb/s | En pratique largement suffisant pour HDD |
| Ports | Single-port | Pas de multipath natif |
| Usage | NAS, desktop, archive, backup | Très économique |
| Commande | NCQ | Réordonnancement simple |
Quand SATA est parfait
- NAS de sauvegarde ou de fichiers avec budget maîtrisé.
- Serveur de backup local non critique avec réplication externe.
- Stockage séquentiel de gros fichiers : vidéo, logs compressés, archives.
- Lab, homelab, staging, cold data.
SAS : enterprise, dual-port, multipath
SAS est l'héritier moderne de SCSI pour serveurs et baies de stockage. Son intérêt n'est pas seulement le débit. Il apporte une logique enterprise : double port, expander, topologies de backplane, meilleure intégration multipath, files de commandes robustes, diagnostics et comportement adapté aux contrôleurs RAID/SAN.
| Génération | Débit lien | Usage |
|---|---|---|
| SAS-2 | 6 Gb/s | Baies anciennes, serveurs legacy |
| SAS-3 | 12 Gb/s | Enterprise courant |
| SAS-4 / 24G | 24 Gb/s | Plateformes modernes, surtout SSD/SAS haute densité |
Pourquoi SAS en baie
- Dual path : deux chemins indépendants vers le disque.
- HA : un contrôleur peut tomber sans couper l'accès.
- Expander : beaucoup de disques derrière moins de ports physiques.
- Signal integrity : meilleur contexte châssis/backplane.
USB : pratique, pas toujours robuste
Les HDD USB sont très utiles pour le transport, les sauvegardes ponctuelles, les exports, les copies hors ligne et les petits environnements. Mais USB ajoute un bridge SATA/USB ou NVMe/USB, parfois opaque pour SMART, le cache, la gestion d'alimentation et les erreurs.
| Usage | OK ? | Vigilance |
|---|---|---|
| Backup ponctuel | Oui | Vérifier restauration |
| Stockage production | Non recommandé | Déconnexions, alimentation, bridge |
| Archivage offline | Possible | Rotation périodique, checksum |
| RAID USB multi-disques | Risque | Identité disque et timeouts |
# Bon réflexe après copie massive # 1. Générer des checksums sha256sum bigfile.tar.zst > bigfile.tar.zst.sha256 # 2. Vérifier après transfert sha256sum -c bigfile.tar.zst.sha256 # 3. Démonter proprement sync umount /mnt/backup_usb
Fibre Channel legacy HDD
Fibre Channel a longtemps été utilisé dans les baies SAN enterprise, y compris avec des disques durs FC. Aujourd'hui, on rencontre surtout FC comme protocole de fabric SAN côté hôtes, tandis que l'arrière-plan disque des baies a migré vers SAS, SSD, NVMe ou architectures propriétaires. Les vieux disques FC restent un sujet de maintenance legacy.
| Époque | Utilisation | Situation actuelle |
|---|---|---|
| Baies SAN anciennes | Disques FC natifs | Maintenance / remplacement difficile |
| Fabric SAN | Serveur ↔ baie | Toujours très présent |
| Back-end baie moderne | SAS/NVMe | Plus courant que HDD FC natif |
Backplanes, HBA, RAID controllers
Entre le disque et le système, on trouve souvent un backplane, un HBA, un contrôleur RAID, un expander ou une carte mère serveur. Beaucoup de pannes attribuées au disque viennent en réalité du câble, du port, du backplane, du firmware contrôleur ou d'une incompatibilité.
| Élément | Rôle | Symptôme |
|---|---|---|
| HBA | Expose les disques au système | Timeouts globaux |
| RAID controller | Virtual disks + cache | Patrol read, BBU, rebuild lent |
| Expander | Fan-out SAS | Erreurs multiples même cage |
| Backplane | Connectique châssis | UDMA CRC, disques qui disparaissent |
Chaîne de diagnostic
Taxonomie pratique
| Type | Objectif | Forces | Faiblesses | Exemples d'usage |
|---|---|---|---|---|
| Desktop HDD | PC individuel | Prix bas, disponibilité | Pas prévu pour baie 24/7 dense | PC, stockage personnel |
| NAS HDD | Petites baies | 24/7, vibration modérée, firmware NAS | Moins robuste que enterprise dense | Synology, QNAP, TrueNAS |
| Enterprise HDD | Serveurs / baies | Workload élevé, RV sensors, garantie | Coût supérieur | SAN, hyperviseurs capacité |
| Nearline HDD | Capacité massive | Très gros To, bon coût/To | IOPS/To faibles | Object storage, cloud, archive active |
| Surveillance HDD | Écriture vidéo continue | Flux séquentiels multiples | Pas idéal DB/random | NVR, CCTV |
| Archive HDD | Cold/capacité | Coût bas, densité | Réécriture lente si SMR | Backup, vault, cold tiers |
Desktop vs NAS
Un disque desktop est optimisé pour un environnement peu dense, une charge modérée, un coût bas et une utilisation intermittente. Un disque NAS est prévu pour rester allumé 24/7, tolérer davantage de vibrations, mieux coopérer avec un RAID logiciel/matériel et accepter une charge annuelle plus élevée.
- Desktop : bon choix pour poste local, lab, stockage non critique.
- NAS : meilleur choix pour 2 à 8 baies, fichiers, backup local.
- NAS Pro : adapté aux boîtiers plus grands et workloads multi-utilisateurs.
Questions avant achat NAS
| Question | Pourquoi |
|---|---|
| CMR ou SMR ? | CMR préférable pour RAID et réécritures |
| Baie de combien de disques ? | Vibration et firmware |
| Charge annuelle ? | Workload rate du fabricant |
| Garantie ? | Signal du positionnement gamme |
Enterprise / Nearline
Les HDD enterprise capacité ciblent les data centers : grand nombre de disques par rack, fonctionnement 24/7, vibrations, température contrôlée, monitoring, firmware validé, workload soutenu. Le terme nearline désigne souvent un disque capacité entre le stockage online chaud et l'archive froide : accessible mais pas conçu pour des millions de petites I/O random.
| Critère | Enterprise capacité |
|---|---|
| RPM | Souvent 7 200 |
| Interface | SATA ou SAS selon baie |
| Capacité | Très élevée, 20 To à 30+ To |
| Workload | Élevé, typiquement 24/7 |
Usage hyperscale
Les cloud providers ne cherchent pas seulement le disque le plus rapide. Ils cherchent une équation globale : To par rack, watts par To, AFR, maintenance, qualification firmware, comportement en rebuild, intégration erasure coding et coût total.
Surveillance HDD
Les disques de vidéosurveillance sont optimisés pour l'écriture continue de flux vidéo multiples. Ils privilégient le streaming, la tolérance aux écritures séquentielles constantes et parfois la lecture simultanée pour relecture. Ils ne sont pas conçus en priorité pour des écritures random synchrones ou une base transactionnelle.
| Caractéristique | Intérêt |
|---|---|
| Streaming séquentiel | Caméras multiples |
| Firmware vidéo | Limiter pertes de frames |
| 24/7 | NVR toujours actif |
| Capacité | Rétention longue |
Dimensionnement vidéo simplifié
Capacité/jour ≈ débit caméra Mbit/s × 86 400 / 8 / 1024 / 1024
# Exemple : 32 caméras à 4 Mbit/s # 4 Mbit/s × 32 = 128 Mbit/s # 128 × 86400 / 8 = 1 382 400 Mo/jour ≈ 1,32 To/jour # 30 jours ≈ 39,6 To utiles avant RAID/réplication
Archive HDD et SMR
Les disques archive privilégient la capacité et le coût. Certains utilisent le SMR, qui superpose partiellement les pistes comme des tuiles. Cela améliore la densité mais peut rendre les réécritures aléatoires beaucoup plus coûteuses. Selon le mode SMR, l'hôte peut être totalement transparent, partiellement conscient ou entièrement responsable des zones.
| Type | Principe | À utiliser pour | À éviter pour |
|---|---|---|---|
| CMR | Pistes indépendantes | Usage général, RAID | Coût/To parfois supérieur |
| DM-SMR | SMR géré par le disque | Archive, backup séquentiel | RAID avec réécritures random |
| HM-SMR | Host-managed zones | Infrastructures spécialisées | OS/app non compatibles |
Les trois temps d'une I/O HDD
Pour une lecture non cachée, la latence n'est pas seulement le débit. Elle combine le déplacement de tête, l'attente de rotation et le transfert. En random, seek + rotation dominent. En séquentiel, le transfert domine et le HDD devient beaucoup plus efficace.
| Composant | Random | Séquentiel |
|---|---|---|
| Seek | Très important | Faible si lecture continue |
| Rotation | Très importante | Amortie |
| Débit média | Secondaire | Critique |
| Cache | Variable | Très utile |
Calcul rapide IOPS théoriques
IOPS ≈ 1000 / (seek moyen ms + latence rotation moyenne ms)
| Cas | Hypothèse | IOPS approx. |
|---|---|---|
| 7 200 RPM bon cas | 4,2 ms rotation + 4 ms seek | ~122 IOPS |
| 7 200 RPM mauvais cas | 4,2 ms + 9 ms seek | ~76 IOPS |
| 10K SAS | 3 ms + 4 ms | ~142 IOPS |
| SSD NVMe | µs | Sans commune mesure |
Random I/O : pourquoi les HDD souffrent
Beaucoup de petites lectures/écritures synchrones : mauvais candidat pour HDD seuls.
Beaucoup de VMs lisent des petits blocs au même moment : latence explose.
Solution classique : hot data sur SSD, cold data sur HDD.
| Workload | HDD seul | Avec cache/tiering | Commentaire |
|---|---|---|---|
| OLTP | Mauvais | Possible | WAL/redo sur SSD |
| Analytics séquentiel | Correct | Bon | Lire gros fichiers |
| Logs append-only | Bon | Très bon | Écriture séquentielle |
| Recherche index chaud | Mauvais | SSD conseillé | Random + latence |
Débit séquentiel
Le débit séquentiel d'un HDD moderne peut être très correct, surtout sur les zones externes et avec de gros blocs. C'est pour cela que les HDD restent efficaces pour backup, objet, média, réplication, snapshots, data lake et archivage actif.
Agrégation
Un seul HDD n'est pas impressionnant en IOPS. Mais 60, 90, 120 ou 1 000 disques agrégés dans un système distribué fournissent un débit massif. Les cloud object stores exploitent précisément cette logique : paralléliser les lectures/écritures sur beaucoup de nœuds.
Débit agrégé brut ≈ nombre de disques × débit séquentiel moyen × facteur d'efficacité
RAID et performance
| RAID | Lecture séq. | Écriture séq. | Random write | Risque |
|---|---|---|---|---|
| RAID1 | Bon | Moyen | Moyen | Capacité 50% |
| RAID10 | Très bon | Bon | Meilleur choix HDD | Coût capacité |
| RAID5 | Bon | Pénalité parité | Mauvais en random | Rebuild risqué gros disques |
| RAID6 | Bon | Pénalité plus forte | Mauvais random | Plus sûr que RAID5 |
| Erasure Coding | Très scalable | Dépend taille objet | Pas pour petits random | Complexité |
Benchmark propre
Benchmark un HDD sans comprendre le workload ne sert à rien. Il faut tester plusieurs profils : lecture séquentielle gros blocs, écriture séquentielle, random 4K, queue depth 1, queue depth élevée, fichier plus grand que la RAM, cache désactivé ou contrôlé.
# Exemple fio lecture séquentielle fio --name=seqread --filename=/mnt/testfile --size=100G --rw=read --bs=1M --iodepth=16 --direct=1 # Exemple fio random 4K fio --name=randread --filename=/mnt/testfile --size=100G --rw=randread --bs=4k --iodepth=32 --direct=1
Interpréter
| Métrique | Regarder | Piège |
|---|---|---|
| Bandwidth | MB/s | Cache OS peut tricher |
| IOPS | 4K random | Pas représentatif si workload séquentiel |
| Latency p99 | Percentiles | La moyenne masque les pics |
| Utilization | % disque occupé | 100% = saturation |
Le HDD comme couche capacitive
La fonction moderne du HDD est claire : stocker beaucoup, longtemps, à coût maîtrisé, avec un bon débit séquentiel agrégé. Il est rarement seul : il est combiné avec SSD cache, métadonnées SSD, journal SSD, réseau 25/100/400 GbE, replication, erasure coding et orchestration logicielle.
| Plateforme | Rôle HDD | Rôle SSD |
|---|---|---|
| Ceph | OSD capacité | DB/WAL BlueStore, metadata, cache |
| ZFS NAS | Pool capacité | SLOG, L2ARC selon cas |
| Object Storage | Data chunks | Index/métadonnées |
| Backup appliance | Repository | Landing zone, dedup index |
Backup repository
Les HDD restent très adaptés aux sauvegardes : gros flux séquentiels, besoin de capacité, coût par To déterminant. Mais le design doit intégrer immutabilité, réplication hors site, air gap, vérification et restauration testée.
- Repository local rapide pour restauration courte.
- Copie secondaire vers objet cloud ou site distant.
- Protection ransomware : immutabilité, snapshots, droits séparés.
- Contrôle de cohérence périodique.
Architecture backup simple
Vidéo, média, surveillance
La vidéo est un usage naturel : gros fichiers, flux séquentiels, rétention longue. Les risques viennent surtout de la simultanéité, du nombre de caméras, du débit global, de la reconstruction RAID et de la lecture pendant écriture.
| Cas | Profil I/O | Conseil |
|---|---|---|
| NVR surveillance | Écriture continue | Disques surveillance, RAID adapté |
| Montage vidéo | Gros fichiers + scratch | SSD scratch + HDD archive |
| Streaming média | Lecture séquentielle | HDD OK avec cache CDN |
| Transcodage | CPU/GPU + temp | Temp sur SSD |
HDD derrière le cloud object storage
Les services de type S3/GCS/Azure Blob cachent la complexité physique. Derrière, les données peuvent être réparties sur de nombreux disques, nœuds, racks et zones. Le client voit des objets et des classes de stockage ; le fournisseur opère la réplication, l'erasure coding, la vérification, la réparation et le placement.
Pourquoi HDD et objet vont ensemble
- Les objets sont souvent gros et immuables.
- L'accès random bloc n'est pas l'objectif principal.
- L'échelle horizontale masque les limites d'un disque individuel.
- Le coût par To reste central.
IA, data lake et HDD
L'IA ne signifie pas que tout doit être sur NVMe. Les datasets bruts, images, vidéos, logs, exports, checkpoints froids et données historiques peuvent résider sur HDD/object storage. Les phases d'entraînement ou d'inférence chargent ensuite les données chaudes vers SSD/NVMe/GPU memory.
| Phase IA | Média adapté | Commentaire |
|---|---|---|
| Raw data lake | HDD / objet | Capacité, coût |
| Préprocessing actif | SSD/NVMe | Shuffle, random, petits fichiers |
| Training hot path | NVMe / parallel FS | Feed GPU |
| Checkpoints anciens | HDD / objet froid | Archivage |
Marché HDD moderne
Le marché HDD est concentré autour de trois grands acteurs : Seagate, Western Digital et Toshiba. Les innovations se concentrent sur la densité surfacique, l'hélium, les nouvelles méthodes d'écriture, les firmwares hyperscale, la réduction watts/To et les capacités 30 To et plus.
| Constructeur | Positionnement notable | Technologies visibles |
|---|---|---|
| Seagate | Exos, IronWolf, SkyHawk | HAMR / Mozaic 3+, enterprise, NAS, surveillance |
| Western Digital | Ultrastar, WD Red, Purple | ePMR, UltraSMR, HelioSeal, ArmorCache |
| Toshiba | MG, N300, S300 | Enterprise capacity, NAS, surveillance |
Seagate
Seagate met fortement en avant sa plateforme Mozaic 3+ et HAMR pour augmenter la densité. Les familles typiques : Exos pour enterprise/datacenter, IronWolf pour NAS, SkyHawk pour surveillance. Les annonces 30 To et plus ciblent prioritairement les clients hyperscale et enterprise capacité.
- Exos : datacenter, nearline, capacité.
- IronWolf / Pro : NAS, multi-bay.
- SkyHawk : vidéo-surveillance.
Points à vérifier
| Critère | Pourquoi |
|---|---|
| CMR vs SMR | RAID et réécritures |
| Workload rate | Charge annuelle supportée |
| RV sensors | Baies denses |
| Garantie | Positionnement gamme |
Western Digital
Western Digital structure ses gammes autour d'Ultrastar pour datacenter, WD Red pour NAS et WD Purple pour surveillance. Les technologies HelioSeal, ePMR et UltraSMR visent la densité et l'efficacité énergétique. Les modèles Ultrastar récents montent jusqu'à 30/32 To selon variante.
- Ultrastar : enterprise, cloud, baies.
- WD Red / Red Pro : NAS.
- WD Purple : surveillance.
Attention aux sous-gammes
Toshiba
Toshiba reste un acteur important sur les disques enterprise capacity, NAS et surveillance. Ses gammes MG ciblent les environnements entreprise et cloud, tandis que N300 cible les NAS et S300 la surveillance.
| Gamme | Usage |
|---|---|
| MG Series | Enterprise capacity |
| N300 | NAS |
| S300 | Surveillance |
| X300 | Performance desktop |
Place dans un design
Comme pour les autres marques, il faut éviter le choix générique. On valide : compatibilité contrôleur/NAS, firmware, taille de secteur, interface, workload, garantie, consommation, bruit et politique de remplacement.
Lire une fiche technique HDD
| Champ | Ce qu'il dit vraiment | Piège |
|---|---|---|
| Capacity | Capacité brute décimale | To constructeur ≠ TiB OS |
| Interface | SATA/SAS + débit lien | Débit lien ≠ débit plateau |
| MTBF / AFR | Statistique de population | Pas une promesse sur un disque individuel |
| Workload Rate | To/an supportés | Important pour backup intensif |
| Cache | Buffer interne | Ne remplace pas SSD/cache protégé |
| Sector size | 512e / 4Kn | Compatibilité OS/contrôleur |
| Power | Idle / active watts | Important à l'échelle rack |
| Acoustics | Bruit | Important bureau/NAS domestique |
Pourquoi ces technologies existent
L'augmentation des capacités HDD vient surtout de la densité surfacique : mettre plus de bits sur une surface comparable. Mais plus les bits sont petits et proches, plus l'écriture devient difficile et plus les interférences augmentent. Les constructeurs combinent donc matériaux, têtes, lasers, micro-ondes, hélium, correction d'erreurs et firmware.
| Technologie | Principe | Effet |
|---|---|---|
| CMR / PMR | Pistes non superposées | Usage général fiable |
| SMR | Pistes partiellement superposées | Densité supérieure, réécritures plus complexes |
| HAMR | Chauffage laser local pendant écriture | Densité élevée, 30 To+ |
| MAMR | Assistance micro-ondes | Amélioration écriture haute densité |
| Helium | Atmosphère interne hélium | Moins de turbulence, plus de plateaux, moins watts/To |
| TDMR | Plusieurs capteurs pour lire pistes serrées | Meilleure lecture haute densité |
CMR vs SMR visuel
Le problème du rebuild
Les HDD de très grande capacité allongent les temps de reconstruction. Pendant un rebuild, les autres disques sont fortement sollicités. Le risque n'est pas seulement la panne d'un deuxième disque : c'est aussi l'apparition d'erreurs latentes, timeouts, secteurs instables ou performances dégradées.
| Protection | Tolérance | Commentaire |
|---|---|---|
| RAID5 | 1 disque | À éviter avec gros disques critiques |
| RAID6 | 2 disques | Standard minimal capacité sérieuse |
| RAID10 | Selon paires | Très bon random, coût capacité |
| RAIDZ2/Z3 | 2/3 parité | Bon avec scrubbing et RAM ECC |
| Erasure Coding | Configurable | Objet/distribué, très scalable |
Runbook de bonnes pratiques
- Ne pas confondre RAID et sauvegarde.
- Activer scrubbing/patrol read périodique.
- Prévoir hot spare ou spare froid disponible.
- Surveiller les temps de rebuild et les secteurs pending.
- Éviter RAID5 sur pools critiques gros disques.
- Valider les firmwares recommandés par le constructeur de la baie.
- Étaler les lots d'achat pour réduire le risque de panne corrélée.
Exemple de calcul rebuild théorique
Temps minimal ≈ capacité disque / débit de reconstruction effectif
# Exemple simplifié : 22 To reconstruits à 180 Mo/s effectifs # 22 000 000 Mo / 180 Mo/s = 122 222 s = 33,9 h # En réel : charge applicative, vérifications, zones lentes, erreurs et contrôleur peuvent allonger fortement.
Indicateurs à suivre
| Signal | Pourquoi | Seuil mental |
|---|---|---|
| Température | Vieillissement / erreurs | Éviter extrêmes et variations fortes |
| Reallocated sectors | Surface dégradée | Tendance plus importante que valeur isolée |
| Pending sectors | Secteurs instables | Signal très sérieux |
| CRC errors | Lien/câble/backplane | Vérifier connectique |
| Power-on hours | Âge | Corréler avec modèle et parc |
| Load cycle count | Parking têtes | Important sur certains NAS |
Commandes Linux utiles
# Liste des disques lsblk -o NAME,SIZE,MODEL,SERIAL,ROTA,TYPE # SMART complet smartctl -a /dev/sdX # Test long smartctl -t long /dev/sdX # Températures rapides for d in /dev/sd?; do echo $d; smartctl -A $d | egrep 'Temperature|Reallocated|Pending|Offline'; done # Latence disque en live iostat -x 1
Protection des données au repos
Un HDD retiré d'un serveur reste une fuite potentielle. La sécurité se pense dès l'achat : chiffrement logiciel, SED, gestion des clés, procédure de remplacement, effacement, destruction, traçabilité.
| Méthode | Avantage | Limite |
|---|---|---|
| Chiffrement logiciel | Portable, maîtrisable | Gestion clés côté OS |
| SED | Chiffrement matériel | Dépend contrôleur/gestion |
| Crypto erase | Très rapide | Repose sur effacement clé |
| Overwrite | Compréhensible | Long sur gros disques |
| Destruction physique | Fin de vie sensible | Coût + preuve |
Runbook de sortie disque
- Identifier disque, baie, serveur, propriétaire donnée.
- Vérifier chiffrement actif et statut clés.
- Extraire preuve SMART / inventaire.
- Appliquer sanitize ou crypto erase si possible.
- Si données sensibles : destruction certifiée.
- Conserver certificat d'effacement/destruction.
Grille d'achat professionnelle
| Critère | Question | Décision |
|---|---|---|
| Usage | Backup, NAS, DB, archive, vidéo ? | Choisir gamme adaptée, pas juste capacité |
| CMR/SMR | Réécritures fréquentes ? RAID ? | CMR par défaut si doute |
| Interface | SATA ou SAS ? | SAS pour baie dual-controller/multipath |
| Capacité | Rebuild acceptable ? | Plus gros n'est pas toujours meilleur |
| Workload rate | To/an écrits/lus ? | Vérifier fiche constructeur |
| Vibration | Combien de baies ? | RV sensors pour châssis dense |
| Garantie | 3 ans ou 5 ans ? | Signal gamme/pro usage |
| Énergie | Watts par To ? | Important à grande échelle |
| Bruit | Bureau ou datacenter ? | Enterprise peut être bruyant |
| Compatibilité | NAS/contrôleur supporte le modèle ? | Consulter HCL |
HDD NAS CMR, capacité raisonnable, RAID6/RAIDZ2 si beaucoup de disques, backup externe.
Enterprise nearline, firmware validé, lots tracés, monitoring, erasure coding ou RAID6+, spare.
SMR possible si workload append-only, vérifier restauration, checksum, copie hors site.
Formules essentielles
| Calcul | Formule | Usage |
|---|---|---|
| Latence rotation | 60 000 / RPM / 2 | Comparer 5.4K/7.2K/10K |
| IOPS random approx. | 1000 / (seek + rotation) | Ordre de grandeur |
| Capacité RAID6 | (N - 2) × capacité | Capacité brute utile avant FS |
| Capacité RAID10 | N / 2 × capacité | Mirroring |
| Rebuild minimal | Capacité / débit effectif | Fenêtre de risque |
| Watts rack | N × watts disque | Énergie et chaleur |
Exemple concret
# Besoin : 300 To utiles pour backup local # Disques : 22 To, RAID6 par groupe de 12 disques # Capacité brute groupe = 12 × 22 = 264 To # Capacité RAID6 brute = (12 - 2) × 22 = 220 To # Deux groupes = 440 To bruts utiles RAID avant filesystem/réserve # Réserve exploitation recommandée : garder 15 à 25% libre # Capacité exploitable saine ≈ 330 à 374 To
Checklist avant sizing final
Combien de flux simultanés ? Taille moyenne des fichiers ? Random ou séquentiel ? Fenêtre backup ?
RAID6/RAIDZ2 minimum sur gros pools, backup externe, scrubbing, alerting, spare.
Temps de rebuild, panne corrélée, lots identiques, chaleur, firmware, erreurs backplane.
URLs de référence à conserver
- SATA-IO — SATA Revision 3.0 FAQ, 6 Gb/s
- Microchip — 24G SAS Technology overview
- Seagate — Mozaic 3+ / HAMR platform
- Seagate — Exos 30TB+ shipping announcement
- Western Digital — 32TB UltraSMR / ePMR announcement
- Western Digital — Ultrastar DC HC690 product page
- Backblaze — Hard Drive Test Data
- SNIA — Storage educational library
Symptômes mécaniques
Une panne HDD peut être mécanique, électronique, magnétique, firmware ou liée à l'environnement. Les symptômes ne sont pas équivalents : un simple compteur SMART qui dérive laisse parfois le temps de migrer ; un bruit de tête ou un disque qui disparaît peut imposer l'arrêt immédiat.
| Symptôme | Hypothèse | Action |
|---|---|---|
| Click répétitif | Tête / actuateur / servo | Arrêt immédiat si données critiques |
| Disque disparaît | Power, backplane, firmware, PCB | Vérifier baie, logs contrôleur, câble |
| Lecture très lente | Retries ECC / secteurs faibles | Cloner avec outil adapté |
| CRC errors | Lien SATA/SAS | Changer câble/slot/backplane |
| Température élevée | Airflow insuffisant | Corriger ventilation avant tests lourds |
Ne pas aggraver
Ordre de priorité
- Stabiliser : alimentation, température, vibrations.
- Identifier : disque, serial, baie, rôle RAID.
- Protéger : image/clone avant réparation logique.
- Restaurer depuis backup si disponible.
- Documenter pour analyse racine.
SMART : utile mais pas suffisant
SMART donne des indices, pas une garantie absolue. Un disque peut mourir sans préavis SMART, et certains attributs varient selon constructeur. Ce qui compte : la tendance, la combinaison de signaux et le contexte d'utilisation.
| Attribut | Lecture pratique | Gravité |
|---|---|---|
| 5 Reallocated Sector Count | Secteurs remplacés | Moyenne à élevée si augmente |
| 187 Reported Uncorrectable | Erreurs remontées à l'hôte | Élevée |
| 188 Command Timeout | Commandes expirées | Élevée en RAID |
| 197 Current Pending Sector | Secteurs en attente | Très élevée |
| 198 Offline Uncorrectable | Non corrigible hors ligne | Très élevée |
| 199 UDMA CRC Error | Problème transport | Souvent câble/backplane |
# Rapport SMART horodaté pour dossier incident smartctl -x /dev/sdX | tee smart_sdX_$(date +%F_%H%M).txt # Logs kernel liés au disque dmesg -T | egrep -i 'sdX|ata|scsi|reset|timeout|uncorrect|medium error' # Statistiques I/O live iostat -x 1
Runbook incident RAID
- Confirmer le niveau RAID et l'état réel du contrôleur.
- Identifier si l'array est dégradé, reconstruit, ou en panne logique.
- Vérifier backups avant toute action intrusive.
- Ne pas retirer plusieurs disques sans mapping exact slot/serial.
- Exporter configuration contrôleur si possible.
- Remplacer un disque à la fois selon procédure baie.
- Surveiller rebuild, température, erreurs médias.
Erreurs fréquentes
Récupération logique vs physique
| Cas | Outil / approche | Écrire sur source ? |
|---|---|---|
| Suppression fichier | Snapshot / undelete / forensic | Non |
| Filesystem corrompu | Image puis réparation sur copie | Non |
| Secteurs faibles | ddrescue vers disque sain | Non |
| Bruit mécanique | Laboratoire spécialisé | Non, arrêter |
| RAID cassé | Reconstruction virtuelle par expert | Non |
# Exemple ddrescue : cloner d'abord, réparer ensuite # Première passe rapide sans insister sur erreurs ddrescue -f -n /dev/sdX /mnt/recovery/disk.img /mnt/recovery/disk.log # Passe de retry limitée ddrescue -f -r3 /dev/sdX /mnt/recovery/disk.img /mnt/recovery/disk.log # Travailler ensuite sur disk.img, pas sur le disque malade
Prévention opérationnelle
SMART, logs kernel, contrôleur RAID, température, latence p95/p99, erreurs lien.
Scrubbing, patrol read, remplacement proactif, firmware validé, nettoyage airflow.
RAID6/RAIDZ2, spare, backup 3-2-1, immutabilité, réplication hors site.
| Fréquence | Action |
|---|---|
| Temps réel | Alerting erreurs contrôleur, disques offline, température |
| Quotidien | Vérifier backups et jobs échoués |
| Hebdo | État SMART synthétique, latence anormale |
| Mensuel | Scrub/patrol read, rapport capacité, test restauration |
| Trimestriel | Audit firmware, spare, garantie, lifecycle |
Le vrai arbitrage
La question n'est plus “HDD ou SSD ?”, mais “quelle donnée sur quelle couche ?”. Le SSD gagne sur la latence, l'IOPS, la compacité et le silence. Le HDD gagne encore sur le coût par To pour les volumes massifs froids ou séquentiels. Les architectures modernes mélangent les deux.
| Critère | HDD | SSD/NVMe |
|---|---|---|
| Coût par To | Excellent | Plus élevé |
| Latence | ms | µs |
| Random IOPS | Faible | Très élevé |
| Séquentiel massif | Bon agrégé | Excellent |
| Endurance écriture | Pas d'usure NAND | TBW/DWPD à surveiller |
| Densité froide | Très bonne | En progression |
Patterns hybrides
- ZFS : HDD pool + SLOG/L2ARC selon besoin réel.
- Ceph : HDD OSD + DB/WAL sur SSD.
- Backup : index/dedup sur SSD + repository HDD.
- IA : dataset brut sur object/HDD + staging NVMe.
- VM : OS et DB sur SSD, ISO/backups/templates froids sur HDD.
Règle de décision
| Situation | Choix | Raison |
|---|---|---|
| Petites I/O synchrones | SSD/NVMe | Latence et IOPS |
| Gros flux backup | HDD | Coût capacité |
| Métadonnées nombreuses | SSD | Random access |
| Data lake brut | HDD/Object | Volume |
| Logs chauds indexés | SSD puis tier HDD | Hot/cold lifecycle |
NAS PME 8 baies
Objectif : fichiers utilisateurs, partage interne, snapshots, backup local de postes. Design : 8 disques NAS CMR, RAID6/RAIDZ2, 10GbE si plusieurs utilisateurs lourds, snapshots, réplication vers disque externe ou cloud objet.
| Élément | Choix |
|---|---|
| Disques | NAS CMR, même capacité, pas forcément même lot |
| Protection | RAID6/RAIDZ2 |
| Cache | SSD metadata/cache seulement si besoin mesuré |
| Backup | Cloud/offsite + restauration testée |
Repository backup 300 To
Design : serveur avec HBA, châssis 24 baies, groupes RAID6 ou ZFS RAIDZ2/3, filesystem adapté aux gros fichiers, réseau 25GbE si fenêtre courte, immutabilité logicielle ou copie objet immuable. Ajouter SSD pour métadonnées si solution de backup dédupliquée.
| Risque | Mitigation |
|---|---|
| Ransomware | Immutabilité, compte séparé, offsite |
| Rebuild long | RAID6/RAIDZ2, spare, scrubbing |
| Fenêtre dépassée | Parallélisme, réseau, compression |
| Backup inutile | Tests de restauration |
Proxmox / virtualisation
Les HDD seuls sont rarement adaptés aux VMs actives. Un design acceptable sépare les couches : SSD/NVMe pour VM actives, HDD pour backups, ISO, templates, archives, VM froides. Pour un petit lab, ZFS mirror SSD + pool HDD est souvent plus sain qu'un gros RAID HDD unique.
| Donnée | Média |
|---|---|
| VM production | SSD/NVMe mirror |
| Backups Proxmox | HDD RAIDZ2/RAID6 |
| ISO/templates | HDD |
| DB VM | SSD avec sync correctement géré |
Mini object storage sur HDD
Un cluster objet économique peut utiliser des HDD capacité pour les données et des SSD pour métadonnées/journaux. Le design doit prévoir réseau, réplication/EC, domaines de panne, monitoring et expansion. MinIO, Ceph RGW ou solutions compatibles S3 exigent une compréhension fine du mode de protection.
| Paramètre | Choix de design |
|---|---|
| Fault domains | Nœud, rack, site |
| Protection | EC ou réplication |
| Disques | Enterprise/Nearline CMR |
| Réseau | 10/25GbE minimum selon débit |
| Objets petits | Attention métadonnées |
Vidéosurveillance 64 caméras
Design : calculer débit total, rétention, marge, RAID adapté et nombre de flux de relecture simultanés. Les HDD surveillance sont adaptés au flux séquentiel, mais la perte d'un NVR entier impose une stratégie de réplication ou segmentation.
# 64 caméras × 6 Mbit/s = 384 Mbit/s # Par jour : 384 × 86400 / 8 / 1024 / 1024 ≈ 3,96 To/jour # 30 jours ≈ 119 To utiles avant RAID, métadonnées et marge # Avec marge 20% : viser environ 145 To utiles
| Terme | Définition | Importance |
|---|---|---|
| LBA | Adresse logique de bloc vue par l'hôte. | Masque la géométrie physique réelle. |
| ZBR | Zone Bit Recording : plus de secteurs sur pistes externes. | Débit variable selon zone du disque. |
| Servo | Informations de positionnement des têtes. | Critique pour précision mécanique. |
| ECC | Correction d'erreur intégrée. | Permet de récupérer des bits dégradés. |
| URE | Unrecoverable Read Error. | Risque pendant rebuild et lecture massive. |
| AFR | Annualized Failure Rate. | Statistique de taux de panne annualisé. |
| MTBF | Mean Time Between Failures. | Statistique de population, souvent mal interprétée. |
| 512e | Secteurs physiques 4K exposés en 512 octets. | Compatibilité mais alignement important. |
| 4Kn | Secteurs 4K natifs côté hôte. | Plus propre pour systèmes modernes. |
| TLER / ERC / CCTL | Limitation du temps de récupération d'erreur. | Évite timeouts RAID trop longs. |
| RV Sensor | Capteur de vibration rotationnelle. | Important pour baies multi-disques. |
| SED | Self-Encrypting Drive. | Chiffrement matériel au repos. |
| TCG Opal | Standard de gestion de chiffrement disque. | Sécurité enterprise. |
| Sanitize | Commande d'effacement sécurisé. | Fin de vie et conformité. |
| Helium | Disque scellé à l'hélium. | Moins de turbulence, plus de plateaux. |
| HAMR | Heat-Assisted Magnetic Recording. | Augmente densité via chauffage laser. |
| SMR | Shingled Magnetic Recording. | Densité supérieure, writes complexes. |
| CMR | Conventional Magnetic Recording. | Usage général, RAID plus simple. |
Matrice workload détaillée
| Workload | Profil I/O | HDD adapté ? | Design recommandé | Erreur classique |
|---|---|---|---|---|
| Base OLTP | 4K/8K random sync | Non seul | SSD/NVMe pour data hot + HDD backup | Mettre redo/WAL sur HDD lent |
| Data warehouse scan | Lecture gros blocs | Oui si parallèle | HDD agrégés + cache SSD metadata | Sous-dimensionner réseau |
| Object storage | Objets moyens/gros | Oui | HDD nearline + EC + scrub | Trop petits objets sans metadata SSD |
| Backup VMs | Écritures séq. + synthetic full | Oui | RAID6/RAIDZ2 + SSD index | SMR avec synthetic random intense |
| Logs bruts | Append-only | Oui | HDD + compression + rotation | Index chaud sur HDD |
| Elasticsearch hot | Random + merge | Non | SSD hot, HDD frozen/searchable snapshots | Mettre hot tier sur HDD |
| Vidéosurveillance | Flux séquentiel constant | Oui | Disques surveillance, calcul rétention | Oublier relecture simultanée |
| Montage vidéo | Gros fichiers + scratch | Partiel | SSD scratch, HDD archive | Scratch sur HDD |
| Home directories | Mix petits fichiers | Oui avec cache | NAS HDD + snapshots + SSD metadata si besoin | Pas de quotas ni snapshots |
| Conteneurs | Images + layers + logs | Partiel | SSD runtime, HDD registry/cache froid | Overlay FS actif sur HDD saturé |
| CI/CD artifacts | Gros artefacts + purge | Oui | HDD objet + lifecycle | Pas de rétention |
| Photos RAW | Gros fichiers | Oui | NAS HDD + backup cloud | Un seul NAS comme unique copie |
| Cold analytics | Lecture rare | Oui | HDD/object archive active | Pas de catalogue |
| HPC scratch | Parallèle, haute perf | Rare | Parallel FS SSD/NVMe, HDD archive | Confondre capacité et débit |
| Mail server | Petits fichiers random | Non seul | SSD mailstore, HDD archive | Maildir massif sur HDD lent |
Tests d'acceptance avant mise en production
- Vérifier modèles, serials, firmware, taille secteur.
- Tester SMART court puis long sur chaque disque.
- Vérifier température idle et charge.
- Benchmark séquentiel et random hors cache.
- Tester rebuild sur un disque de spare en préproduction si possible.
- Valider alerting : disque retiré, température, SMART, array degraded.
- Valider restauration backup vers un autre volume.
- Documenter mapping slot ↔ serial ↔ /dev/sdX ↔ contrôleur.
# Exemple acceptance Linux lsblk -o NAME,SIZE,MODEL,SERIAL,ROTA smartctl -x /dev/sdX smartctl -t long /dev/sdX badblocks -sv -b 4096 /dev/sdX # destructif si écriture, prudence fio --name=accept_seq --filename=/mnt/pool/testfile --size=200G --rw=write --bs=1M --direct=1 fio --name=accept_rand --filename=/mnt/pool/testfile --size=100G --rw=randread --bs=4k --iodepth=32 --direct=1 iostat -x 1
| Test | But | Échec typique |
|---|---|---|
| SMART long | Surface | Pending / uncorrectable |
| fio direct | Performance réelle | Cache OS trompeur évité |
| Retrait disque | Alerting | Aucune alerte envoyée |
| Rebuild test | Temps réel | Fenêtre trop longue |
| Restauration | Backup utile | Backup illisible ou incomplet |
Énergie, chaleur et densité rack
À l'échelle d'un NAS familial, quelques watts importent peu. À l'échelle d'un rack ou d'un data center, watts par To, airflow, bruit, alimentation et chaleur deviennent structurants. Les disques helium et haute capacité peuvent améliorer le ratio watts/To, même si la puissance unitaire reste significative.
| Paramètre | Impact | Action design |
|---|---|---|
| Watts idle | Coût permanent | Comparer watts/To |
| Watts active | Backup/rebuild | Dimensionner PSU et refroidissement |
| Température | Fiabilité | Airflow avant/arrière, nettoyage |
| Vibration | Latence + erreurs | Châssis enterprise, RV sensors |
| Densité rack | To/U | Disques 20–32 To pour cold capacity |
| Bruit | Confort | Éviter enterprise en bureau |
# Calcul simplifié puissance annuelle # 60 disques × 8 W idle = 480 W # 480 W × 24 × 365 = 4 204 kWh/an # Ajouter contrôleurs, ventilateurs, CPU, réseau, PUE datacenter.
Lifecycle de données sur HDD
| Phase | Média | Contrôle |
|---|---|---|
| Création | SSD/NVMe si actif | Quota, classification |
| Exploitation | SSD + HDD selon chaleur | Snapshots, backup |
| Refroidissement | HDD capacité | Compression, tiering |
| Archive | Objet froid / bande / HDD offline | Checksum, immutabilité |
| Destruction | Sanitize/destroy | Preuve et audit |
Migration et remplacement de génération
Migrer des HDD n'est pas juste copier des fichiers. Il faut gérer cohérence, fenêtre d'arrêt, checksum, permissions, ACL, snapshots, liens symboliques, chemins applicatifs, sauvegarde et rollback.
| Étape | Action | Preuve attendue |
|---|---|---|
| Inventaire | Volumes, partages, propriétaires | Table mapping |
| Pré-copie | rsync/robocopy initial | Logs sans erreur critique |
| Delta | Copie incrémentale | Temps delta connu |
| Gel | Stop writes / maintenance | Point cohérent |
| Validation | Checksums, ACL, taille, count | Rapport validation |
| Bascule | DNS, mount, config apps | Tests applicatifs |
| Rollback | Plan retour | Fenêtre définie |
| Décommission | Sanitize anciens disques | Certificat |
# Exemple rsync conservateur rsync -aHAXx --numeric-ids --info=progress2 /source/ /target/ # Second passage delta rsync -aHAXx --numeric-ids --delete --info=progress2 /source/ /target/ # Validation rapide find /source -type f | wc -l find /target -type f | wc -l du -sh /source /target
Runbook admin quotidien
Matin
- Vérifier arrays dégradés, SMART critique, température.
- Vérifier jobs de backup et restauration automatique si prévue.
- Contrôler capacité libre et croissance anormale.
- Lire alertes contrôleur/backplane.
Hebdomadaire
- Rapport secteurs réalloués/pending.
- Vérifier disques spare et firmwares.
- Tester une restauration aléatoire.
- Analyser latences p95/p99 et saturation.
Mensuel / trimestriel
- Scrubbing complet selon politique.
- Audit lots de disques et garanties.
- Nettoyage airflow et vérification ventilateurs.
- Revue de rétention et purge.
- Exercice incident : disque en panne, restauration, notification.
