💾 Storage Systems / Le stockage — Chapitre 1

Introduction générale : définitions, usages, grandes familles, critères fondamentaux et cycles chaud / tiède / froid / archive.

DASNASSANObject StorageCloud StorageSDS

Durabilité objet cloud11×9

Objectif courant pour S3, Azure Blob LRS et classes Glacier : 99,999999999% de durabilité annuelle.

Latence typiqueµs → ms

NVMe local en microsecondes, NAS/SAN en sous-millisecondes à millisecondes, archive en minutes/heures.

Support disque réel344k+

Backblaze a publié un parc 2025 de plus de 344 000 disques analysés pour ses statistiques de fiabilité.

Question centraleTrade-off

Capacité, coût, latence, IOPS, débit, sécurité, disponibilité, scalabilité : aucun stockage n'optimise tout.

1.1

Définition du stockage informatique

Stockage primaire, secondaire, cache, sauvegarde, archive, mémoire persistante. Clarification entre mémoire, disque, objet et conservation long terme.

PrimarySecondaryArchive

1.2

Grands usages du stockage

OS, bases de données, fichiers utilisateurs, applications web, logs, sauvegardes, IA, data lakes, vidéo, objets, containers.

DBAIContainers

1.3

Grandes familles

DAS, NAS, SAN, Object Storage, Cloud Storage, Distributed Storage, Software-Defined Storage : quand les utiliser, quand les éviter.

NASSANS3

1.4

Critères fondamentaux

Capacité, latence, débit, IOPS, endurance, disponibilité, durabilité, sécurité, coût, scalabilité. La grille de décision d'architecte.

IOPSRPO/RTOTCO

1.5

Hot, Warm, Cold, Archive

Classes d'accès et cycle de vie : données actives, semi-actives, historiques, réglementaires. Optimiser coût, performance et restauration.

HotColdLifecycle

✓

Checklist de conception

Questions à poser avant de choisir un stockage : charge, SLA, volumétrie, croissance, sécurité, backup, gouvernance, migration, réversibilité.

DesignRunbookRisques

Carte mentale du chapitre 1

Vision globale

Le stockage informatique n'est pas seulement un disque ou un bucket cloud. C'est un système complet qui absorbe les écritures, restitue les lectures, protège la donnée, l'organise, la chiffre, la réplique, la sauvegarde, l'archive et la rend exploitable dans le temps.

Application

→

Filesystem / Driver

→

Bloc / Fichier / Objet

→

Média

→

Protection

→

Restitution

Les trois questions qui pilotent tout

Accès : la donnée doit-elle être lue en microsecondes, millisecondes, secondes, minutes ou heures ?
Protection : combien de perte acceptable ? RPO zéro, quelques secondes, quelques heures, ou restauration manuelle ?
Économie : quel coût total par To utile, incluant réseau, sauvegarde, réplication, licences, énergie et exploitation ?

Diagramme d'orientation rapide

Besoin	Famille naturelle	Exemple
Ultra-faible latence	DAS / NVMe local	Base transactionnelle, cache, WAL DB
Partage fichiers	NAS	Home directories, documents, média interne
Bloc partagé entreprise	SAN	VMware, Oracle, SQL Server, clusters
Échelle massive	Object storage	Images, vidéos, backups, data lake
Cloud natif	Managed cloud storage	S3, Azure Blob, GCS, OVH Object Storage
Plateforme distribuée	SDS / Distributed	Ceph, vSAN, Nutanix, MinIO

Règle de base : on ne choisit jamais un stockage uniquement sur le prix au To. Il faut toujours ramener le choix au couple profil d'accès + risque métier.

1.1 Définition du stockage informatique

Définition opérationnelle

Le stockage informatique est l'ensemble des technologies qui permettent de conserver une information numérique, de la retrouver, de la modifier, de la protéger, de la déplacer et de prouver son intégrité. Il couvre le média physique, le protocole d'accès, la couche logique, la redondance, le chiffrement, la supervision et les procédures de restauration.

Bits

→

Blocs

→

Fichiers

→

Objets

→

Datasets

→

Valeur métier

Un stockage doit répondre à quatre fonctions

Écrire : absorber la donnée sans la perdre, même pendant les pics, les coupures ou les incidents.
Lire : restituer rapidement et correctement la donnée demandée.
Préserver : résister aux pannes, corruptions, erreurs humaines, cyberattaques et vieillissement.
Administrer : suivre capacité, performance, coûts, droits, cycles de vie et conformité.

Table de vocabulaire

Terme	Sens	Exemples
Stockage primaire	Donnée directement utilisée par les applications en production.	Volume NVMe, LUN SAN, disque VM, tablespace DB
Stockage secondaire	Donnée moins active, souvent mutualisée ou répliquée.	NAS fichiers, partage documentaire, volume de logs
Sauvegarde	Copie restaurable, conçue pour revenir en arrière.	Veeam, snapshots exportés, backup S3 immutable
Archive	Conservation longue durée, accès rare, objectif légal ou historique.	Glacier, bande LTO, archive froide cloud
Cache	Copie temporaire pour accélérer les accès.	Redis, SSD cache, CDN edge cache
Mémoire persistante	Média proche de la mémoire mais conservant les données après arrêt.	NVDIMM, persistent memory, journaux DB optimisés

Le stockage est une pile, pas un composant isolé

Média

HDD, SSD SATA, SSD SAS, NVMe, bande, mémoire persistante. C'est la couche physique avec endurance, latence et taux de panne propres.

Contrôleur

RAID, HBA, firmware SSD, contrôleur SAN, carte réseau RDMA. Il gère l'ordonnancement et la protection locale.

Protocole

SATA, SAS, NVMe, NVMe-oF, iSCSI, Fibre Channel, NFS, SMB, S3 API.

Abstraction

Bloc, fichier, objet. L'abstraction détermine comment l'application adresse la donnée.

Services

Snapshots, réplication, chiffrement, compression, déduplication, tiering, immutabilité.

Gouvernance

Droits, audit, rétention, conformité, classification, lifecycle, coûts.

Point clé : deux systèmes ayant la même capacité brute peuvent être radicalement différents en performance, résilience, coût utile et effort d'exploitation.

Volatil, persistant, durable

Catégorie	Conservation après arrêt	Usage
RAM	Non	Calcul, buffers, cache applicatif
Cache disque	Variable	Accélération, write-back risqué sans batterie
SSD/HDD	Oui	Stockage persistant primaire
Objet répliqué	Oui + redondance	Durabilité cloud, data lake, backup
Archive immuable	Oui + rétention	Conformité, cyber-résilience, conservation longue

Persistance ≠ sauvegarde

Un disque persistant peut très bien conserver une erreur, une suppression accidentelle, un chiffrement ransomware ou une corruption logique. La sauvegarde apporte une capacité de retour à un état antérieur, idéalement isolée, testée et immuable.

Production

→

Snapshot

→

Backup

→

Copie hors site

→

Archive immuable

Confusions fréquentes à éliminer dès le début

Erreur	Pourquoi c'est faux	Bonne formulation
RAID = backup	RAID protège surtout contre la panne d'un disque, pas contre suppression, malware, corruption logique ou incendie.	RAID = disponibilité locale ; backup = restauration temporelle.
Object storage = filesystem	Un objet n'est pas modifié en place comme un fichier ; il est adressé par clé, metadata et API.	Objet = excellent pour masse, web, archive, data lake ; moins adapté au POSIX strict.
Cloud = automatiquement moins cher	Le coût dépend des classes, requêtes, egress, snapshots, réplication, API, restauration et gouvernance.	Cloud = élasticité et services managés ; TCO à modéliser.
SSD = toujours rapide	Endurance, contrôleur, QoS, write amplification et saturation du cache SLC changent fortement le comportement.	SSD = faible latence, mais profil d'écriture et endurance à vérifier.
Durabilité = disponibilité	La donnée peut être durablement conservée mais indisponible temporairement.	Durabilité protège l'intégrité longue durée ; disponibilité protège l'accès immédiat.

1.2 Les grands usages du stockage

Un même datacenter utilise plusieurs stockages simultanément

Usage	Profil I/O	Stockage naturel	Point de vigilance
Système d'exploitation	Petites lectures/écritures aléatoires	SSD local, volume bloc cloud	Snapshots, patch rollback, chiffrement
Base OLTP	IOPS fortes, latence faible, fsync	NVMe, SAN performant, volume bloc provisionné	WAL/redo logs, write latency, endurance
Fichiers utilisateurs	Mix séquentiel + metadata	NAS SMB/NFS	Droits, verrouillage, quota, antivirus
Application web	Assets, uploads, sessions, cache	Object storage + CDN + bloc pour runtime	Egress, invalidation CDN, lifecycle
Logs	Écriture séquentielle massive	Disque local, object storage, plateforme log	Rotation, compression, recherche, rétention
IA / data lake	Lecture parallèle, gros fichiers, metadata	Object storage, distributed FS	Throughput, coût requêtes, petits fichiers
Vidéo / média	Très gros objets, streaming	Object storage + CDN	Débit, transcodage, coût sortie
Containers	Images immuables + volumes persistants	Registry objet, CSI bloc/fichier	StatefulSets, snapshots, restauration

Bases de données : le stockage le plus exigeant

Une base transactionnelle est sensible à la latence d'écriture, au flush disque, à la cohérence et aux pics d'IOPS. Les journaux transactionnels doivent être traités comme une voie critique.

Client SQL

→

Buffer pool

→

WAL / Redo

→

Data files

→

Backup + PITR

Bonnes pratiques

Séparer si possible données, journaux et backups pour éviter les contentions.
Mesurer p95/p99 de latence, pas seulement la moyenne.
Tester les restaurations PITR, pas seulement la création des backups.
Surveiller queue depth, fsync latency, write amplification et saturation cache.

Exemples de charges

Type DB	Profil stockage	Architecture fréquente
OLTP MySQL/PostgreSQL	Aléatoire, faible latence	NVMe / bloc cloud performant + réplication
Oracle / SQL Server entreprise	IOPS + débit + snapshots	SAN, ASM, volumes dédiés, backup enterprise
Data warehouse	Scan séquentiel massif	Object storage + compute séparé
NoSQL	Partitionné, horizontal, write-heavy	Disques locaux rapides + réplication logicielle

Critère caché : la latence stable sous charge vaut souvent plus qu'un pic d'IOPS théorique.

Applications web modernes

Une application web typique découple le runtime, les uploads et les assets statiques. Le stockage objet est souvent préféré pour les images, pièces jointes, exports, médias et sauvegardes, car il s'intègre facilement avec CDN, lifecycle et permissions.

Composant	Stockage	Exemple
Code	Image container / disque VM	Docker image, AMI
Uploads	Object storage	S3, GCS, Blob, MinIO
Cache	Mémoire / SSD local	Redis, memcached
Sessions	Redis / DB / cookie signé	Session store
Assets	Object storage + CDN	CSS, JS, images optimisées

IA, data lakes et vidéos

Les workloads IA et data lake utilisent souvent de gros volumes d'objets et des lectures parallèles. Les problèmes ne sont pas seulement la capacité : le nombre de petits fichiers, la latence metadata, le coût des requêtes et la bande passante deviennent critiques.

Vidéo

Débit

IA training

Parallel

Web assets

CDN

DB OLTP

Latence

Logs, sauvegardes et archives : le stockage défensif

Usage	Objectif	Architecture recommandée	Erreur dangereuse
Logs applicatifs	Debug, audit, sécurité	Rotation locale + centralisation + rétention	Garder les logs seulement sur le serveur compromis
Backups	Restauration après erreur ou panne	3-2-1, immutabilité, tests réguliers	Ne jamais tester la restauration
Archive	Conformité, historique, preuve	Classe froide, WORM, catalogue	Archiver sans index ni procédure de restitution
Snapshots	Rollback rapide	Snapshots courts + export vers backup	Confondre snapshot local et sauvegarde indépendante

Règle d'exploitation : un backup non restauré en test est une hypothèse, pas une protection.

1.3 Les grandes familles de stockage

Matrice de comparaison des familles

Famille	Unité adressée	Protocoles	Forces	Limites
DAS	Bloc local	SATA, SAS, NVMe	Latence basse, simplicité, coût direct	Partage limité, HA à construire au-dessus
NAS	Fichier	NFS, SMB	Partage, droits, fichiers utilisateurs	Metadata, verrouillage, performance selon réseau
SAN	Bloc distant	FC, iSCSI, NVMe-oF	Performance entreprise, clusters, virtualisation	Complexité, coût, zoning/multipath
Object Storage	Objet + metadata	S3 API, Swift, Blob	Échelle, durabilité, lifecycle, web	Pas POSIX natif, latence metadata, petits fichiers
Cloud Storage	Bloc / fichier / objet managé	EBS, S3, EFS, Blob, GCS...	Élasticité, services, multi-zone	Egress, dépendance fournisseur, coûts variables
Distributed Storage	Bloc/fichier/objet distribué	Ceph, Gluster, MinIO, HDFS	Scale-out, résilience logicielle	Opérations complexes, réseau critique
SDS	Abstraction logicielle	Dépend solution	Découple matériel et services	Design et support à maîtriser

DAS

Direct Attached Storage : disques connectés directement au serveur. Très efficace pour DB locale, cache, VM single host, workloads à faible latence.

NAS

Network Attached Storage : serveur de fichiers partagé. Idéal pour utilisateurs, exports, documents, répertoires communs, NFS applicatif.

SAN

Storage Area Network : volumes bloc distants vus comme des disques par les serveurs. Fréquent en virtualisation et bases entreprise.

Serveur

→ DAS →

NVMe local

Clients

→ NAS →

Share SMB/NFS

Cluster

→ SAN →

LUN bloc

Pièges d'architecture

DAS performant mais non partagé : il faut penser réplication applicative ou cluster.
NAS pratique mais parfois mauvais pour bases de données transactionnelles si latence et locking sont mal gérés.
SAN puissant mais demande multipathing, zoning, queue depth, firmware et procédures strictes.

Object Storage

Le stockage objet adresse une donnée par une clé, dans un bucket/conteneur, avec metadata. Il est très adapté aux grands volumes non structurés : images, vidéos, backups, exports, logs, datasets, archives.

Aspect	Objet	Fichier classique
Adresse	Bucket + clé	Chemin hiérarchique
Modification	Souvent réécriture objet	Écriture dans fichier
Metadata	Native et riche	Dépend FS
Échelle	Très élevée	Limitée par FS/NAS

Cloud Storage managé

Les clouds fournissent plusieurs modèles : bloc pour VM/DB, fichier partagé managé, objet durable, archive froide, snapshots, réplication régionale et lifecycle. Amazon indique que S3 est conçu pour dépasser 99,999999999% de durabilité et stocke par défaut les données de façon redondante sur au moins trois zones de disponibilité.

Attention : les classes froides réduisent le coût de stockage mais augmentent souvent le coût ou le délai de restauration.

Distributed Storage & Software-Defined Storage

Le stockage distribué agrège plusieurs nœuds et disques pour produire un service logique résilient. La redondance est assurée par réplication ou erasure coding. Le SDS ajoute une couche logicielle qui découple le service de stockage du matériel sous-jacent.

Node A

Node B

Node C

→

Cluster storage

→

Bloc

Fichier

Objet

Technologie	Type	Usage	Point critique
Ceph	Bloc / objet / fichier	Cloud privé, OpenStack, Kubernetes	Réseau, OSD, placement groups
MinIO	Objet S3-compatible	Data lake privé, backup, AI datasets	Erasure coding, disques homogènes
VMware vSAN	SDS hyperconvergé	Virtualisation entreprise	Design cluster, cache, fault domains
Nutanix	HCI / SDS	Plateforme VM/applications	Licences, intégration, montée en charge

1.4 Les critères fondamentaux

Les quatre métriques de performance

Métrique	Définition	Quand c'est critique
Latence	Temps de réponse d'une opération I/O.	DB OLTP, journal, cache, VM interactives
IOPS	Nombre d'opérations par seconde.	Petites lectures/écritures aléatoires
Débit	Volume transféré par seconde.	Backup, vidéo, analytics, migration
Queue depth	Nombre d'I/O en attente ou parallèles.	Saturation contrôleur/disque/réseau

Comparaison indicative

NVMe local

Latence

SAN FC

IOPS

NAS

Partage

Object

Échelle

Disponibilité, durabilité, RPO, RTO

Critère	Question	Exemple de mécanisme
Disponibilité	Le service de stockage répond-il maintenant ?	Cluster HA, multipath, multi-AZ, failover
Durabilité	La donnée restera-t-elle intacte dans le temps ?	Réplication, checksum, erasure coding, scrubbing
RPO	Combien de données peut-on perdre ?	Réplication synchrone, log shipping, backups fréquents
RTO	Combien de temps pour restaurer ?	Standby, snapshots, automation restore
Immutabilité	Peut-on empêcher modification/suppression ?	Object Lock, WORM, retention policy

Exemple cloud : AWS S3, Azure Blob LRS et les classes d'archivage S3 Glacier communiquent des objectifs de durabilité à 11 neuf. Google distingue explicitement disponibilité immédiate et durabilité long terme dans sa documentation Cloud Storage.

Sécurité du stockage

Chiffrement au repos : clés managées fournisseur ou KMS/HSM client.
Chiffrement en transit : TLS, IPsec, FC zoning, réseau privé.
IAM et ACL : moindre privilège, séparation admin/data, audit.
Immutabilité : protection ransomware et conformité.
Classification : PII, secrets, données réglementées, logs d'audit.

Coût réel : TCO

Poste	Souvent oublié
Capacité utile	RAID, réplication 3x, erasure coding, snapshots
Performance	Provisioned IOPS, SSD premium, cache, contrôleurs
Transfert	Egress cloud, inter-région, migration initiale
Opérations	Monitoring, patching, remplacement disques, support
Restauration	Frais de retrieval, temps humain, tests DR

Scorecard de décision rapide

Critère	Question de design	Preuve attendue
Capacité	Volumétrie actuelle + croissance 36 mois ?	Courbe, seuils, marge
Latence	p95/p99 maximal accepté ?	Benchmark fio/applicatif
IOPS	Lecture/écriture, random/séquentiel ?	Mesure réelle ou sizing
RPO/RTO	Perte et indisponibilité acceptables ?	Runbook de restauration
Sécurité	Chiffrement, IAM, audit, immutabilité ?	Politique validée
Coût	TCO incluant egress/retrieval/support ?	Simulation 12/36 mois
Scalabilité	Comment ajouter 10x capacité ?	Architecture scale-up/scale-out

1.5 Stockage chaud, tiède, froid et archive

Température = fréquence d'accès + urgence de restauration

Classe	Accès	Latence attendue	Exemples	Objectif
Hot	Très fréquent	Immédiat	DB active, fichiers récents, VM, cache	Performance
Warm	Régulier mais modéré	Immédiat ou quasi immédiat	Documents récents, logs 30-90 jours	Équilibre coût/perf
Cold	Rare	Secondes à minutes selon solution	Backups anciens, exports, datasets historiques	Réduction coût
Deep archive	Exceptionnel	Minutes à heures	Conformité, archives légales, patrimoine	Coût minimal et rétention

Jour 0-30 Hot

→

30-180 Warm

→

180-365 Cold

→

+365 Archive

→

Destruction contrôlée

Exemples de classes cloud

Provider	Hot	Warm/Cold	Archive
AWS	S3 Standard	Standard-IA, One Zone-IA	Glacier Instant/Flexible/Deep Archive
Google Cloud	Standard	Nearline, Coldline	Archive
Azure	Hot	Cool, Cold	Archive
OVH / Scaleway	Object Storage standard	Cold archive selon offre	Archive cloud / Glacier-like selon service

Lecture économique

Plus la donnée devient froide, plus le coût de conservation baisse, mais plus le coût d'accès, le délai de restauration, les contraintes de durée minimale ou les frais d'opération peuvent augmenter.

Hot coût/mois

Élevé

Warm coût/mois

Moyen

Cold coût/mois

Bas

Archive coût/mois

Min

Policy lifecycle : automatiser le déplacement

Le lifecycle évite de garder éternellement des données froides dans un stockage chaud. Il doit être aligné sur la valeur métier, les obligations légales, les temps de restauration et les coûts de retrieval.

Example policy logic:
IF object_age > 30 days AND access_count = 0 THEN move_to_warm
IF object_age > 180 days THEN move_to_cold
IF object_age > 365 days AND legal_hold = false THEN archive_or_delete
IF ransomware_protection = true THEN enable_immutability

Étape	Contrôle
Classer	Identifier données actives, sensibles, réglementées.
Mesurer	Observer accès, taille, croissance, coût.
Simuler	Calculer économie et coût de restauration.
Automatiser	Règles lifecycle, tags, expiration.
Auditer	Contrôle périodique, exceptions, legal hold.

Risques classiques du tiering

Risque	Impact	Prévention
Restaurer trop lentement	RTO non tenu	Tester retrieval et documenter délais réels
Archiver sans index	Donnée introuvable	Catalogue, metadata, tags, moteur de recherche
Coût de sortie surprise	Facture élevée	Simulation egress/retrieval avant migration
Lifecycle trop agressif	Performance dégradée	Analyse des accès, exceptions par application
Suppression non conforme	Risque légal	Rétention, legal hold, validation métier

Checklist de conception storage

Questions à poser avant de choisir

Domaine	Questions	Livrable
Volumétrie	Capacité actuelle, croissance mensuelle, taille moyenne objet/fichier, nombre d'objets ?	Courbe 36 mois
Performance	IOPS, débit, latence p95/p99, pics, fenêtre batch ?	Benchmark + SLA
Disponibilité	Maintenance possible ? HA locale ? multi-site ? multi-zone ?	Architecture failover
Protection	RPO/RTO, immutabilité, backup hors site, tests de restauration ?	Plan DR
Sécurité	Droits, chiffrement, logs, audit, données sensibles ?	Modèle IAM
Coût	Capacité utile, réplication, egress, retrieval, licences, support ?	TCO 12/36 mois
Exploitation	Monitoring, alerting, patch, remplacement, runbooks ?	Runbook N1/N2/N3
Réversibilité	Comment sortir les données et à quel coût ?	Plan de migration

Glossaire rapide du chapitre 1

Terme	Définition courte
Bloc	Unité bas niveau lue/écrite par un système de fichiers ou une base.
Fichier	Donnée nommée dans une hiérarchie, avec droits et metadata filesystem.
Objet	Donnée adressée par une clé dans un bucket, souvent avec metadata riche et API HTTP.
IOPS	Input/Output Operations Per Second.
Throughput	Débit transféré par seconde, souvent en MB/s ou GB/s.
Latency p99	Temps de réponse sous lequel 99% des requêtes se terminent.
RPO	Quantité maximale de données que l'on accepte de perdre.
RTO	Délai maximal pour restaurer un service.
Erasure coding	Technique qui découpe et encode les données pour tolérer des pertes avec moins de surcoût qu'une réplication complète.
Immutability	Capacité à empêcher modification ou suppression pendant une durée définie.