💾 Storage Systems — Partie 3 : Organisation logique du stockage

Chapitre 5 — Partitions, volumes et systèmes de fichiers : MBR/GPT, LVM, ZFS pools, ext4, XFS, Btrfs, NTFS, ReFS, APFS, journaling, snapshots, compression, déduplication et runbooks production.

Carte mentale du chapitre

De l’octet physique au fichier applicatif : partitions, volumes, FS, snapshots, compression et déduplication.

stackLBAFS

5.1

MBR / GPT

Historique, limites, UEFI, protective MBR, partitions système, bootloaders et scénarios de migration.

MBRGPTUEFI

5.2

Partitions classiques

Linux, Windows, BSD : tables, alignement, types, labels, identifiants et pièges production.

LinuxWindowsBSD

5.3

Volumes logiques

LVM, Windows Dynamic Disk / Storage Spaces, ZFS pools, thin provisioning et gestion des extents.

LVMVHDXzpool

5.4

Systèmes de fichiers

ext4, XFS, Btrfs, ZFS, NTFS, ReFS, APFS : architecture, limites, usages et choix design.

ext4XFSZFS

5.5

Journaling & crash recovery

Métadonnées, data journaling, copy-on-write, fsck, replay, ordering barriers et cohérence.

journalCOWfsck

5.6

Snapshots niveau FS

Btrfs, ZFS, LVM, APFS, VSS : snapshot, clone, rollback, réplication et stratégie de rétention.

snapshotsclonerollback

5.7

Compression & déduplication

Inline, post-process, block-level, file-level : ratios, CPU, RAM, risques et cas data center.

ZSTDdedupratio

5.8

Performance logique

Block size, inode, queue depth, recordsize, allocation groups, fragmentation et benchmarks.

IOPSlatencefio

5.9

Sécurité & intégrité

Permissions, ACL, encryption, checksums, bit rot, scrub, immutability et ransomware recovery.

ACLcryptoscrub

5.10

Cloud, VM & containers

Disques virtuels, CSI/Kubernetes, snapshots cloud, thin disks, overlays et volumes persistants.

K8sCSIcloud

5.11

Runbooks production

Commandes Linux/Windows/BSD, diagnostic d’espace, réparation, extension et procédures d’urgence.

runbookopsprod

5.12

Matrice de décision

Comment choisir partitionnement, volume manager et système de fichiers selon les workloads.

choixdesignTCO

5.13

URLs & références

Liens techniques utiles : kernel, Microsoft, OpenZFS, Btrfs, XFS, LVM, Kubernetes CSI.

docsRFCstandards

Carte mentale — Organisation logique du stockage

Du disque physique au fichier : chaîne logique complète

Un système de stockage moderne n’est pas simplement un disque. C’est une superposition de couches : support physique, contrôleur, bus, namespace, table de partition, volume manager, système de fichiers, cache, permissions, snapshot et application. Chaque couche ajoute une capacité, mais aussi une latence, un état, des métadonnées et un risque opérationnel.

HDD / SSD→Bus / HBA→LBA→GPT→LVM / Pool→FS→Fichier / Objet

MBR~2 TiBlimite classique avec secteurs 512 B ; design historique BIOS.

GPT128+partitions typiques sous Windows ; redondance header primaire/secondaire.

LVMPE/LEmapping entre extents physiques et logiques, snapshots et thin pools.

ZFSCOWpool transactionnel, checksums end-to-end, snapshots quasi instantanés.

Pourquoi cette couche est critique

Couche	Erreur typique	Impact
Partition	Alignement 4K incorrect	IOPS divisés, write amplification.
Volume	Thin pool saturé	I/O errors, VM figées, FS corrompu.
FS	inode exhaustion	Espace libre mais création impossible.
Snapshot	rétention non maîtrisée	consommation explosive, rollback impossible.

Taxonomie de l’organisation logique

Famille	Technologies	Idée clé	Risque caché
Partitionnement	MBR, GPT, BSD disklabel	Découper un espace bloc brut.	Boot cassé, mauvais type GUID, mauvaise table.
Volume manager	LVM, Storage Spaces, Dynamic Disk, ZFS vdev/pool	Abstraction, extension, agrégation, snapshots.	Complexité de récupération et dépendances metadata.
File systems	ext4, XFS, Btrfs, ZFS, NTFS, ReFS, APFS	Nommer, indexer, sécuriser, rendre cohérentes les données.	Limites inodes, fragmentation, bugs firmware, mauvais tuning.
Protection logique	Snapshots, clones, replication, checksums	Revenir dans le temps et détecter corruption.	Ce n’est pas une sauvegarde si même pool/site.

Ordres de grandeur à garder en tête

Sujet	Repère	Lecture opérationnelle
Block size FS	4 KiB fréquent	Bon compromis général, sensible aux petits fichiers.
XFS allocation groups	parallélisme metadata	Excellent pour gros volumes et serveurs de fichiers.
ZFS recordsize	128 KiB défaut courant	À adapter aux DB, VM et gros fichiers.
LVM PE size	4 MiB fréquent	Unité de mapping, impacte granularité et metadata.

Règle de prudence : plus on ajoute de couches logiques, plus il faut documenter l’ordre exact de démarrage, de montage, de snapshot, de réplication et de restauration.

# Visualiser la pile logique Linux
lsblk -o NAME,TYPE,SIZE,FSTYPE,MOUNTPOINT,UUID,MODEL
findmnt -R /
blkid
pvs; vgs; lvs -a

Mini-lab pédagogique : comprendre la pile sans risque

# Créer un fichier disque de test, le partitionner, créer un FS et le monter
truncate -s 2G /tmp/lab-disk.img
losetup --find --show /tmp/lab-disk.img
# Supposons /dev/loop10
parted /dev/loop10 --script mklabel gpt mkpart primary ext4 1MiB 100%
mkfs.ext4 -L LABFS /dev/loop10p1
mkdir -p /mnt/labfs
mount /dev/loop10p1 /mnt/labfs
df -hT /mnt/labfs

Objectif : manipuler GPT, labels, UUID, montage et démontage dans un environnement jetable avant de toucher une production.

5.1 MBR / GPT — Boot, limites, UEFI et récupération

MBR : l’héritage BIOS

Le Master Boot Record est historiquement placé au début du disque. Il contient à la fois un petit code de boot et une table de partitions limitée. Sa conception correspond à une époque où les disques étaient petits, les firmwares BIOS simples et les besoins de redondance de métadonnées inexistants.

Table de 4 entrées primaires.
Partitions étendues/logiques pour dépasser 4 volumes.
Adressement classique limité par la taille des secteurs et le champ LBA 32 bits.
Pas de checksum natif de la table.

GPT : design moderne

GUID Partition Table remplace la table MBR par des entrées typées GUID, un header primaire, un header secondaire en fin de disque et des CRC pour vérifier la cohérence.

Élément GPT	Rôle
Protective MBR	Empêche les vieux outils MBR de voir le disque comme vide.
Primary GPT header	Décrit les entrées et leur checksum.
Backup GPT header	Récupération en fin de disque.
Partition entries	Type GUID, unique GUID, nom lisible.

MBR vs GPT : comparaison d’ingénierie

Critère	MBR	GPT	Décision
Firmware	BIOS legacy	UEFI	Serveur moderne = GPT/UEFI.
Redondance metadata	Non	Oui	GPT plus récupérable.
Nombre partitions	4 primaires	nombre élevé selon OS	GPT simplifie.
Gros disques	limité historiquement	adapté aux grands espaces	GPT obligatoire en stockage moderne.
Identification	type hexadécimal	GUID + nom + UUID	GPT plus explicite.

Production : éviter les disques système MBR sur nouvelles machines. Le coût d’une migration BIOS/MBR vers UEFI/GPT peut devenir élevé lors d’un incident boot.

UEFI, ESP et démarrage

En UEFI, le firmware lit une partition spéciale appelée ESP, généralement formatée en FAT32. Les bootloaders y sont stockés sous forme de fichiers EFI. Cela rend le démarrage plus structuré que le MBR legacy.

ESP : EFI System Partition.
MSR : Microsoft Reserved Partition côté Windows.
/boot : parfois séparé côté Linux selon chiffrement/LVM.
NVRAM UEFI : contient l’ordre des entrées de boot.

# Linux : voir les entrées UEFI
efibootmgr -v

# Voir le partitionnement et les flags
parted -l
sgdisk -p /dev/nvme0n1

# Exemple ESP dans /etc/fstab
UUID=XXXX-YYYY /boot/efi vfat umask=0077 0 1

Migration MBR → GPT : scénario prudent

1. InventaireType boot, partitions, backup, bootloader, snapshots.

2. SauvegardeImage disque ou sauvegarde applicative validée.

3. ConversionOutil OS, fenêtre de maintenance, média de secours.

4. Réinstallation bootloaderGRUB/Windows Boot Manager, entrée NVRAM.

5. Test restaurationRedémarrage, fsck, journal, monitoring.

# Linux : audit non destructif avant toute action
lsblk -f
parted /dev/sda print
sgdisk -v /dev/sda
cat /etc/fstab
mount | grep boot

Attention : ne jamais convertir un disque système distant sans console out-of-band, snapshot hyperviseur ou accès rescue.

5.2 Partitions classiques — Linux, Windows, BSD

Partitions Linux : logique actuelle

/boot/efi : ESP UEFI, FAT32.
/boot : utile si root chiffré, RAID complexe ou bootloader limité.
/ : racine système.
/var : logs, DB locales, files d’attente ; souvent à isoler.
/home : données utilisateurs.
swap : partition ou fichier selon distribution.

Sur serveur, isoler /var protège la racine contre une explosion de logs, spool mail, Docker overlay ou dumps applicatifs.

# Créer une table GPT propre
parted /dev/sdb --script mklabel gpt
parted /dev/sdb --script mkpart primary 1MiB 100%
parted /dev/sdb --script set 1 lvm on

# Alternative moderne
sgdisk --zap-all /dev/sdb
sgdisk -n 1:1MiB:0 -t 1:8e00 -c 1:"linux-lvm" /dev/sdb
partprobe /dev/sdb

Partitions Windows modernes

Partition	Rôle	Commentaire
EFI System Partition	Démarrage UEFI	FAT32, contient bootmgfw.efi.
MSR	Réserve Microsoft	Pas de système de fichiers visible.
Windows	NTFS système	C:, ACL, VSS, BitLocker.
Recovery	WinRE	Environnement de récupération.
Data	Données	À séparer des workloads et journaux.

# PowerShell : inventaire stockage
Get-Disk
Get-Partition
Get-Volume
Get-PhysicalDisk
Get-StoragePool

# Voir BitLocker
Get-BitLockerVolume

BSD : disklabel, GEOM, ZFS

Les systèmes BSD ont historiquement utilisé des disklabels et une couche GEOM puissante. Aujourd’hui, GPT + ZFS est courant pour les serveurs modernes, mais l’administrateur doit comprendre la différence entre slice, partition BSD et partition GPT.

Concept	Rôle	Note
GEOM	Framework stockage FreeBSD	RAID, chiffrement, labels, multipath.
gpart	Gestion GPT/MBR	Équivalent opérationnel de parted/sgdisk.
ZFS root	Boot sur pool	Snapshots système avant upgrade.

# FreeBSD : audit rapide
gpart show
geom disk list
zpool status
zfs list -t filesystem,snapshot

Alignement 4K / 1MiB : petite erreur, gros impact

Les disques modernes exposent souvent des secteurs logiques de 512 B mais écrivent physiquement en 4 KiB, tandis que les SSD et RAID ont des tailles d’effacement ou de stripe plus grandes. Une partition mal alignée peut provoquer deux opérations physiques pour une écriture logique.

Write 4K logique→stripe / erase block traversé→read-modify-write→latence + usure

Alignement	Usage	Pourquoi
1 MiB	Défaut recommandé	Compatible 4K, RAID stripe, SSD.
4K strict	Minimal	OK mais moins universel.
Ancien 63 secteurs	Legacy	À éviter.

# Vérifier alignement Linux
parted /dev/sdb align-check optimal 1
lsblk -t
blockdev --getss --getpbsz /dev/sdb

5.3 Volumes logiques — LVM, Dynamic Disk, ZFS pools

LVM : PV, VG, LV, extents

Linux Logical Volume Manager transforme un ou plusieurs périphériques blocs en groupe de volumes, puis en volumes logiques redimensionnables. Il permet extension à chaud, snapshots, thin provisioning, cache et mirroring selon configuration.

PV : Physical Volume, disque ou partition.
VG : Volume Group, pool d’extents.
LV : Logical Volume, bloc présenté au FS.
PE/LE : unités de mapping physique/logique.

pvcreate /dev/sdb1
vgcreate vg_data /dev/sdb1
lvcreate -n lv_app -L 500G vg_data
mkfs.xfs /dev/vg_data/lv_app
mkdir -p /srv/app
mount /dev/vg_data/lv_app /srv/app

# Extension
lvextend -r -L +200G /dev/vg_data/lv_app

Windows : Dynamic Disk, Storage Spaces, ReFS

Windows a progressivement déplacé la logique des volumes depuis Dynamic Disk vers Storage Spaces et Storage Spaces Direct. Pour les environnements modernes, Storage Spaces offre pools, virtual disks, tiers, parity, mirror et intégration PowerShell.

Technologie	Usage	Limite / attention
Basic Disk	Partitions simples	Le plus simple, très récupérable.
Dynamic Disk	Legacy volumes spanned/striped/mirrored	Moins recommandé pour nouveaux designs.
Storage Spaces	Pools logiciels modernes	Nécessite monitoring sérieux.
S2D	Cluster hyperconvergé	Dépendance réseau/RDMA/cluster.

Get-StoragePool
Get-VirtualDisk
Get-PhysicalDisk | Sort-Object HealthStatus
Repair-VirtualDisk -FriendlyName "DataVDisk"

ZFS : pool, vdev, datasets

ZFS n’est pas seulement un système de fichiers : c’est aussi un volume manager transactionnel. Les disques forment des vdevs, les vdevs forment un pool, et les datasets/zvols exposent des espaces fichiers ou blocs.

Concept	Rôle	Décision critique
vdev mirror	Redondance + IOPS	Excellent pour VM/DB.
RAIDZ1/2/3	Capacité + parité	Bon pour fichiers larges, archive.
dataset	FS administrable	Quotas, compression, snapshots.
zvol	Bloc virtuel	iSCSI, VM disks, block workloads.

zpool create tank mirror /dev/disk/by-id/d1 /dev/disk/by-id/d2
zfs create tank/app
zfs set compression=zstd tank/app
zfs set atime=off tank/app
zpool status -v
zpool scrub tank

Thin provisioning : promesse et danger

Le thin provisioning permet d’allouer logiquement plus d’espace que la capacité physique immédiatement disponible. Très utile pour VM, dev/test et cloud interne, mais dangereux sans alerting, car la saturation du pool peut provoquer des erreurs d’écriture brutales.

Indicateur	Seuil d’alerte	Action
Data%	70%	prévenir, prévoir extension.
Data%	85%	extension urgente / suppression snapshots.
Metadata%	70%	extension metadata thin pool.
Overcommit	> 150%	revalider croissance réelle.

# LVM thin pool
lvcreate --type thin-pool -L 2T -n thinpool vg_vm
lvcreate --thin -V 500G -n vm01 vg_vm/thinpool
lvs -a -o+seg_monitor,data_percent,metadata_percent

# Autoextend dans lvm.conf à vérifier
# thin_pool_autoextend_threshold
# thin_pool_autoextend_percent

Incidents classiques de couche volume

Symptôme	Cause probable	Diagnostic	Réponse
FS read-only	erreurs bloc ou thin plein	dmesg, lvs, journalctl	stop writes, snapshot, fsck si requis.
VM figée	thin pool saturé	lvs data_percent	extend pool, libérer snapshots.
boot impossible	VG non activé/initramfs	rescue shell	vgchange -ay, rebuild initramfs.
performances faibles	stripe/mirror mal adapté	iostat, lvs -o devices	rebalance, migrer LV, revoir design.

5.4 Systèmes de fichiers — ext4, XFS, Btrfs, ZFS, NTFS, ReFS, APFS

Panorama des systèmes de fichiers

FS	Force	Usage recommandé	Attention
ext4	simple, mature, universel	Linux généraliste, petits/moyens serveurs	moins riche que COW/ZFS.
XFS	scalabilité, gros fichiers, parallélisme	serveurs, logs, backup repos, data	shrink non supporté classiquement.
Btrfs	snapshots, subvolumes, compression	workstations, systèmes snapshotés	RAID5/6 à éviter selon contexte.
ZFS	checksums, snapshots, send/receive	NAS, backup, VM, intégrité	RAM, design vdev, licensing Linux.
NTFS	ACL, compat Windows	Windows généraliste	fragmentation, VSS à surveiller.
ReFS	résilience, checksums metadata	Windows Server, Hyper-V, backup	pas pour tous scénarios boot/generalistes.
APFS	snapshots, clones, SSD-first	macOS, iOS, local SSD	écosystème Apple.

ext4 vs XFS : choix Linux classique

ext4

Très stable et simple à récupérer.
Bon choix pour partitions système.
Support large des outils.
Peut être réduit offline selon contraintes.

mkfs.ext4 -L ROOTFS /dev/vg/root
tune2fs -l /dev/vg/root
e2fsck -f /dev/vg/root
resize2fs /dev/vg/root

XFS

Très bon pour gros volumes et I/O parallèles.
Allocation groups et journal robuste.
Expansion online efficace.
Pas de réduction standard : prévoir design.

mkfs.xfs -L DATA /dev/vg/data
xfs_info /srv/data
xfs_growfs /srv/data
xfs_repair -n /dev/vg/data

File systems Copy-on-Write : Btrfs et ZFS

Les systèmes COW écrivent les nouvelles données ailleurs puis basculent les métadonnées de manière transactionnelle. Cela facilite snapshots et checksums, mais peut générer fragmentation et amplification d’écriture si mal tuné.

Fonction	Btrfs	ZFS
Snapshots	subvolume snapshot	zfs snapshot
Send/receive	btrfs send/receive	zfs send/receive mature
Compression	zstd, lzo, zlib	lz4, zstd selon version
Checksums	données + metadata	end-to-end avec self-healing si redondance
RAID intégré	oui, prudence RAID5/6	mirror/RAIDZ très utilisé

# Btrfs
btrfs subvolume create /mnt/@data
btrfs filesystem df /mnt
btrfs scrub start -Bd /mnt

# ZFS
zfs list -o name,used,refer,compressratio,mountpoint
zpool status -v
zpool scrub tank

NTFS et ReFS : vision Windows Server

NTFS

Système généraliste, riche en ACL, quotas, compression, EFS, hardlinks, alternate data streams, VSS. Très compatible, y compris pour disque système.

Bon pour OS et données mixtes.
Excellent support outils.
VSS largement utilisé.

ReFS

Conçu pour la résilience, les très grands volumes et certains workloads serveur comme Hyper-V ou backup repositories. Son intérêt augmente avec Storage Spaces et intégrité metadata.

Integrity streams selon usage.
Block cloning utile avec Hyper-V/backup.
Ne remplace pas NTFS partout.

# Windows : informations FS
Get-Volume | Select DriveLetter,FileSystem,HealthStatus,SizeRemaining,Size
fsutil fsinfo volumeinfo C:
fsutil dirty query C:

APFS : design SSD-first Apple

APFS est optimisé pour SSD, chiffrement, snapshots et clones rapides. Sa logique de containers et volumes permet le partage d’espace entre volumes logiques.

Concept	Description
Container	Pool d’espace partagé.
Volume	Espace logique avec rôle spécifique.
Snapshot	Point-in-time cohérent, utilisé par Time Machine.
Clone	Copie logique rapide par partage de blocs.

# macOS : audit APFS
diskutil apfs list
diskutil info /
tmutil listlocalsnapshots /

Inodes, MFT, metadata : le stockage invisible

Un FS stocke les données, mais aussi beaucoup de métadonnées : propriétaires, permissions, timestamps, extents, index de répertoires, journaux, checksums, snapshots. Les incidents d’espace viennent souvent des métadonnées, pas seulement des octets de fichiers.

Symptôme	FS concerné	Diagnostic	Correction
No space left malgré df -h OK	ext4	df -i	supprimer petits fichiers, recréer FS avec plus d’inodes.
MFT très fragmentée	NTFS	perfmon, defrag analyse	défragmentation / migration.
Metadata full	Btrfs	btrfs fi usage	balance metadata, ajouter espace.
Snapshots cachés	ZFS/APFS/VSS	list snapshots	rétention, pruning.

df -hT
df -i
find /var -xdev -type f | wc -l
find /var -xdev -size +1G -ls

5.5 Journaling — Cohérence, crash recovery et COW

Journaling : pourquoi un FS survit au crash

Le journaling enregistre d’abord l’intention de modification dans une zone dédiée, puis applique les changements. Après un crash, le FS relit le journal pour terminer ou annuler les opérations incomplètes. Objectif : retrouver vite une cohérence de métadonnées sans scanner tout le volume.

Transaction→Journal write→Commit→Metadata update→Replay si crash

Mode	Journalise	Avantage	Coût
Metadata	structures FS	rapide	données récentes possiblement anciennes.
Ordered	metadata + ordre write data	bon compromis	barriers nécessaires.
Data journal	metadata + données	cohérence forte	écritures doublées.

Journaux ext4 et XFS

ext4

ext4 propose plusieurs modes de journaling et des options comme barriers, commit interval, lazy init. Le mode ordered est courant.

tune2fs -l /dev/vg/root | grep -i journal
mount | grep ext4
journalctl -k | grep -i ext4

XFS

XFS journalise les métadonnées avec un design orienté parallélisme. Les outils xfs_repair et xfs_logprint aident à analyser des états anormaux.

xfs_info /srv/data
xfs_repair -n /dev/vg/data
xfs_logprint /dev/vg/data | head

Copy-on-Write vs journal classique

ZFS, Btrfs et APFS préfèrent une approche transactionnelle COW : les blocs existants ne sont pas écrasés immédiatement. Les nouveaux blocs et métadonnées sont écrits ailleurs, puis un pointeur atomique valide le nouvel état.

Critère	Journal classique	COW transactionnel
Crash recovery	replay journal	dernier arbre cohérent
Snapshots	ajoutés via couche séparée	naturels
Fragmentation	modérée	peut augmenter
Write amplification	journal + données	nouveaux blocs + metadata
Checksums	selon FS	souvent centraux

Ordering, barriers, flush et caches contrôleur

Un FS cohérent suppose que les écritures arrivent dans l’ordre attendu sur le support. Les caches disques, contrôleurs RAID, hyperviseurs et SAN peuvent réordonner ou retarder des writes. Les flush/barriers forcent certains points de persistance.

Risque classique : désactiver les barriers pour gagner quelques pourcents peut transformer une coupure électrique en corruption silencieuse si le contrôleur n’a pas de cache protégé par batterie/supercap.

Composant	Question à poser
RAID controller	BBU/supercap OK ? write-back safe ?
SSD enterprise	Power-loss protection réelle ?
Hyperviseur	cache mode writeback/writethrough ?
SAN	acknowledge après persistance ou cache volatil ?

Réparation : méthode froide et prudente

1. Stop writesremonter read-only ou couper service.

2. Image/snapshotcopie bloc avant réparation destructive.

3. Diagnostic non destructiffsck -n, xfs_repair -n, logs kernel.

4. Réparationoutil adapté au FS, jamais au hasard.

5. Validationhash, applicatif, backup, monitoring.

# Ne pas lancer directement une réparation destructrice sur prod
umount /dev/vg/data
fsck -n /dev/vg/data
xfs_repair -n /dev/vg/xfsdata

# Image de secours si possible
ddrescue -f -n /dev/sdb /mnt/rescue/sdb.img /mnt/rescue/sdb.map

5.6 Snapshots niveau FS — Btrfs, ZFS, LVM, VSS

Snapshot : point-in-time, pas sauvegarde magique

Un snapshot capture une vue cohérente d’un volume ou dataset à un instant donné. Il est généralement rapide car il partage les blocs existants avec l’état courant. Mais si le même pool, la même baie ou le même compte cloud disparaît, le snapshot disparaît aussi.

Type	Granularité	Avantage	Limite
LVM snapshot	bloc LV	simple, universel	performance, taille snapshot.
Btrfs snapshot	subvolume	rapide, send/receive	gestion subvolumes nécessaire.
ZFS snapshot	dataset/zvol	très mature, réplication	pool design critique.
VSS	volume/app aware	Windows app consistency	writers à surveiller.

Snapshots COW : Btrfs et ZFS

Btrfs

btrfs subvolume snapshot -r /srv/data /srv/.snapshots/data-$(date +%F)
btrfs subvolume list /srv
btrfs send /srv/.snapshots/data-2026-05-02 | btrfs receive /backup

ZFS

zfs snapshot tank/app@daily-2026-05-02
zfs list -t snapshot
zfs rollback tank/app@daily-2026-05-02
zfs send -R tank/app@daily-2026-05-02 | ssh backup zfs receive backup/app

Bonne pratique : nommer les snapshots avec dataset, fréquence, date UTC et contexte applicatif : app-prod-hourly-20260502T2100Z.

LVM snapshot : pratique mais à surveiller

Un snapshot LVM classique utilise un espace de copy-on-write séparé. Si cet espace se remplit, le snapshot devient inutilisable. Les thin snapshots sont plus souples, mais dépendent de la santé du thin pool.

# Snapshot classique
lvcreate -s -n lv_app_snap -L 50G /dev/vg_data/lv_app
mount -o ro /dev/vg_data/lv_app_snap /mnt/snap

# Suppression après backup
umount /mnt/snap
lvremove /dev/vg_data/lv_app_snap

# Monitoring
lvs -a -o+origin,data_percent,metadata_percent,seg_monitor

Erreur	Conséquence	Prévention
snapshot trop petit	invalidé	estimer churn pendant backup.
snapshot laissé longtemps	performance dégradée	TTL automatique.
backup non app-aware	données incohérentes	freeze DB / quiesce applicatif.

Windows VSS et APFS local snapshots

VSS

Volume Shadow Copy Service coordonne writers applicatifs, providers stockage et snapshots. Indispensable pour Exchange, SQL Server, AD, fichiers ouverts et sauvegardes cohérentes.

vssadmin list writers
vssadmin list shadows
Get-ComputerRestorePoint

APFS

macOS utilise les snapshots APFS pour Time Machine et les mises à jour système. Très pratique, mais peut masquer de l’espace consommé.

tmutil listlocalsnapshots /
tmutil deletelocalsnapshots 2026-05-02-210000
diskutil apfs listSnapshots /

Politique de rétention snapshot

La rétention doit être proportionnée au churn, pas seulement au calendrier. Une base de données qui réécrit 20% du volume par jour consommera beaucoup plus qu’un dépôt documentaire froid.

Fréquence	Rétention exemple	Usage
15 min	24 h	rollback opérationnel rapide.
Horaire	7 jours	erreurs humaines récentes.
Journalier	30-60 jours	restauration métier.
Mensuel	12-24 mois	audit, conformité, archive légère.

Règle 3-2-1 : les snapshots locaux complètent les sauvegardes, ils ne les remplacent pas. Prévoir copie hors pool, hors machine, idéalement immuable.

5.7 Compression & déduplication — Ratios, risques et tests

Compression inline : gagner de l’espace sans casser les performances

La compression inline compresse les blocs avant écriture. Sur données textuelles, logs, JSON, VM peu remplies et dumps, le gain peut être très élevé. Sur vidéos, images JPEG, ZIP, données déjà compressées ou chiffrées, le gain est faible voire nul.

Algo	Profil	Usage
LZ4	très rapide, ratio moyen	FS généraliste, ZFS classique.
ZSTD	bon ratio, CPU modulable	Btrfs/ZFS modernes, backups.
Gzip/Zlib	ratio bon, plus lent	archive, compatibilité.
Hardware compression	selon baie/CPU	arrays enterprise, appliances backup.

# ZFS
zfs set compression=zstd tank/data
zfs get compressratio tank/data

# Btrfs mount option
mount -o compress=zstd:3 /dev/sdb1 /srv/data

Déduplication : puissante mais dangereuse sans sizing

La déduplication détecte des blocs identiques et ne stocke qu’une copie physique. Elle est excellente pour VDI, sauvegardes, VM similaires, ISO et clones ; elle est souvent inutile sur flux chiffrés ou compressés.

Mode	Principe	Avantage	Risque
Inline	dédup avant écriture	économie immédiate	latence CPU/RAM.
Post-process	analyse après écriture	moins pénalisant en write path	besoin espace temporaire.
Block-level	hash des blocs	efficace sur VM/backups	table énorme.
File-level	fichiers identiques	simple	moins granulaire.

ZFS dedup : à activer uniquement après estimation mémoire et test. Une table de dédup trop grosse peut dégrader violemment le pool.

Ratios réalistes par type de données

Données	Compression	Dédup	Commentaire
Logs texte / JSON	2:1 à 10:1	faible à moyen	compression excellente.
VM clones	1.2:1 à 2:1	3:1 à 20:1	dédup très intéressante.
DB OLTP	1.2:1 à 4:1	variable	tester recordsize/page size.
Photos/vidéos	~1:1	faible	déjà compressé.
Données chiffrées	~1:1	quasi nul	entropie élevée.

Tester avant d’activer

On ne choisit jamais compression/dédup sur croyance. Il faut prendre un échantillon représentatif, mesurer ratio, CPU, latence p95/p99 et comportement en restauration.

# Mesurer compression simple sur échantillon
tar -cf - /srv/sample | zstd -T0 -3 -o /tmp/sample.tar.zst
ls -lh /tmp/sample.tar.zst

du -sh /srv/sample

# fio : latence avant/après compression FS
fio --name=randwrite --directory=/srv/data --size=10G --rw=randwrite --bs=4k --iodepth=32 --numjobs=4 --time_based --runtime=120 --group_reporting

Métriques à retenir : ratio utile, CPU moyen, latence p99, throughput soutenu, temps de restauration, comportement snapshot.

5.8 Performance logique — Tuning, fragmentation, fio

Paramètres logiques qui changent vraiment les performances

Paramètre	Impact	Workload sensible
block size	granularité allocation	petits fichiers, DB pages.
recordsize / volblocksize	taille COW ZFS	VM, DB, gros fichiers.
inode density	nombre max fichiers	maildir, cache, npm, millions de petits fichiers.
allocation groups	parallélisme metadata	XFS gros volumes.
mount noatime	réduit writes metadata	lecture intensive.
discard/TRIM	récupère blocs SSD	thin, SSD, VM.

fio : benchmark minimal mais sérieux

# Random read 4K, profil IOPS
fio --name=rr4k --filename=/srv/data/fio.test --size=20G --rw=randread --bs=4k --iodepth=64 --numjobs=4 --time_based --runtime=180 --direct=1 --group_reporting

# Sequential write 1M, profil backup/media
fio --name=sw1m --filename=/srv/data/fio.seq --size=50G --rw=write --bs=1M --iodepth=16 --numjobs=1 --direct=1 --group_reporting

# Mixed DB-like
fio --name=mix --filename=/srv/data/fio.mix --size=20G --rw=randrw --rwmixread=70 --bs=8k --iodepth=32 --numjobs=4 --time_based --runtime=180 --direct=1 --group_reporting

Attention : benchmarker un FS actif peut perturber la production. Utiliser une fenêtre dédiée et ne jamais tester sur le volume contenant des données critiques sans espace réservé.

Fragmentation logique

La fragmentation augmente les seeks sur HDD et peut accroître les métadonnées / extents sur SSD. Les FS modernes masquent une partie du problème, mais les snapshots COW, VM images et workloads append/delete peuvent générer une fragmentation significative.

FS	Diagnostic	Action
ext4	e4defrag -c	e4defrag si besoin.
XFS	xfs_db, filefrag	xfs_fsr selon cas.
Btrfs	filefrag, btrfs filesystem defrag	defrag ciblé, attention snapshots.
ZFS	pas defrag simple	prévenir par design, send/receive recrée parfois propre.
NTFS	defrag /A	Optimize-Volume.

Observer la couche logique

# Linux
iostat -xz 1
pidstat -d 1
sar -d 1
bpftrace tools si disponible
journalctl -k | grep -Ei "error|xfs|ext4|btrfs|nvme|scsi"

# FS usage
df -hT
du -xhd1 /var | sort -h
lsof +L1

# Windows PowerShell
Get-Counter '\PhysicalDisk(*)\Avg. Disk sec/Read'
Get-Counter '\LogicalDisk(*)\% Free Space'
Get-Volume
Get-EventLog -LogName System -Source disk -Newest 20

# ReFS/Storage Spaces
Get-VirtualDisk | Get-StorageJob

5.9 Sécurité & intégrité — ACL, chiffrement, checksums, ransomware

Permissions : POSIX, ACL, NTFS ACL

Modèle	Forces	Piège
POSIX mode	simple rwx user/group/other	limité pour organisations complexes.
POSIX ACL	droits fins sur Linux	backup doit préserver ACL.
NTFS ACL	héritage, deny, audit, groupes AD	héritages cassés, migrations délicates.
NFSv4 ACL	interop NAS/Unix	mapping identités.

# Linux ACL
getfacl /srv/share
setfacl -m u:appuser:rwx /srv/share

# Windows ACL
icacls D:\Data
icacls D:\Data /grant "DOMAIN\AppTeam:(OI)(CI)M"

Chiffrement : couche bloc, FS ou application

Couche	Exemples	Avantage	Limite
Bloc	LUKS, BitLocker	transparent pour FS	snapshot/backup voient données chiffrées selon couche.
FS	ZFS encryption, APFS	granularité dataset/volume	gestion clés.
Fichier	EFS, age, gpg	portable	complexe à grande échelle.
Application	DB TDE, app-level	contrôle métier	dédup/compression souvent réduites.

# LUKS rapide
cryptsetup luksFormat /dev/sdb1
cryptsetup open /dev/sdb1 cryptdata
mkfs.xfs /dev/mapper/cryptdata

# BitLocker
Enable-BitLocker -MountPoint "D:" -EncryptionMethod XtsAes256

Checksums, bit rot et scrubbing

Un disque peut retourner une donnée techniquement lisible mais incorrecte. Sans checksum bout-en-bout, la corruption silencieuse peut remonter jusqu’à l’application. ZFS et Btrfs détectent ces erreurs ; avec redondance, ils peuvent les réparer automatiquement.

Read block→checksum verify→mismatch→read mirror/parity→self-heal

# ZFS scrub
zpool scrub tank
zpool status -v tank

# Btrfs scrub
btrfs scrub start -Bd /srv/data
btrfs scrub status /srv/data

Snapshots immuables et défense ransomware

Un ransomware chiffre les fichiers au niveau logique. Les snapshots permettent un retour rapide si l’attaquant ne peut pas les supprimer. Il faut donc séparer les droits admin applicatifs des droits snapshot/backup.

Mesure	But	Exemple
Snapshots read-only	retour instantané	ZFS/Btrfs snapshots non montés en écriture.
Immutability	empêcher suppression	S3 Object Lock, appliances WORM.
Admin séparé	limiter blast radius	compte backup distinct hors domaine.
Détection churn	alerte chiffrement massif	pics rename/write entropy.

Point crucial : un snapshot administrable par le même compte compromis n’est pas une protection suffisante.

5.10 Cloud, VM & containers — Disques virtuels, CSI, snapshots

Disques virtuels : VMDK, VHDX, QCOW2, RAW

Format	Usage	Avantage	Attention
RAW	KVM/performance	simple, rapide	snapshots dépendant couche externe.
QCOW2	KVM dev/test	snapshots, thin	overhead si mal tuné.
VMDK	VMware	écosystème vSphere	datastore, snapshots à gérer.
VHDX	Hyper-V	robuste, resize, logs	fragmentation dynamique possible.

Le FS invité voit un disque logique ; l’hyperviseur voit un fichier ; le SAN voit des blocs. Les problèmes de performance traversent toutes ces couches.

Kubernetes CSI et volumes persistants

Dans Kubernetes, le stockage persistant est abstrait par PV, PVC, StorageClass et CSI driver. Le choix du FS et du mode d’accès impacte directement les bases de données, les brokers et les workloads stateful.

Objet	Rôle	Point d’attention
StorageClass	politique de provisionnement	type disque, reclaimPolicy, expansion.
PVC	demande d’espace	taille, access mode.
PV	volume réel	binding, zone, driver.
CSI Snapshot	point-in-time	app consistency non automatique.

kubectl get storageclass
kubectl get pv,pvc -A
kubectl describe pvc -n prod data-postgres-0
kubectl get volumesnapshot -A

Overlay filesystems : Docker/containers

Les containers utilisent souvent overlayfs : une couche image read-only et une couche writable. Très efficace pour déploiement, mais inadapté aux données persistantes critiques si utilisé comme stockage principal.

Usage	Bon choix	Mauvais choix
Image applicative	overlayfs	volume host manuel désordonné.
DB	volume dédié / CSI	écriture lourde dans layer container.
Logs	driver logging + rotation	json logs sans limite.
Cache	emptyDir/ephemeral	PV durable inutile.

docker system df
docker inspect CONTAINER_ID | jq '.[0].GraphDriver'
du -xhd1 /var/lib/docker | sort -h

Snapshots cloud : pratiques, mais pas toujours application-consistent

AWS EBS snapshots, Azure Managed Disk snapshots et Google Persistent Disk snapshots capturent le bloc. Selon OS et application, il faut quiescer, flush ou utiliser un agent pour garantir une cohérence applicative.

Snapshot	Garantie typique	Pour DB
Crash-consistent	comme coupure électrique	journal/recovery nécessaire.
File-system consistent	flush FS	mieux, pas toujours suffisant.
Application-consistent	writer DB coordonné	recommandé.

Design : pour bases critiques, préférer backup logique/physique natif DB + snapshots coordonnés, pas snapshot bloc seul.

5.12 Matrice de décision — Choisir sans se tromper

Matrice de choix par workload

Workload	Partition	Volume	FS recommandé	Pourquoi
OS Linux standard	GPT	LVM simple	ext4 ou XFS	maintenance simple, extension possible.
Serveur fichiers massif	GPT	ZFS pool ou LVM	ZFS/XFS	gros volumes, snapshots/intégrité.
VM datastore	GPT	ZFS mirror / SAN LUN	ZFS zvol/XFS selon hyperviseur	IOPS, snapshots, clones.
PostgreSQL/MySQL	GPT	LVM/ZFS testé	XFS/ext4, ZFS tuné	latence stable, fsync fiable.
Backup repository	GPT	ZFS/RAID	ZFS/XFS/ReFS	intégrité, gros fichiers, rétention.
Kubernetes stateful	cloud/provider	CSI	selon driver	provisionnement automatisé.

Checklist design avant production

TCO logique : ce qui coûte vraiment

Choix	Gain immédiat	Coût caché
FS très avancé	snapshots/compression	expertise, récupération, tuning.
Thin provisioning	moins de capacité initiale	monitoring critique, incidents brutaux.
Déduplication	économie capacité	RAM/CPU, latence, complexité.
Pas de snapshots	simplicité	rollback lent, RTO élevé.
Pas de séparation /var	install rapide	risque root full.

5.13 URLs, références et glossaire

URLs techniques de référence

Sujet	URL	Pourquoi
Linux kernel filesystems	https://docs.kernel.org/filesystems/	Documentation noyau officielle.
LVM2	https://sourceware.org/lvm2/	Projet LVM officiel.
OpenZFS	https://openzfs.github.io/openzfs-docs/	Administration ZFS.
Btrfs	https://btrfs.readthedocs.io/	Commandes et concepts Btrfs.
XFS	https://xfs.org/	Projet XFS.
Microsoft Storage	https://learn.microsoft.com/windows-server/storage/	Storage Spaces, ReFS, NTFS, Server.
Kubernetes CSI	https://kubernetes-csi.github.io/docs/	Storage cloud-native.
UEFI Forum	https://uefi.org/specifications	UEFI, GPT, boot moderne.

Glossaire express

Terme	Définition
LBA	Logical Block Addressing, adressage logique des blocs.
ESP	EFI System Partition, partition boot UEFI.
UUID	Identifiant stable de volume/FS.
Extent	Plage contiguë de blocs alloués.
Thin pool	Pool qui alloue physiquement à la demande.
COW	Copy-on-Write, écriture des nouvelles versions ailleurs.
Scrub	lecture/vérification proactive pour détecter corruption.
WAF	Write Amplification Factor.

💾 Storage Systems — Partie 3 : Organisation logique du stockage

Carte mentale du chapitre

MBR / GPT

Partitions classiques

Volumes logiques

Systèmes de fichiers

Journaling & crash recovery

Snapshots niveau FS

Compression & déduplication

Performance logique

Sécurité & intégrité

Cloud, VM & containers

Runbooks production

Matrice de décision

URLs & références

Du disque physique au fichier : chaîne logique complète

Pourquoi cette couche est critique

Taxonomie de l’organisation logique

Ordres de grandeur à garder en tête

Mini-lab pédagogique : comprendre la pile sans risque

MBR : l’héritage BIOS

GPT : design moderne

MBR vs GPT : comparaison d’ingénierie

UEFI, ESP et démarrage

Migration MBR → GPT : scénario prudent

Partitions Linux : logique actuelle

Partitions Windows modernes

BSD : disklabel, GEOM, ZFS

Alignement 4K / 1MiB : petite erreur, gros impact

LVM : PV, VG, LV, extents

Windows : Dynamic Disk, Storage Spaces, ReFS

ZFS : pool, vdev, datasets

Thin provisioning : promesse et danger

Incidents classiques de couche volume

Panorama des systèmes de fichiers

ext4 vs XFS : choix Linux classique

ext4

XFS

File systems Copy-on-Write : Btrfs et ZFS

NTFS et ReFS : vision Windows Server

NTFS

ReFS

APFS : design SSD-first Apple

Inodes, MFT, metadata : le stockage invisible

Journaling : pourquoi un FS survit au crash

Journaux ext4 et XFS

ext4

XFS

Copy-on-Write vs journal classique

Ordering, barriers, flush et caches contrôleur

Réparation : méthode froide et prudente

Snapshot : point-in-time, pas sauvegarde magique

Snapshots COW : Btrfs et ZFS

Btrfs

ZFS

LVM snapshot : pratique mais à surveiller

Windows VSS et APFS local snapshots

VSS

APFS

Politique de rétention snapshot

Compression inline : gagner de l’espace sans casser les performances

Déduplication : puissante mais dangereuse sans sizing

Ratios réalistes par type de données

Tester avant d’activer

Paramètres logiques qui changent vraiment les performances

fio : benchmark minimal mais sérieux

Fragmentation logique

Observer la couche logique

Permissions : POSIX, ACL, NTFS ACL

Chiffrement : couche bloc, FS ou application

Checksums, bit rot et scrubbing

Snapshots immuables et défense ransomware

Disques virtuels : VMDK, VHDX, QCOW2, RAW

Kubernetes CSI et volumes persistants

Overlay filesystems : Docker/containers

Snapshots cloud : pratiques, mais pas toujours application-consistent

Runbook Linux : espace, montage, croissance

Runbook Windows : volumes et santé

Incident : volume plein

Runbook récupération : règle d’or