☁️ Storage Systems — Chapitre 18 : Principes du Cloud Storage

Très grosse page de synthèse sur le stockage cloud : block storage attaché aux VM, file storage NFS/SMB managé, object storage S3/Blob/GCS, archive froide, régions, zones, durabilité, disponibilité, réplication, sécurité, coûts cachés et FinOps. L’objectif est de comprendre les choix d’architecture, les pièges réels de production, les coûts invisibles et les patterns robustes multi-cloud.

Block / File / Object / ArchiveAWS / Azure / GCP / OVH / ScalewayRegions / AZ / ReplicationDurability vs AvailabilityEgress / API calls / FinOpsSecurity / IAM / KMS

18.1

Stockage bloc cloud

Disques attachés aux VM : EBS, Azure Managed Disks, GCE Persistent Disk, IOPS, throughput, snapshots, zones.

BlockVM disksIOPS

18.2

Stockage fichier cloud

NFS/SMB managé : EFS, Azure Files, Filestore, NetApp Files, FSx, performance, quotas et hybridation.

NFSSMBManaged file

18.3

Stockage objet cloud

Buckets S3/Blob/GCS : objects, metadata, API, versioning, lifecycle, replication, events et data lake.

S3BlobGCS

18.4

Archive cloud

Glacier, Archive, Coldline, Deep Archive : rétention longue, restore lent, minimum duration et coûts de récupération.

ArchiveColdlineGlacier

18.5

Régions et zones

Availability zones, multi-region, replication, placement, sovereignty, latency, data residency et blast radius.

RegionsAZReplication

18.6

Durabilité vs disponibilité

Concepts fondamentaux : perte de données vs accessibilité service, SLA, replication, erasure coding et backups.

DurabilityAvailabilitySLA

18.7

Coûts cachés

Egress, API calls, retrieval fees, snapshots, replication, minimum storage duration, lifecycle transitions et logs.

EgressAPI callsFinOps

18.8

Classes de stockage

Hot, cool, infrequent access, archive, intelligent tiering, standard, regional, zonal : choisir par température.

HotCoolArchive

18.9

Snapshots cloud

Snapshots disques, incremental, crash/app consistency, cross-region copy, retention, coûts et restore VM.

SnapshotsIncrementalRestore

18.10

Réplication et DR

Cross-zone, cross-region, object replication, disk replication, RPO/RTO, failover, failback et tests PRA.

DRRPO/RTOFailover

18.11

Sécurité cloud storage

IAM, bucket policies, encryption, KMS, private endpoints, object lock, immutability, audit logs et ransomware.

IAMKMSObject Lock

18.12

Réseau et accès privé

PrivateLink, VPC endpoints, service endpoints, firewall, NFS/SMB exposure, DNS privé, latency et throughput.

PrivateLinkVPC endpointDNS

18.13

Backup cloud

Backup managé, immutability, vault lock, snapshots, database backups, cross-account copy et restore drills.

BackupVaultImmutability

18.14

Cloud storage Kubernetes

EBS/EFS CSI, Azure Disk/Files CSI, GCE PD/Filestore CSI, topology, snapshots, RWX et coûts.

CSIKubernetesPVC

18.15

Bases de données et storage cloud

Disques DB, logs, IOPS provisionnées, managed DB storage, PITR, replicas, snapshots et HA zone.

DBPITRIOPS

18.16

Data lake cloud

Object storage comme socle analytics : partitioning, Parquet, Iceberg, governance, catalog, lakehouse et IA.

Data lakeParquetIceberg

18.17

Hybrid cloud storage

VPN/Direct Connect/ExpressRoute, gateways, cache, backup cloud, tiering, file sync et sovereignty.

HybridGatewayCache

18.18

Observabilité et FinOps

Metrics, logs, access analytics, cost anomaly, lifecycle reports, storage lens, budgets et capacity forecast.

FinOpsMetricsBudgets

18.19

Matrice AWS/Azure/GCP/OVH/Scaleway

Comparer block/file/object/archive, zones, features, coûts, souveraineté et écosystèmes.

ProvidersMatrixSovereignty

18.20

Anti-patterns cloud storage

Buckets publics, snapshots éternels, egress ignoré, single-zone critique, lifecycle absent, clés partagées.

Anti-patternsRiskGovernance

18.21

Design patterns

Patterns robustes : web assets, backup immuable, DB volumes, data lake, media pipeline, logs archive et DR.

PatternsArchitectureExamples

18.22

Migration vers cloud storage

Plan migration : inventaire, classification, transfert, cutover, sync delta, validation, rollback et coûts egress.

MigrationCutoverRollback

18.23

Runbooks incidents

Bucket inaccessible, disque plein, snapshot restore, egress spike, clé compromise, réplication bloquée et archive restore.

RunbookIncidentRestore

18.24

Checklist production cloud storage

Préprod : IAM, encryption, private access, lifecycle, backup, DR, monitoring, budget, restore drills et documentation.

Prod-readyAuditChecklist

18.1 Stockage bloc cloud : disques attachés aux VM

Principe

Le stockage bloc cloud fournit des volumes attachés à des machines virtuelles. Le système d'exploitation voit un disque, crée partitions, filesystem, LVM, base de données ou datastore. Exemples : AWS EBS, Azure Managed Disks, Google Persistent Disk.

Point clé : le disque bloc cloud est généralement zonal. Il est attaché à une VM dans une zone donnée, avec des performances dépendantes du type de volume et parfois de la taille.

Flux logique

Application→Filesystem / DB→OS block device→Cloud volume→Zone backend

Cloud	Service bloc	Usages typiques	Attention
AWS	EBS	EC2, DB, boot disks, Kubernetes EBS CSI.	Zonal, IOPS/throughput selon type.
Azure	Managed Disks	VMs, SQL Server, AKS Azure Disk CSI.	Performance tiers, redundancy options.
GCP	Persistent Disk / Hyperdisk	Compute Engine, GKE, DB.	Zonal/regional selon type.
OVH/Scaleway	Block Storage selon offre	VMs cloud, volumes additionnels.	Features et snapshots à vérifier.

IOPS4K

Charge random DB/VM.

ThroughputMB/s

Flux séquentiel.

Latencyp99

Ressenti applicatif.

Attachzone

Placement VM-volume.

Séparer disques OS, data, logs pour bases critiques.
Aligner type de volume avec workload : généraliste, provisioned IOPS, throughput optimisé.
Activer snapshots réguliers mais gouvernés.
Surveiller queue length, latency, burst credits si applicable.
Prévoir restore cross-zone/cross-region pour DR.

Un volume bloc zonal n'est pas un stockage multi-zone magique. Si la zone tombe, il faut une stratégie de replica, snapshot, backup ou disque régional selon provider.

18.2 Stockage fichier cloud : NFS/SMB managé

Le stockage fichier cloud expose des partages NFS ou SMB managés. Il sert aux applications qui attendent un filesystem partagé : contenus web, home directories, lift-and-shift, médias, pipelines, partages Windows, Kubernetes RWX.

VMs / Pods→NFS / SMB→Managed File Service→Regional storage

Cloud	Services fichier	Protocoles	Usage
AWS	EFS, FSx for Windows, FSx for Lustre, FSx for NetApp ONTAP	NFS/SMB/Lustre	RWX, Windows shares, HPC, ONTAP.
Azure	Azure Files, Azure NetApp Files	SMB/NFS	Lift-and-shift, AKS RWX, enterprise NFS/SMB.
GCP	Filestore, NetApp Volumes	NFS	GKE RWX, apps Linux, enterprise file.

Débit souvent lié à la taille ou au tier provisionné.
Les petits fichiers et metadata peuvent coûter plus cher en latence.
SMB/NFS exigent réseau privé, DNS, firewall et identité.
RWX Kubernetes est pratique mais pas toujours adapté aux bases transactionnelles.

Besoin	Option fichier
Linux shared files	NFS managé.
Windows file server lift-and-shift	SMB managé / FSx Windows / Azure Files.
Kubernetes RWX	EFS, Azure Files, Filestore, CephFS selon environnement.
HPC scratch	Lustre ou filesystem spécialisé.

Un service fichier managé simplifie l'exploitation, mais il faut toujours gérer ACL, sauvegarde, ransomware, quotas, latence réseau et coûts de performance provisionnée.

18.3 Stockage objet cloud : S3, Blob, GCS

Le stockage objet cloud stocke des objets dans des buckets/containers accessibles via API HTTP. Chaque objet possède une clé, des metadata, un contenu et parfois des versions. C'est le socle des data lakes, backups, archives, médias, logs, IA et applications cloud-native.

Application→SDK / API HTTP→Bucket→Object + metadata→Lifecycle / replication

Cloud	Service	Concept
AWS	S3	Bucket, object, key, storage class.
Azure	Blob Storage	Storage account, container, blob, access tier.
GCP	Cloud Storage	Bucket, object, storage class.
OVH/Scaleway	Object Storage	Souvent S3-compatible selon offre.

Versioning pour conserver anciennes versions.
Lifecycle pour transition/expiration.
Replication cross-region ou cross-account.
Object Lock / immutability selon service.
Events vers queues/functions.
Encryption avec clés provider ou KMS client.

Un bucket n'est pas un disque ni un filesystem POSIX. Rename, append, locking fin, modifications partielles et latence ne se comportent pas comme NFS ou bloc.

s3://company-prod-lake/raw/events/year=2026/month=05/day=03/part-0001.parquet
s3://company-backups/postgresql/prod/2026-05-03/base.tar
s3://company-media/products/sku-12345/image-main.webp
s3://company-logs/nginx/dt=2026-05-03/hour=10/access.json.gz

18.4 Archive cloud : Glacier, Archive, Coldline, Deep Archive

Les classes archive réduisent le coût de stockage au prix d'une récupération plus lente, de frais de retrieval, de durées minimales de stockage et de contraintes opérationnelles. Elles sont destinées aux données rarement consultées mais à conserver longtemps.

Classe	Accès	Usage	Attention
Cool / IA	Rare mais rapide	Backups récents, documents peu consultés.	Frais d'accès possibles.
Coldline / Archive	Très rare	Archives, conformité, historique.	Retrieval plus coûteux/lent.
Deep Archive	Exceptionnel	Conservation longue durée.	Restore très lent, durée minimale.

Identifier objet/prefix/version.
Lancer demande de restore archive.
Attendre disponibilité temporaire.
Copier vers classe hot si besoin d'exploitation.
Vérifier checksum et application.
Documenter délai réel.

Archiver des données qui doivent être restaurées en quelques minutes est une erreur de design. Le choix archive doit être aligné avec le RTO métier.

Minimum storage duration.
Retrieval fees.
Early deletion fees.
Lifecycle transitions facturées selon provider.
Inventaire et recherche plus difficiles si metadata pauvre.

Hot 0-30 jours → Cool 30-180 jours → Archive 180 jours+ → Expiration selon politique légale

18.5 Régions et zones : AZ, multi-region, replication

Concept	Description	Impact stockage
Region	Zone géographique cloud.	Latence, souveraineté, prix.
Availability Zone	Domaine de panne dans une région.	Volumes bloc souvent zonaux.
Multi-AZ	Service réparti sur plusieurs zones.	Meilleure disponibilité locale.
Multi-region	Copies dans plusieurs régions.	DR, conformité, coût.

Region EU

AZ-a

AZ-b

AZ-c

Region DR

Archive

Le placement détermine la latence, le blast radius, le coût de transfert et la conformité. Un disque bloc zonal, un filesystem régional et un bucket multi-region n'ont pas les mêmes propriétés.

Cross-zone : protège contre panne zone.
Cross-region : protège contre panne région ou contrainte DR.
Cross-account/project : protège contre compromission du compte principal.
Async replication : RPO non nul.
Sync replication : latence et coût plus élevés.

La région impacte résidence des données, juridiction, latence utilisateur, coûts egress, services disponibles et exigences contractuelles.

Ne jamais supposer qu'un service est multi-region simplement parce qu'il est managé. Lire les propriétés exactes du service et de la classe choisie.

18.6 Durabilité vs disponibilité : concepts fondamentaux

Concept	Question	Exemple
Durabilité	Vais-je perdre les données ?	Copies, EC, checksum, repair.
Disponibilité	Puis-je accéder au service maintenant ?	SLA, endpoint, réseau, AZ.
RPO	Combien de données puis-je perdre ?	5 minutes, 1 heure, 24h.
RTO	Combien de temps pour restaurer ?	15 min, 4h, 2 jours.

Une archive peut être extrêmement durable mais peu disponible immédiatement.
Un disque zonal peut être très disponible dans sa zone mais indisponible si la zone tombe.

Replication multi-AZ.
Erasure coding distribué.
Checksums et scrubbing côté provider.
Snapshots et backups.
Object versioning et Object Lock.
Cross-region replication.

La durabilité annoncée par un provider ne dispense pas d'une stratégie backup, surtout contre suppression logique, erreur humaine, ransomware, corruption applicative ou compte compromis.

18.7 Coûts cachés : egress, API calls, retrieval, snapshots, replication

Le coût cloud storage n'est jamais seulement capacité × prix par Go. Les frais cachés viennent souvent de l'egress, des requêtes API, de la réplication, des snapshots, des durées minimales, des restores archive et des logs.

Coût total = stockage + requêtes + egress + snapshots + réplication + retrieval + lifecycle + logs + monitoring

Coût	Déclencheur	Piège
Egress	Données sortant du cloud/région.	Très visible en migration ou CDN mal conçu.
API calls	PUT/GET/LIST/HEAD.	Millions de petits objets.
Retrieval	Lecture depuis classe froide/archive.	Restore massif coûteux.
Snapshots	Rétention longue.	Accumulation invisible.
Replication	Copies cross-region.	Double stockage + transfert.
Minimum duration	Suppression trop tôt.	Early deletion fees.

Un data lake avec petits JSON non compactés augmente les coûts de requêtes.
Une politique versioning sans expiration garde toutes les anciennes versions.
Un bucket répliqué en multi-region double presque la capacité et ajoute transfert.
Un restore archive urgent peut coûter bien plus que prévu.

Budgets et alertes par bucket/projet.
Tagging obligatoire.
Lifecycle par préfixe.
Rapports objets non lus depuis X jours.
Expiration multipart uploads incomplets.
Dashboards egress et API calls.

18.8 Classes de stockage : hot, cool, archive, intelligent tiering

Classe	Usage	Avantage	Attention
Hot / Standard	Accès fréquent	Latence basse, accès direct.	Stockage plus cher.
Infrequent / Cool	Accès rare	Stockage moins cher.	Retrieval/API plus chers.
Archive	Conservation longue	Coût stockage bas.	Restore lent et payant.
Intelligent tiering	Accès imprévisible	Automatisation.	Monitoring/overhead éventuel.

Classer données par température d'accès.
Définir RTO restore.
Évaluer frais retrieval/API.
Créer lifecycle par préfixe.
Mesurer après 30/60/90 jours.

prefix: logs/nginx/
0-30 days: hot
31-180 days: cool
181-365 days: archive
after 365 days: delete unless legal hold

18.9 Snapshots cloud : disques, incremental, cross-region restore

Les snapshots cloud capturent l'état d'un volume bloc ou d'un filesystem. Ils sont souvent incrémentaux et stockés dans un service durable. Ils servent à restore, clone, migration région et protection basique.

Type	Sens	Usage
Crash-consistent	Comme coupure courant.	OS et apps robustes.
Application-consistent	App flush/quiesce.	DB, AD, workloads critiques.
Multi-volume consistent	Plusieurs disques alignés.	DB data/log séparés.

Snapshots horaires/courts pour rollback proche.
Snapshots journaliers/semaine/mois selon RPO.
Expiration automatique.
Copie cross-region/cross-account pour DR.

Les snapshots ne remplacent pas forcément des backups applicatifs. Une corruption logique ou suppression peut être capturée dans les snapshots suivants.

18.10 Réplication et DR : cross-zone, cross-region, failover

Pattern	RPO	RTO	Coût
Backup only	Heures/jours	Long	Bas.
Snapshot cross-region	Minutes/heures	Moyen	Moyen.
Async replication	Secondes/minutes	Moyen/faible	Élevé.
Active-active	Très faible	Très faible	Très élevé + complexité.

Réplication par bucket/prefix.
Versioning souvent nécessaire.
Lag à monitorer.
Attention aux suppressions répliquées.
Tester failover applicatif.

Simuler indisponibilité région/source.
Restaurer données dans région DR.
Créer compute cible.
Basculer DNS/traffic.
Valider application.
Mesurer RTO/RPO.

18.11 Sécurité cloud storage : IAM, KMS, private endpoints, immutability

IAM moindre privilège.
Bucket policies explicites.
Block public access par défaut.
Encryption at rest avec KMS si besoin.
TLS obligatoire.
Object Lock / immutability pour backups.
Audit logs centralisés.

Principe	Application
Least privilege	Actions limitées par bucket/prefix.
Separation of duties	Admin storage, backup, application séparés.
Short-lived credentials	Roles, workload identity, STS.
No shared keys	Éviter clés longues dans code.

Un compte cloud compromis peut supprimer buckets, snapshots et backups. Protéger par MFA, comptes séparés, immutabilité, cross-account copy et alertes suppression massive.

La gestion de clés impacte disponibilité : désactiver ou perdre une clé KMS peut rendre les données illisibles. Les politiques KMS doivent être surveillées comme des éléments critiques.

18.12 Réseau et accès privé : PrivateLink, VPC endpoints, DNS privé

L'accès privé évite de faire transiter les flux storage par Internet public et réduit la surface d'attaque. Il est essentiel pour bases, backups, buckets internes et services fichier.

Cloud	Mécanisme	Usage
AWS	VPC Gateway/Interface Endpoints, PrivateLink	S3, EBS APIs, services privés.
Azure	Private Endpoint, Service Endpoint	Storage accounts, Files, Blob.
GCP	Private Service Connect, Private Google Access	APIs privées.

Restreindre par VPC/subnet/security groups.
DNS privé stable.
Pas d'exposition SMB/NFS publique.
Latency et throughput entre zones à mesurer.

# Examples
nslookup storage.internal
curl -I https://bucket-endpoint
traceroute storage-endpoint
iperf3 for file services where possible
check firewall/security groups/routes/DNS

18.14 Cloud storage Kubernetes : CSI, topology, snapshots, RWX

Besoin	AWS	Azure	GCP
Bloc RWO	EBS CSI	Azure Disk CSI	PD CSI
Fichier RWX	EFS CSI	Azure Files CSI	Filestore CSI
Snapshots	CSI snapshots	CSI snapshots	CSI snapshots

Les disques bloc cloud sont souvent zonaux. Utiliser WaitForFirstConsumer évite de créer un volume dans une zone incompatible avec le pod.

volumeBindingMode: WaitForFirstConsumer
allowVolumeExpansion: true
reclaimPolicy: Delete

PVC non supprimés après suppression d'app.
Snapshots oubliés.
EFS/Azure Files/Filestore provisionnés trop haut.
Logs et backups dans buckets sans lifecycle.

18.15 Bases de données et storage cloud : IOPS, logs, PITR

Les bases cloud sur VM exigent un design stockage classique : data, logs, temp, backups, snapshots cohérents, IOPS garanties et monitoring latence.

Fonction	Rôle
PITR	Restore point-in-time via logs.
Read replica	Lecture et parfois DR.
Multi-AZ	HA locale.
Storage autoscaling	Évite volume full mais peut augmenter coût.

Surveiller latency p95/p99, queue depth, throughput.
Séparer logs transactionnels si applicable.
Tester restore PITR.
Protéger backups par immutabilité ou compte séparé.
Valider limites IOPS du type de stockage.

18.17 Hybrid cloud storage : gateways, cache, tiering, backup cloud

Pattern	Description
Backup to cloud	Copies immuables hors site.
File sync	Cache local + cloud backend.
Object gateway	S3 on-prem vers cloud.
Tiering	Données froides déplacées vers cloud.
DR cloud	Compute dormant + storage répliqué.

VPN pour petits flux.
Direct Connect/ExpressRoute/Interconnect pour flux importants.
Mesurer latence et bande passante.
Prévoir coûts egress lors du retour on-prem.

L'hybride ajoute dépendances réseau, latence, coûts de transfert, cohérence de données et double exploitation. Il faut des runbooks de perte lien WAN.

18.18 Observabilité et FinOps : metrics, logs, budgets, forecast

Métrique	Usage
Capacity by bucket/volume	Forecast et budget.
Requests GET/PUT/LIST	Coût et performance.
Egress	Coût surprise.
Retrieval	Archives/cold classes.
Snapshot growth	Fuite de coût.
Replication lag	DR/RPO.

Budget mensuel > seuil.
Egress spike.
Bucket public détecté.
Snapshots sans tag/owner.
Archive retrieval massif.
Lifecycle rule disabled.

Tagging obligatoire : application, owner, environment, data_classification, retention, cost_center. Sans tags, FinOps devient de l'archéologie.

18.19 Matrice AWS/Azure/GCP/OVH/Scaleway

Besoin	AWS	Azure	GCP	Europe/alternatifs
Bloc VM	EBS	Managed Disks	PD/Hyperdisk	Block Storage selon offre
Fichier	EFS/FSx	Azure Files/ANF	Filestore/NetApp	NFS/SMB selon provider
Objet	S3	Blob	Cloud Storage	Object Storage S3-compatible
Archive	Glacier classes	Archive tier	Archive/Coldline	Cold archive selon offre

Services disponibles dans la région.
Souveraineté et conformité.
Coût egress et API.
Écosystème backup/analytics.
Support Terraform/Kubernetes.
Contrats et support.

Les noms de services se ressemblent, mais les limites, SLA, coûts, régions et fonctionnalités diffèrent fortement. Toujours valider sur documentation provider au moment du design.

18.20 Anti-patterns cloud storage

Anti-pattern	Risque	Correction
Bucket public par erreur	Fuite données.	Block public access, audit.
No lifecycle	Coût infini.	Lifecycle par prefix.
Snapshots éternels	Explosion coût.	Retention policy.
Single-zone pour critique	Panne zone = outage.	Multi-AZ/DR.
Clés partagées	Pas d'audit, compromission.	Roles/STS.
Egress ignoré	Facture surprise.	Budget et architecture CDN/cache.

Aucun tag owner.
Personne ne sait restaurer.
Pas de budget par environnement.
Logs d'accès désactivés.
Rétention décidée par défaut technique, pas métier.

18.21 Design patterns cloud storage

Pattern	Stockage	Points clés
Static web/media	Object + CDN	Cache, versioning, invalidation.
Backup immutable	Object Lock / vault	Compte séparé, restore drill.
DB on VM	Block provisioned IOPS	Data/logs, snapshots cohérents.
K8s RWX	Managed file	Latency, permissions, backup.
Data lake	Object	Parquet, catalog, lifecycle.
Archive compliance	Archive class	Retention, legal hold, restore delay.

Ingest→Object raw→Processing→Curated→BI / ML / Archive

Toujours concevoir avec cinq axes : performance, résilience, sécurité, coût, exploitabilité.

18.24 Checklist production cloud storage

Contrôle	OK ?	Note
Type storage choisi par workload	☐	Block/file/object/archive.
Région/zone documentée	☐	Souveraineté, latency, DR.
IAM moindre privilège	☐	Roles, policies, no shared keys.
Encryption/KMS validé	☐	Clés, rotation, accès.
Lifecycle défini	☐	Hot/cool/archive/delete.
Budget et tags	☐	FinOps obligatoire.

Backup externe ou cross-account.
Snapshots avec rétention.
Object Lock/vault lock si critique.
Replication testée.
Restore drill réalisé.

Alertes capacity, egress, public access, policy change.
Runbooks incidents.
Documentation owner et data classification.
Table RPO/RTO par application.
Revue mensuelle coûts et lifecycle.

NO-GO si : bucket public non justifié, pas de restore testé, pas de budget alert, snapshots sans expiration, données critiques single-zone, clés longues partagées, lifecycle absent.

Snapshots managed	Volumes/VMs avec rétention.
Backup vault	Centralisation et policies.
Vault lock	Immutabilité / WORM selon service.
Cross-account copy	Protection compte compromis.
Database PITR	Restore point-in-time.

Catalog	Schémas, tables, partitions.
Lineage	Origine et transformations.
Access control	IAM, policies, row/column security selon moteur.
Lifecycle	Raw conservé, curated optimisé.

Object	rclone, aws s3 sync, azcopy, gsutil/gcloud storage, provider tools.
File	rsync, robocopy, DataSync/File Sync, appliance gateway.
Block/VM	Replication tools, snapshots, migration services, backup/restore.