🌐 Storage Systems — Chapitres 42 & 43 : Web, médias, big data et analytics

Partie 13 — Stockage pour workloads spécifiques. Cette page regroupe deux chapitres : stockage pour web et médias, puis stockage pour big data et analytics. On y traite images utilisateurs, vidéo, static assets, logs web, CMS, CDN, uploads sécurisés, pipelines médias, backup médias, sécurité, observabilité, data lake, formats Parquet/ORC/Avro/Delta/Iceberg/Hudi, lakehouse, HDFS, Spark, moteurs analytiques cloud, catalog/gouvernance, ingestion streaming, partitioning, FinOps analytics et checklist production.

Images utilisateursVidéo / CDNStatic assetsData lakeLakehouseSpark / Analytics

42.1

Images utilisateurs

Object storage, thumbnails, EXIF, antivirus, moderation, lifecycle, CDN, cache invalidation, droits et suppression RGPD.

ImagesObject storageCDN

42.2

Vidéo

Transcodage, CDN, lifecycle, HLS/DASH, mezzanine files, renditions, subtitles, DRM et coûts egress.

VideoTranscodingHLS

42.3

Static assets

S3 + CDN : assets versionnés, cache-control, fingerprinting, brotli/gzip, invalidation et déploiement web.

StaticS3CDN

42.4

Logs web

Rotation, compression, centralisation, parsing, stockage chaud/froid, SIEM, analytics, coûts et rétention.

LogsRotationSIEM

42.5

CMS

Media library, NAS, object storage, WordPress/Django/Drupal, permissions, thumbnails, search et workflows éditoriaux.

CMSMedia libraryNAS

42.6

CDN et edge caching

CloudFront, Cloudflare, Fastly, Akamai : cache keys, TTL, purge, origin shield, signed URLs et geo distribution.

CDNEdgeCache

42.7

Uploads web sécurisés

Presigned URLs, multipart upload, antivirus, MIME sniffing, quotas, size limits, user isolation et audit.

UploadsPresigned URLAV

42.8

Pipelines médias

Workers, queues, FFmpeg, ImageMagick, thumbnails, watermarks, async jobs, retry et dead-letter queues.

FFmpegWorkersQueue

42.9

Backup web / médias

Sauvegarder DB + médias + config + secrets : cohérence CMS, object versioning, snapshots et restore drill.

BackupMediaRestore

42.10

Sécurité médias web

Hotlink protection, signed cookies, private media, malware scan, WAF, object lock, exfiltration et ACL.

SecurityWAFSigned URL

42.11

Observabilité web storage

CDN hit ratio, origin latency, 4xx/5xx, object latency, egress, request costs, upload failures et saturation.

MonitoringHit ratioEgress

42.12

Checklist web et médias

GO/NO-GO : CDN, lifecycle, backups, restore médias, AV scan, RGPD delete, cache strategy, costs et owners.

ChecklistGO/NO-GOMedia

43.1

Data lake

S3, ADLS, GCS : raw/bronze, curated/silver, gold, governance, zones, lifecycle et séparation compute/storage.

Data lakeS3ADLSGCS

43.2

Formats

Parquet, ORC, Avro, Delta Lake, Iceberg, Hudi : columnar, schema evolution, ACID tables et time travel.

ParquetIcebergDelta

43.3

Lakehouse

Stockage objet + moteur analytique : transactions, catalog, compute engines, open table formats et gouvernance.

LakehouseCatalogAnalytics

43.4

Hadoop HDFS

Historique et déclin relatif : compute/storage couplés, migration object storage, HDFS restant pour certains clusters legacy.

HDFSHadoopLegacy

43.5

Spark

I/O patterns : shuffle, spill, partitioning, small files, broadcast, caching, parquet pushdown et object store committers.

SparkShuffleSpill

43.6

Moteurs analytiques cloud

BigQuery, Snowflake, Redshift, Synapse, Databricks SQL, Trino/Presto : stockage, scans, coût et performance.

BigQuerySnowflakeTrino

43.7

Catalog et gouvernance

Hive Metastore, Glue Data Catalog, Unity Catalog, Purview, Dataplex : lineage, access control, PII et audit.

CatalogLineageGovernance

43.8

Ingestion streaming

Kafka, Pulsar, Kinesis, Event Hubs, Pub/Sub : landing zones, compaction, exactly-once, schema registry et replay.

StreamingKafkaIngestion

43.9

Partitioning et small files

Partition pruning, bucketing, compaction, clustering, file sizing, metadata overhead et query planning.

PartitioningSmall filesCompaction

43.10

FinOps analytics

Coûts scans, API calls, egress, storage tiers, compute waste, orphan datasets, lifecycle et chargeback.

FinOpsScan costLifecycle

43.11

Sécurité big data

IAM, table ACL, column/row security, encryption, tokenization, masking, audit et data clean rooms.

SecurityMaskingIAM

43.12

Checklist big data / analytics

GO/NO-GO : format, partitioning, catalog, lineage, cost guardrails, compaction, lifecycle, security et restore.

ChecklistAnalyticsGO/NO-GO

42.1 Images utilisateurs

Définition opérationnelle

Object storage, thumbnails, EXIF, antivirus, moderation, lifecycle, CDN, cache invalidation, droits et suppression RGPD.

Point clé : ces workloads sont dominés par les flux de données : ingestion, transformation, livraison, cache, coût, gouvernance et restauration. Le stockage doit être conçu autour du cycle de vie complet.

Chaîne workload

Browser→Presigned upload→Object storage→Worker processing→CDN→User delivery

Règle pratique : web storage = object storage durable + processing asynchrone + CDN + lifecycle + sécurité upload.

Composants à dimensionner

Composant	Rôle / explication
Origin storage	Object storage, NAS, local FS legacy, media library, upload bucket, private bucket and static bucket.
Delivery path	Application, signed upload, processing worker, origin, CDN, browser cache and invalidation workflow.
Processing	Image resize, thumbnails, transcoding, metadata extraction, virus scan, moderation and async queues.
Governance	User ownership, GDPR delete, retention, copyright, moderation, data classification and audit logs.
Performance	CDN hit ratio, object latency, origin egress, upload success rate, cache-control, TTL and purge time.
Cost control	Storage class, lifecycle, transcoding cost, CDN egress, request cost, duplicate media and cold archive.

Cas d’usage

Images utilisateurs pour SaaS, marketplace, social app ou CMS
Vidéo avec transcodage multi-renditions et streaming HLS/DASH
Static assets web distribués via CDN
Logs web centralisés pour analytics et sécurité
CMS avec media library et workflows éditoriaux
Protection des médias privés avec signed URLs et ACL

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Découple application web et stockage médias
Réduit charge serveur grâce au CDN
Permet lifecycle froid et coûts maîtrisés
Améliore sécurité upload et conformité RGPD
Rend les médias restaurables et observables

Risques / limites

Uploads non scannés ou MIME non vérifié
Cache CDN mal invalidé après remplacement
Egress vidéo sous-estimé
Suppression RGPD incomplète entre CDN, thumbnails et backups
Backup DB sans médias ou médias sans metadata DB

Matrice de décision

Question	Décision à prendre
Quel média ?	Images, vidéos, documents, assets statiques, logs, thumbnails, previews, subtitles ou private files.
Quel accès ?	Public CDN, private signed URL, signed cookies, authenticated app proxy, admin-only ou archive.
Quel traitement ?	Resize, compression, transcode, AV scan, moderation, metadata extraction, watermark, OCR ou indexing.
Quelle cohérence ?	DB metadata + object keys + CDN cache + backups + lifecycle + RGPD delete doivent rester alignés.
Quelle preuve ?	Test upload, test restore, CDN hit ratio, AV logs, lifecycle report, egress cost, purge and deletion audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Web/media storage validation examples
aws s3 ls s3://my-media-bucket --recursive --summarize
aws s3api get-bucket-lifecycle-configuration --bucket my-media-bucket
aws s3api get-bucket-cors --bucket my-media-bucket
aws s3api get-public-access-block --bucket my-media-bucket
rclone check media:bucket /backup/media --one-way
ffmpeg -i input.mp4 -vf scale=1280:-2 -c:v libx264 -preset fast -c:a aac output_720p.mp4
identify -verbose image.jpg | head
exiftool image.jpg
find /var/log/nginx -type f -name "*.log*" -mtime -7 -print
du -sh /srv/media /srv/static /var/log/nginx

NO-GO : médias web sans backup/restore, uploads sans scan, CDN sans stratégie d’invalidation, ou suppression utilisateur non propagée aux thumbnails/cache/backups.

42.2 Vidéo

Définition opérationnelle

Transcodage, CDN, lifecycle, HLS/DASH, mezzanine files, renditions, subtitles, DRM et coûts egress.

Chaîne workload

Browser→Presigned upload→Object storage→Worker processing→CDN→User delivery

Règle pratique : web storage = object storage durable + processing asynchrone + CDN + lifecycle + sécurité upload.

Composants à dimensionner

Composant	Rôle / explication
Origin storage	Object storage, NAS, local FS legacy, media library, upload bucket, private bucket and static bucket.
Delivery path	Application, signed upload, processing worker, origin, CDN, browser cache and invalidation workflow.
Processing	Image resize, thumbnails, transcoding, metadata extraction, virus scan, moderation and async queues.
Governance	User ownership, GDPR delete, retention, copyright, moderation, data classification and audit logs.
Performance	CDN hit ratio, object latency, origin egress, upload success rate, cache-control, TTL and purge time.
Cost control	Storage class, lifecycle, transcoding cost, CDN egress, request cost, duplicate media and cold archive.

Cas d’usage

Images utilisateurs pour SaaS, marketplace, social app ou CMS
Vidéo avec transcodage multi-renditions et streaming HLS/DASH
Static assets web distribués via CDN
Logs web centralisés pour analytics et sécurité
CMS avec media library et workflows éditoriaux
Protection des médias privés avec signed URLs et ACL

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Découple application web et stockage médias
Réduit charge serveur grâce au CDN
Permet lifecycle froid et coûts maîtrisés
Améliore sécurité upload et conformité RGPD
Rend les médias restaurables et observables

Risques / limites

Uploads non scannés ou MIME non vérifié
Cache CDN mal invalidé après remplacement
Egress vidéo sous-estimé
Suppression RGPD incomplète entre CDN, thumbnails et backups
Backup DB sans médias ou médias sans metadata DB

Matrice de décision

Question	Décision à prendre
Quel média ?	Images, vidéos, documents, assets statiques, logs, thumbnails, previews, subtitles ou private files.
Quel accès ?	Public CDN, private signed URL, signed cookies, authenticated app proxy, admin-only ou archive.
Quel traitement ?	Resize, compression, transcode, AV scan, moderation, metadata extraction, watermark, OCR ou indexing.
Quelle cohérence ?	DB metadata + object keys + CDN cache + backups + lifecycle + RGPD delete doivent rester alignés.
Quelle preuve ?	Test upload, test restore, CDN hit ratio, AV logs, lifecycle report, egress cost, purge and deletion audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Web/media storage validation examples
aws s3 ls s3://my-media-bucket --recursive --summarize
aws s3api get-bucket-lifecycle-configuration --bucket my-media-bucket
aws s3api get-bucket-cors --bucket my-media-bucket
aws s3api get-public-access-block --bucket my-media-bucket
rclone check media:bucket /backup/media --one-way
ffmpeg -i input.mp4 -vf scale=1280:-2 -c:v libx264 -preset fast -c:a aac output_720p.mp4
identify -verbose image.jpg | head
exiftool image.jpg
find /var/log/nginx -type f -name "*.log*" -mtime -7 -print
du -sh /srv/media /srv/static /var/log/nginx

NO-GO : médias web sans backup/restore, uploads sans scan, CDN sans stratégie d’invalidation, ou suppression utilisateur non propagée aux thumbnails/cache/backups.

42.3 Static assets

Définition opérationnelle

S3 + CDN : assets versionnés, cache-control, fingerprinting, brotli/gzip, invalidation et déploiement web.

Chaîne workload

Browser→Presigned upload→Object storage→Worker processing→CDN→User delivery

Règle pratique : web storage = object storage durable + processing asynchrone + CDN + lifecycle + sécurité upload.

Composants à dimensionner

Composant	Rôle / explication
Origin storage	Object storage, NAS, local FS legacy, media library, upload bucket, private bucket and static bucket.
Delivery path	Application, signed upload, processing worker, origin, CDN, browser cache and invalidation workflow.
Processing	Image resize, thumbnails, transcoding, metadata extraction, virus scan, moderation and async queues.
Governance	User ownership, GDPR delete, retention, copyright, moderation, data classification and audit logs.
Performance	CDN hit ratio, object latency, origin egress, upload success rate, cache-control, TTL and purge time.
Cost control	Storage class, lifecycle, transcoding cost, CDN egress, request cost, duplicate media and cold archive.

Cas d’usage

Images utilisateurs pour SaaS, marketplace, social app ou CMS
Vidéo avec transcodage multi-renditions et streaming HLS/DASH
Static assets web distribués via CDN
Logs web centralisés pour analytics et sécurité
CMS avec media library et workflows éditoriaux
Protection des médias privés avec signed URLs et ACL

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Découple application web et stockage médias
Réduit charge serveur grâce au CDN
Permet lifecycle froid et coûts maîtrisés
Améliore sécurité upload et conformité RGPD
Rend les médias restaurables et observables

Risques / limites

Uploads non scannés ou MIME non vérifié
Cache CDN mal invalidé après remplacement
Egress vidéo sous-estimé
Suppression RGPD incomplète entre CDN, thumbnails et backups
Backup DB sans médias ou médias sans metadata DB

Matrice de décision

Question	Décision à prendre
Quel média ?	Images, vidéos, documents, assets statiques, logs, thumbnails, previews, subtitles ou private files.
Quel accès ?	Public CDN, private signed URL, signed cookies, authenticated app proxy, admin-only ou archive.
Quel traitement ?	Resize, compression, transcode, AV scan, moderation, metadata extraction, watermark, OCR ou indexing.
Quelle cohérence ?	DB metadata + object keys + CDN cache + backups + lifecycle + RGPD delete doivent rester alignés.
Quelle preuve ?	Test upload, test restore, CDN hit ratio, AV logs, lifecycle report, egress cost, purge and deletion audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Web/media storage validation examples
aws s3 ls s3://my-media-bucket --recursive --summarize
aws s3api get-bucket-lifecycle-configuration --bucket my-media-bucket
aws s3api get-bucket-cors --bucket my-media-bucket
aws s3api get-public-access-block --bucket my-media-bucket
rclone check media:bucket /backup/media --one-way
ffmpeg -i input.mp4 -vf scale=1280:-2 -c:v libx264 -preset fast -c:a aac output_720p.mp4
identify -verbose image.jpg | head
exiftool image.jpg
find /var/log/nginx -type f -name "*.log*" -mtime -7 -print
du -sh /srv/media /srv/static /var/log/nginx

NO-GO : médias web sans backup/restore, uploads sans scan, CDN sans stratégie d’invalidation, ou suppression utilisateur non propagée aux thumbnails/cache/backups.

42.4 Logs web

Définition opérationnelle

Rotation, compression, centralisation, parsing, stockage chaud/froid, SIEM, analytics, coûts et rétention.

Chaîne workload

Browser→Presigned upload→Object storage→Worker processing→CDN→User delivery

Règle pratique : web storage = object storage durable + processing asynchrone + CDN + lifecycle + sécurité upload.

Composants à dimensionner

Composant	Rôle / explication
Origin storage	Object storage, NAS, local FS legacy, media library, upload bucket, private bucket and static bucket.
Delivery path	Application, signed upload, processing worker, origin, CDN, browser cache and invalidation workflow.
Processing	Image resize, thumbnails, transcoding, metadata extraction, virus scan, moderation and async queues.
Governance	User ownership, GDPR delete, retention, copyright, moderation, data classification and audit logs.
Performance	CDN hit ratio, object latency, origin egress, upload success rate, cache-control, TTL and purge time.
Cost control	Storage class, lifecycle, transcoding cost, CDN egress, request cost, duplicate media and cold archive.

Cas d’usage

Images utilisateurs pour SaaS, marketplace, social app ou CMS
Vidéo avec transcodage multi-renditions et streaming HLS/DASH
Static assets web distribués via CDN
Logs web centralisés pour analytics et sécurité
CMS avec media library et workflows éditoriaux
Protection des médias privés avec signed URLs et ACL

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Découple application web et stockage médias
Réduit charge serveur grâce au CDN
Permet lifecycle froid et coûts maîtrisés
Améliore sécurité upload et conformité RGPD
Rend les médias restaurables et observables

Risques / limites

Uploads non scannés ou MIME non vérifié
Cache CDN mal invalidé après remplacement
Egress vidéo sous-estimé
Suppression RGPD incomplète entre CDN, thumbnails et backups
Backup DB sans médias ou médias sans metadata DB

Matrice de décision

Question	Décision à prendre
Quel média ?	Images, vidéos, documents, assets statiques, logs, thumbnails, previews, subtitles ou private files.
Quel accès ?	Public CDN, private signed URL, signed cookies, authenticated app proxy, admin-only ou archive.
Quel traitement ?	Resize, compression, transcode, AV scan, moderation, metadata extraction, watermark, OCR ou indexing.
Quelle cohérence ?	DB metadata + object keys + CDN cache + backups + lifecycle + RGPD delete doivent rester alignés.
Quelle preuve ?	Test upload, test restore, CDN hit ratio, AV logs, lifecycle report, egress cost, purge and deletion audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Web/media storage validation examples
aws s3 ls s3://my-media-bucket --recursive --summarize
aws s3api get-bucket-lifecycle-configuration --bucket my-media-bucket
aws s3api get-bucket-cors --bucket my-media-bucket
aws s3api get-public-access-block --bucket my-media-bucket
rclone check media:bucket /backup/media --one-way
ffmpeg -i input.mp4 -vf scale=1280:-2 -c:v libx264 -preset fast -c:a aac output_720p.mp4
identify -verbose image.jpg | head
exiftool image.jpg
find /var/log/nginx -type f -name "*.log*" -mtime -7 -print
du -sh /srv/media /srv/static /var/log/nginx

NO-GO : médias web sans backup/restore, uploads sans scan, CDN sans stratégie d’invalidation, ou suppression utilisateur non propagée aux thumbnails/cache/backups.

42.5 CMS

Définition opérationnelle

Media library, NAS, object storage, WordPress/Django/Drupal, permissions, thumbnails, search et workflows éditoriaux.

Chaîne workload

Browser→Presigned upload→Object storage→Worker processing→CDN→User delivery

Règle pratique : web storage = object storage durable + processing asynchrone + CDN + lifecycle + sécurité upload.

Composants à dimensionner

Composant	Rôle / explication
Origin storage	Object storage, NAS, local FS legacy, media library, upload bucket, private bucket and static bucket.
Delivery path	Application, signed upload, processing worker, origin, CDN, browser cache and invalidation workflow.
Processing	Image resize, thumbnails, transcoding, metadata extraction, virus scan, moderation and async queues.
Governance	User ownership, GDPR delete, retention, copyright, moderation, data classification and audit logs.
Performance	CDN hit ratio, object latency, origin egress, upload success rate, cache-control, TTL and purge time.
Cost control	Storage class, lifecycle, transcoding cost, CDN egress, request cost, duplicate media and cold archive.

Cas d’usage

Images utilisateurs pour SaaS, marketplace, social app ou CMS
Vidéo avec transcodage multi-renditions et streaming HLS/DASH
Static assets web distribués via CDN
Logs web centralisés pour analytics et sécurité
CMS avec media library et workflows éditoriaux
Protection des médias privés avec signed URLs et ACL

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Découple application web et stockage médias
Réduit charge serveur grâce au CDN
Permet lifecycle froid et coûts maîtrisés
Améliore sécurité upload et conformité RGPD
Rend les médias restaurables et observables

Risques / limites

Uploads non scannés ou MIME non vérifié
Cache CDN mal invalidé après remplacement
Egress vidéo sous-estimé
Suppression RGPD incomplète entre CDN, thumbnails et backups
Backup DB sans médias ou médias sans metadata DB

Matrice de décision

Question	Décision à prendre
Quel média ?	Images, vidéos, documents, assets statiques, logs, thumbnails, previews, subtitles ou private files.
Quel accès ?	Public CDN, private signed URL, signed cookies, authenticated app proxy, admin-only ou archive.
Quel traitement ?	Resize, compression, transcode, AV scan, moderation, metadata extraction, watermark, OCR ou indexing.
Quelle cohérence ?	DB metadata + object keys + CDN cache + backups + lifecycle + RGPD delete doivent rester alignés.
Quelle preuve ?	Test upload, test restore, CDN hit ratio, AV logs, lifecycle report, egress cost, purge and deletion audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Web/media storage validation examples
aws s3 ls s3://my-media-bucket --recursive --summarize
aws s3api get-bucket-lifecycle-configuration --bucket my-media-bucket
aws s3api get-bucket-cors --bucket my-media-bucket
aws s3api get-public-access-block --bucket my-media-bucket
rclone check media:bucket /backup/media --one-way
ffmpeg -i input.mp4 -vf scale=1280:-2 -c:v libx264 -preset fast -c:a aac output_720p.mp4
identify -verbose image.jpg | head
exiftool image.jpg
find /var/log/nginx -type f -name "*.log*" -mtime -7 -print
du -sh /srv/media /srv/static /var/log/nginx

NO-GO : médias web sans backup/restore, uploads sans scan, CDN sans stratégie d’invalidation, ou suppression utilisateur non propagée aux thumbnails/cache/backups.

42.6 CDN et edge caching

Définition opérationnelle

CloudFront, Cloudflare, Fastly, Akamai : cache keys, TTL, purge, origin shield, signed URLs et geo distribution.

Chaîne workload

Browser→Presigned upload→Object storage→Worker processing→CDN→User delivery

Règle pratique : web storage = object storage durable + processing asynchrone + CDN + lifecycle + sécurité upload.

Composants à dimensionner

Composant	Rôle / explication
Origin storage	Object storage, NAS, local FS legacy, media library, upload bucket, private bucket and static bucket.
Delivery path	Application, signed upload, processing worker, origin, CDN, browser cache and invalidation workflow.
Processing	Image resize, thumbnails, transcoding, metadata extraction, virus scan, moderation and async queues.
Governance	User ownership, GDPR delete, retention, copyright, moderation, data classification and audit logs.
Performance	CDN hit ratio, object latency, origin egress, upload success rate, cache-control, TTL and purge time.
Cost control	Storage class, lifecycle, transcoding cost, CDN egress, request cost, duplicate media and cold archive.

Cas d’usage

Images utilisateurs pour SaaS, marketplace, social app ou CMS
Vidéo avec transcodage multi-renditions et streaming HLS/DASH
Static assets web distribués via CDN
Logs web centralisés pour analytics et sécurité
CMS avec media library et workflows éditoriaux
Protection des médias privés avec signed URLs et ACL

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Découple application web et stockage médias
Réduit charge serveur grâce au CDN
Permet lifecycle froid et coûts maîtrisés
Améliore sécurité upload et conformité RGPD
Rend les médias restaurables et observables

Risques / limites

Uploads non scannés ou MIME non vérifié
Cache CDN mal invalidé après remplacement
Egress vidéo sous-estimé
Suppression RGPD incomplète entre CDN, thumbnails et backups
Backup DB sans médias ou médias sans metadata DB

Matrice de décision

Question	Décision à prendre
Quel média ?	Images, vidéos, documents, assets statiques, logs, thumbnails, previews, subtitles ou private files.
Quel accès ?	Public CDN, private signed URL, signed cookies, authenticated app proxy, admin-only ou archive.
Quel traitement ?	Resize, compression, transcode, AV scan, moderation, metadata extraction, watermark, OCR ou indexing.
Quelle cohérence ?	DB metadata + object keys + CDN cache + backups + lifecycle + RGPD delete doivent rester alignés.
Quelle preuve ?	Test upload, test restore, CDN hit ratio, AV logs, lifecycle report, egress cost, purge and deletion audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Web/media storage validation examples
aws s3 ls s3://my-media-bucket --recursive --summarize
aws s3api get-bucket-lifecycle-configuration --bucket my-media-bucket
aws s3api get-bucket-cors --bucket my-media-bucket
aws s3api get-public-access-block --bucket my-media-bucket
rclone check media:bucket /backup/media --one-way
ffmpeg -i input.mp4 -vf scale=1280:-2 -c:v libx264 -preset fast -c:a aac output_720p.mp4
identify -verbose image.jpg | head
exiftool image.jpg
find /var/log/nginx -type f -name "*.log*" -mtime -7 -print
du -sh /srv/media /srv/static /var/log/nginx

NO-GO : médias web sans backup/restore, uploads sans scan, CDN sans stratégie d’invalidation, ou suppression utilisateur non propagée aux thumbnails/cache/backups.

42.7 Uploads web sécurisés

Définition opérationnelle

Presigned URLs, multipart upload, antivirus, MIME sniffing, quotas, size limits, user isolation et audit.

Chaîne workload

Browser→Presigned upload→Object storage→Worker processing→CDN→User delivery

Règle pratique : web storage = object storage durable + processing asynchrone + CDN + lifecycle + sécurité upload.

Composants à dimensionner

Composant	Rôle / explication
Origin storage	Object storage, NAS, local FS legacy, media library, upload bucket, private bucket and static bucket.
Delivery path	Application, signed upload, processing worker, origin, CDN, browser cache and invalidation workflow.
Processing	Image resize, thumbnails, transcoding, metadata extraction, virus scan, moderation and async queues.
Governance	User ownership, GDPR delete, retention, copyright, moderation, data classification and audit logs.
Performance	CDN hit ratio, object latency, origin egress, upload success rate, cache-control, TTL and purge time.
Cost control	Storage class, lifecycle, transcoding cost, CDN egress, request cost, duplicate media and cold archive.

Cas d’usage

Images utilisateurs pour SaaS, marketplace, social app ou CMS
Vidéo avec transcodage multi-renditions et streaming HLS/DASH
Static assets web distribués via CDN
Logs web centralisés pour analytics et sécurité
CMS avec media library et workflows éditoriaux
Protection des médias privés avec signed URLs et ACL

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Découple application web et stockage médias
Réduit charge serveur grâce au CDN
Permet lifecycle froid et coûts maîtrisés
Améliore sécurité upload et conformité RGPD
Rend les médias restaurables et observables

Risques / limites

Uploads non scannés ou MIME non vérifié
Cache CDN mal invalidé après remplacement
Egress vidéo sous-estimé
Suppression RGPD incomplète entre CDN, thumbnails et backups
Backup DB sans médias ou médias sans metadata DB

Matrice de décision

Question	Décision à prendre
Quel média ?	Images, vidéos, documents, assets statiques, logs, thumbnails, previews, subtitles ou private files.
Quel accès ?	Public CDN, private signed URL, signed cookies, authenticated app proxy, admin-only ou archive.
Quel traitement ?	Resize, compression, transcode, AV scan, moderation, metadata extraction, watermark, OCR ou indexing.
Quelle cohérence ?	DB metadata + object keys + CDN cache + backups + lifecycle + RGPD delete doivent rester alignés.
Quelle preuve ?	Test upload, test restore, CDN hit ratio, AV logs, lifecycle report, egress cost, purge and deletion audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Web/media storage validation examples
aws s3 ls s3://my-media-bucket --recursive --summarize
aws s3api get-bucket-lifecycle-configuration --bucket my-media-bucket
aws s3api get-bucket-cors --bucket my-media-bucket
aws s3api get-public-access-block --bucket my-media-bucket
rclone check media:bucket /backup/media --one-way
ffmpeg -i input.mp4 -vf scale=1280:-2 -c:v libx264 -preset fast -c:a aac output_720p.mp4
identify -verbose image.jpg | head
exiftool image.jpg
find /var/log/nginx -type f -name "*.log*" -mtime -7 -print
du -sh /srv/media /srv/static /var/log/nginx

NO-GO : médias web sans backup/restore, uploads sans scan, CDN sans stratégie d’invalidation, ou suppression utilisateur non propagée aux thumbnails/cache/backups.

42.8 Pipelines médias

Définition opérationnelle

Workers, queues, FFmpeg, ImageMagick, thumbnails, watermarks, async jobs, retry et dead-letter queues.

Chaîne workload

Browser→Presigned upload→Object storage→Worker processing→CDN→User delivery

Règle pratique : web storage = object storage durable + processing asynchrone + CDN + lifecycle + sécurité upload.

Composants à dimensionner

Composant	Rôle / explication
Origin storage	Object storage, NAS, local FS legacy, media library, upload bucket, private bucket and static bucket.
Delivery path	Application, signed upload, processing worker, origin, CDN, browser cache and invalidation workflow.
Processing	Image resize, thumbnails, transcoding, metadata extraction, virus scan, moderation and async queues.
Governance	User ownership, GDPR delete, retention, copyright, moderation, data classification and audit logs.
Performance	CDN hit ratio, object latency, origin egress, upload success rate, cache-control, TTL and purge time.
Cost control	Storage class, lifecycle, transcoding cost, CDN egress, request cost, duplicate media and cold archive.

Cas d’usage

Images utilisateurs pour SaaS, marketplace, social app ou CMS
Vidéo avec transcodage multi-renditions et streaming HLS/DASH
Static assets web distribués via CDN
Logs web centralisés pour analytics et sécurité
CMS avec media library et workflows éditoriaux
Protection des médias privés avec signed URLs et ACL

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Découple application web et stockage médias
Réduit charge serveur grâce au CDN
Permet lifecycle froid et coûts maîtrisés
Améliore sécurité upload et conformité RGPD
Rend les médias restaurables et observables

Risques / limites

Uploads non scannés ou MIME non vérifié
Cache CDN mal invalidé après remplacement
Egress vidéo sous-estimé
Suppression RGPD incomplète entre CDN, thumbnails et backups
Backup DB sans médias ou médias sans metadata DB

Matrice de décision

Question	Décision à prendre
Quel média ?	Images, vidéos, documents, assets statiques, logs, thumbnails, previews, subtitles ou private files.
Quel accès ?	Public CDN, private signed URL, signed cookies, authenticated app proxy, admin-only ou archive.
Quel traitement ?	Resize, compression, transcode, AV scan, moderation, metadata extraction, watermark, OCR ou indexing.
Quelle cohérence ?	DB metadata + object keys + CDN cache + backups + lifecycle + RGPD delete doivent rester alignés.
Quelle preuve ?	Test upload, test restore, CDN hit ratio, AV logs, lifecycle report, egress cost, purge and deletion audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Web/media storage validation examples
aws s3 ls s3://my-media-bucket --recursive --summarize
aws s3api get-bucket-lifecycle-configuration --bucket my-media-bucket
aws s3api get-bucket-cors --bucket my-media-bucket
aws s3api get-public-access-block --bucket my-media-bucket
rclone check media:bucket /backup/media --one-way
ffmpeg -i input.mp4 -vf scale=1280:-2 -c:v libx264 -preset fast -c:a aac output_720p.mp4
identify -verbose image.jpg | head
exiftool image.jpg
find /var/log/nginx -type f -name "*.log*" -mtime -7 -print
du -sh /srv/media /srv/static /var/log/nginx

NO-GO : médias web sans backup/restore, uploads sans scan, CDN sans stratégie d’invalidation, ou suppression utilisateur non propagée aux thumbnails/cache/backups.

42.9 Backup web / médias

Définition opérationnelle

Sauvegarder DB + médias + config + secrets : cohérence CMS, object versioning, snapshots et restore drill.

Chaîne workload

Browser→Presigned upload→Object storage→Worker processing→CDN→User delivery

Règle pratique : web storage = object storage durable + processing asynchrone + CDN + lifecycle + sécurité upload.

Composants à dimensionner

Composant	Rôle / explication
Origin storage	Object storage, NAS, local FS legacy, media library, upload bucket, private bucket and static bucket.
Delivery path	Application, signed upload, processing worker, origin, CDN, browser cache and invalidation workflow.
Processing	Image resize, thumbnails, transcoding, metadata extraction, virus scan, moderation and async queues.
Governance	User ownership, GDPR delete, retention, copyright, moderation, data classification and audit logs.
Performance	CDN hit ratio, object latency, origin egress, upload success rate, cache-control, TTL and purge time.
Cost control	Storage class, lifecycle, transcoding cost, CDN egress, request cost, duplicate media and cold archive.

Cas d’usage

Images utilisateurs pour SaaS, marketplace, social app ou CMS
Vidéo avec transcodage multi-renditions et streaming HLS/DASH
Static assets web distribués via CDN
Logs web centralisés pour analytics et sécurité
CMS avec media library et workflows éditoriaux
Protection des médias privés avec signed URLs et ACL

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Découple application web et stockage médias
Réduit charge serveur grâce au CDN
Permet lifecycle froid et coûts maîtrisés
Améliore sécurité upload et conformité RGPD
Rend les médias restaurables et observables

Risques / limites

Uploads non scannés ou MIME non vérifié
Cache CDN mal invalidé après remplacement
Egress vidéo sous-estimé
Suppression RGPD incomplète entre CDN, thumbnails et backups
Backup DB sans médias ou médias sans metadata DB

Matrice de décision

Question	Décision à prendre
Quel média ?	Images, vidéos, documents, assets statiques, logs, thumbnails, previews, subtitles ou private files.
Quel accès ?	Public CDN, private signed URL, signed cookies, authenticated app proxy, admin-only ou archive.
Quel traitement ?	Resize, compression, transcode, AV scan, moderation, metadata extraction, watermark, OCR ou indexing.
Quelle cohérence ?	DB metadata + object keys + CDN cache + backups + lifecycle + RGPD delete doivent rester alignés.
Quelle preuve ?	Test upload, test restore, CDN hit ratio, AV logs, lifecycle report, egress cost, purge and deletion audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Web/media storage validation examples
aws s3 ls s3://my-media-bucket --recursive --summarize
aws s3api get-bucket-lifecycle-configuration --bucket my-media-bucket
aws s3api get-bucket-cors --bucket my-media-bucket
aws s3api get-public-access-block --bucket my-media-bucket
rclone check media:bucket /backup/media --one-way
ffmpeg -i input.mp4 -vf scale=1280:-2 -c:v libx264 -preset fast -c:a aac output_720p.mp4
identify -verbose image.jpg | head
exiftool image.jpg
find /var/log/nginx -type f -name "*.log*" -mtime -7 -print
du -sh /srv/media /srv/static /var/log/nginx

NO-GO : médias web sans backup/restore, uploads sans scan, CDN sans stratégie d’invalidation, ou suppression utilisateur non propagée aux thumbnails/cache/backups.

42.10 Sécurité médias web

Définition opérationnelle

Hotlink protection, signed cookies, private media, malware scan, WAF, object lock, exfiltration et ACL.

Chaîne workload

Browser→Presigned upload→Object storage→Worker processing→CDN→User delivery

Règle pratique : web storage = object storage durable + processing asynchrone + CDN + lifecycle + sécurité upload.

Composants à dimensionner

Composant	Rôle / explication
Origin storage	Object storage, NAS, local FS legacy, media library, upload bucket, private bucket and static bucket.
Delivery path	Application, signed upload, processing worker, origin, CDN, browser cache and invalidation workflow.
Processing	Image resize, thumbnails, transcoding, metadata extraction, virus scan, moderation and async queues.
Governance	User ownership, GDPR delete, retention, copyright, moderation, data classification and audit logs.
Performance	CDN hit ratio, object latency, origin egress, upload success rate, cache-control, TTL and purge time.
Cost control	Storage class, lifecycle, transcoding cost, CDN egress, request cost, duplicate media and cold archive.

Cas d’usage

Images utilisateurs pour SaaS, marketplace, social app ou CMS
Vidéo avec transcodage multi-renditions et streaming HLS/DASH
Static assets web distribués via CDN
Logs web centralisés pour analytics et sécurité
CMS avec media library et workflows éditoriaux
Protection des médias privés avec signed URLs et ACL

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Découple application web et stockage médias
Réduit charge serveur grâce au CDN
Permet lifecycle froid et coûts maîtrisés
Améliore sécurité upload et conformité RGPD
Rend les médias restaurables et observables

Risques / limites

Uploads non scannés ou MIME non vérifié
Cache CDN mal invalidé après remplacement
Egress vidéo sous-estimé
Suppression RGPD incomplète entre CDN, thumbnails et backups
Backup DB sans médias ou médias sans metadata DB

Matrice de décision

Question	Décision à prendre
Quel média ?	Images, vidéos, documents, assets statiques, logs, thumbnails, previews, subtitles ou private files.
Quel accès ?	Public CDN, private signed URL, signed cookies, authenticated app proxy, admin-only ou archive.
Quel traitement ?	Resize, compression, transcode, AV scan, moderation, metadata extraction, watermark, OCR ou indexing.
Quelle cohérence ?	DB metadata + object keys + CDN cache + backups + lifecycle + RGPD delete doivent rester alignés.
Quelle preuve ?	Test upload, test restore, CDN hit ratio, AV logs, lifecycle report, egress cost, purge and deletion audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Web/media storage validation examples
aws s3 ls s3://my-media-bucket --recursive --summarize
aws s3api get-bucket-lifecycle-configuration --bucket my-media-bucket
aws s3api get-bucket-cors --bucket my-media-bucket
aws s3api get-public-access-block --bucket my-media-bucket
rclone check media:bucket /backup/media --one-way
ffmpeg -i input.mp4 -vf scale=1280:-2 -c:v libx264 -preset fast -c:a aac output_720p.mp4
identify -verbose image.jpg | head
exiftool image.jpg
find /var/log/nginx -type f -name "*.log*" -mtime -7 -print
du -sh /srv/media /srv/static /var/log/nginx

NO-GO : médias web sans backup/restore, uploads sans scan, CDN sans stratégie d’invalidation, ou suppression utilisateur non propagée aux thumbnails/cache/backups.

42.11 Observabilité web storage

Définition opérationnelle

CDN hit ratio, origin latency, 4xx/5xx, object latency, egress, request costs, upload failures et saturation.

Chaîne workload

Browser→Presigned upload→Object storage→Worker processing→CDN→User delivery

Règle pratique : web storage = object storage durable + processing asynchrone + CDN + lifecycle + sécurité upload.

Composants à dimensionner

Composant	Rôle / explication
Origin storage	Object storage, NAS, local FS legacy, media library, upload bucket, private bucket and static bucket.
Delivery path	Application, signed upload, processing worker, origin, CDN, browser cache and invalidation workflow.
Processing	Image resize, thumbnails, transcoding, metadata extraction, virus scan, moderation and async queues.
Governance	User ownership, GDPR delete, retention, copyright, moderation, data classification and audit logs.
Performance	CDN hit ratio, object latency, origin egress, upload success rate, cache-control, TTL and purge time.
Cost control	Storage class, lifecycle, transcoding cost, CDN egress, request cost, duplicate media and cold archive.

Cas d’usage

Images utilisateurs pour SaaS, marketplace, social app ou CMS
Vidéo avec transcodage multi-renditions et streaming HLS/DASH
Static assets web distribués via CDN
Logs web centralisés pour analytics et sécurité
CMS avec media library et workflows éditoriaux
Protection des médias privés avec signed URLs et ACL

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Découple application web et stockage médias
Réduit charge serveur grâce au CDN
Permet lifecycle froid et coûts maîtrisés
Améliore sécurité upload et conformité RGPD
Rend les médias restaurables et observables

Risques / limites

Uploads non scannés ou MIME non vérifié
Cache CDN mal invalidé après remplacement
Egress vidéo sous-estimé
Suppression RGPD incomplète entre CDN, thumbnails et backups
Backup DB sans médias ou médias sans metadata DB

Matrice de décision

Question	Décision à prendre
Quel média ?	Images, vidéos, documents, assets statiques, logs, thumbnails, previews, subtitles ou private files.
Quel accès ?	Public CDN, private signed URL, signed cookies, authenticated app proxy, admin-only ou archive.
Quel traitement ?	Resize, compression, transcode, AV scan, moderation, metadata extraction, watermark, OCR ou indexing.
Quelle cohérence ?	DB metadata + object keys + CDN cache + backups + lifecycle + RGPD delete doivent rester alignés.
Quelle preuve ?	Test upload, test restore, CDN hit ratio, AV logs, lifecycle report, egress cost, purge and deletion audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Web/media storage validation examples
aws s3 ls s3://my-media-bucket --recursive --summarize
aws s3api get-bucket-lifecycle-configuration --bucket my-media-bucket
aws s3api get-bucket-cors --bucket my-media-bucket
aws s3api get-public-access-block --bucket my-media-bucket
rclone check media:bucket /backup/media --one-way
ffmpeg -i input.mp4 -vf scale=1280:-2 -c:v libx264 -preset fast -c:a aac output_720p.mp4
identify -verbose image.jpg | head
exiftool image.jpg
find /var/log/nginx -type f -name "*.log*" -mtime -7 -print
du -sh /srv/media /srv/static /var/log/nginx

NO-GO : médias web sans backup/restore, uploads sans scan, CDN sans stratégie d’invalidation, ou suppression utilisateur non propagée aux thumbnails/cache/backups.

42.12 Checklist web et médias

Définition opérationnelle

GO/NO-GO : CDN, lifecycle, backups, restore médias, AV scan, RGPD delete, cache strategy, costs et owners.

Chaîne workload

Browser→Presigned upload→Object storage→Worker processing→CDN→User delivery

Règle pratique : web storage = object storage durable + processing asynchrone + CDN + lifecycle + sécurité upload.

Composants à dimensionner

Composant	Rôle / explication
Origin storage	Object storage, NAS, local FS legacy, media library, upload bucket, private bucket and static bucket.
Delivery path	Application, signed upload, processing worker, origin, CDN, browser cache and invalidation workflow.
Processing	Image resize, thumbnails, transcoding, metadata extraction, virus scan, moderation and async queues.
Governance	User ownership, GDPR delete, retention, copyright, moderation, data classification and audit logs.
Performance	CDN hit ratio, object latency, origin egress, upload success rate, cache-control, TTL and purge time.
Cost control	Storage class, lifecycle, transcoding cost, CDN egress, request cost, duplicate media and cold archive.

Cas d’usage

Images utilisateurs pour SaaS, marketplace, social app ou CMS
Vidéo avec transcodage multi-renditions et streaming HLS/DASH
Static assets web distribués via CDN
Logs web centralisés pour analytics et sécurité
CMS avec media library et workflows éditoriaux
Protection des médias privés avec signed URLs et ACL

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Découple application web et stockage médias
Réduit charge serveur grâce au CDN
Permet lifecycle froid et coûts maîtrisés
Améliore sécurité upload et conformité RGPD
Rend les médias restaurables et observables

Risques / limites

Uploads non scannés ou MIME non vérifié
Cache CDN mal invalidé après remplacement
Egress vidéo sous-estimé
Suppression RGPD incomplète entre CDN, thumbnails et backups
Backup DB sans médias ou médias sans metadata DB

Matrice de décision

Question	Décision à prendre
Quel média ?	Images, vidéos, documents, assets statiques, logs, thumbnails, previews, subtitles ou private files.
Quel accès ?	Public CDN, private signed URL, signed cookies, authenticated app proxy, admin-only ou archive.
Quel traitement ?	Resize, compression, transcode, AV scan, moderation, metadata extraction, watermark, OCR ou indexing.
Quelle cohérence ?	DB metadata + object keys + CDN cache + backups + lifecycle + RGPD delete doivent rester alignés.
Quelle preuve ?	Test upload, test restore, CDN hit ratio, AV logs, lifecycle report, egress cost, purge and deletion audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Web/media storage validation examples
aws s3 ls s3://my-media-bucket --recursive --summarize
aws s3api get-bucket-lifecycle-configuration --bucket my-media-bucket
aws s3api get-bucket-cors --bucket my-media-bucket
aws s3api get-public-access-block --bucket my-media-bucket
rclone check media:bucket /backup/media --one-way
ffmpeg -i input.mp4 -vf scale=1280:-2 -c:v libx264 -preset fast -c:a aac output_720p.mp4
identify -verbose image.jpg | head
exiftool image.jpg
find /var/log/nginx -type f -name "*.log*" -mtime -7 -print
du -sh /srv/media /srv/static /var/log/nginx

NO-GO : médias web sans backup/restore, uploads sans scan, CDN sans stratégie d’invalidation, ou suppression utilisateur non propagée aux thumbnails/cache/backups.

43.1 Data lake

Définition opérationnelle

S3, ADLS, GCS : raw/bronze, curated/silver, gold, governance, zones, lifecycle et séparation compute/storage.

Chaîne workload

Ingestion→Bronze→Silver→Gold→Catalog→BI / ML

Règle pratique : big data performant = bons formats + bon partitioning + catalog fiable + compaction + coûts visibles.

Composants à dimensionner

Composant	Rôle / explication
Storage zones	Raw/bronze, cleaned/silver, curated/gold, sandbox, archive and quarantine zones.
File formats	Parquet, ORC, Avro, JSON/CSV legacy, Delta Lake, Iceberg, Hudi and metadata manifests.
Compute engines	Spark, Flink, Trino, Presto, Hive, Databricks, BigQuery, Snowflake, Redshift and Synapse.
Catalog and governance	Hive Metastore, Glue, Unity Catalog, Purview, Dataplex, lineage, IAM and data classification.
Performance	Partitioning, compaction, file sizing, predicate pushdown, metadata scaling, shuffle and cache.
Cost control	Scan cost, object API calls, egress, lifecycle, compute waste, orphan datasets, chargeback and budgets.

Cas d’usage

Data lake entreprise sur S3/ADLS/GCS
Lakehouse Delta/Iceberg/Hudi avec tables transactionnelles
Pipelines Spark ETL et analytics batch
Migration HDFS vers object storage
Data warehouse cloud avec séparation compute/storage
Gouvernance, lineage, data catalog et FinOps analytics

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Sépare stockage durable et moteurs analytiques
Réduit coûts avec formats colonne et partition pruning
Permet gouvernance centralisée et lineage
Supporte plusieurs moteurs sur les mêmes données
Rend lifecycle et archive plus efficaces

Risques / limites

Small files explosant metadata et coûts API
Partitioning mal conçu qui augmente les scans
Catalog absent ou incohérent
HDFS legacy migré sans revoir les patterns I/O
Coûts compute/scan non maîtrisés

Matrice de décision

Question	Décision à prendre
Quel modèle data ?	Raw files, curated tables, lakehouse ACID, warehouse managed, streaming lake ou data mesh.
Quel format ?	Parquet/ORC pour analytics colonne, Avro pour streaming/schema, Iceberg/Delta/Hudi pour tables transactionnelles.
Quel partitioning ?	Partitionner selon filtres réels, éviter cardinalité excessive, compacter fichiers et mesurer scan cost.
Quel catalog ?	Glue, Hive, Unity, Purview, Dataplex ou équivalent avec lineage, ownership et accès.
Quelle preuve ?	Query benchmark, file count, compaction report, scan bytes, cost dashboard, lineage, restore and access audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Big data / analytics storage validation examples
aws s3 ls s3://my-lake/bronze/ --recursive --summarize
aws s3api list-objects-v2 --bucket my-lake --prefix silver/table/ --query 'length(Contents[])'
hdfs dfs -du -h /data
hdfs dfsadmin -report
spark-submit --class org.apache.spark.examples.SparkPi examples.jar 100
spark-sql -e "show databases; show tables;"
python - <<'PY'
import os
root="/mnt/lake/table"
sizes=[]
for p,_,files in os.walk(root):
    for f in files:
        fp=os.path.join(p,f)
        try: sizes.append(os.path.getsize(fp))
        except OSError: pass
print("files", len(sizes), "avg_mb", round(sum(sizes)/max(len(sizes),1)/1024/1024,2))
PY
# Validate compaction, partition pruning, catalog lineage and cost per query.

NO-GO : lakehouse sans catalog fiable, sans compaction, sans contrôle des coûts de scan, sans lifecycle, ou sans politique d’accès/lineage.

43.2 Formats

Définition opérationnelle

Parquet, ORC, Avro, Delta Lake, Iceberg, Hudi : columnar, schema evolution, ACID tables et time travel.

Chaîne workload

Ingestion→Bronze→Silver→Gold→Catalog→BI / ML

Règle pratique : big data performant = bons formats + bon partitioning + catalog fiable + compaction + coûts visibles.

Composants à dimensionner

Composant	Rôle / explication
Storage zones	Raw/bronze, cleaned/silver, curated/gold, sandbox, archive and quarantine zones.
File formats	Parquet, ORC, Avro, JSON/CSV legacy, Delta Lake, Iceberg, Hudi and metadata manifests.
Compute engines	Spark, Flink, Trino, Presto, Hive, Databricks, BigQuery, Snowflake, Redshift and Synapse.
Catalog and governance	Hive Metastore, Glue, Unity Catalog, Purview, Dataplex, lineage, IAM and data classification.
Performance	Partitioning, compaction, file sizing, predicate pushdown, metadata scaling, shuffle and cache.
Cost control	Scan cost, object API calls, egress, lifecycle, compute waste, orphan datasets, chargeback and budgets.

Cas d’usage

Data lake entreprise sur S3/ADLS/GCS
Lakehouse Delta/Iceberg/Hudi avec tables transactionnelles
Pipelines Spark ETL et analytics batch
Migration HDFS vers object storage
Data warehouse cloud avec séparation compute/storage
Gouvernance, lineage, data catalog et FinOps analytics

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Sépare stockage durable et moteurs analytiques
Réduit coûts avec formats colonne et partition pruning
Permet gouvernance centralisée et lineage
Supporte plusieurs moteurs sur les mêmes données
Rend lifecycle et archive plus efficaces

Risques / limites

Small files explosant metadata et coûts API
Partitioning mal conçu qui augmente les scans
Catalog absent ou incohérent
HDFS legacy migré sans revoir les patterns I/O
Coûts compute/scan non maîtrisés

Matrice de décision

Question	Décision à prendre
Quel modèle data ?	Raw files, curated tables, lakehouse ACID, warehouse managed, streaming lake ou data mesh.
Quel format ?	Parquet/ORC pour analytics colonne, Avro pour streaming/schema, Iceberg/Delta/Hudi pour tables transactionnelles.
Quel partitioning ?	Partitionner selon filtres réels, éviter cardinalité excessive, compacter fichiers et mesurer scan cost.
Quel catalog ?	Glue, Hive, Unity, Purview, Dataplex ou équivalent avec lineage, ownership et accès.
Quelle preuve ?	Query benchmark, file count, compaction report, scan bytes, cost dashboard, lineage, restore and access audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Big data / analytics storage validation examples
aws s3 ls s3://my-lake/bronze/ --recursive --summarize
aws s3api list-objects-v2 --bucket my-lake --prefix silver/table/ --query 'length(Contents[])'
hdfs dfs -du -h /data
hdfs dfsadmin -report
spark-submit --class org.apache.spark.examples.SparkPi examples.jar 100
spark-sql -e "show databases; show tables;"
python - <<'PY'
import os
root="/mnt/lake/table"
sizes=[]
for p,_,files in os.walk(root):
    for f in files:
        fp=os.path.join(p,f)
        try: sizes.append(os.path.getsize(fp))
        except OSError: pass
print("files", len(sizes), "avg_mb", round(sum(sizes)/max(len(sizes),1)/1024/1024,2))
PY
# Validate compaction, partition pruning, catalog lineage and cost per query.

NO-GO : lakehouse sans catalog fiable, sans compaction, sans contrôle des coûts de scan, sans lifecycle, ou sans politique d’accès/lineage.

43.3 Lakehouse

Définition opérationnelle

Stockage objet + moteur analytique : transactions, catalog, compute engines, open table formats et gouvernance.

Chaîne workload

Ingestion→Bronze→Silver→Gold→Catalog→BI / ML

Règle pratique : big data performant = bons formats + bon partitioning + catalog fiable + compaction + coûts visibles.

Composants à dimensionner

Composant	Rôle / explication
Storage zones	Raw/bronze, cleaned/silver, curated/gold, sandbox, archive and quarantine zones.
File formats	Parquet, ORC, Avro, JSON/CSV legacy, Delta Lake, Iceberg, Hudi and metadata manifests.
Compute engines	Spark, Flink, Trino, Presto, Hive, Databricks, BigQuery, Snowflake, Redshift and Synapse.
Catalog and governance	Hive Metastore, Glue, Unity Catalog, Purview, Dataplex, lineage, IAM and data classification.
Performance	Partitioning, compaction, file sizing, predicate pushdown, metadata scaling, shuffle and cache.
Cost control	Scan cost, object API calls, egress, lifecycle, compute waste, orphan datasets, chargeback and budgets.

Cas d’usage

Data lake entreprise sur S3/ADLS/GCS
Lakehouse Delta/Iceberg/Hudi avec tables transactionnelles
Pipelines Spark ETL et analytics batch
Migration HDFS vers object storage
Data warehouse cloud avec séparation compute/storage
Gouvernance, lineage, data catalog et FinOps analytics

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Sépare stockage durable et moteurs analytiques
Réduit coûts avec formats colonne et partition pruning
Permet gouvernance centralisée et lineage
Supporte plusieurs moteurs sur les mêmes données
Rend lifecycle et archive plus efficaces

Risques / limites

Small files explosant metadata et coûts API
Partitioning mal conçu qui augmente les scans
Catalog absent ou incohérent
HDFS legacy migré sans revoir les patterns I/O
Coûts compute/scan non maîtrisés

Matrice de décision

Question	Décision à prendre
Quel modèle data ?	Raw files, curated tables, lakehouse ACID, warehouse managed, streaming lake ou data mesh.
Quel format ?	Parquet/ORC pour analytics colonne, Avro pour streaming/schema, Iceberg/Delta/Hudi pour tables transactionnelles.
Quel partitioning ?	Partitionner selon filtres réels, éviter cardinalité excessive, compacter fichiers et mesurer scan cost.
Quel catalog ?	Glue, Hive, Unity, Purview, Dataplex ou équivalent avec lineage, ownership et accès.
Quelle preuve ?	Query benchmark, file count, compaction report, scan bytes, cost dashboard, lineage, restore and access audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Big data / analytics storage validation examples
aws s3 ls s3://my-lake/bronze/ --recursive --summarize
aws s3api list-objects-v2 --bucket my-lake --prefix silver/table/ --query 'length(Contents[])'
hdfs dfs -du -h /data
hdfs dfsadmin -report
spark-submit --class org.apache.spark.examples.SparkPi examples.jar 100
spark-sql -e "show databases; show tables;"
python - <<'PY'
import os
root="/mnt/lake/table"
sizes=[]
for p,_,files in os.walk(root):
    for f in files:
        fp=os.path.join(p,f)
        try: sizes.append(os.path.getsize(fp))
        except OSError: pass
print("files", len(sizes), "avg_mb", round(sum(sizes)/max(len(sizes),1)/1024/1024,2))
PY
# Validate compaction, partition pruning, catalog lineage and cost per query.

NO-GO : lakehouse sans catalog fiable, sans compaction, sans contrôle des coûts de scan, sans lifecycle, ou sans politique d’accès/lineage.

43.4 Hadoop HDFS

Définition opérationnelle

Historique et déclin relatif : compute/storage couplés, migration object storage, HDFS restant pour certains clusters legacy.

Chaîne workload

Ingestion→Bronze→Silver→Gold→Catalog→BI / ML

Règle pratique : big data performant = bons formats + bon partitioning + catalog fiable + compaction + coûts visibles.

Composants à dimensionner

Composant	Rôle / explication
Storage zones	Raw/bronze, cleaned/silver, curated/gold, sandbox, archive and quarantine zones.
File formats	Parquet, ORC, Avro, JSON/CSV legacy, Delta Lake, Iceberg, Hudi and metadata manifests.
Compute engines	Spark, Flink, Trino, Presto, Hive, Databricks, BigQuery, Snowflake, Redshift and Synapse.
Catalog and governance	Hive Metastore, Glue, Unity Catalog, Purview, Dataplex, lineage, IAM and data classification.
Performance	Partitioning, compaction, file sizing, predicate pushdown, metadata scaling, shuffle and cache.
Cost control	Scan cost, object API calls, egress, lifecycle, compute waste, orphan datasets, chargeback and budgets.

Cas d’usage

Data lake entreprise sur S3/ADLS/GCS
Lakehouse Delta/Iceberg/Hudi avec tables transactionnelles
Pipelines Spark ETL et analytics batch
Migration HDFS vers object storage
Data warehouse cloud avec séparation compute/storage
Gouvernance, lineage, data catalog et FinOps analytics

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Sépare stockage durable et moteurs analytiques
Réduit coûts avec formats colonne et partition pruning
Permet gouvernance centralisée et lineage
Supporte plusieurs moteurs sur les mêmes données
Rend lifecycle et archive plus efficaces

Risques / limites

Small files explosant metadata et coûts API
Partitioning mal conçu qui augmente les scans
Catalog absent ou incohérent
HDFS legacy migré sans revoir les patterns I/O
Coûts compute/scan non maîtrisés

Matrice de décision

Question	Décision à prendre
Quel modèle data ?	Raw files, curated tables, lakehouse ACID, warehouse managed, streaming lake ou data mesh.
Quel format ?	Parquet/ORC pour analytics colonne, Avro pour streaming/schema, Iceberg/Delta/Hudi pour tables transactionnelles.
Quel partitioning ?	Partitionner selon filtres réels, éviter cardinalité excessive, compacter fichiers et mesurer scan cost.
Quel catalog ?	Glue, Hive, Unity, Purview, Dataplex ou équivalent avec lineage, ownership et accès.
Quelle preuve ?	Query benchmark, file count, compaction report, scan bytes, cost dashboard, lineage, restore and access audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Big data / analytics storage validation examples
aws s3 ls s3://my-lake/bronze/ --recursive --summarize
aws s3api list-objects-v2 --bucket my-lake --prefix silver/table/ --query 'length(Contents[])'
hdfs dfs -du -h /data
hdfs dfsadmin -report
spark-submit --class org.apache.spark.examples.SparkPi examples.jar 100
spark-sql -e "show databases; show tables;"
python - <<'PY'
import os
root="/mnt/lake/table"
sizes=[]
for p,_,files in os.walk(root):
    for f in files:
        fp=os.path.join(p,f)
        try: sizes.append(os.path.getsize(fp))
        except OSError: pass
print("files", len(sizes), "avg_mb", round(sum(sizes)/max(len(sizes),1)/1024/1024,2))
PY
# Validate compaction, partition pruning, catalog lineage and cost per query.

NO-GO : lakehouse sans catalog fiable, sans compaction, sans contrôle des coûts de scan, sans lifecycle, ou sans politique d’accès/lineage.

43.5 Spark

Définition opérationnelle

I/O patterns : shuffle, spill, partitioning, small files, broadcast, caching, parquet pushdown et object store committers.

Chaîne workload

Ingestion→Bronze→Silver→Gold→Catalog→BI / ML

Règle pratique : big data performant = bons formats + bon partitioning + catalog fiable + compaction + coûts visibles.

Composants à dimensionner

Composant	Rôle / explication
Storage zones	Raw/bronze, cleaned/silver, curated/gold, sandbox, archive and quarantine zones.
File formats	Parquet, ORC, Avro, JSON/CSV legacy, Delta Lake, Iceberg, Hudi and metadata manifests.
Compute engines	Spark, Flink, Trino, Presto, Hive, Databricks, BigQuery, Snowflake, Redshift and Synapse.
Catalog and governance	Hive Metastore, Glue, Unity Catalog, Purview, Dataplex, lineage, IAM and data classification.
Performance	Partitioning, compaction, file sizing, predicate pushdown, metadata scaling, shuffle and cache.
Cost control	Scan cost, object API calls, egress, lifecycle, compute waste, orphan datasets, chargeback and budgets.

Cas d’usage

Data lake entreprise sur S3/ADLS/GCS
Lakehouse Delta/Iceberg/Hudi avec tables transactionnelles
Pipelines Spark ETL et analytics batch
Migration HDFS vers object storage
Data warehouse cloud avec séparation compute/storage
Gouvernance, lineage, data catalog et FinOps analytics

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Sépare stockage durable et moteurs analytiques
Réduit coûts avec formats colonne et partition pruning
Permet gouvernance centralisée et lineage
Supporte plusieurs moteurs sur les mêmes données
Rend lifecycle et archive plus efficaces

Risques / limites

Small files explosant metadata et coûts API
Partitioning mal conçu qui augmente les scans
Catalog absent ou incohérent
HDFS legacy migré sans revoir les patterns I/O
Coûts compute/scan non maîtrisés

Matrice de décision

Question	Décision à prendre
Quel modèle data ?	Raw files, curated tables, lakehouse ACID, warehouse managed, streaming lake ou data mesh.
Quel format ?	Parquet/ORC pour analytics colonne, Avro pour streaming/schema, Iceberg/Delta/Hudi pour tables transactionnelles.
Quel partitioning ?	Partitionner selon filtres réels, éviter cardinalité excessive, compacter fichiers et mesurer scan cost.
Quel catalog ?	Glue, Hive, Unity, Purview, Dataplex ou équivalent avec lineage, ownership et accès.
Quelle preuve ?	Query benchmark, file count, compaction report, scan bytes, cost dashboard, lineage, restore and access audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Big data / analytics storage validation examples
aws s3 ls s3://my-lake/bronze/ --recursive --summarize
aws s3api list-objects-v2 --bucket my-lake --prefix silver/table/ --query 'length(Contents[])'
hdfs dfs -du -h /data
hdfs dfsadmin -report
spark-submit --class org.apache.spark.examples.SparkPi examples.jar 100
spark-sql -e "show databases; show tables;"
python - <<'PY'
import os
root="/mnt/lake/table"
sizes=[]
for p,_,files in os.walk(root):
    for f in files:
        fp=os.path.join(p,f)
        try: sizes.append(os.path.getsize(fp))
        except OSError: pass
print("files", len(sizes), "avg_mb", round(sum(sizes)/max(len(sizes),1)/1024/1024,2))
PY
# Validate compaction, partition pruning, catalog lineage and cost per query.

NO-GO : lakehouse sans catalog fiable, sans compaction, sans contrôle des coûts de scan, sans lifecycle, ou sans politique d’accès/lineage.

43.6 Moteurs analytiques cloud

Définition opérationnelle

BigQuery, Snowflake, Redshift, Synapse, Databricks SQL, Trino/Presto : stockage, scans, coût et performance.

Chaîne workload

Ingestion→Bronze→Silver→Gold→Catalog→BI / ML

Règle pratique : big data performant = bons formats + bon partitioning + catalog fiable + compaction + coûts visibles.

Composants à dimensionner

Composant	Rôle / explication
Storage zones	Raw/bronze, cleaned/silver, curated/gold, sandbox, archive and quarantine zones.
File formats	Parquet, ORC, Avro, JSON/CSV legacy, Delta Lake, Iceberg, Hudi and metadata manifests.
Compute engines	Spark, Flink, Trino, Presto, Hive, Databricks, BigQuery, Snowflake, Redshift and Synapse.
Catalog and governance	Hive Metastore, Glue, Unity Catalog, Purview, Dataplex, lineage, IAM and data classification.
Performance	Partitioning, compaction, file sizing, predicate pushdown, metadata scaling, shuffle and cache.
Cost control	Scan cost, object API calls, egress, lifecycle, compute waste, orphan datasets, chargeback and budgets.

Cas d’usage

Data lake entreprise sur S3/ADLS/GCS
Lakehouse Delta/Iceberg/Hudi avec tables transactionnelles
Pipelines Spark ETL et analytics batch
Migration HDFS vers object storage
Data warehouse cloud avec séparation compute/storage
Gouvernance, lineage, data catalog et FinOps analytics

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Sépare stockage durable et moteurs analytiques
Réduit coûts avec formats colonne et partition pruning
Permet gouvernance centralisée et lineage
Supporte plusieurs moteurs sur les mêmes données
Rend lifecycle et archive plus efficaces

Risques / limites

Small files explosant metadata et coûts API
Partitioning mal conçu qui augmente les scans
Catalog absent ou incohérent
HDFS legacy migré sans revoir les patterns I/O
Coûts compute/scan non maîtrisés

Matrice de décision

Question	Décision à prendre
Quel modèle data ?	Raw files, curated tables, lakehouse ACID, warehouse managed, streaming lake ou data mesh.
Quel format ?	Parquet/ORC pour analytics colonne, Avro pour streaming/schema, Iceberg/Delta/Hudi pour tables transactionnelles.
Quel partitioning ?	Partitionner selon filtres réels, éviter cardinalité excessive, compacter fichiers et mesurer scan cost.
Quel catalog ?	Glue, Hive, Unity, Purview, Dataplex ou équivalent avec lineage, ownership et accès.
Quelle preuve ?	Query benchmark, file count, compaction report, scan bytes, cost dashboard, lineage, restore and access audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Big data / analytics storage validation examples
aws s3 ls s3://my-lake/bronze/ --recursive --summarize
aws s3api list-objects-v2 --bucket my-lake --prefix silver/table/ --query 'length(Contents[])'
hdfs dfs -du -h /data
hdfs dfsadmin -report
spark-submit --class org.apache.spark.examples.SparkPi examples.jar 100
spark-sql -e "show databases; show tables;"
python - <<'PY'
import os
root="/mnt/lake/table"
sizes=[]
for p,_,files in os.walk(root):
    for f in files:
        fp=os.path.join(p,f)
        try: sizes.append(os.path.getsize(fp))
        except OSError: pass
print("files", len(sizes), "avg_mb", round(sum(sizes)/max(len(sizes),1)/1024/1024,2))
PY
# Validate compaction, partition pruning, catalog lineage and cost per query.

NO-GO : lakehouse sans catalog fiable, sans compaction, sans contrôle des coûts de scan, sans lifecycle, ou sans politique d’accès/lineage.

43.7 Catalog et gouvernance

Définition opérationnelle

Hive Metastore, Glue Data Catalog, Unity Catalog, Purview, Dataplex : lineage, access control, PII et audit.

Chaîne workload

Ingestion→Bronze→Silver→Gold→Catalog→BI / ML

Règle pratique : big data performant = bons formats + bon partitioning + catalog fiable + compaction + coûts visibles.

Composants à dimensionner

Composant	Rôle / explication
Storage zones	Raw/bronze, cleaned/silver, curated/gold, sandbox, archive and quarantine zones.
File formats	Parquet, ORC, Avro, JSON/CSV legacy, Delta Lake, Iceberg, Hudi and metadata manifests.
Compute engines	Spark, Flink, Trino, Presto, Hive, Databricks, BigQuery, Snowflake, Redshift and Synapse.
Catalog and governance	Hive Metastore, Glue, Unity Catalog, Purview, Dataplex, lineage, IAM and data classification.
Performance	Partitioning, compaction, file sizing, predicate pushdown, metadata scaling, shuffle and cache.
Cost control	Scan cost, object API calls, egress, lifecycle, compute waste, orphan datasets, chargeback and budgets.

Cas d’usage

Data lake entreprise sur S3/ADLS/GCS
Lakehouse Delta/Iceberg/Hudi avec tables transactionnelles
Pipelines Spark ETL et analytics batch
Migration HDFS vers object storage
Data warehouse cloud avec séparation compute/storage
Gouvernance, lineage, data catalog et FinOps analytics

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Sépare stockage durable et moteurs analytiques
Réduit coûts avec formats colonne et partition pruning
Permet gouvernance centralisée et lineage
Supporte plusieurs moteurs sur les mêmes données
Rend lifecycle et archive plus efficaces

Risques / limites

Small files explosant metadata et coûts API
Partitioning mal conçu qui augmente les scans
Catalog absent ou incohérent
HDFS legacy migré sans revoir les patterns I/O
Coûts compute/scan non maîtrisés

Matrice de décision

Question	Décision à prendre
Quel modèle data ?	Raw files, curated tables, lakehouse ACID, warehouse managed, streaming lake ou data mesh.
Quel format ?	Parquet/ORC pour analytics colonne, Avro pour streaming/schema, Iceberg/Delta/Hudi pour tables transactionnelles.
Quel partitioning ?	Partitionner selon filtres réels, éviter cardinalité excessive, compacter fichiers et mesurer scan cost.
Quel catalog ?	Glue, Hive, Unity, Purview, Dataplex ou équivalent avec lineage, ownership et accès.
Quelle preuve ?	Query benchmark, file count, compaction report, scan bytes, cost dashboard, lineage, restore and access audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Big data / analytics storage validation examples
aws s3 ls s3://my-lake/bronze/ --recursive --summarize
aws s3api list-objects-v2 --bucket my-lake --prefix silver/table/ --query 'length(Contents[])'
hdfs dfs -du -h /data
hdfs dfsadmin -report
spark-submit --class org.apache.spark.examples.SparkPi examples.jar 100
spark-sql -e "show databases; show tables;"
python - <<'PY'
import os
root="/mnt/lake/table"
sizes=[]
for p,_,files in os.walk(root):
    for f in files:
        fp=os.path.join(p,f)
        try: sizes.append(os.path.getsize(fp))
        except OSError: pass
print("files", len(sizes), "avg_mb", round(sum(sizes)/max(len(sizes),1)/1024/1024,2))
PY
# Validate compaction, partition pruning, catalog lineage and cost per query.

NO-GO : lakehouse sans catalog fiable, sans compaction, sans contrôle des coûts de scan, sans lifecycle, ou sans politique d’accès/lineage.

43.8 Ingestion streaming

Définition opérationnelle

Kafka, Pulsar, Kinesis, Event Hubs, Pub/Sub : landing zones, compaction, exactly-once, schema registry et replay.

Chaîne workload

Ingestion→Bronze→Silver→Gold→Catalog→BI / ML

Règle pratique : big data performant = bons formats + bon partitioning + catalog fiable + compaction + coûts visibles.

Composants à dimensionner

Composant	Rôle / explication
Storage zones	Raw/bronze, cleaned/silver, curated/gold, sandbox, archive and quarantine zones.
File formats	Parquet, ORC, Avro, JSON/CSV legacy, Delta Lake, Iceberg, Hudi and metadata manifests.
Compute engines	Spark, Flink, Trino, Presto, Hive, Databricks, BigQuery, Snowflake, Redshift and Synapse.
Catalog and governance	Hive Metastore, Glue, Unity Catalog, Purview, Dataplex, lineage, IAM and data classification.
Performance	Partitioning, compaction, file sizing, predicate pushdown, metadata scaling, shuffle and cache.
Cost control	Scan cost, object API calls, egress, lifecycle, compute waste, orphan datasets, chargeback and budgets.

Cas d’usage

Data lake entreprise sur S3/ADLS/GCS
Lakehouse Delta/Iceberg/Hudi avec tables transactionnelles
Pipelines Spark ETL et analytics batch
Migration HDFS vers object storage
Data warehouse cloud avec séparation compute/storage
Gouvernance, lineage, data catalog et FinOps analytics

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Sépare stockage durable et moteurs analytiques
Réduit coûts avec formats colonne et partition pruning
Permet gouvernance centralisée et lineage
Supporte plusieurs moteurs sur les mêmes données
Rend lifecycle et archive plus efficaces

Risques / limites

Small files explosant metadata et coûts API
Partitioning mal conçu qui augmente les scans
Catalog absent ou incohérent
HDFS legacy migré sans revoir les patterns I/O
Coûts compute/scan non maîtrisés

Matrice de décision

Question	Décision à prendre
Quel modèle data ?	Raw files, curated tables, lakehouse ACID, warehouse managed, streaming lake ou data mesh.
Quel format ?	Parquet/ORC pour analytics colonne, Avro pour streaming/schema, Iceberg/Delta/Hudi pour tables transactionnelles.
Quel partitioning ?	Partitionner selon filtres réels, éviter cardinalité excessive, compacter fichiers et mesurer scan cost.
Quel catalog ?	Glue, Hive, Unity, Purview, Dataplex ou équivalent avec lineage, ownership et accès.
Quelle preuve ?	Query benchmark, file count, compaction report, scan bytes, cost dashboard, lineage, restore and access audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Big data / analytics storage validation examples
aws s3 ls s3://my-lake/bronze/ --recursive --summarize
aws s3api list-objects-v2 --bucket my-lake --prefix silver/table/ --query 'length(Contents[])'
hdfs dfs -du -h /data
hdfs dfsadmin -report
spark-submit --class org.apache.spark.examples.SparkPi examples.jar 100
spark-sql -e "show databases; show tables;"
python - <<'PY'
import os
root="/mnt/lake/table"
sizes=[]
for p,_,files in os.walk(root):
    for f in files:
        fp=os.path.join(p,f)
        try: sizes.append(os.path.getsize(fp))
        except OSError: pass
print("files", len(sizes), "avg_mb", round(sum(sizes)/max(len(sizes),1)/1024/1024,2))
PY
# Validate compaction, partition pruning, catalog lineage and cost per query.

NO-GO : lakehouse sans catalog fiable, sans compaction, sans contrôle des coûts de scan, sans lifecycle, ou sans politique d’accès/lineage.

43.9 Partitioning et small files

Définition opérationnelle

Partition pruning, bucketing, compaction, clustering, file sizing, metadata overhead et query planning.

Chaîne workload

Ingestion→Bronze→Silver→Gold→Catalog→BI / ML

Règle pratique : big data performant = bons formats + bon partitioning + catalog fiable + compaction + coûts visibles.

Composants à dimensionner

Composant	Rôle / explication
Storage zones	Raw/bronze, cleaned/silver, curated/gold, sandbox, archive and quarantine zones.
File formats	Parquet, ORC, Avro, JSON/CSV legacy, Delta Lake, Iceberg, Hudi and metadata manifests.
Compute engines	Spark, Flink, Trino, Presto, Hive, Databricks, BigQuery, Snowflake, Redshift and Synapse.
Catalog and governance	Hive Metastore, Glue, Unity Catalog, Purview, Dataplex, lineage, IAM and data classification.
Performance	Partitioning, compaction, file sizing, predicate pushdown, metadata scaling, shuffle and cache.
Cost control	Scan cost, object API calls, egress, lifecycle, compute waste, orphan datasets, chargeback and budgets.

Cas d’usage

Data lake entreprise sur S3/ADLS/GCS
Lakehouse Delta/Iceberg/Hudi avec tables transactionnelles
Pipelines Spark ETL et analytics batch
Migration HDFS vers object storage
Data warehouse cloud avec séparation compute/storage
Gouvernance, lineage, data catalog et FinOps analytics

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Sépare stockage durable et moteurs analytiques
Réduit coûts avec formats colonne et partition pruning
Permet gouvernance centralisée et lineage
Supporte plusieurs moteurs sur les mêmes données
Rend lifecycle et archive plus efficaces

Risques / limites

Small files explosant metadata et coûts API
Partitioning mal conçu qui augmente les scans
Catalog absent ou incohérent
HDFS legacy migré sans revoir les patterns I/O
Coûts compute/scan non maîtrisés

Matrice de décision

Question	Décision à prendre
Quel modèle data ?	Raw files, curated tables, lakehouse ACID, warehouse managed, streaming lake ou data mesh.
Quel format ?	Parquet/ORC pour analytics colonne, Avro pour streaming/schema, Iceberg/Delta/Hudi pour tables transactionnelles.
Quel partitioning ?	Partitionner selon filtres réels, éviter cardinalité excessive, compacter fichiers et mesurer scan cost.
Quel catalog ?	Glue, Hive, Unity, Purview, Dataplex ou équivalent avec lineage, ownership et accès.
Quelle preuve ?	Query benchmark, file count, compaction report, scan bytes, cost dashboard, lineage, restore and access audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Big data / analytics storage validation examples
aws s3 ls s3://my-lake/bronze/ --recursive --summarize
aws s3api list-objects-v2 --bucket my-lake --prefix silver/table/ --query 'length(Contents[])'
hdfs dfs -du -h /data
hdfs dfsadmin -report
spark-submit --class org.apache.spark.examples.SparkPi examples.jar 100
spark-sql -e "show databases; show tables;"
python - <<'PY'
import os
root="/mnt/lake/table"
sizes=[]
for p,_,files in os.walk(root):
    for f in files:
        fp=os.path.join(p,f)
        try: sizes.append(os.path.getsize(fp))
        except OSError: pass
print("files", len(sizes), "avg_mb", round(sum(sizes)/max(len(sizes),1)/1024/1024,2))
PY
# Validate compaction, partition pruning, catalog lineage and cost per query.

NO-GO : lakehouse sans catalog fiable, sans compaction, sans contrôle des coûts de scan, sans lifecycle, ou sans politique d’accès/lineage.

43.10 FinOps analytics

Définition opérationnelle

Coûts scans, API calls, egress, storage tiers, compute waste, orphan datasets, lifecycle et chargeback.

Chaîne workload

Ingestion→Bronze→Silver→Gold→Catalog→BI / ML

Règle pratique : big data performant = bons formats + bon partitioning + catalog fiable + compaction + coûts visibles.

Composants à dimensionner

Composant	Rôle / explication
Storage zones	Raw/bronze, cleaned/silver, curated/gold, sandbox, archive and quarantine zones.
File formats	Parquet, ORC, Avro, JSON/CSV legacy, Delta Lake, Iceberg, Hudi and metadata manifests.
Compute engines	Spark, Flink, Trino, Presto, Hive, Databricks, BigQuery, Snowflake, Redshift and Synapse.
Catalog and governance	Hive Metastore, Glue, Unity Catalog, Purview, Dataplex, lineage, IAM and data classification.
Performance	Partitioning, compaction, file sizing, predicate pushdown, metadata scaling, shuffle and cache.
Cost control	Scan cost, object API calls, egress, lifecycle, compute waste, orphan datasets, chargeback and budgets.

Cas d’usage

Data lake entreprise sur S3/ADLS/GCS
Lakehouse Delta/Iceberg/Hudi avec tables transactionnelles
Pipelines Spark ETL et analytics batch
Migration HDFS vers object storage
Data warehouse cloud avec séparation compute/storage
Gouvernance, lineage, data catalog et FinOps analytics

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Sépare stockage durable et moteurs analytiques
Réduit coûts avec formats colonne et partition pruning
Permet gouvernance centralisée et lineage
Supporte plusieurs moteurs sur les mêmes données
Rend lifecycle et archive plus efficaces

Risques / limites

Small files explosant metadata et coûts API
Partitioning mal conçu qui augmente les scans
Catalog absent ou incohérent
HDFS legacy migré sans revoir les patterns I/O
Coûts compute/scan non maîtrisés

Matrice de décision

Question	Décision à prendre
Quel modèle data ?	Raw files, curated tables, lakehouse ACID, warehouse managed, streaming lake ou data mesh.
Quel format ?	Parquet/ORC pour analytics colonne, Avro pour streaming/schema, Iceberg/Delta/Hudi pour tables transactionnelles.
Quel partitioning ?	Partitionner selon filtres réels, éviter cardinalité excessive, compacter fichiers et mesurer scan cost.
Quel catalog ?	Glue, Hive, Unity, Purview, Dataplex ou équivalent avec lineage, ownership et accès.
Quelle preuve ?	Query benchmark, file count, compaction report, scan bytes, cost dashboard, lineage, restore and access audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Big data / analytics storage validation examples
aws s3 ls s3://my-lake/bronze/ --recursive --summarize
aws s3api list-objects-v2 --bucket my-lake --prefix silver/table/ --query 'length(Contents[])'
hdfs dfs -du -h /data
hdfs dfsadmin -report
spark-submit --class org.apache.spark.examples.SparkPi examples.jar 100
spark-sql -e "show databases; show tables;"
python - <<'PY'
import os
root="/mnt/lake/table"
sizes=[]
for p,_,files in os.walk(root):
    for f in files:
        fp=os.path.join(p,f)
        try: sizes.append(os.path.getsize(fp))
        except OSError: pass
print("files", len(sizes), "avg_mb", round(sum(sizes)/max(len(sizes),1)/1024/1024,2))
PY
# Validate compaction, partition pruning, catalog lineage and cost per query.

NO-GO : lakehouse sans catalog fiable, sans compaction, sans contrôle des coûts de scan, sans lifecycle, ou sans politique d’accès/lineage.

43.11 Sécurité big data

Définition opérationnelle

IAM, table ACL, column/row security, encryption, tokenization, masking, audit et data clean rooms.

Chaîne workload

Ingestion→Bronze→Silver→Gold→Catalog→BI / ML

Règle pratique : big data performant = bons formats + bon partitioning + catalog fiable + compaction + coûts visibles.

Composants à dimensionner

Composant	Rôle / explication
Storage zones	Raw/bronze, cleaned/silver, curated/gold, sandbox, archive and quarantine zones.
File formats	Parquet, ORC, Avro, JSON/CSV legacy, Delta Lake, Iceberg, Hudi and metadata manifests.
Compute engines	Spark, Flink, Trino, Presto, Hive, Databricks, BigQuery, Snowflake, Redshift and Synapse.
Catalog and governance	Hive Metastore, Glue, Unity Catalog, Purview, Dataplex, lineage, IAM and data classification.
Performance	Partitioning, compaction, file sizing, predicate pushdown, metadata scaling, shuffle and cache.
Cost control	Scan cost, object API calls, egress, lifecycle, compute waste, orphan datasets, chargeback and budgets.

Cas d’usage

Data lake entreprise sur S3/ADLS/GCS
Lakehouse Delta/Iceberg/Hudi avec tables transactionnelles
Pipelines Spark ETL et analytics batch
Migration HDFS vers object storage
Data warehouse cloud avec séparation compute/storage
Gouvernance, lineage, data catalog et FinOps analytics

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Sépare stockage durable et moteurs analytiques
Réduit coûts avec formats colonne et partition pruning
Permet gouvernance centralisée et lineage
Supporte plusieurs moteurs sur les mêmes données
Rend lifecycle et archive plus efficaces

Risques / limites

Small files explosant metadata et coûts API
Partitioning mal conçu qui augmente les scans
Catalog absent ou incohérent
HDFS legacy migré sans revoir les patterns I/O
Coûts compute/scan non maîtrisés

Matrice de décision

Question	Décision à prendre
Quel modèle data ?	Raw files, curated tables, lakehouse ACID, warehouse managed, streaming lake ou data mesh.
Quel format ?	Parquet/ORC pour analytics colonne, Avro pour streaming/schema, Iceberg/Delta/Hudi pour tables transactionnelles.
Quel partitioning ?	Partitionner selon filtres réels, éviter cardinalité excessive, compacter fichiers et mesurer scan cost.
Quel catalog ?	Glue, Hive, Unity, Purview, Dataplex ou équivalent avec lineage, ownership et accès.
Quelle preuve ?	Query benchmark, file count, compaction report, scan bytes, cost dashboard, lineage, restore and access audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Big data / analytics storage validation examples
aws s3 ls s3://my-lake/bronze/ --recursive --summarize
aws s3api list-objects-v2 --bucket my-lake --prefix silver/table/ --query 'length(Contents[])'
hdfs dfs -du -h /data
hdfs dfsadmin -report
spark-submit --class org.apache.spark.examples.SparkPi examples.jar 100
spark-sql -e "show databases; show tables;"
python - <<'PY'
import os
root="/mnt/lake/table"
sizes=[]
for p,_,files in os.walk(root):
    for f in files:
        fp=os.path.join(p,f)
        try: sizes.append(os.path.getsize(fp))
        except OSError: pass
print("files", len(sizes), "avg_mb", round(sum(sizes)/max(len(sizes),1)/1024/1024,2))
PY
# Validate compaction, partition pruning, catalog lineage and cost per query.

NO-GO : lakehouse sans catalog fiable, sans compaction, sans contrôle des coûts de scan, sans lifecycle, ou sans politique d’accès/lineage.

43.12 Checklist big data / analytics

Définition opérationnelle

GO/NO-GO : format, partitioning, catalog, lineage, cost guardrails, compaction, lifecycle, security et restore.

Chaîne workload

Ingestion→Bronze→Silver→Gold→Catalog→BI / ML

Règle pratique : big data performant = bons formats + bon partitioning + catalog fiable + compaction + coûts visibles.

Composants à dimensionner

Composant	Rôle / explication
Storage zones	Raw/bronze, cleaned/silver, curated/gold, sandbox, archive and quarantine zones.
File formats	Parquet, ORC, Avro, JSON/CSV legacy, Delta Lake, Iceberg, Hudi and metadata manifests.
Compute engines	Spark, Flink, Trino, Presto, Hive, Databricks, BigQuery, Snowflake, Redshift and Synapse.
Catalog and governance	Hive Metastore, Glue, Unity Catalog, Purview, Dataplex, lineage, IAM and data classification.
Performance	Partitioning, compaction, file sizing, predicate pushdown, metadata scaling, shuffle and cache.
Cost control	Scan cost, object API calls, egress, lifecycle, compute waste, orphan datasets, chargeback and budgets.

Cas d’usage

Data lake entreprise sur S3/ADLS/GCS
Lakehouse Delta/Iceberg/Hudi avec tables transactionnelles
Pipelines Spark ETL et analytics batch
Migration HDFS vers object storage
Data warehouse cloud avec séparation compute/storage
Gouvernance, lineage, data catalog et FinOps analytics

Source→Storage design→Processing→Delivery→Monitoring→Cost

Apports

Sépare stockage durable et moteurs analytiques
Réduit coûts avec formats colonne et partition pruning
Permet gouvernance centralisée et lineage
Supporte plusieurs moteurs sur les mêmes données
Rend lifecycle et archive plus efficaces

Risques / limites

Small files explosant metadata et coûts API
Partitioning mal conçu qui augmente les scans
Catalog absent ou incohérent
HDFS legacy migré sans revoir les patterns I/O
Coûts compute/scan non maîtrisés

Matrice de décision

Question	Décision à prendre
Quel modèle data ?	Raw files, curated tables, lakehouse ACID, warehouse managed, streaming lake ou data mesh.
Quel format ?	Parquet/ORC pour analytics colonne, Avro pour streaming/schema, Iceberg/Delta/Hudi pour tables transactionnelles.
Quel partitioning ?	Partitionner selon filtres réels, éviter cardinalité excessive, compacter fichiers et mesurer scan cost.
Quel catalog ?	Glue, Hive, Unity, Purview, Dataplex ou équivalent avec lineage, ownership et accès.
Quelle preuve ?	Query benchmark, file count, compaction report, scan bytes, cost dashboard, lineage, restore and access audit.

Runbook validation

Décrire les flux : origine, volume, fréquence, format, propriétaire, SLA, coût et rétention.
Choisir le stockage : object, CDN, NAS, lakehouse, warehouse, HDFS legacy ou archive.
Tester performance : débit, latence, cache hit, scan bytes, nombre fichiers, API calls, erreurs et coût.
Tester sécurité : ACL, signed URLs, IAM, masking, RGPD delete, audit et exfiltration controls.
Tester recovery : restore médias, rebuild catalog, replay ingestion, PITR/lifecycle, backup and rollback.
Documenter GO/NO-GO avec graphes, commandes, coûts, owners, runbooks et alertes.

# Big data / analytics storage validation examples
aws s3 ls s3://my-lake/bronze/ --recursive --summarize
aws s3api list-objects-v2 --bucket my-lake --prefix silver/table/ --query 'length(Contents[])'
hdfs dfs -du -h /data
hdfs dfsadmin -report
spark-submit --class org.apache.spark.examples.SparkPi examples.jar 100
spark-sql -e "show databases; show tables;"
python - <<'PY'
import os
root="/mnt/lake/table"
sizes=[]
for p,_,files in os.walk(root):
    for f in files:
        fp=os.path.join(p,f)
        try: sizes.append(os.path.getsize(fp))
        except OSError: pass
print("files", len(sizes), "avg_mb", round(sum(sizes)/max(len(sizes),1)/1024/1024,2))
PY
# Validate compaction, partition pruning, catalog lineage and cost per query.

NO-GO : lakehouse sans catalog fiable, sans compaction, sans contrôle des coûts de scan, sans lifecycle, ou sans politique d’accès/lineage.