🪨 RocksDB – Architecture, Tuning, Ops

1.1 Vue d’ensemble – Qu’est‑ce que RocksDB ?

Objectif & Positionnement

RocksDB est un moteur clé‑valeur embarqué basé sur une structure LSM‑Tree, optimisé pour SSD/NVMe, utilisé dans Kafka Streams, Flink StateBackend, MySQL/MyRocks, TiKV et de nombreux systèmes distribués. Il ne fournit ni SQL, ni réseau : c’est une brique bas niveau performante à intégrer comme stockage local.

Caractéristiques clés

Write‑ahead log (WAL) + memtables -> flush -> fichiers SST.
Compaction multi‑niveaux pour maintenir l’ordre des clés.
Block cache unifié (LRU/GDSF) pour réduire l’I/O disque.
Prefix filters + Bloom pour accélérer les recherches.
Column Families pour séparer les workloads et les stratégies de compaction.
Compression ZSTD / LZ4 / Snappy → compromis place/perf.

Forces

Écritures séquentielles très rapides, idéal ingestion/streaming.
Adapté aux workloads append-heavy et clé ordonnée.
Permet des optimisations très fines via Options.

Faiblesses

Complexité : tuning indispensable.
Write/Read Amplification → gestion compactions critique.
Pas de queries complexes, pas d’index secondaires avancés.

Critère	LSM (RocksDB)	B‑Tree
Writes	Append (WAL) + memtable → flush	Random pages
Reads	Filtres + block cache	Index/arbre
Compaction	Oui (amp. write/read)	Non

Put → WAL append → Memtable insert → Flush → SST L0 → Compaction L0→L1→…
Get → Memtable → Block cache → Bloom → SST read

Quand vous voulez un **KV embarqué** très rapide, sans réseau : moteurs analytics, caches locaux, state store (Flink/Samza).
Éviter si besoin **SQL** riche, ou **requêtes distribuées**.

1.2 Architecture – WAL, Memtables, SSTables, Compaction

WAL (write‑ahead log) séquentiel + memtable (skiplist/hash) ; flush quand plein → SST L0.
Paralléliser avec plusieurs memtables (write_buffer_number) et subcompactions.

SSTable = blocks + index + filter (Bloom/prefix) + footer. Taille block typique 4–16 KB.
Block cache unifié (LRU) pour data + index + filter.

Style	Usage	Effet
Leveled	par défaut	Faible read‑amp, write‑amp modérée
Universal	Grandes valeurs/TTL	Moins d’overwrites, merges sélectifs
FIFO	Log/time series	Eviction par âge

Memtable →[flush]→ L0.sst ──► Compaction L0→L1 (tri/merge)
L1..Ln plus grands, non chevauchants (leveling)

1.3 Installation – Build C++, Bindings Java/Python

sudo apt-get update && sudo apt-get install -y build-essential cmake libsnappy-dev zlib1g-dev libbz2-dev libzstd-dev liblz4-dev
git clone https://github.com/facebook/rocksdb && cd rocksdb
cmake -S . -B build -DPORTABLE=1 -DWITH_ZSTD=1 -DWITH_BZ2=1 -DWITH_LZ4=1
cmake --build build -j
sudo cmake --install build

pip install python-rocksdb
# Exemple Python
import rocksdb
opts=rocksdb.Options()
opts.create_if_missing=True
opts.write_buffer_size=64*1024*1024
opts.target_file_size_base=64*1024*1024
opts.max_background_compactions=4
opts.table_factory=rocksdb.BlockBasedTableFactory(
  block_cache=rocksdb.LRUCache(512*1024*1024),
  filter_policy=rocksdb.BloomFilterPolicy(10)
)
db=rocksdb.DB('data.db', opts)
db.put(b'k1', b'v1')
print(db.get(b'k1'))

# Java (Maven)

  org.rocksdbrocksdbjni9.0.0

# Dockerfile simple
FROM python:3.12-slim
RUN apt-get update && apt-get install -y libsnappy1v5 libzstd1 liblz4-1 && pip install python-rocksdb
WORKDIR /app
COPY app.py .
CMD ["python","app.py"]

2.1 Column Families – Isolation & Options dédiées

Chaque Column Family a ses propres options/compactions.
Isoler par domaine : cf_users, cf_orders, etc.

opts=rocksdb.Options(create_if_missing=True)
cf_names=[b'default', b'cf_users', b'cf_orders']
# Créer CF
rocksdb.DB.create_column_family('data.db', opts, b'cf_users')
# Ouvrir avec CFs
cf_opts=[(b'default', opts),(b'cf_users', opts),(b'cf_orders', opts)]
db=rocksdb.DB('data.db', opts, column_families=cf_opts)
wo=rocksdb.WriteOptions(); ro=rocksdb.ReadOptions()
db.put((b'cf_users', b'u:1'), b'Alice')

TTL DB : expiration automatique (sur compactions).
Options par CF : block_cache, prefix_extractor, compression.

2.2 Options clés – Cache, Write Buffers, Bloom/Prefix

cache=rocksdb.LRUCache(1*1024*1024*1024)  # 1GB
factory=rocksdb.BlockBasedTableFactory(block_cache=cache, cache_index_and_filter_blocks=True)
opts.table_factory=factory

Dimensionner ~ 50–70% de la RAM disponible (selon workload).

opts.write_buffer_size=128*1024*1024  # memtable
opts.max_write_buffer_number=3
opts.min_write_buffer_number_to_merge=1

opts.prefix_extractor=rocksdb.FixedPrefixTransform(8)
opts.memtable_prefix_bloom_size_ratio=0.1
factory=rocksdb.BlockBasedTableFactory(filter_policy=rocksdb.BloomFilterPolicy(10))

Requêtes par préfixe (scans/sauts rapides), réduit read‑amp.

opts.compression=rocksdb.CompressionType.zstd_compression
opts.bottommost_compression=rocksdb.CompressionType.zstd_compression

2.3 Compaction – Leveled, Universal, Throttling

Level‑based : L0 chevauchants → tri en L1..Ln, faible read‑amp.
Universal : merge basé sur taille/age, utile pour gros blobs/TTL.
FIFO : purge par âge/bytes, pour logs.

opts.rate_limiter=rocksdb.RateLimiter(100*1024*1024)  # 100MB/s compaction/flush

opts.enable_pipelined_write=True
opts.max_background_compactions=8
opts.max_background_flushes=2

3.1 Performance – Amplifications, I/O, Skips & TTL

Principes

Write‑amp : réglé par taille memtable/compaction.
Read‑amp : caches, bloom, prefix, index perf.
Space‑amp : compression, leveled.

Recettes rapides

# OLTP key‑value
write_buffer_size=64‑256MB, LRU 1‑4GB, bloom=10
# Time‑series
universal compaction, TTL, bottommost zstd

3.2 Monitoring – Statistics & perf_context

opts.statistics=rocksdb.Statistics()
print(opts.statistics)

Activer perf_context pour décomposer un GET (block cache hit, table open, etc.).

Analyser le fichier LOG pour compactions/flush, stalles, erreurs.

3.3 Backup & Restore – Checkpoint, BackupEngine

import rocksdb, os
cp=rocksdb.Checkpoint.create(db)
os.makedirs('snap', exist_ok=True)
cp.create_checkpoint('snap')

# C++/Java: BackupEngine vers répertoire/S3 (monté)

# Restaurer: fermer DB, remplacer répertoire par snapshot, rouvrir

4.1 Troubleshooting – Stalls, L0 overflow, Corruption

Augmenter max_background_compactions, rate_limiter.
Élargir write_buffer_size, réduire flushs fréquents.

Limiter chevauchements : niveau L0 → L1 plus agressif.
Vérifier taille de SST/compaction triggers.

Vérifier disque/FS, corriger avec backup/restore.

4.2 Cas d’usage – State Store, Cache, Queues locales

State store streaming

Flink, Spark, Samza : opérateurs d’état locaux.

Cache/Edge

KV rapide pour dédup/idempotence, files locales.

🪨 RocksDB – Architecture, Tuning, Opérations

Vue d’ensemble

Architecture

Installation

Column Families

Options clés

Compaction

Performance

Monitoring

Backup & Restore

Troubleshooting

Cas d’usage

Références