🗄️ Bases de Données — concepts, modèles, SQL/NoSQL, transactions, index, perf, réplication & ops

Bases de données — overview densifié (décider, concevoir, opérer)

Mental model : “modèle + workload + garanties + ops”

1) Modèletables / docs / graph / kv / time-series

2) WorkloadOLTP (writes) vs OLAP (reads/aggreg)

3) GarantiesACID, isolation, durabilité, contraintes

4) Perfindex, cache, I/O, planificateur

5) HAréplication, failover, multi-AZ/region

6) Opsbackup, upgrade, monitoring, security

OLTP vs OLAP (problème #1 des systèmes)

Dimension	OLTP	OLAP
Usage	transactions courtes	requêtes longues, scans
Modèle	normalisé	dé-normalisé, star schema
Stockage	row-store	souvent column-store
Index	sélectifs	partitioning + column pruning

3 axes décisionnels (pratiques)

1) Cohérence vs disponibilité (CAP)
En réseau partitionné : tu dois choisir “C” ou “A” en pratique (et contrôler le comportement).

2) Perf reads vs writes
Index accélère read, ralentit write. Constraints protègent, mais coûtent.

3) Ops & fiabilité
Une BD “facile” = backup/restore testés + monitoring + upgrades + runbooks.

Règle d’or

La plupart des pannes/perfs viennent de :
- mauvais modèle / requêtes non indexées
- stats/planificateur
- contention (locks) / saturation I/O
- absence de plan backup/restore
- réplication mal comprise (RPO/RTO)

Définition & taxonomie — DBMS, OLTP/OLAP, row/column, ACID/BASE, CAP

Qu’est-ce qu’un DBMS ?

Un DBMS est un moteur qui gère : stockage (pages/fichiers), concurrence (locks/MVCC), récupération (WAL/redo), requêtage (optimizer), sécurité (auth/RBAC) et outils d’exploitation.

Row-store

Optimisé OLTP : écrire/lire une ligne complète vite (PostgreSQL, MySQL, Oracle…)

Column-store

Optimisé OLAP : lire seulement les colonnes nécessaires (BigQuery, ClickHouse, Snowflake…)

ACID (et pourquoi c’est important)

Propriété	Idée	Exemple
Atomicity	tout ou rien	transaction rollback
Consistency	invariants respectés	constraints
Isolation	transactions “comme seules”	levels
Durability	persisté même crash	WAL + fsync

Beaucoup de systèmes NoSQL se rapprochent d’ACID aujourd’hui, mais pas toujours partout (multi-doc, cross-partition…).

CAP (version utile)

Si partition réseau :
- C (consistency) ou A (availability) : tu choisis comportement
En pratique :
- CP : préfère cohérence (peut refuser)
- AP : préfère disponibilité (cohérence éventuelle)

OLTP vs OLAP : ne pas mélanger sans précautions

OLTP : petits writes/reads, beaucoup de connexions, index + contention
OLAP : scans, aggregations, partitions, columnar, compression

Mix :
- réplicas dédiés
- ETL vers warehouse
- workload management

Modèles de données — relationnel, document, key-value, wide-column, graph, time-series, search

Comparatif “quand choisir quoi”

Modèle	Forces	Faiblesses	Quand
Relationnel	transactions, joins, contraintes	scale horizontal plus complexe	OLTP métier
Document	schéma flexible, objets imbriqués	joins limités	payloads, CMS
Key-Value	latence très basse	requêtes limitées	cache, sessions
Wide-column	scale massif, write heavy	modélisation stricte par accès	events, logs
Graph	relations complexes	perf dépend modèle	fraude, réseau
Time-series	ingest + agrégations temps	pas généraliste	metrics/IoT
Search	full-text + ranking	consistance différente	recherche

Le bon modèle = celui qui colle au pattern d’accès (requêtes). Beaucoup d’échecs viennent d’un modèle choisi “à la mode”.

Relationnel : pourquoi ça reste dominant

- schéma explicite
- contraintes (PK/FK/unique/check)
- transactions + isolation
- optimizer mature
- reporting + SQL universel

Document : flexibilité

- documents JSON (collections)
- index sur champs
- atomicité souvent par document
- bon pour structures imbriquées
Risques :
- schéma “caché” => dette
- duplication => incohérences

Spécialisées : “le bon outil au bon endroit”

Key-Value : Redis-like (cache)
Search : Elastic-like (full text)
Time-series : Influx/Timescale-like (metrics)
Graph : Neo4j-like (relations)
Wide-column : Cassandra-like (scale)

SQL & conception — schéma, normalisation, contraintes, types, migrations, ORM

Concevoir un schéma : partir des requêtes

Approche pragmatique :
1) lister les 10 requêtes les plus fréquentes/critique
2) modéliser pour rendre ces requêtes naturelles
3) ajouter contraintes + index
4) valider avec EXPLAIN + tests charge

Normalisation (résumé)

1NF : valeurs atomiques.
2NF : pas de dépendance partielle (clé composite).
3NF : pas de dépendance transitive.

En OLTP : normalisation aide la cohérence. En OLAP : dénormalisation améliore performance.

Contraintes : “payer un peu” pour éviter le chaos

Contrainte	But	Coût
PK/Unique	unicité	write
FK	intégrité relationnelle	locks/validation
CHECK	règles métier	validation

ORM : productivité vs transparence

Avantages :
- productivité CRUD
- migrations + modèle unique
Risques :
- N+1 queries
- joins implicites
- mauvais plans invisibles
Pratiques :
- profiler SQL
- expliciter préfetch/join
- indexer selon requêtes

Transactions & concurrence — isolation, verrous, MVCC, deadlocks, phénomènes

Isolation levels (vision simple)

Niveau	Protège contre	Coût
Read Committed	dirty reads	faible
Repeatable Read	non-repeatable reads	plus
Serializable	phantoms + anomalies	élevé (retries)

Locks : pourquoi ça bloque

Sources de contention :
- transactions longues
- scans + updates
- hotspots (même row)
- index manquants sur FK
Solutions :
- réduire durée transactions
- indexer correctement
- partitioning, batching

MVCC : multi-version concurrency control

Idée :
- lecteurs ne bloquent pas écrivains (souvent)
- versions (tuples) -> nettoyage (vacuum)
Impacts :
- bloat si vacuum mal réglé
- visibilité via snapshots

Deadlocks : cercle d’attente

Pattern :
T1 lock(A) -> veut B
T2 lock(B) -> veut A
=> deadlock, un est tué
Prévention :
- ordre d'accès stable
- transactions courtes
- index + éviter scans lockants

Index & structures — B-Tree, Hash, GIN/GiST, bitmap, covering, cardinalité

B-Tree : le standard OLTP

B-Tree :
- range queries (>, <, BETWEEN)
- tri (ORDER BY) si compatible
- index sur (a,b,c) utilisable par préfixe : a, (a,b), (a,b,c)

Cardinalité / sélectivité

Index utile si :
- filtre réduit fortement le résultat
- ou couvre ORDER BY / JOIN

Index peu utile si :
- colonne faible cardinalité (ex: bool)
=> sauf bitmap/partiel selon moteur

Covering index (include)

Idée :
- l'index contient toutes les colonnes nécessaires
=> éviter lookup table (heap fetch)
Gain :
- lectures I/O réduites
Coût :
- index plus gros, writes plus lents

Chaque index a un coût

Action	Impact
INSERT	maj de tous les index
UPDATE	maj index si colonnes concernées
DELETE	tombstones/cleanup

Trop d’index = writes lents + vacuum/maintenance plus lourde.

Optimizer & plans — EXPLAIN, stats, scans, joins, sorts, coût

Lire un plan (méthode)

1) Identifier l'opération la plus coûteuse (scan/sort/hash)
2) Vérifier cardinalités estimées vs réelles (si dispo)
3) Vérifier accès : index scan vs seq scan
4) Regarder joins : nested loop / hash join / merge join
5) Corriger : index / stats / rewrite query

Statistics : le fuel de l’optimizer

Si stats fausses :
- mauvais join order
- mauvais choix index
Solutions :
- analyze/vacuum
- histogram/extended stats (selon moteur)

Joins : règles simples

Join	Quand	Piège
Nested loop	petit × indexé	explose si gros
Hash join	gros datasets	mémoire
Merge join	déjà trié	sort coûteux sinon

Anti-patterns requêtes

SELECT * sur tables larges.
Fonctions sur colonnes indexées (empêche usage index) : WHERE lower(email)=...
OR multiples sans index adaptés.
JOIN sans condition (cartésien involontaire).
N+1 queries (côté ORM).

Stockage, WAL & recovery — pages, buffers, redo/undo, checkpoints, fsync

WAL / redo log : la durabilité

Principe :
- écrire d'abord le log (WAL)
- appliquer ensuite aux pages data
Crash recovery :
- rejouer WAL -> état cohérent
Checkpoint :
- limite WAL à rejouer

Les perfs write sont souvent limitées par WAL (fsync), pas par la table elle-même.

Buffers & I/O pattern

- buffer cache : garder pages chaudes
- read-ahead : scans
- random I/O : index lookups
- sequential I/O : scans + backups
Tuning :
- mémoire, checkpoint, IO scheduler
- stockage : NVMe, RAID, SAN

Réplication & HA — sync/async, RPO/RTO, failover, quorum, split brain

Sync vs async

Mode	Avantage	Inconvénient
Async	latence basse	perte possible (RPO>0)
Sync	RPO≈0	latence + risque indispo

RPO/RTO

RPO : combien de données je peux perdre ?
RTO : combien de temps je peux être down ?
Choix architecture = arbitrage business.

Split brain & quorum

Split brain : 2 primaires en même temps
=> corruption logique
Prévention :
- leader election (quorum)
- fencing (STONITH)
- consensus store (etcd/raft)

Sharding (scale horizontal)

Sharding = partitionner données sur plusieurs nodes
Défis :
- transactions cross-shard
- joins compliqués
- rebalancing
Souvent :
- commencer par read replicas + caching
- shard seulement si nécessité

Backup & restore — full/incr, snapshots, PITR, tests, runbooks

Le vrai test d’un backup = restore

Checklist :
- backup full + incr planifiés
- encryption + rotation
- PITR (WAL/redo archives)
- restore automatisé (staging)
- runbook + rôles

“On a des backups” sans test restore = on n’a pas de backups.

Logical vs physical

Type	Avantage	Inconvénient
Logical (dump)	portable	lent sur gros volumes
Physical	rapide restore	couplé version/format
Snapshot	instantané	cohérence dépend intégration

Sécurité & compliance — RBAC, chiffrement, secrets, audit, masking, multi-tenant

AuthN/AuthZ

- Auth : qui est l'utilisateur ? (cert, password, IAM)
- AuthZ : que peut-il faire ? (roles, grants)
Principe :
- least privilege
- séparation read/write/admin

Chiffrement : at rest & in transit

TLS entre app ↔ DB.
Chiffrement disque / tablespaces.
Gestion secrets (vault), rotation.

Audit & traçabilité

- journaliser accès admin
- tracer opérations sensibles
- alerter sur anomalies
- conserver logs selon policy

Multi-tenant : pièges

Isolation logique (schemas) vs physique (instances).
Quotas (CPU/IO) pour éviter noisy neighbor.
Row-level security si disponible.

Ops / perf / tuning — monitoring, slow queries, pools, maintenance, SLO

Monitoring (minimum vital)

- CPU / RAM / IOPS / latency disk
- connexions (pool saturation)
- locks + deadlocks
- replication lag
- cache hit ratio
- top queries (p95)

Perf : 10 leviers

Index adaptés aux requêtes (et pas trop).
Plans corrects (stats à jour).
Connection pooling (éviter 10k connexions).
Cache (buffer) dimensionné.
Batching writes, éviter transactions longues.
Partitioning si gros volumes.
Réduire I/O (covering index, compression).
Eviter N+1 côté ORM.
Workload séparation (read replica/warehouse).
Hardware/stockage adapté (NVMe/IOPS).

Maintenance : éviter la “surprise”

- vacuum/compaction (selon moteur)
- bloat tracking
- reindex / analyze
- upgrades planifiés (test)
- capacity planning (croissance)

Incident playbook (résumé)

1) Identifier symptôme : latency, errors, locks, disk full
2) Protéger : limiter traffic, read-only, circuit breaker
3) Diagnostiquer : top queries, locks, IO, replication lag
4) Mitiger : kill query, add index, scale read, failover
5) Postmortem : cause -> action (monitoring, code, ops)

Playbook “choisir & lancer une base” — en 30 jours (prod-ready)

Jours 1–7 : cadrage

Workload : OLTP/OLAP, reads/writes, p95 latency, throughput.
Données : taille, croissance, access patterns, retention.
Garanties : ACID, RPO/RTO, multi-region ?
Sécurité : RBAC, TLS, encryption, audit.
Ops : équipe, runbooks, budget, tooling.

Jours 8–15 : design & POC

Schéma + 10 requêtes critiques.
Index + contraintes essentielles.
Tests charge (baseline).
Plan backup/restore (test restore).

Jours 16–30 : prod minimal

Mettre réplication + failover (quorum si besoin).
Mettre monitoring (locks, IO, lag, slow queries).
Mettre connection pool (app).
Mettre process d’upgrade (staging, runbook).
Documenter incidents + postmortems.

Objectif : une base restorable, monitorée, sécurisée, et dimensionnée — avant d’être “rapide”.

DoD (production)

- restore testé (PITR)
- monitoring + alerting
- runbooks incident
- réplication + failover validés
- perf baseline (p95)
- sécurité (TLS, RBAC, secrets)
- plan upgrade/patch

Cheat-sheet DBA / backend — règles d’or, index, transactions, backup, anti-patterns

Règles d’or

Index selon les requêtes, pas selon l’intuition.
Transactions courtes → moins de locks.
Backups testés (restore) → survie.
Stats à jour → plans stables.
Pool de connexions → DB respire.

Anti-patterns

DB utilisée comme queue (sans raison).
“SELECT *” en prod sur tables larges.
Absence de FK/constraints “pour la perf”.
Index partout (writes lents).
Pas de PITR/restore test.

Checklist incident (express)

1) Disk full ? (WAL/logs)
2) Locks/deadlocks ? (top blockers)
3) CPU / IO saturés ?
4) Replication lag ?
5) Top queries (p95) + plan
6) Pool saturation ?
7) Mitigation : limiter traffic, kill query, add index, failover

Index quick tips

- indexer colonnes de JOIN et WHERE
- composite index : ordre = filtres les plus sélectifs
- covering index si read heavy
- éviter index sur colonnes très low-cardinality
- supprimer index inutilisés (à prouver)

🗄️ Bases de Données — concepts, modèles, SQL/NoSQL, transactions, index, perf, réplication & ops

Définition & taxonomie

Modèles de données

SQL & conception

Transactions & concurrence

Index & structures

Optimizer & plans

Stockage, WAL & recovery

Réplication & HA

Backup & restore

Sécurité & compliance

Ops, perf & tuning

Cheat-sheet “DBA / backend”