🐘 PostgreSQL – Monitoring & Tuning (PMM, pg

1.1 Panorama Monitoring PostgreSQL

Pourquoi monitorer PostgreSQL “vraiment”

Surveiller PostgreSQL ne se limite pas à regarder le CPU de la VM. Le but est de détecter tôt les signaux faibles :

Requêtes qui dérivent (temps moyen qui augmente).
Bloat qui progresse sur certaines tables.
Autovacuum qui n’arrive plus à suivre.
Locks récurrents sur des patterns de requêtes.
Checkpoints trop fréquents ou trop rares.

L’enjeu : tenir le SLA (latence / disponibilité) en évitant les “incidents surprises” à 3h du matin, et disposer d’éléments factuels pour justifier une montée en gamme (RAM, IOPS, refonte applicative…).

3 niveaux de monitoring

Niveau	Focus	Exemples
OS	Ressources globales	CPU, RAM, Swap, Disk I/O, réseau
PostgreSQL	Mécanique interne	pg_stat_*, Autovacuum, WAL, temps de requêtes
App	Expérience métier	Taux d’erreur, latence API, throughput métier

Un bon setup de monitoring croise ces 3 couches. PMM fournit déjà une grande partie du niveau OS+PostgreSQL, qu’on complète avec un APM et quelques dashboards maison.

Métriques “vitales” à suivre

TOP MÉTRIQUES POSTGRESQL À SURVEILLER

1️⃣ Charge & Concurrence
- Nombre de connexions actives vs max_connections
- Sessions en attente de lock (pg_locks, wait_event)
- Longueur moyenne des transactions

2️⃣ Performance requêtes
- Temps de réponse moyen / 95e / 99e percentile
- Requêtes les plus coûteuses (pg_stat_statements)
- Nombre de requêtes / seconde (QPS)

3️⃣ Autovacuum & Bloat
- Tables les plus gonflées (bloat estimation)
- Age des transactions (wraparound risk)
- Autovacuum n_tup_ins / n_tup_upd / n_tup_del

4️⃣ I/O & Buffers
- Hit ratio du cache (shared_buffers)
- Temps de lecture disque vs RAM
- Checkpoints et taille du WAL

5️⃣ Santé globale
- Lag de réplication (si replicas)
- Erreurs dans les logs PostgreSQL
- Redémarrages du service PostgreSQL

1.2 Architecture d’Observabilité autour de PostgreSQL

Vue schématique

[Architecture type PostgreSQL + Observabilité]

+-------------------------------+
|   Applications / API          |
|  (APM : traces, erreurs)      |
+-------------------------------+
              |
              v
+-------------------------------+
| PostgreSQL (primary + replicas) |
|   - pg_stat_*                 |
|   - Logs + auto_explain       |
|   - vues monitoring custom    |
+-------------------------------+
              |
              v
+-------------------------------+
| PMM Server (Prometheus + Grafana) |
|   - Exporters PG / OS          |
|   - Dashboards pré-packagés    |
|   - Alerting rules             |
+-------------------------------+
              |
              v
+-------------------------------+
| Système d’alerting & On-call  |
| (email, Slack, PagerDuty...)  |
+-------------------------------+

L’idée : une seule “tour de contrôle” pour tout ce qui est PostgreSQL, avec PMM au centre, et des intégrations vers l’outillage existant (on-call, APM, logs centralisés).

Rôles des différentes briques

Brique	Responsabilité principale	Exemples
Agent OS	Métriques système (CPU, RAM, I/O, réseau)	node_exporter, agent PMM
Exporter PostgreSQL	Exposure des vues pg_stat_* vers Prometheus	postgres_exporter (embed PMM)
PMM Server	Stockage des métriques, dashboards, alertes	Percona Monitoring & Management
APM	Traces par endpoint, profiling applicatif	Datadog APM, NewRelic, OpenTelemetry
Logs centralisés	Recherche ciblée dans les logs PG et app	ELK, Loki, CloudWatch Logs

PMM ne remplace pas un APM complet, mais couvre très bien la couche base de données.

1.3 Choisir ses outils PostgreSQL (PMM, pgAdmin, autres)

Pourquoi PMM est souvent l’outil #1 en prod

Open-source, gratuit, stack standard (Prometheus + Grafana).
Dashboards prêts pour PostgreSQL, MySQL, Mongo, etc.
Agents simples à déployer (Docker, packages, Kubernetes).
Vue consolidée multi-serveurs / multi-environnements.
Alerting déjà pré-configuré (latence, bloat, connexions, etc.).

RÉSUMÉ STRATÉGIQUE

- PMM = tour de contrôle PostgreSQL
- pgAdmin = admin / requêtage / JIT troubleshooting
- APM (Datadog / NewRelic etc.) = vision business / endpoints
- Scripts maison = analyse fine ponctuelle (audit, migration)

Panorama rapide

Outil	Usage principal	Commentaires
PMM	Monitoring, dashboards, alertes	Le choix par défaut en environnement sérieux.
pgAdmin	Administration, requêtage, visualisation	Indispensable pour manipuler et inspecter.
psql	CLI légère et puissante	Souvent l’outil le plus rapide en crise.
Scripts DBA	Checklist d’audit, reporting	Spécifiques à votre contexte / standards.

2.1 Vues pg_stat essentielles

Les vues que tout DBA PostgreSQL doit connaître

pg_stat_activity : sessions en cours, état, requête en cours.
pg_stat_database : stats globales par base (tuples lus / écrits, temps CPU).
pg_stat_user_tables : stats par table (seq scan, index scan, vacuum).
pg_stat_user_indexes : utilisation réelle des indexes.
pg_locks : locks actuels, qui bloque qui.
pg_stat_bgwriter : activités d’écriture en background.

Exemples de requêtes utiles

-- Voir les requêtes longues en cours (> 30 s)
SELECT pid, usename, datname, state,
       now() - query_start AS runtime,
       query
FROM pg_stat_activity
WHERE state <> 'idle'
  AND now() - query_start > interval '30 seconds'
ORDER BY runtime DESC;

-- Hit ratio global par base
SELECT datname,
       blks_hit, blks_read,
       round(100 * blks_hit::numeric / NULLIF(blks_hit + blks_read,0), 2) AS cache_hit_ratio
FROM pg_stat_database
ORDER BY cache_hit_ratio ASC;

-- Index jamais utilisés
SELECT schemaname, relname, indexrelname, idx_scan
FROM pg_stat_user_indexes
WHERE idx_scan = 0
ORDER BY relname;

2.2 Requêtes lentes & pg_stat_statements

Activer pg_stat_statements

-- postgresql.conf
shared_preload_libraries = 'pg_stat_statements'
pg_stat_statements.track = all

-- Après ajout : redémarrer PostgreSQL

-- Activer l’extension dans chaque base concernée
CREATE EXTENSION IF NOT EXISTS pg_stat_statements;

L’extension agrège les requêtes “normalisées” (bind variables anonymisées) et conserve des stats : temps total, nombre d’appels, temps moyen, variance, etc.

Top requêtes à optimiser

-- Top 20 requêtes par temps cumulé
SELECT query,
       calls,
       round(total_time::numeric, 2) AS total_ms,
       round(mean_time::numeric, 2) AS mean_ms,
       rows
FROM pg_stat_statements
ORDER BY total_time DESC
LIMIT 20;

-- Top requêtes par temps moyen (avec au moins 100 appels)
SELECT query,
       calls,
       round(mean_time::numeric, 2) AS mean_ms
FROM pg_stat_statements
WHERE calls >= 100
ORDER BY mean_time DESC
LIMIT 20;

Stratégie : trier par temps total (impact global), puis par temps moyen pour repérer les requêtes pathologiques.

2.3 Logs PostgreSQL & auto_explain

Paramètres recommandés

# postgresql.conf (exemple)
log_destination = 'csvlog'
logging_collector = on
log_directory = 'pg_log'
log_filename = 'postgresql-%Y-%m-%d.log'
log_rotation_age = '1d'
log_min_duration_statement = 500ms
log_line_prefix = '%m [%p] %u@%d %h '

log_min_duration_statement : commencer à 500 ms ou 1 s en prod, puis ajuster selon le trafic. L’essentiel est d’avoir une base de référence pour voir les régressions.

auto_explain : logger des plans d’exécution

# postgresql.conf
shared_preload_libraries = 'pg_stat_statements,auto_explain'

# Paramétrage de base
auto_explain.log_min_duration = '500ms'
auto_explain.log_analyze = on
auto_explain.log_verbose = on
auto_explain.log_buffers = on
auto_explain.log_timing = on

Attention à ne pas logguer toutes les requêtes en détail (coût I/O énorme). L’idée est de cibler les requêtes lentes et de pouvoir analyser leurs plans sans perturber la prod.

3.1 Autovacuum & Bloat

Rôle de l’Autovacuum

PostgreSQL ne réécrit pas les lignes en place : il marque les anciennes versions comme mortes. L’Autovacuum a deux rôles :

Recycler l’espace (bloat) en marquant les pages réutilisables.
Éviter le “wraparound” (ID de transaction qui déborde).

Un mauvais tuning d’Autovacuum peut provoquer :

Bloat massif → tables énormes → I/O catastrophique.
Vacuum agressifs → spikes de latence.
Risque de wraparound → arrêt forcé.

Surveiller & ajuster

-- Derniers vacuums/analyses par table
SELECT relname, last_vacuum, last_autovacuum,
       last_analyze, last_autoanalyze
FROM pg_stat_user_tables
ORDER BY last_autovacuum DESC NULLS LAST;

-- Tables les plus “gonflées” (exemple simple)
SELECT schemaname, relname,
       n_live_tup, n_dead_tup
FROM pg_stat_user_tables
ORDER BY n_dead_tup DESC
LIMIT 20;

Stratégie : identifier les tables qui se gonflent le plus (beaucoup de mises à jour/suppressions), ajuster les paramètres autovacuum_vacuum_* par table si nécessaire, et surveiller les temps de vacuum via PMM.

3.2 Indexes & Plans d’exécution

EXPLAIN / EXPLAIN ANALYZE

-- Exemple simple
EXPLAIN ANALYZE
SELECT * FROM orders WHERE customer_id = 1234;

À lire : type de scan (Seq Scan, Index Scan, Bitmap), coût estimé vs temps réel, nombre de lignes estimé vs réel, utilisation des indexes existants.

Detecter les indexes à problème

-- Index jamais scannés
SELECT schemaname, relname, indexrelname, idx_scan
FROM pg_stat_user_indexes
WHERE idx_scan = 0
ORDER BY relname;

-- Tables où il manque probablement des indexes
SELECT relname, seq_scan, idx_scan
FROM pg_stat_user_tables
WHERE seq_scan > 0
  AND idx_scan = 0
ORDER BY seq_scan DESC;

Un bon monitoring des indexes combine ces vues avec des dashboards (PMM, Grafana) pour suivre l’évolution dans le temps, pas juste un snapshot.

3.3 Paramètres de Tuning PostgreSQL

Paramètres mémoire

shared_buffers   ~ 25% de la RAM (cas général)
work_mem         dépend du pattern requêtes / connexions
maintenance_work_mem  pour VACUUM, index creation
effective_cache_size   estimation du cache total (OS + PG)

Le monitoring sert ici à valider les hypothèses : hit ratio correct, pas trop de sorts en disque, etc.

WAL & checkpoints

Checkpoints trop fréquents = I/O en dents de scie. Trop rares = recovery plus long, plus de WAL à rejouer.

checkpoint_timeout       (5min à 15min)
max_wal_size             (taille totale WAL avant checkpoint)
checkpoint_completion_target (0.7 à 0.9)

Suivre via PMM les métriques liées aux checkpoints et au WAL pour ajuster sans être à l’aveugle.

4.1 PMM – Overview & Architecture

PMM en deux phrases

Percona Monitoring & Management (PMM) est une solution open-source qui fournit :

Collecte de métriques (Prometheus, exporters).
Dashboards prêts à l’emploi (Grafana).
Alertes basées sur des règles sensibles au contexte DB.

Architecture PMM

[PMM]

PostgreSQL & OS
   |
   | (exporters / agents)
   v
PMM Server (Prometheus + Grafana)
   |
   +-- UI Web (dashboards, explore, alert manager)
   |
   +-- Intégration alerting (email, Slack, webhooks...)

4.2 PMM – Installation rapide (Docker)

PMM Server via Docker

docker run -d \
  -p 8443:443 \
  --name pmm-server \
  --restart always \
  -v pmm-data:/srv \
  percona/pmm-server:latest

Puis ouvrir l’URL web (https://host:8443) et terminer la configuration.

Enregistrer un serveur PostgreSQL

# Sur le serveur PostgreSQL
sudo pmm-admin config --server-url=https://admin:pass@pmm-server:443

# Ajouter l’instance PostgreSQL
sudo pmm-admin add postgresql \
  --username=monitoring_user \
  --password=******** \
  --query-source=pgstatmonitor \
  mypg-prod

Une fois l’instance ajoutée, les dashboards PostgreSQL de PMM commencent à se remplir automatiquement.

4.3 PMM – Dashboards clés

Dashboards à regarder au quotidien

PostgreSQL Overview : connexions, temps de requêtes, QPS.
PostgreSQL Queries : top requêtes, temps moyen, plans.
PostgreSQL InnoDB / Buffers : hit ratio, caches.
PostgreSQL Replication : lag, état des replicas.
Node Overview : CPU, RAM, I/O, load average.

L’intérêt : corréler les événements (pic de CPU, explosion du nombre de requêtes, lancement d’un batch) pour raconter une histoire cohérente lors d’un incident.

5.1 Alerting & SLA PostgreSQL

Exemples d’alertes raisonnables

Exemples de règles (à adapter) :

- Connexions actives > 80% de max_connections pendant 5 min
- Cache hit ratio < 97% sur 10 min
- Lag de réplication > 30 s sur 5 min
- Nombre de requêtes > 1 s > X par minute
- Autovacuum bloqué / wraparound risk à < 1 semaine

Le but n’est pas de spammer les on-call, mais de signaler les situations vraiment dangereuses avant l’impact utilisateur.

5.2 Méthodologie d’audit PostgreSQL

Audit rapide en 60–90 minutes

1️⃣ Contexte
- Version PostgreSQL, OS, type de stockage, volumétrie
- Pattern de trafic (API, batch, BI…)

2️⃣ Santé globale
- Hit ratio, connexions, lag de réplication
- Checkpoints, erreurs dans les logs

3️⃣ Requêtes
- pg_stat_statements : top N par temps total / moyen
- Quelques EXPLAIN ANALYZE ciblés

4️⃣ Autovacuum & bloat
- Tables les plus actives
- Paramétrage autovacuum global & par table

5️⃣ Indices & schema
- Index non utilisés
- Tables très scannées en séquentiel

6️⃣ Reco
- Quick wins (index, paramètres, tâches de maintenance)
- Pistes moyen terme (refactor, partitionnement…)

5.3 Cheat-sheet SQL/psql Monitoring

psql – survie en prod

\l                         -- lister les bases
\dt+                      -- lister les tables + taille
\di+                      -- lister les indexes
\dn                       -- lister les schemas
\df+                      -- lister les fonctions
\x on                     -- mode étendu (vertical)
\watch 5                  -- répéter la dernière requête toutes les 5 s

TOP requêtes utiles

-- Sessions actives
SELECT * FROM pg_stat_activity WHERE state <> 'idle';

-- Tables les plus lourdes
SELECT relname,
       pg_size_pretty(pg_total_relation_size(relid))
FROM pg_catalog.pg_statio_user_tables
ORDER BY pg_total_relation_size(relid) DESC
LIMIT 20;

-- Lag de réplication
SELECT application_name, state, sync_state,
       pg_size_pretty(pg_xlog_location_diff(pg_current_xlog_location(), replay_location)) AS lag
FROM pg_stat_replication;

Audit PostgreSQL en 30 minutes (version “flash”)

CHECKLIST 30 MIN

1. Health rapide (5 min)
   - Hit ratio global
   - Connexions actives vs max
   - Lag de réplication
   - Erreurs récentes dans les logs

2. Requêtes (10 min)
   - Top N pg_stat_statements par temps total
   - 2–3 EXPLAIN ANALYZE sur les plus suspectes

3. Autovacuum & bloat (10 min)
   - Tables avec beaucoup de dead tuples
   - Autovacuum récent ou non
   - Risque de wraparound

4. Reco express (5 min)
   - 2–3 quick wins (index, paramètres, maintenance)
   - Rappeler les limitations du “flash audit”

🐘 PostgreSQL – Monitoring & Tuning (avec PMM)

Panorama Monitoring PostgreSQL

Architecture Observabilité

Choisir ses outils (PMM & co)

Vues pg_stat essentielles

Requêtes lentes & pg_stat_statements

Logs PostgreSQL & auto_explain

Autovacuum & Bloat

Indexes & Plans d’exécution

Paramètres de Tuning

PMM – Overview & Architecture

PMM – Installation rapide

PMM – Dashboards clés

Alerting & SLA

Méthodo d’audit PostgreSQL

Cheat-sheet Monitoring SQL