📊 ELK (Elastic Stack) – Guide complet Logs & Observabilité

1.1 ELK – Vue d’ensemble, cas d’usage & mental model

ELK (Elastic Stack) sert à quoi ?

Centraliser des logs (serveurs, apps, containers) puis permettre : recherche ultra rapide, corrélation, dashboards, et alerting. C’est l’équivalent “Google pour tes logs”, mais industrialisé.

Centralisation Recherche / queries Dashboards Alertes Audit / sécurité

Quand ELK est un bon choix ?

Beaucoup de services / serveurs → besoin d’un “log hub”.
Investigations incidents (500, timeouts, erreurs DB, attaques).
Besoin d’audit : “qui a fait quoi”, “quand”, “depuis quelle IP”.
Recherche full-text sur logs + filtres structurés (JSON).

ELK vs alternatives rapides

Stack	Point fort	Quand
ELK/Elastic	Search + enrich + dashboards riches	Si tu veux “tout” + gros volumes
EFK	Fluent Bit/Fluentd en K8s	Pipeline Kubernetes standard
Loki + Grafana	Simple, souvent moins coûteux	Logs orientés time-series
OpenSearch	Écosystème proche ES	Si tu veux alternative compatible

Bon pattern : logs JSON structurés (app) + enrich (geoip/request_id) → dashboards qui “racontent” l’incident.

Flux ELK (mental model)

[Apps / Servers / Containers]
   │ logs (files, stdout, syslog)
   ▼
[Agents]
  - Filebeat / Elastic Agent
  - Fluent Bit (si K8s)
   │
   ▼
[Ingest layer]
  - Logstash (grok, enrich, route)
  - Elasticsearch ingest pipelines (option)
   │
   ▼
[Elasticsearch]
  - index / data stream
  - mappings + analyzers
  - shards + replicas
  - ILM (retention)
   │
   ▼
[Kibana]
  - Discover (recherche)
  - Dashboards (Lens)
  - Alerting

Objectif : réduire le temps “incident → cause → fix” en rendant les logs consultables en 10 secondes.

Use-cases infra / web

Nginx : top 404/500, latences, IPs, user-agents suspects.
Système : auth.log, sudo, ssh brute-force, kernel messages.
K8s : logs pods + events, corrélations par namespace/app.

Use-cases app (Django)

Erreurs 500 : stack traces + contexte request.
Slow endpoints : corréler logs app ↔ logs DB ↔ Nginx.
Traçabilité : request_id / trace_id du front au back.

Use-cases sécurité

Audit : “quel user a modifié quoi” (admin/backoffice).
Détection anomalies : spikes d’échecs login, scans URL.
GeoIP + reputation (enrich) → dashboards “attaque”.

KPI simples

Errors/minute (5xx)
Top endpoints (p95 latency)
Top IPs / countries
Volume logs / jour (coût)

Pièges classiques (et comment les éviter)

Piège	Symptôme	Solution
Mapping explosion	trop de champs uniques	Logs JSON maîtrisés, dynamic templates
Trop de shards	cluster lent / instable	shards raisonnables + ILM rollover
Grok trop lourd	CPU Logstash high	préférer logs JSON + parse léger
Rétention oubliée	disque explose	ILM + delete policy

1.2 Composants ELK – Elasticsearch, Logstash, Kibana + Beats

Elasticsearch (E)

Moteur d’indexation + recherche (full-text + filtres).
Stockage “document” (JSON) avec mapping (types).
Distribué : shards (scaling) + replicas (HA).

Logstash (L)

Pipeline ingestion : input → filter → output.
Parse (grok), enrich (geoip), normalise, route vers index.
Très flexible mais peut coûter cher en CPU si mal réglé.

Kibana (K)

Interface web : Discover, Lens, dashboards, alerting.
Gestion index patterns / data views, spaces.
Outil principal d’analyse incident (timepicker + filtres).

Beats / Agents (collecte)

Agent	Rôle	Exemple
Filebeat	logs fichiers	/var/log/nginx/access.log
Metricbeat	metrics système	CPU, RAM, FS, process
Heartbeat	uptime probes	HTTP/ICMP checks
Auditbeat	audit sécurité	syscalls, file integrity

Best practice : privilégier logs JSON structurés côté app (moins de grok, moins de CPU).

1.3 Architecture ELK – patterns, index naming & conventions

3 patterns courants

Pattern	Flux	Quand
Direct to ES	Beats → Elasticsearch	Simple, faible parsing
Via Logstash	Beats → Logstash → ES	Parsing/enrich avancé
Ingest pipelines ES	Beats → ES (pipeline)	Moins de briques, parsing modéré

Rule of thumb:
- Si tu peux: logs JSON → Beats → ES (pipeline léger)
- Si tu dois: formats hétérogènes → Logstash (grok + enrich)

Nommage d’index (lisible + ILM)

Exemples:
- logs-nginx-prod-YYYY.MM.DD
- logs-django-prod-YYYY.MM.DD
- logs-system-dev-YYYY.MM.DD

Ou en data streams (recommandé):
- logs-nginx-prod (data stream) -> backing indices gérés par rollover/ILM

But : query facile + rétention facile (ILM) + séparation prod/dev.

Champs standard (minimum viable schema)

Champ	Usage	Exemple
@timestamp	time picker	2026-01-10T09:15:12Z
service.name	filtre service	django-api
env	prod/dev	prod
log.level	INFO/WARN/ERROR	ERROR
http.response.status_code	5xx dashboards	500
trace.id / request_id	corrélation	2f3a…

Qualité des données (ELK “pro”)

Décider : JSON logs ou texte + grok (JSON recommandé).
Normaliser niveaux : DEBUG/INFO/WARN/ERROR.
Ajouter request_id dans Nginx + app (corrélation).
Éviter champs dynamiques (risque mapping explosion).

2.1 Installation ELK – Docker Compose + checklist prod

Docker Compose minimal (lab)

version: "3.8"
services:
  elasticsearch:
    image: docker.elastic.co/elasticsearch/elasticsearch:8.12.0
    environment:
      - discovery.type=single-node
      - xpack.security.enabled=false
      - ES_JAVA_OPTS=-Xms1g -Xmx1g
    ulimits:
      memlock: { soft: -1, hard: -1 }
    ports: ["9200:9200"]
  kibana:
    image: docker.elastic.co/kibana/kibana:8.12.0
    environment:
      - ELASTICSEARCH_HOSTS=http://elasticsearch:9200
    ports: ["5601:5601"]
    depends_on: [elasticsearch]
  logstash:
    image: docker.elastic.co/logstash/logstash:8.12.0
    ports: ["5044:5044"]
    depends_on: [elasticsearch]

En prod : sécurité ON, TLS, users, et cluster multi-nodes (pas single-node).

Pré-requis Linux (très fréquent)

# Elasticsearch a souvent besoin de :
sudo sysctl -w vm.max_map_count=262144
# (persist: /etc/sysctl.conf)

# Vérifier mémoire/disque:
free -h
df -h

Si ES refuse de démarrer, vm.max_map_count est souvent la cause.

Checklist production

Thème	À faire
HA	≥ 3 nodes ES (master/data), replicas > 0
Disque	Surveiller watermark + ILM delete
Security	TLS, auth, RBAC, network restrictions
Rétention	ILM rollover + delete (jours)
Backup	Snapshots repository (S3/NFS)

Ports courants

9200 : Elasticsearch HTTP API
9300 : Elasticsearch transport (cluster interne)
5601 : Kibana
5044 : Logstash beats input

En prod : éviter d’exposer 9200 publiquement (WAF/VPN + auth + TLS).

2.2 Filebeat – collecte logs Nginx/Django + multiline + processors

Collecte Nginx

filebeat.inputs:
- type: filestream
  id: nginx-access
  paths:
    - /var/log/nginx/access.log
  fields:
    service: nginx
    env: prod
  fields_under_root: true

output.logstash:
  hosts: ["logstash:5044"]

Idéal : logs Nginx en JSON (sinon grok côté Logstash).

Collecte logs app Django

filebeat.inputs:
- type: filestream
  id: django-app
  paths:
    - /opt/app/logs/django.log
  fields:
    service: django
    env: prod
  fields_under_root: true

processors:
  - add_host_metadata: ~
  - add_cloud_metadata: ~

Si tes logs Django sont JSON → tu peux parser directement (moins de grok).

Multiline (stack traces)

parsers:
  - multiline:
      type: pattern
      pattern: '^\['
      negate: true
      match: after

Objectif : une exception Python = un seul “event” indexé.

Best practices agents

Ajouter service, env, host en champs standard.
Limiter bruit : DEBUG en prod seulement si nécessaire.
Rotation logs côté OS/app + vérifier permissions.
Éviter données sensibles (tokens, passwords) dans logs.

2.3 Logstash – inputs, grok, enrich, routing vers index

Pipeline type

input {
  beats { port => 5044 }
}

filter {
  # parse/enrich ici
}

output {
  elasticsearch {
    hosts => ["http://elasticsearch:9200"]
    index => "logs-%{service}-%{env}-%{+YYYY.MM.dd}"
  }
}

Grok (si logs texte)

filter {
  if [service] == "nginx" {
    grok {
      match => { "message" => "%{IPORHOST:client_ip} - %{DATA:remote_user} \[%{HTTPDATE:ts}\] \"%{WORD:method} %{DATA:uri} HTTP/%{NUMBER:http_version}\" %{NUMBER:status} %{NUMBER:bytes}" }
    }
  }
}

Grok est puissant mais coûteux : si possible, préfère logs JSON.

Enrichissement (geoip + fingerprint)

filter {
  if [client_ip] {
    geoip { source => "client_ip" }
  }
  fingerprint {
    source => ["message"]
    target => "event_hash"
    method => "SHA1"
  }
}

Routing vers index différents

output {
  if [service] == "django" {
    elasticsearch { index => "logs-django-%{env}-%{+YYYY.MM.dd}" }
  } else if [service] == "nginx" {
    elasticsearch { index => "logs-nginx-%{env}-%{+YYYY.MM.dd}" }
  } else {
    elasticsearch { index => "logs-misc-%{env}-%{+YYYY.MM.dd}" }
  }
}

2.4 Pipeline de bout en bout – “Nginx + Django → ELK” (prêt incident)

Objectif : corrélation avec request_id

Nginx génère un $request_id (ou trace header).
Django récupère ce header et le loggue.
Dans Kibana : filtre sur request_id → tu vois le chemin complet.

Nginx (concept)

# access_log JSON + request_id (idéal)
log_format json escape=json '{ "ts":"$time_iso8601", "request_id":"$request_id",
 "status":$status, "method":"$request_method", "uri":"$request_uri",
 "ip":"$remote_addr", "ua":"$http_user_agent", "rt":$request_time }';
access_log /var/log/nginx/access.log json;

Django (concept)

# Middleware: inject request_id into logs
# Log JSON: {"service":"django","request_id":"...","level":"ERROR","msg":"..."}

Dashboards Kibana “incident”

Top 5xx (par uri)
Latence p95 (par endpoint)
Top IPs / UA
Erreurs Django (stack traces) + request_id

Si tu fais JSON logs partout (Nginx + Django), tu réduis Logstash à “route + enrich”, et ELK devient beaucoup plus stable.

3.1 Elasticsearch – index, mappings, shards/replicas, templates

Concepts essentiels

Index : collection de documents (JSON)
Document : event log enrichi
Mapping : types (keyword/text/date/long…)
Analyzer : full-text search (tokenization)

Mapping : éviter les surprises

- keyword : filtres exacts (service, env, status)
- text    : full-text (message)
- date    : @timestamp
- long    : bytes, latency_ms

Danger : champs dynamiques non maîtrisés → “mapping explosion”.

Shards/replicas : l’erreur n°1

Trop de shards = surcharge metadata + cluster lent.
Pas assez = index trop gros, queries lentes.
ILM + rollover = stratégie moderne (index “petits”).

Requêtes utiles (concept Kibana)

service: nginx AND env: prod AND http.response.status_code: >=500
request_id: "abc123"
message: "timeout" AND NOT uri: "/health"

3.2 ILM – rétention, rollover, hot/warm/cold & optimisation coûts

Pourquoi ILM est indispensable ?

Maîtriser le disque (sinon “ELK remplit tout”).
Optimiser la perf : récent = hot, ancien = cold.
Automatiser : rollover + delete.

ILM phases (classique):
- hot  : indexation + queries fréquentes
- warm : moins de perf, storage moins cher
- cold : archive
- delete: suppression après X jours

Règles simples (pragmatiques)

Type logs	Rétention	Note
Access logs	7–30 jours	utile incidents + stats
App errors	30–90 jours	debug long terme
Audit sécurité	90–365 jours	compliance (selon besoin)

Toujours adapter à tes volumes (GB/jour) et au budget disque.

3.3 Kibana – Discover, Lens, Dashboards, Spaces & Alerting

Discover = enquête

Filtrer par service, env, status, request_id.
Timepicker : réduire la fenêtre pour performance.
Sauvegarder des recherches (saved search) pour réutiliser.

Lens = graphiques rapides

Time series : erreurs/minute, latence p95.
Top values : top endpoints, top IPs.
Breakdown : par env/service.

Dashboards “prod web” recommandés

HTTP 5xx (par endpoint)
Latence p95 (par endpoint)
Top IP / UA
Django ERROR logs (stack traces)
DB timeouts / slow queries (si loggués)

Alerting (concept)

Alert 1: 5xx rate > threshold for 5 minutes
Alert 2: p95 latency > threshold
Alert 3: login failures spike (security)

Commencer simple, sinon trop d’alertes = ignorées.

4.1 Sécurité ELK – TLS, Auth, RBAC, réseau & hardening

Règles d’or

Ne pas exposer ES (9200) sur Internet sans contrôle strict.
Activer auth + TLS (trafic chiffré, credentials protégés).
RBAC : séparer viewers (Kibana) vs admins cluster.
Masquer/filtrer données sensibles dans logs.

Segmentation réseau

- ES cluster: réseau privé
- Kibana: accès via VPN / reverse proxy / SSO
- Agents: envoyent vers Logstash/ES via réseau interne

Modèle rôles (simple)

Rôle	Droits	Qui
Viewer	lecture dashboards	dev / support
Analyst	Discover + dashboards	SRE / incident
Admin	index/templates/ILM	ops plateforme

Important : si tes logs contiennent des tokens, ELK devient un “coffre à secrets” involontaire → à éviter absolument.

4.2 Scaling & Sizing – volumes, shards strategy, perf & coûts

Questions à poser (dimensionnement)

GB/jour de logs ? (nginx + app + system)
Rétention ? (jours)
Queries ? (combien d’utilisateurs Kibana)
Parsing ? (grok lourd ou JSON)

Quick estimation (très simple)

Stock ≈ (GB/jour) * (jours rétention) * (facteur overhead 1.2 à 2.0)
Ex: 20 GB/jour * 30j * 1.5 ≈ 900 GB

Perf : leviers principaux

ILM + rollover (indices petits et gérables).
Limiter shards : trop = overhead, pas assez = gros index.
Préférer logs JSON (moins de grok → plus de throughput).
Prévoir nodes dédiés (ingest vs data) si gros volumes.

4.3 Troubleshooting – erreurs fréquentes & playbooks

Symptômes typiques

Kibana lent / timeouts
Index en read-only / flood stage disk watermark
Ingestion qui “drop” (perte events)
Mapping explosion (trop de champs)
Logstash CPU 100% (grok lourd)

Causes fréquentes

Cause	Effet
Disque plein	ES bloque writes (read-only)
Trop de shards	cluster overhead énorme
Grok trop complexe	ingestion lente
Champs dynamiques	mapping explosion

Fix rapides (pragmatiques)

Activer ILM + réduire rétention (si disque).
Réduire shards + rollover (indices plus petits).
Passer vers logs JSON pour réduire grok.
Limiter champs dynamiques (templates).

Playbook incident ELK

Réduire time range + filtre service/env.
Checker disque + watermark.
Observer ingestion rate (agents/logstash).
Identifier index “heavy” (trop gros / trop shards).
Appliquer ILM / rollover / delete policy.

5.1 Cheat-sheet ELK – règles d’or, checklists & commandes utiles

Règles d’or

1) Logs JSON si possible (moins de grok)
2) ILM (rollover + delete) dès le début
3) Pas d'ES exposé publiquement
4) Shards raisonnables (éviter l'explosion)
5) Champs standards: service/env/@timestamp/request_id

Checklist “Go Live”

Rétention configurée (jours)
Dashboards incident (5xx, latency, top endpoints)
RBAC (viewer vs admin)
Alertes simples (5xx rate, latency)
Backup snapshots (si requis)

Commandes “concept” (tests)

# Test ES
curl -s http://localhost:9200

# Lister indices (cat)
curl -s "http://localhost:9200/_cat/indices?v"

# Health cluster
curl -s "http://localhost:9200/_cluster/health?pretty"

# Kibana
http://localhost:5601

Anti-patterns

Pas d’ILM → disque plein
Grok partout → CPU Logstash explose
Logs non structurés sans conventions
Champs dynamiques incontrôlés

Si tu veux, je te fais une “modal bonus” : ELK pour IDEO-Lab (Nginx + Gunicorn + Django) avec une convention de logs JSON + dashboards prêts à reproduire.

📊 ELK / Elastic Stack – Logs, Recherche & Dashboards

ELK en bref

Composants (E/L/K + Beats)

Architecture type

Installation (Docker / Linux)

Filebeat / Agents

Logstash (parse & enrich)

Elasticsearch (indexation)

3.2 ILM & rétention

Kibana (dashboards)

4.1 Sécurité

Scaling & sizing

Troubleshooting