⚙️ DevOps — concept, histoire, pratiques, toolchain & KPIs

DevOps = une culture d’ingénierie + des pratiques + un outillage qui relient Dev & Ops pour livrer vite et fiable : build → test → deploy → observe → improve. Le cœur : automation, feedback loops, ownership, mesure, sécurité intégrée.

1.1

DevOps — définition “pro”

Pas un job-title : un système socio-technique. Objectif : réduire lead time & incidents via automation + standards + ownership.

CultureAutomationOwnership

Historique (Agile → CI/CD → Cloud)

De l’admin “tickets” → pipelines → infrastructure as code → SRE/observability → DevSecOps → platform engineering.

AgileCI/CDCloud

Principes (les invariants)

Small batches, trunk-based, CI, immutable artifacts, IaC, “you build it you run it”, blameless, SLOs.

FlowFeedbackLearning

1.2

Pipeline CI/CD (de A à Z)

Commit → build → tests → security scans → package → deploy staging → verify → deploy prod → monitor → rollback.

CICDRelease

Infrastructure as Code (IaC)

Provisioning versionné, reproductible, auditable. GitOps, modules, policy-as-code, drift detection.

TerraformGitOpsPolicy

Observabilité & SRE

Logs/metrics/traces, SLI/SLO, error budget, on-call, incident response, postmortems, capacity & perf.

SLOTracingReliability

DevSecOps (sécurité intégrée)

SAST/DAST/SCA, secrets scanning, SBOM, supply-chain, least privilege, review IaC, hardening images.

SBOMSASTSupply-chain

Platform Engineering

Internal Developer Platform : “golden paths”, self-service, templates, paved roads, standards, finops.

IDPGolden PathSelf-service

KPIs (DORA + Ops)

Deploy frequency, lead time, change failure rate, MTTR + availability, p95 latency, error rate, cost/unit.

DORAMTTRSLO

2.1

Anti-patterns & pièges

“DevOps team = ticket factory”, pipelines fragiles, environnements divergents, secrets dans git, pas de rollback, pas d’ownership.

DebtRiskReality

Playbook “DevOps in 30 jours”

Quick wins : CI basique, env parity, deploy staging, observabilité minimale, runbook, rollback, on-call léger.

RoadmapQuick winsRun

★

Cheat-sheet DevOps

Définition, différences avec Agile/SRE, pipeline, IaC, observabilité, sécurité, KPIs, checklists prod.

ChecklistProdOps

DevOps — overview densifié (culture + pipeline + ops + sécurité + mesure)

Mental model (boucle DevOps)

Plan / CodePR small batches, trunk-based, review

Buildartifact immuable, versionné

Testunit → integration → smoke

SecureSAST/SCA/secrets/SBOM

Deploystaging → canary/blue-green → prod

Operaterunbooks, on-call, incidents

Observelogs/metrics/traces, SLOs

Improvepostmortems, automation, platform

DevOps n’est PAS…

Mythe	Réalité	Conséquence
“DevOps = une équipe”	responsabilité partagée + plateforme	sinon : tickets & friction
“DevOps = CI/CD”	CI/CD = un sous-ensemble	sans ops/obs : incidents
“DevOps = Docker/K8s”	outils ≠ culture	complexité inutile

Le “contrat production” (minimum)

Pour être "prod-ready", une app doit avoir :
- build reproductible (artifact versionné)
- deploy automatisé (staging + prod)
- rollback / recovery documentés
- observabilité minimale (logs + metrics + alerting)
- config par env + secrets sécurisés
- tests CI + scanning sécurité
- runbook + ownership (qui supporte ?)

DevOps = réduire le délai entre une intention (feature/fix) et un résultat fiable en production, avec une boucle de feedback courte.

Règle d’or

Si tu ne peux pas déployer et rollbacker en confiance,
tu ne fais pas du DevOps : tu fais du “deployment stress”.

1.1 Définition — DevOps : système socio-technique + automation + ownership + mesure

Définition “engineering”

DevOps désigne l’ensemble des pratiques qui réduisent la friction entre développement et exploitation, en rendant le cycle de livraison automatisé, observable et sécurisé. Il ne s’agit pas d’un outil mais d’un système : process (workflow), tech (pipeline, IaC), et humain (ownership, on-call).

Automation first

Feedback loops

Shared ownership

Measure everything

Infrastructure as product

DevOps = FLOW + FEEDBACK + LEARNING

FLOW     : petites batches, CI, trunk-based, release fréquente
FEEDBACK : observabilité, SLO, alerting, postmortems
LEARNING : amélioration continue, automatisation, standardisation

One-liner (à coller dans IDEO-Lab)

DevOps = culture + pratiques + outillage
qui industrialisent la livraison (CI/CD) et l’exploitation (run/observe/recover),
en réduisant lead time et incidents via automation, ownership et mesure.

DevOps “réussi” : un dev peut livrer en prod en confiance (garde-fous, tests, rollback, observabilité).

Objectifs : ce que DevOps optimise vraiment

Objectif	Indicateur	Levier
Vitesse	lead time	CI, small batches, automation
Fiabilité	change failure rate	tests, progressive delivery
Récupération	MTTR	rollback, runbooks, observability
Qualité	incident rate	standards, reviews, SLOs
Coût	cost/unit	FinOps, capacity, right sizing

DevOps vs SRE (complémentaires)

Dimension	DevOps	SRE
But	livrer vite & fiable	assurer fiabilité avec SLO + budgets
Moyens	CI/CD, IaC, automation, culture	observability, incident mgmt, reliability engineering
Focus	delivery pipeline + ops standards	réduction toil, capacité, perf, incidents

Dans la pratique : DevOps construit les “routes pavées” ; SRE définit les garde-fous fiabilité et le run.

Organisation (ce qui marche)

Ownership : une équipe produit garde la responsabilité du run (au moins niveau 1), avec support plateforme.
Plateforme : une équipe “platform” fournit des golden paths (templates, pipelines, observability, auth, IaC modules).
Self-service : provisionner, déployer, observer sans ticket (avec policy-as-code).
Blameless : postmortems orientés système, pas personnes.

Historique — de l’IT “silos” au cloud-native (et platform engineering)

Timeline (approche pragmatique)

Avant 2005

Ops “à la main” : déploiements manuels, tickets, environnements divergents, gros releases → risques élevés.

2005–2010

Agile & CI : tests automatisés, intégration continue, feedback plus rapide.

2010–2015

CD & automation : pipelines, infra scripting, immutable artifacts, virtualization puis containers.

2015–2020

Cloud & IaC : Terraform/CloudFormation, K8s, microservices, observability, GitOps émerge.

2020–…

DevSecOps + Supply-chain : SAST/SCA, SBOM, signature artifacts, policy-as-code.

Aujourd’hui

Platform Engineering : IDP, golden paths, self-service, standardisation à l’échelle.

Le fil conducteur

Plus on déploie souvent, plus il faut :
- automatiser
- standardiser
- observer
- sécuriser
=> DevOps devient inévitable à l’échelle.

Pourquoi DevOps s’impose

Pain point	Réponse DevOps	Effet
Releases rares	small batches + CI/CD	moins de risque par changement
Envs divergents	IaC + parity + containers	moins de surprises prod
Prod opaque	observability	MTTR réduit
Sécurité tardive	shift-left security	moins de failles en prod

Le “vrai” DevOps arrive quand l’industrialisation (pipelines, IaC, obs) devient un produit interne.

Principes — invariants DevOps (flow, feedback, learning, standards)

Les 10 invariants (pragmatiques)

Small batches : livrer par petites unités (moins de risque).
Trunk-based : branches courtes, merge fréquent.
CI : build & tests automatiques à chaque commit.
Immutable artifacts : ce qui est testé est déployé (même artifact).
IaC : infra versionnée, reproductible, auditable.
Environment parity : staging ≈ prod (mêmes configs/versions).
Observability : logs/metrics/traces + alerting utile.
Progressive delivery : canary, blue/green, feature flags.
Security by design : shift-left + supply-chain.
Measure & improve : KPIs, postmortems, automatisation continue.

Release management : “on déploie souvent sans trembler”

Patterns :
- Feature flags (déployer sans activer)
- Canary release (5% → 25% → 100%)
- Blue/Green (switch instant)
- Rollback (version N-1) + roll-forward (fix rapide)
- Database migrations safe (expand/contract)

Les feature flags réduisent le couplage “release = feature”.

Run : ce que “ops-friendly” veut dire

Capacité	Attendu	Exemple
Diagnostics	corr_id, logs structurés	trace request
Résilience	timeouts, retries, circuit-breaker	éviter cascade failure
Recovery	runbook, restore, rollback	RTO/RPO
Capacity	autoscaling, budgets	load tests

People : la partie “invisible” mais décisive

Blameless : on corrige le système, pas les personnes.
Shared ownership : pas de “mur” Dev/Ops.
Toil reduction : automatiser ce qui se répète.
Platform as product : l’outillage interne a un backlog, des SLA, une UX.

Pipeline CI/CD — blueprint complet (gates, sécurité, release, rollback)

Flow “standard” (du commit à prod)

Commit/PR
  -> Lint + Unit tests
  -> Build artifact (version, sha)
  -> SCA/SAST + secrets scan + SBOM
  -> Integration tests (db/cache/queues)
  -> Package (container/image) + signature
  -> Deploy STAGING (IaC/GitOps)
  -> Smoke tests + perf sanity + security checks
  -> Approval policy (si nécessaire)
  -> Progressive deploy PROD (canary/blue-green)
  -> Verify SLO (p95, error rate)
  -> Promote/roll forward

Gates (ce qui bloque un déploiement)

Gate	Check	But
Quality	tests + coverage minimal	éviter régressions
Security	SAST/SCA + secrets scan	réduire vulnérabilités
Policy	IaC policy-as-code	garde-fous infra
Runtime	smoke + SLO verify	détection rapide

Un gate efficace est automatique, rapide, et actionnable (message clair).

Database migrations “safe” (expand/contract)

Pattern expand/contract :
1) Expand : ajouter colonnes/tables compat (nullable, defaults)
2) Deploy app compatible (lit ancien + nouveau)
3) Backfill data (job idempotent)
4) Switch reads/writes (feature flag)
5) Contract : supprimer ancien schéma
=> objectif : zéro downtime, rollback possible

Piège : migrations “destructives” au mauvais moment (DROP/ALTER lourds) sans stratégie.

Rollback & recovery (à préparer avant)

Rollback application :
- redeploy version N-1 (artifact immuable)
- revert feature flags
- vérifier SLO

Rollback DB :
- éviter autant que possible (complexe)
- préférer migrations backward-compatible
- snapshots/restore en dernier recours

Toujours :
- runbook + exercice (game day)

Infrastructure as Code — IaC, GitOps, policy-as-code, drift & modules

Pourquoi IaC est central

Reproductible : même infra en dev/staging/prod.
Auditable : Git history = qui a changé quoi.
Testable : lint/plan/validate, environnements éphémères.
Automatisable : self-service via modules.

GitOps (idée simple)

Git = source of truth
Un agent réconcilie l'état réel vers l'état désiré
=> drift détecté, changements traçables

Garde-fous IaC

Garde-fou	But	Exemple
Modules	standardiser	vpc module, db module
Policy-as-code	bloquer erreurs	pas de SG 0.0.0.0/0
Plan review	visibilité	diff infra dans PR
Drift detection	alignement	alert si change manuel

L’IaC échoue surtout par absence de conventions (modules) et par changements manuels (drift).

Observabilité & SRE — SLI/SLO, error budget, alerting, incidents, postmortems

Logs / Metrics / Traces (et pourquoi les 3)

Signal	Répond à	Bon usage
Logs	“Que s’est-il passé ?”	events structurés + corr_id
Metrics	“Ça va ?”	SLO, capacity, dashboards
Traces	“Où est la latence ?”	latency breakdown, deps

4 golden signals (SRE) :
- latency (p95/p99)
- traffic (RPS)
- errors (rate)
- saturation (CPU, DB connections, queue depth)

SLI / SLO / Error budget

SLI = mesure (ex: % requêtes < 300ms)
SLO = cible (ex: 99.9% sur 30 jours)
Error budget = marge d'erreur acceptable

Usage :
- si budget consommé -> freeze features, fiabilisation
- sinon -> on ship

Un SLO est un contrat “produit”. Il doit refléter l’expérience utilisateur, pas la vanité métrique.

Alerting utile (pas du bruit)

Page uniquement si action immédiate requise.
Préférer symptom-based (SLO breach) plutôt que cause-based partout.
Chaque alerte doit avoir : runbook + owner + severity.
Éviter : alertes CPU sans contexte, “flapping”, seuils statiques ignorants du trafic.

Incident response + postmortem (blameless)

Incident flow :
1) Detect (alert/SLO)
2) Triage (severity, scope)
3) Mitigate (rollback, disable feature, scale)
4) Communicate (status)
5) Resolve (root cause fix)
6) Postmortem (actions préventives + automation)

Postmortem = document système :
- timeline
- contributing factors
- detection gaps
- corrective actions (owner + due date)

DevSecOps — sécurité intégrée (shift-left + supply-chain + runtime)

Shift-left (dans la CI)

Contrôle	But	Output
SAST	bugs sécurité code	findings PR
SCA	vulns deps	CVE + remediation
Secrets scan	éviter fuites	block merge
IaC scan	misconfig infra	policy violation

Règle : sécurité = automatique et developer-friendly, sinon elle est contournée.

Supply-chain (ce qui devient critique)

Pratiques :
- SBOM généré (liste deps)
- signature des artifacts (images, packages)
- provenance (build attestations)
- registries privés
- pin versions + allowlist
- mise à jour deps régulière

Objectif : savoir “ce qui tourne en prod” et pouvoir patcher vite.

Runtime security (prod)

Least privilege (IAM minimal, RBAC, service accounts).
Secrets management (pas d’env vars en clair si possible, rotation).
Hardening images (base minimal, patch cadence).
Network policies (segmentation, egress control).
Audit logs (who did what).

Platform Engineering — IDP, golden paths, self-service & paved roads

Pourquoi “platform” apparaît

Quand l’organisation grandit, “faire du DevOps” au niveau équipe produit devient coûteux. On crée une plateforme interne pour standardiser et réduire la charge cognitive (cognitive load).

Golden pathstarter template + pipeline + obs + security

Self-serviceprovision db/cache/queue sans ticket

Paved roadchemin simple & supporté → adoption

Guardrailspolicy-as-code, RBAC, budgets

Product mindsetroadmap, UX dev, SLA

Ce qu’une IDP doit fournir (minimum)

Capacité	Livrable	Effet
Templates	starter repo	cohérence immédiate
Pipelines	CI/CD standard	delivery fiable
Observabilité	dashboards & alerts	MTTR réduit
Secrets/IAM	patterns	sécurité systémique
Runbooks	ops docs	support plus simple

Une plateforme réussie est celle que les devs choisissent (UX + adoption), pas celle qu’on impose par décret.

KPIs — DORA + métriques ops (SLO, perf, coût, qualité)

DORA (4 métriques qui comptent)

Métrique	Définition	But	Leviers
Deployment Frequency	déploiements / temps	flow	automation, small batches
Lead Time	commit → prod	vitesse	CI rapide, trunk-based
Change Failure Rate	% deploys qui cassent	qualité	tests, canary, flags
MTTR	mean time to restore	résilience	obs, rollback, runbooks

SLO & Run metrics

Signal	Exemple	Pourquoi
Availability	99.9%	expérience utilisateur
Latency	p95 & p99	perception perf
Error rate	5xx%	stabilité
Saturation	CPU, DB conns	prévenir incidents

FinOps (cost/unit)

Mesurer :
- coût par requête / par utilisateur / par job
- coût stockage / logs / traces
- coût des environnements non utilisés

Leviers :
- right sizing
- autoscaling
- retention policies
- budgets + alerting

Qualité (signal “long terme”)

Flakiness tests (%)
Time-to-detect incidents
Backlog dette technique (et sa tendance)
Vulnérabilités ouvertes (âge moyen)
MTBF (time between failures) si pertinent

Anti-patterns — ce qui tue DevOps (et comment corriger)

Top anti-patterns

Anti-pattern	Pourquoi ça arrive	Conséquence
“DevOps team” ticket factory	ownership absent	bottleneck + frustration
Pipelines fragiles	pas de standards, scripts ad hoc	CI rouge = blocage
Envs divergents	pas de parity	“works on my machine”
Secrets dans Git	manque de secret manager	incident sécurité
Pas de rollback	release non pensée	incidents longs
Alert fatigue	trop d’alertes non actionnables	on ignore
Tool-driven DevOps	focus outils	complexité sans ROI

Symptômes “ça ne marche pas”

Déployer prend des heures/jours et nécessite des experts.
CI rouge en permanence, tests flakey, scripts non maintenus.
On-call “panique”, pas de runbooks.
Les incidents se répètent (pas d’actions postmortem).
La plateforme est évitée (pas d’UX, pas de golden path).

Remèdes (concrets)

1) Mettre un "golden pipeline" standard (template)
2) Imposer parity staging/prod (IaC, versions)
3) Ajouter rollback + progressive delivery
4) Observabilité minimale + runbooks
5) Réduire alert noise (SLO based)
6) Security scanning + secret manager
7) Ownership clair + postmortems actionnables

⚙️ DevOps — concept, histoire, pratiques, toolchain & KPIs

DevOps — définition “pro”

Historique (Agile → CI/CD → Cloud)

Principes (les invariants)

Pipeline CI/CD (de A à Z)

Infrastructure as Code (IaC)

Observabilité & SRE

DevSecOps (sécurité intégrée)

Platform Engineering

KPIs (DORA + Ops)

Anti-patterns & pièges

Playbook “DevOps in 30 jours”

Cheat-sheet DevOps

Mental model (boucle DevOps)

DevOps n’est PAS…

Le “contrat production” (minimum)

Règle d’or

Définition “engineering”

DevOps = FLOW + FEEDBACK + LEARNING

One-liner (à coller dans IDEO-Lab)

Objectifs : ce que DevOps optimise vraiment

DevOps vs SRE (complémentaires)

Organisation (ce qui marche)

Timeline (approche pragmatique)

Le fil conducteur

Pourquoi DevOps s’impose

Les 10 invariants (pragmatiques)

Release management : “on déploie souvent sans trembler”

Run : ce que “ops-friendly” veut dire

People : la partie “invisible” mais décisive

Flow “standard” (du commit à prod)

Gates (ce qui bloque un déploiement)

Database migrations “safe” (expand/contract)

Rollback & recovery (à préparer avant)

Pourquoi IaC est central

GitOps (idée simple)

Garde-fous IaC

Logs / Metrics / Traces (et pourquoi les 3)

SLI / SLO / Error budget

Alerting utile (pas du bruit)

Incident response + postmortem (blameless)

Shift-left (dans la CI)

Supply-chain (ce qui devient critique)

Runtime security (prod)

Pourquoi “platform” apparaît

Ce qu’une IDP doit fournir (minimum)

DORA (4 métriques qui comptent)

SLO & Run metrics

FinOps (cost/unit)

Qualité (signal “long terme”)

Top anti-patterns

Symptômes “ça ne marche pas”

Remèdes (concrets)

Jours 1–7 : stabiliser le flow

Jours 8–15 : fiabiliser

Jours 16–30 : industrialiser

Definition of Done “prod”

Checklist DevOps (prod-ready)

Résumé (à copier)

Mini diagram (workflow)