Project Oxygen & Ideo-LabIDEO LAB Dashboard 2026

⚙️ DevOps — concept, histoire, pratiques, toolchain & KPIs

DevOps = une culture d’ingénierie + des pratiques + un outillage qui relient Dev & Ops pour livrer vite et fiable : build → test → deploy → observe → improve. Le cœur : automation, feedback loops, ownership, mesure, sécurité intégrée.

1.1

DevOps — définition “pro”

Pas un job-title : un système socio-technique. Objectif : réduire lead time & incidents via automation + standards + ownership.

CultureAutomationOwnership

Historique (Agile → CI/CD → Cloud)

De l’admin “tickets” → pipelines → infrastructure as code → SRE/observability → DevSecOps → platform engineering.

AgileCI/CDCloud

Principes (les invariants)

Small batches, trunk-based, CI, immutable artifacts, IaC, “you build it you run it”, blameless, SLOs.

FlowFeedbackLearning
1.2

Pipeline CI/CD (de A à Z)

Commit → build → tests → security scans → package → deploy staging → verify → deploy prod → monitor → rollback.

CICDRelease

Infrastructure as Code (IaC)

Provisioning versionné, reproductible, auditable. GitOps, modules, policy-as-code, drift detection.

TerraformGitOpsPolicy

Observabilité & SRE

Logs/metrics/traces, SLI/SLO, error budget, on-call, incident response, postmortems, capacity & perf.

SLOTracingReliability

DevSecOps (sécurité intégrée)

SAST/DAST/SCA, secrets scanning, SBOM, supply-chain, least privilege, review IaC, hardening images.

SBOMSASTSupply-chain

Platform Engineering

Internal Developer Platform : “golden paths”, self-service, templates, paved roads, standards, finops.

IDPGolden PathSelf-service

KPIs (DORA + Ops)

Deploy frequency, lead time, change failure rate, MTTR + availability, p95 latency, error rate, cost/unit.

DORAMTTRSLO
2.1

Anti-patterns & pièges

“DevOps team = ticket factory”, pipelines fragiles, environnements divergents, secrets dans git, pas de rollback, pas d’ownership.

DebtRiskReality

Playbook “DevOps in 30 jours”

Quick wins : CI basique, env parity, deploy staging, observabilité minimale, runbook, rollback, on-call léger.

RoadmapQuick winsRun

Cheat-sheet DevOps

Définition, différences avec Agile/SRE, pipeline, IaC, observabilité, sécurité, KPIs, checklists prod.

ChecklistProdOps
DevOps — overview densifié (culture + pipeline + ops + sécurité + mesure)
Mental model (boucle DevOps)
Plan / CodePR small batches, trunk-based, review
Buildartifact immuable, versionné
Testunit → integration → smoke
SecureSAST/SCA/secrets/SBOM
Deploystaging → canary/blue-green → prod
Operaterunbooks, on-call, incidents
Observelogs/metrics/traces, SLOs
Improvepostmortems, automation, platform
DevOps n’est PAS…
MytheRéalitéConséquence
“DevOps = une équipe”responsabilité partagée + plateformesinon : tickets & friction
“DevOps = CI/CD”CI/CD = un sous-ensemblesans ops/obs : incidents
“DevOps = Docker/K8s”outils ≠ culturecomplexité inutile
Le “contrat production” (minimum)
Pour être "prod-ready", une app doit avoir :
- build reproductible (artifact versionné)
- deploy automatisé (staging + prod)
- rollback / recovery documentés
- observabilité minimale (logs + metrics + alerting)
- config par env + secrets sécurisés
- tests CI + scanning sécurité
- runbook + ownership (qui supporte ?)
          

DevOps = réduire le délai entre une intention (feature/fix) et un résultat fiable en production, avec une boucle de feedback courte.

Règle d’or
Si tu ne peux pas déployer et rollbacker en confiance,
tu ne fais pas du DevOps : tu fais du “deployment stress”.
1.1 Définition — DevOps : système socio-technique + automation + ownership + mesure
Définition “engineering”

DevOps désigne l’ensemble des pratiques qui réduisent la friction entre développement et exploitation, en rendant le cycle de livraison automatisé, observable et sécurisé. Il ne s’agit pas d’un outil mais d’un système : process (workflow), tech (pipeline, IaC), et humain (ownership, on-call).

Automation first
Feedback loops
Shared ownership
Measure everything
Infrastructure as product
DevOps = FLOW + FEEDBACK + LEARNING
FLOW     : petites batches, CI, trunk-based, release fréquente
FEEDBACK : observabilité, SLO, alerting, postmortems
LEARNING : amélioration continue, automatisation, standardisation
            
One-liner (à coller dans IDEO-Lab)
DevOps = culture + pratiques + outillage
qui industrialisent la livraison (CI/CD) et l’exploitation (run/observe/recover),
en réduisant lead time et incidents via automation, ownership et mesure.
            

DevOps “réussi” : un dev peut livrer en prod en confiance (garde-fous, tests, rollback, observabilité).

Objectifs : ce que DevOps optimise vraiment
ObjectifIndicateurLevier
Vitesselead timeCI, small batches, automation
Fiabilitéchange failure ratetests, progressive delivery
RécupérationMTTRrollback, runbooks, observability
Qualitéincident ratestandards, reviews, SLOs
Coûtcost/unitFinOps, capacity, right sizing
DevOps vs SRE (complémentaires)
DimensionDevOpsSRE
Butlivrer vite & fiableassurer fiabilité avec SLO + budgets
MoyensCI/CD, IaC, automation, cultureobservability, incident mgmt, reliability engineering
Focusdelivery pipeline + ops standardsréduction toil, capacité, perf, incidents

Dans la pratique : DevOps construit les “routes pavées” ; SRE définit les garde-fous fiabilité et le run.

Organisation (ce qui marche)
  • Ownership : une équipe produit garde la responsabilité du run (au moins niveau 1), avec support plateforme.
  • Plateforme : une équipe “platform” fournit des golden paths (templates, pipelines, observability, auth, IaC modules).
  • Self-service : provisionner, déployer, observer sans ticket (avec policy-as-code).
  • Blameless : postmortems orientés système, pas personnes.
Historique — de l’IT “silos” au cloud-native (et platform engineering)
Timeline (approche pragmatique)
Avant 2005
Ops “à la main” : déploiements manuels, tickets, environnements divergents, gros releases → risques élevés.
2005–2010
Agile & CI : tests automatisés, intégration continue, feedback plus rapide.
2010–2015
CD & automation : pipelines, infra scripting, immutable artifacts, virtualization puis containers.
2015–2020
Cloud & IaC : Terraform/CloudFormation, K8s, microservices, observability, GitOps émerge.
2020–…
DevSecOps + Supply-chain : SAST/SCA, SBOM, signature artifacts, policy-as-code.
Aujourd’hui
Platform Engineering : IDP, golden paths, self-service, standardisation à l’échelle.
Le fil conducteur
Plus on déploie souvent, plus il faut :
- automatiser
- standardiser
- observer
- sécuriser
=> DevOps devient inévitable à l’échelle.
          
Pourquoi DevOps s’impose
Pain pointRéponse DevOpsEffet
Releases raressmall batches + CI/CDmoins de risque par changement
Envs divergentsIaC + parity + containersmoins de surprises prod
Prod opaqueobservabilityMTTR réduit
Sécurité tardiveshift-left securitymoins de failles en prod

Le “vrai” DevOps arrive quand l’industrialisation (pipelines, IaC, obs) devient un produit interne.

Principes — invariants DevOps (flow, feedback, learning, standards)
Les 10 invariants (pragmatiques)
  1. Small batches : livrer par petites unités (moins de risque).
  2. Trunk-based : branches courtes, merge fréquent.
  3. CI : build & tests automatiques à chaque commit.
  4. Immutable artifacts : ce qui est testé est déployé (même artifact).
  5. IaC : infra versionnée, reproductible, auditable.
  6. Environment parity : staging ≈ prod (mêmes configs/versions).
  7. Observability : logs/metrics/traces + alerting utile.
  8. Progressive delivery : canary, blue/green, feature flags.
  9. Security by design : shift-left + supply-chain.
  10. Measure & improve : KPIs, postmortems, automatisation continue.
Release management : “on déploie souvent sans trembler”
Patterns :
- Feature flags (déployer sans activer)
- Canary release (5% → 25% → 100%)
- Blue/Green (switch instant)
- Rollback (version N-1) + roll-forward (fix rapide)
- Database migrations safe (expand/contract)
        

Les feature flags réduisent le couplage “release = feature”.

Run : ce que “ops-friendly” veut dire
CapacitéAttenduExemple
Diagnosticscorr_id, logs structuréstrace request
Résiliencetimeouts, retries, circuit-breakeréviter cascade failure
Recoveryrunbook, restore, rollbackRTO/RPO
Capacityautoscaling, budgetsload tests
People : la partie “invisible” mais décisive
  • Blameless : on corrige le système, pas les personnes.
  • Shared ownership : pas de “mur” Dev/Ops.
  • Toil reduction : automatiser ce qui se répète.
  • Platform as product : l’outillage interne a un backlog, des SLA, une UX.
Pipeline CI/CD — blueprint complet (gates, sécurité, release, rollback)
Flow “standard” (du commit à prod)
Commit/PR
  -> Lint + Unit tests
  -> Build artifact (version, sha)
  -> SCA/SAST + secrets scan + SBOM
  -> Integration tests (db/cache/queues)
  -> Package (container/image) + signature
  -> Deploy STAGING (IaC/GitOps)
  -> Smoke tests + perf sanity + security checks
  -> Approval policy (si nécessaire)
  -> Progressive deploy PROD (canary/blue-green)
  -> Verify SLO (p95, error rate)
  -> Promote/roll forward
        
Gates (ce qui bloque un déploiement)
GateCheckBut
Qualitytests + coverage minimaléviter régressions
SecuritySAST/SCA + secrets scanréduire vulnérabilités
PolicyIaC policy-as-codegarde-fous infra
Runtimesmoke + SLO verifydétection rapide

Un gate efficace est automatique, rapide, et actionnable (message clair).

Database migrations “safe” (expand/contract)
Pattern expand/contract :
1) Expand : ajouter colonnes/tables compat (nullable, defaults)
2) Deploy app compatible (lit ancien + nouveau)
3) Backfill data (job idempotent)
4) Switch reads/writes (feature flag)
5) Contract : supprimer ancien schéma
=> objectif : zéro downtime, rollback possible
        

Piège : migrations “destructives” au mauvais moment (DROP/ALTER lourds) sans stratégie.

Rollback & recovery (à préparer avant)
Rollback application :
- redeploy version N-1 (artifact immuable)
- revert feature flags
- vérifier SLO

Rollback DB :
- éviter autant que possible (complexe)
- préférer migrations backward-compatible
- snapshots/restore en dernier recours

Toujours :
- runbook + exercice (game day)
        
Infrastructure as Code — IaC, GitOps, policy-as-code, drift & modules
Pourquoi IaC est central
  • Reproductible : même infra en dev/staging/prod.
  • Auditable : Git history = qui a changé quoi.
  • Testable : lint/plan/validate, environnements éphémères.
  • Automatisable : self-service via modules.
GitOps (idée simple)
Git = source of truth
Un agent réconcilie l'état réel vers l'état désiré
=> drift détecté, changements traçables
          
Garde-fous IaC
Garde-fouButExemple
Modulesstandardiservpc module, db module
Policy-as-codebloquer erreurspas de SG 0.0.0.0/0
Plan reviewvisibilitédiff infra dans PR
Drift detectionalignementalert si change manuel

L’IaC échoue surtout par absence de conventions (modules) et par changements manuels (drift).

Observabilité & SRE — SLI/SLO, error budget, alerting, incidents, postmortems
Logs / Metrics / Traces (et pourquoi les 3)
SignalRépond àBon usage
Logs“Que s’est-il passé ?”events structurés + corr_id
Metrics“Ça va ?”SLO, capacity, dashboards
Traces“Où est la latence ?”latency breakdown, deps
4 golden signals (SRE) :
- latency (p95/p99)
- traffic (RPS)
- errors (rate)
- saturation (CPU, DB connections, queue depth)
        
SLI / SLO / Error budget
SLI = mesure (ex: % requêtes < 300ms)
SLO = cible (ex: 99.9% sur 30 jours)
Error budget = marge d'erreur acceptable

Usage :
- si budget consommé -> freeze features, fiabilisation
- sinon -> on ship
        

Un SLO est un contrat “produit”. Il doit refléter l’expérience utilisateur, pas la vanité métrique.

Alerting utile (pas du bruit)
  • Page uniquement si action immédiate requise.
  • Préférer symptom-based (SLO breach) plutôt que cause-based partout.
  • Chaque alerte doit avoir : runbook + owner + severity.
  • Éviter : alertes CPU sans contexte, “flapping”, seuils statiques ignorants du trafic.
Incident response + postmortem (blameless)
Incident flow :
1) Detect (alert/SLO)
2) Triage (severity, scope)
3) Mitigate (rollback, disable feature, scale)
4) Communicate (status)
5) Resolve (root cause fix)
6) Postmortem (actions préventives + automation)

Postmortem = document système :
- timeline
- contributing factors
- detection gaps
- corrective actions (owner + due date)
        
DevSecOps — sécurité intégrée (shift-left + supply-chain + runtime)
Shift-left (dans la CI)
ContrôleButOutput
SASTbugs sécurité codefindings PR
SCAvulns depsCVE + remediation
Secrets scanéviter fuitesblock merge
IaC scanmisconfig infrapolicy violation

Règle : sécurité = automatique et developer-friendly, sinon elle est contournée.

Supply-chain (ce qui devient critique)
Pratiques :
- SBOM généré (liste deps)
- signature des artifacts (images, packages)
- provenance (build attestations)
- registries privés
- pin versions + allowlist
- mise à jour deps régulière
        

Objectif : savoir “ce qui tourne en prod” et pouvoir patcher vite.

Runtime security (prod)
  • Least privilege (IAM minimal, RBAC, service accounts).
  • Secrets management (pas d’env vars en clair si possible, rotation).
  • Hardening images (base minimal, patch cadence).
  • Network policies (segmentation, egress control).
  • Audit logs (who did what).
Platform Engineering — IDP, golden paths, self-service & paved roads
Pourquoi “platform” apparaît

Quand l’organisation grandit, “faire du DevOps” au niveau équipe produit devient coûteux. On crée une plateforme interne pour standardiser et réduire la charge cognitive (cognitive load).

Golden pathstarter template + pipeline + obs + security
Self-serviceprovision db/cache/queue sans ticket
Paved roadchemin simple & supporté → adoption
Guardrailspolicy-as-code, RBAC, budgets
Product mindsetroadmap, UX dev, SLA
Ce qu’une IDP doit fournir (minimum)
CapacitéLivrableEffet
Templatesstarter repocohérence immédiate
PipelinesCI/CD standarddelivery fiable
Observabilitédashboards & alertsMTTR réduit
Secrets/IAMpatternssécurité systémique
Runbooksops docssupport plus simple

Une plateforme réussie est celle que les devs choisissent (UX + adoption), pas celle qu’on impose par décret.

KPIs — DORA + métriques ops (SLO, perf, coût, qualité)
DORA (4 métriques qui comptent)
MétriqueDéfinitionButLeviers
Deployment Frequencydéploiements / tempsflowautomation, small batches
Lead Timecommit → prodvitesseCI rapide, trunk-based
Change Failure Rate% deploys qui cassentqualitétests, canary, flags
MTTRmean time to restorerésilienceobs, rollback, runbooks
SLO & Run metrics
SignalExemplePourquoi
Availability99.9%expérience utilisateur
Latencyp95 & p99perception perf
Error rate5xx%stabilité
SaturationCPU, DB connsprévenir incidents
FinOps (cost/unit)
Mesurer :
- coût par requête / par utilisateur / par job
- coût stockage / logs / traces
- coût des environnements non utilisés

Leviers :
- right sizing
- autoscaling
- retention policies
- budgets + alerting
        
Qualité (signal “long terme”)
  • Flakiness tests (%)
  • Time-to-detect incidents
  • Backlog dette technique (et sa tendance)
  • Vulnérabilités ouvertes (âge moyen)
  • MTBF (time between failures) si pertinent
Anti-patterns — ce qui tue DevOps (et comment corriger)
Top anti-patterns
Anti-patternPourquoi ça arriveConséquence
“DevOps team” ticket factoryownership absentbottleneck + frustration
Pipelines fragilespas de standards, scripts ad hocCI rouge = blocage
Envs divergentspas de parity“works on my machine”
Secrets dans Gitmanque de secret managerincident sécurité
Pas de rollbackrelease non penséeincidents longs
Alert fatiguetrop d’alertes non actionnableson ignore
Tool-driven DevOpsfocus outilscomplexité sans ROI
Symptômes “ça ne marche pas”
  • Déployer prend des heures/jours et nécessite des experts.
  • CI rouge en permanence, tests flakey, scripts non maintenus.
  • On-call “panique”, pas de runbooks.
  • Les incidents se répètent (pas d’actions postmortem).
  • La plateforme est évitée (pas d’UX, pas de golden path).
Remèdes (concrets)
1) Mettre un "golden pipeline" standard (template)
2) Imposer parity staging/prod (IaC, versions)
3) Ajouter rollback + progressive delivery
4) Observabilité minimale + runbooks
5) Réduire alert noise (SLO based)
6) Security scanning + secret manager
7) Ownership clair + postmortems actionnables
        
Playbook “DevOps in 30 jours” — quick wins + standardisation progressive
Jours 1–7 : stabiliser le flow
  1. CI minimal : lint + unit tests + build artifact immuable.
  2. Secrets : retirer du repo, introduire un secret manager.
  3. Staging “vrai” : environnement dédié + parity maximale.
  4. Release notes : version + changelog automatique.
  5. Rollback app : procédure redeploy N-1 validée.
Jours 8–15 : fiabiliser
  1. Tests d’intégration (DB/queue/cache) en CI.
  2. Observabilité minimale : logs structurés + metrics p95 + error rate.
  3. Alerting : 3 alertes max (SLO, errors, saturation).
  4. Runbooks : top 5 incidents probables.
Jours 16–30 : industrialiser
  1. IaC : infra versionnée (au moins les ressources critiques).
  2. Progressive delivery : canary ou blue/green + feature flags.
  3. Security scans : SAST/SCA + SBOM + signature artifacts.
  4. Postmortems : format standard + actions suivies.
  5. Golden path : starter template + pipeline + obs intégrés.

Objectif 30 jours : déployer en confiance, rollback rapidement, voir ce qui se passe, et réduire la charge cognitive.

Definition of Done “prod”
- pipeline green
- deploy staging auto
- deploy prod progressive
- rollback documenté
- dashboards + alerts
- secrets safe
- runbook + owner
          
Cheat-sheet DevOps — one page (définition, pipeline, IaC, obs, sécurité, KPIs)
Checklist DevOps (prod-ready)
  1. CI : lint + unit tests + build artifact versionné.
  2. CD : deploy staging auto + smoke tests.
  3. Deploy prod : progressive (canary/blue-green) + verify SLO.
  4. Rollback : redeploy N-1 + feature flags.
  5. IaC : infra versionnée + plan review + drift detection.
  6. Secrets : manager + rotation + least privilege.
  7. Observabilité : logs structurés + metrics + traces.
  8. Alerting : SLO-based, actionnable, runbooks.
  9. Runbooks : top incidents + restore DB (RTO/RPO).
  10. Security : SAST/SCA + SBOM + signature artifacts.
  11. Ownership : qui supporte ? on-call ? escalade ?
  12. Mesure : DORA + MTTR + SLO + cost/unit.
Résumé (à copier)
DevOps = culture + pratiques + outillage qui industrialisent
la livraison et l'exploitation des logiciels.

Objectifs :
- réduire lead time (vitesse)
- réduire change failure rate (qualité)
- réduire MTTR (recovery)
- respecter des SLO (fiabilité)

Moyens :
CI/CD + IaC + observabilité + sécurité intégrée + ownership + mesure.
          
Mini diagram (workflow)
Code -> CI -> Artifact -> Deploy Staging -> Verify -> Deploy Prod
                 |                             |
              Security scans                Observe/SLO
                 |                             |
              SBOM/Sign                   Rollback/Runbook