Project Oxygen & Ideo-LabIDEO LAB Dashboard 2026
← Retour au PortFolio DevOps / Cloud / Infra • DevOps / SRE

Plateforme DevOps HashiCorp multi-cloud

FusionLabs Cloud Engineering — Germany
Difficulté : Expert

Plateforme DevOps HashiCorp – CI/CD unifiée et déploiement multi-cloud (Nomad / Consul / Vault)

FusionLabs Cloud Engineering — Germany — DevOps / Cloud / Infra

Période : 01/04/2022 → 28/02/2023 Rôle : Lead DevOps Architect — responsable de : - Conception de l’architecture cible HashiCorp multi-cloud - Mise en place de la plateforme Nomad/Consul/Vault (AWS + GCP) - Industrialisation de la création d’images via Packer - Définition des modules Terraform réutilisables - Design des pipelines CI/CD GitHub Actions (multi-env, multi-cloud) - Mise en place de l’observabilité (Prometheus, Loki, Tempo) - Coaching de l’équipe DevOps et des équipes produit sur la nouvelle plateforme Métier : DevOps / SRE Type : Automatisation / CI/CD Confidentialité : Semi-public (détails partiels)
Contexte du projet

Mission / objectif : Construire une plateforme DevOps unifiée, basée sur la stack HashiCorp (Terraform, Packer, Nomad, Consul, Vault), capable de déployer et d’observer 80+ microservices sur AWS et GCP avec des pipelines CI/CD standardisés.

Globex Digital Services avait accumulé plusieurs générations d’outillage DevOps : Jenkins historiques, scripts bash, jobs ponctuels dans GitLab CI et GitHub Actions, déploiements manuels sur des VM hétérogènes (AWS, GCP, on-premise). Les délais de mise en production étaient longs, les incidents fréquents et l’on manquait de visibilité.

La direction technique a décidé de mettre en place une véritable 'DevOps Platform' pour uniformiser :
- La création d’images machines
- La gestion d’infrastructure (IaC)
- Le déploiement applicatif
- La gestion des secrets
- L’observabilité.

Le choix s’est porté sur la stack HashiCorp : Packer pour les images, Terraform pour l’IaC, Nomad pour l’orchestration des workloads, Consul pour le service discovery et Vault pour les secrets, le tout orchestré par une couche CI/CD GitHub Actions.

Méthodologie & organisation :

- Méthode hybride : Scrum pour les features, Kanban pour les migrations
- Sprints de 3 semaines avec objectifs d’infrastructure clairs
- RFC (Request For Comments) systématiques pour les changements majeurs
- Environnements dev / staging / prod strictement isolés
- Stratégie progressive : migration service par service, feature flag et décommission contrôlé
- Revues post-mortem détaillées pour chaque incident lié à la plateforme

Livrables principaux :

- Cluster Nomad HA (3 régions logiques : EU, US, staging)
- Mesh Consul pour le service discovery et les health checks
- Plateforme Vault HA (auto-unseal + PKI interne)
- Modules Terraform pour l’infra AWS & GCP (réseau, compute, stockage, observabilité)
- Pipelines GitHub Actions modélisés en templates réutilisables
- Images de base Packer (Ubuntu Hardened + agents Nomad/Consul/Vault)
- Portail interne 'DevOps Platform' avec documentation et exemples
- Tableaux de bord Grafana pour la plateforme (charge, erreurs, latence, santé des allocations Nomad)

Difficultés & enjeux

- Environnements multi-cloud (AWS + GCP) avec politiques de sécurité différentes
- Migration de jobs batch et services legacy vers Nomad sans downtime perceptible
- Harmonisation des secrets (Vault) alors que chaque équipe avait son propre système
- Besoin de self-service pour les développeurs, sans compromettre la sécurité
- Gestion fine des coûts : éviter de dupliquer l’infrastructure inutilement
- Nécessité d’avoir une plateforme exploitable par l’équipe NOC 24/7

Solutions & architecture

- Mise en place d’un 'Control Plane' HashiCorp sur AWS (Nomad / Consul / Vault en HA)
- Workers Nomad répartis sur AWS et GCP, avec tagging par région / équipe / criticité
- Modules Terraform standardisés pour créer des jobs Nomad + les ressources associées (LB, logs, métriques)
- Intégration profonde GitHub Actions ↔ Terraform Cloud pour les plans/apply
- Séparation des secrets applicatifs, infra, et credentials cloud dans Vault avec policies dédiées
- Modèle de self-service : chaque équipe dispose d’un repo 'service-template' avec pipelines préconfigurés
- Dashboards Grafana + alertes Prometheus tournés vers les métriques Nomad & Consul (allocations, CPU, mémoire, restart, latence HTTP)
- Documentation complète (runbooks, guides de migration, patterns d’architecture) accessible via un portail Django interne

Résultats & impact

- Temps moyen de déploiement d’un service : 45 minutes → 5 minutes
- 80+ microservices migrés en 8 mois, sans incident majeur de disponibilité
- Réduction de 28% du coût infra global (meilleure densité et autoscaling Nomad)
- 95% des nouveaux services créés via les templates standardisés (GitHub Actions + Terraform)
- Incident P1 lié à la configuration / déploiement : quasiment nul sur les 6 derniers mois
- Satisfaction des équipes produit : +4,6/5 lors du sondage interne sur la nouvelle plateforme

Stack technique & outillage
Stack principale

Outillage, CI/CD, monitoring

Infos complémentaires

Type de projet : Automatisation / CI/CD

Tags techniques :
CI/CD Consul DevOps Django Portal GitHub Actions HashiCorp Nomad Multi-cloud AWS / GCP Observabilité Packer Terraform Vault

Sécurité & durcissement :

- Authentification des opérateurs via SSO (OIDC) + MFA
- Policies Vault fines (RBAC par équipe / environnement)
- Secrets jamais présents en clair dans les repos Git
- Réseau segmenté (VPC peering et firewall strict entre contrôle et workers)
- Chiffrement systématique (at-rest + in-transit)
- Audit logs Vault et Consul envoyés dans un SIEM central

Notes d’architecture :

- Control plane HashiCorp en HA sur AWS
- Workers Nomad répartis sur AWS et GCP (tagging par zone / type de workload)
- Jobs stateless priorisés, état externalisé (DB, caches, storage)
- CI/CD GitHub Actions → Terraform Cloud → Nomad
- Observabilité full-stack (Prometheus + Grafana + Loki)
- Portail DevOps pour rendre la plateforme utilisable par tous les développeurs

Publication : Visible sur le site public IDEO-Lab