Cloud FinOps & Optimisation
Transformer la dépense Cloud en investissement. Du modèle culturel aux techniques avancées de réduction des coûts.
Cycle FinOps
Inform, Optimize, Operate. La culture de la responsabilité.
Modèles d'achat
On-Demand vs Reserved vs Savings Plans. Matrice de décision.
Spot Instances
Économiser -90% en gérant les interruptions. Patterns d'architecture.
Allocation & Tags
Showback vs Chargeback. Qui paie quoi ? Stratégie de Tagging.
Rightsizing & Waste
Zombie assets, sur-provisionning et Storage Lifecycle.
Gouvernance
Budgets, Alertes d'anomalies, Policy as Code pour bloquer les coûts.
Le Framework FinOps
FinOps n'est pas seulement "réduire la facture", c'est responsabiliser les équipes sur leur usage du cloud.
- Inform (Visibilité) : Donner aux équipes l'accès aux données de coûts en temps réel. "On ne gère pas ce qu'on ne mesure pas".
- Optimize (Action) : Identifier le gaspillage. Acheter des réservations. Rightsizing.
- Operate (Culture) : Intégrer les coûts dans les processus (CI/CD, Architecture reviews).
Le Triangle de Fer
En Cloud, vous pouvez optimiser Vitesse, Qualité et Coût. FinOps permet de faire des arbitrages éclairés (ex: "On accepte de payer +20% pour livrer 2 semaines plus tôt").
La Matrice des Réductions
Les providers vendent de la certitude. Plus vous vous engagez (temps, montant), moins vous payez.
| Modèle | Engagement | Flexibilité | Réduction Typique | Cas d'usage |
|---|---|---|---|---|
| On-Demand | Aucun (sec/heure) | Maximale | 0% (Prix Base) | Workloads imprévisibles, tests, pics courts. |
| Savings Plans (Compute) | 1 ou 3 ans ($/heure) | Haute (Region, Family, OS) | ~66% (max 72%) | Usage stable global (le nouveau standard). |
| Reserved Instances (RI) | 1 ou 3 ans (Type précis) | Faible (Type spécifique) | ~70% (Standard RI) | Databases (RDS/Elasticache) où SP n'existe pas. |
| Spot Instances | Aucun (Enchère) | Nulle (Interruption) | ~90% | Batch, CI/CD, Stateless web, HPC. |
Pourquoi préférer les Savings Plans aux RIs ?
Les Savings Plans (SP) offrent la même réduction que les RIs mais s'appliquent à un engagement monétaire global (ex: "Je promets de dépenser 10$/h").
- Si vous passez de machines
C5àM6g(Graviton), le SP s'applique automatiquement. - Si vous migrez de la région
eu-west-1àus-east-1, le SP (Compute) s'applique. - Avec les RI classiques, vous étiez coincés avec un type d'instance spécifique.
Spot Instances Mastery
Le concept
Vous utilisez la capacité inutilisée des datacenters. Le cloud provider peut reprendre la machine à tout moment avec un préavis de 2 minutes (Rebalance Recommendation).
Règles d'or pour le Spot
- Stateless : L'application ne doit stocker aucune donnée persistante en local.
- Diversification : Utiliser plusieurs types d'instances (m5.large, m4.large, c5.large) pour éviter qu'une rupture de stock sur un type ne tue tout le cluster.
- Checkpointing : Pour les longs calculs, sauvegarder l'état régulièrement sur S3/EFS.
Allocation & Tagging Strategy
Sans tags, votre facture est une boîte noire de 100k€. Avec des tags, c'est un tableau analytique précis.
Types d'allocation
- Showback : "Voici ce que vous avez dépensé". Informatif. Utilisé pour sensibiliser.
- Chargeback : "Voici la facture que je déduis de votre budget". Punitif/Comptable. Nécessite des données fiables à 100%.
Les Tags Obligatoires
| Tag Key | Exemple | Utilité |
|---|---|---|
CostCenter | CC-1024 | Facturation comptable. |
Environment | Prod, Dev, Staging | Identifier le coût du non-prod. |
Owner | team-data | Savoir qui contacter pour éteindre. |
Application | CustomerPortal | Calculer le ROI par appli. |
Policy-as-Code (Terraform)
Forcer les tags dès le déploiement. Si le tag manque, le déploiement échoue.
Rightsizing & Élimination du Gaspillage
Les ennemis du budget
- Zombie Assets : Une VM allumée mais qui ne fait rien (CPU < 1%). Solution : Auto-shutdown script.
- Orphaned Resources : Un disque EBS détaché d'une instance supprimée, mais qu'on continue de payer. Solution : AWS Config rule.
- Over-provisioning : Utiliser une
c5.4xlargealors qu'unec5.largesuffirait (CPU moy = 5%).
Intelligent Tiering (S3)
La donnée refroidit avec le temps. Ne payez pas le prix fort pour des logs vieux de 3 ans.
| Classe S3 | Coût ($/GB) | Accessibilité | Usage |
|---|---|---|---|
| Standard | $0.023 | Immédiat | Données chaudes (J-30). |
| Standard-IA (Infrequent) | $0.0125 | Immédiat (Frais accès) | Backups récents. |
| Glacier Instant | $0.004 | Immédiat | Archives accessibles rares. |
| Glacier Deep Archive | $0.00099 | 12h à 48h | Compliance légale (garde 10 ans). |
Astuce : Activez S3 Intelligent-Tiering pour laisser AWS bouger les objets automatiquement selon les accès.
Gouvernance Budgétaire
Mieux vaut prévenir que guérir. Empêchez la dépense avant qu'elle n'arrive.
1. Budget Alerts
Recevoir un mail/Slack quand on dépasse 80% du budget prévu.
2. Anomaly Detection
IA qui détecte un pic inhabituel (ex: +200% sur Lambda en 1h) et alerte immédiatement.
3. Hard Limits (Quotas)
Empêcher techniquement le déploiement de ressources coûteuses (ex: Interdire p3.16xlarge en Dev).
Outils du marché
| Outil | Type | Force |
|---|---|---|
| Cost Explorer (AWS) | Natif | Gratuit, précis, mais UX basique. |
| Vantage / CloudZero | SaaS | UX incroyable, vision multi-cloud, focus Engineering. |
| Kubecost | K8s Focus | Visibilité fine dans les clusters Kubernetes (Pod/Namespace). |
| Infracost | DevOps | Estime le coût d'une PR Terraform avant le merge. |
