IA – Audit & Conseils
Bonnes pratiques d’implémentation dans votre projet : diagnostic express, architecture cible (RAG), prompts & contrats de sortie, gouvernance des données, sécurité & conformité, performance & coûts, qualité/monitoring, plan de déploiement.
Checklist d’audit Blueprint architecture Policies & conformité SLO/Coûts/Qualité
Glossaire express
- RAG : Retrieval Augmented Generation (réponses appuyées par documents).
- Groundedness : appui sur sources citées.
- Contract de sortie : format strict (JSON/CSV) validé côté serveur.
- SLO/SLA : objectif/accord de service (p95, erreurs, coût).
- DPIA : analyse d’impact protection des données.
- PII : données personnelles identifiantes.
- Canary : déploiement fractionné pour tester en prod.
- Golden set : corpus d’évaluation figé et versionné.
- Rate limit : quotas requêtes/tokens par clé.
- RBAC : contrôle d’accès par rôles.
Diagnostic & Maturité — portée, risques, ROI & gouvernance
Scorecard (ex.) 0–5 par axe :
• Valeur business • Risques • Données • Tech/Infra • Sécurité • Change • Mesurabilité • Time-to-Value
Matrice RACI (ex.)
| Activité | R | A | C | I |
|---|---|---|---|---|
| Policy IA | SecOps | CISO | Légal | Produit |
| Datasets | Data | CDO | IA/Produit | Juridique |
| Déploiement | DevOps | CTO | Produit | Support |
ROI & coûts (cadre)
ROI ≈ (gains/h)×heures_économisées – (infra + licences + Ops)
Time-to-Value : POC ≤ 4–6 sem. → pilote → prodRisques principaux
- Hallucinations non surveillées.
- Fuite PII/secrets (prompts/logs).
- Non-conformité licences datasets.
Tip : fixer des critères de sortie POC → pilote (qualité, coûts, sécurité, adoption) et les mesurer objectivement.
Architecture & RAG — blueprint cible & patterns
Bonnes pratiques
- Split 500–1500 tokens, overlap 10–20%.
- Re-rank (BM25 + dense) avant prompt.
- Citations (URL, date) + IDs passages dans les logs.
Contrat de sortie (RAG)
<policy>Réponds UNIQUEMENT si justifié par PASSAGES.</policy>
<format>{"answer":"...", "citations":[{"title":"...","url":"..."}], "confidence":0.0}</format>Anti-patterns
- Top-k trop élevé → bruit & latence.
- Pas de normalisation d’URL/dates.
- Absence de cache embeddings & réponses.
RAG = Docs → Split → Embed → Index → Retrieve(k) → Re-rank → Prompt → LLM → Validation/Schema
Prompts & Contrats — robustesse, few-shot, formats stricts
Structure de prompt
System: rôle, objectifs, contraintes (format, ton)
User: consignes + <data> + <rules>
Assistant: few-shot + contre-exemplesJSON strict + validation
{"answer":"...", "citations":["..."], "risk":0.0}
# Côté serveur → JSON Schema / PydanticDéfenses injection
- Ignorer toute instruction demandant d’ignorer les règles.
- Stop sequences + séparation des rôles/messages.
- Validation post-sortie → refus guidé si non conforme.
Tip : inclure des contre-exemples de mauvais format dans le few-shot, puis la correction attendue.
Données & Gouvernance — curation, licences, PII & lineage
Checklist curation
- Dédupliquer, nettoyer, normaliser (langue, dates).
- Filtrer contenus toxiques/confidentiels.
- Tracer licences & sources (URL, date).
PII & rétention
- Anonymiser/hasher PII avant stockage.
- TTL des logs, purge automatique.
- Chiffrement en transit/au repos.
Tableau (risques licences)
| Signal | Risque | Mesure |
|---|---|---|
| Licence floue | Élevé | Remplacer/obtenir autorisation |
| Contenu sensible | Moyen | Masquage + policy |
| Sources instables | Moyen | Snapshot + cache |
Data → Curation → Index/Store → Versioning → Observabilité (qualité/usage)
Sécurité & Conformité — guardrails, modération, DPIA/RGPD
DPIA (trame)
- Finalités & base légale.
- PII traitées & minimisation.
- Transferts, conservation, sécurité.
Policies (YAML – extrait)
deny:
- "exfiltration secrets"
- "violence explicite"
refusal:
text: "Je ne peux pas vous aider sur ce sujet."
thresholds: {toxicity: 0.85, pii: 0.7}Anti-patterns
- Logs en clair avec PII.
- Un seul classifieur de modération.
- Pas de registre des modèles/prompts.
Tip : séparer prompts “métier” et policies (fichier versionné) pour auditer/mettre à jour sans retoucher l’app.
Performance & Coûts — SLO/SLA, p95, budgets & optimisations
Métriques clés
| Indicateur | Définition | Objectif |
|---|---|---|
| latency p95 | ms/réponse | ≤ SLA |
| tokens/s | débit génération | ≥ cible |
| cost/1k tok | coût unitaire | ↘ continu |
Formules utiles
cost ≈ (tok_in + tok_out) × unit_price + stockage + egress
throughput ≈ (batch_eff × tok_out) / latence_stepOptimisations
- Quantization (INT8/4) + canary qualité.
- RAG : réduire k, re-rank, cache embeddings.
- Streaming + max_new_tokens & early-stop.
Router → Runtimes (vLLM/… ) → Observability → Budgets & Alerting
Qualité & Monitoring — golden sets, hallucinations, A/B & canary
Golden set (ex.)
{"id":"g1","task":"extraction email","prompt":"...","gold":"{\"email\":\"x@y.com\"}"}
{"id":"g2","task":"résumé 3 puces","prompt":"...","gold":"- A\n- B\n- C"}Hallucinations
- Contrats RAG + citations obligatoires.
- Échantillonnage continu & score hallucination.
- Refus guidés si sources insuffisantes.
A/B & canary
router:
v1: 90% → modèle A (référence)
v2: 10% → modèle B (nouvelle version)CI (tests offline) → Canary (prod) → Promotion/rollback selon métriques
Déploiement & Change — plan projet, adoption & runbooks
Roadmap (ex.)
S0–S2 : POC (risques/valeur)
S3–S6 : Pilote (A/B, SLO)
S7+ : Prod (SLA, budgets, support)Change management
- Guides d’usage & anti-exemples.
- Formations “prompting métier”.
- Feedback → backlog produit IA.
Runbook incident
on_alert(breach):
freeze_deployments()
route_to_canary(reference_model)
rollback_if_needed()
replay_samples()
postmortem_with_actions()Tip : documenter des ADR (Architecture Decision Records) pour chaque choix clé (modèle, RAG, quotas, sécurité).
