IA – Audit & Conseils

Bonnes pratiques d’implémentation dans votre projet : diagnostic express, architecture cible (RAG), prompts & contrats de sortie, gouvernance des données, sécurité & conformité, performance & coûts, qualité/monitoring, plan de déploiement.

Checklist d’audit Blueprint architecture Policies & conformité SLO/Coûts/Qualité

Scorecard (ex.) 0–5 par axe :
• Valeur business • Risques • Données • Tech/Infra • Sécurité • Change • Mesurabilité • Time-to-Value

Matrice RACI (ex.)

Activité	R	A	C	I
Policy IA	SecOps	CISO	Légal	Produit
Datasets	Data	CDO	IA/Produit	Juridique
Déploiement	DevOps	CTO	Produit	Support

ROI & coûts (cadre)

ROI ≈ (gains/h)×heures_économisées – (infra + licences + Ops)
Time-to-Value : POC ≤ 4–6 sem. → pilote → prod

Risques principaux

Hallucinations non surveillées.
Fuite PII/secrets (prompts/logs).
Non-conformité licences datasets.

Tip : fixer des critères de sortie POC → pilote (qualité, coûts, sécurité, adoption) et les mesurer objectivement.

Bonnes pratiques

Split 500–1500 tokens, overlap 10–20%.
Re-rank (BM25 + dense) avant prompt.
Citations (URL, date) + IDs passages dans les logs.

Contrat de sortie (RAG)

<policy>Réponds UNIQUEMENT si justifié par PASSAGES.</policy>
<format>{"answer":"...", "citations":[{"title":"...","url":"..."}], "confidence":0.0}</format>

Anti-patterns

Top-k trop élevé → bruit & latence.
Pas de normalisation d’URL/dates.
Absence de cache embeddings & réponses.

RAG = Docs → Split → Embed → Index → Retrieve(k) → Re-rank → Prompt → LLM → Validation/Schema

Structure de prompt

System: rôle, objectifs, contraintes (format, ton)
User: consignes + <data> + <rules>
Assistant: few-shot + contre-exemples

JSON strict + validation

{"answer":"...", "citations":["..."], "risk":0.0}
# Côté serveur → JSON Schema / Pydantic

Défenses injection

Ignorer toute instruction demandant d’ignorer les règles.
Stop sequences + séparation des rôles/messages.
Validation post-sortie → refus guidé si non conforme.

Tip : inclure des contre-exemples de mauvais format dans le few-shot, puis la correction attendue.

Checklist curation

Dédupliquer, nettoyer, normaliser (langue, dates).
Filtrer contenus toxiques/confidentiels.
Tracer licences & sources (URL, date).

PII & rétention

Anonymiser/hasher PII avant stockage.
TTL des logs, purge automatique.
Chiffrement en transit/au repos.

Tableau (risques licences)

Signal	Risque	Mesure
Licence floue	Élevé	Remplacer/obtenir autorisation
Contenu sensible	Moyen	Masquage + policy
Sources instables	Moyen	Snapshot + cache

Data → Curation → Index/Store → Versioning → Observabilité (qualité/usage)

DPIA (trame)

Finalités & base légale.
PII traitées & minimisation.
Transferts, conservation, sécurité.

Policies (YAML – extrait)

deny:
  - "exfiltration secrets"
  - "violence explicite"
refusal:
  text: "Je ne peux pas vous aider sur ce sujet."
thresholds: {toxicity: 0.85, pii: 0.7}

Anti-patterns

Logs en clair avec PII.
Un seul classifieur de modération.
Pas de registre des modèles/prompts.

Tip : séparer prompts “métier” et policies (fichier versionné) pour auditer/mettre à jour sans retoucher l’app.

Métriques clés

Indicateur	Définition	Objectif
latency p95	ms/réponse	≤ SLA
tokens/s	débit génération	≥ cible
cost/1k tok	coût unitaire	↘ continu

Formules utiles

cost ≈ (tok_in + tok_out) × unit_price + stockage + egress
throughput ≈ (batch_eff × tok_out) / latence_step

Optimisations

Quantization (INT8/4) + canary qualité.
RAG : réduire k, re-rank, cache embeddings.
Streaming + max_new_tokens & early-stop.

Router → Runtimes (vLLM/… ) → Observability → Budgets & Alerting

Golden set (ex.)

{"id":"g1","task":"extraction email","prompt":"...","gold":"{\"email\":\"x@y.com\"}"}
{"id":"g2","task":"résumé 3 puces","prompt":"...","gold":"- A\n- B\n- C"}

Hallucinations

Contrats RAG + citations obligatoires.
Échantillonnage continu & score hallucination.
Refus guidés si sources insuffisantes.

A/B & canary

router:
  v1: 90%  → modèle A (référence)
  v2: 10%  → modèle B (nouvelle version)

CI (tests offline) → Canary (prod) → Promotion/rollback selon métriques

Roadmap (ex.)

S0–S2 : POC (risques/valeur)
S3–S6 : Pilote (A/B, SLO)
S7+   : Prod (SLA, budgets, support)

Change management

Guides d’usage & anti-exemples.
Formations “prompting métier”.
Feedback → backlog produit IA.

Runbook incident

on_alert(breach):
  freeze_deployments()
  route_to_canary(reference_model)
  rollback_if_needed()
  replay_samples()
  postmortem_with_actions()

Tip : documenter des ADR (Architecture Decision Records) pour chaque choix clé (modèle, RAG, quotas, sécurité).

IA – Audit & Conseils

Diagnostic & Maturité

Architecture & RAG

Prompts & Contrats

Données & Gouvernance

Sécurité & Conformité

Performance & Coûts

Qualité & Monitoring

Déploiement & Change