Thématique — IA Générative
I. Introduction
FondamentauxDéfinitions, jalons, métriques clés, cas d’école.
II. Types de génération
MultimodalLLM, diffusion, speech, vidéo, 3D & data — capacités, limites, contrôles.
III. Modèles & Écosystèmes
ComparatifsGPT/Claude/Gemini/Llama/Mixtral : forces, coûts, risques.
IV. Architecture & Training
TransformersTokenisation, attention, MoE, RLHF/DPO, inférence & ops.
V. Cas d’usage
EntrepriseAssistants, marketing, IT/data, juridique, produit, RH…
VI. Éthique & Légal
ConformitéGouvernance, sécurité, copyright, traçabilité, AI Act.
VII. Prompting & Context
RAGPatrons efficaces, anti-patterns, RAG robuste, évaluation.
VIII. Déploiement
MLOpsPEFT/quantization, vLLM/Ollama, monitoring & coûts.
IX. Perspectives
2026–2030Agents outillés, confiance, 3D reasoning, simulation-first.
X. Ressources
GlossaireLexique, bibliographie, liens clés, checklists & templates.
Définition rapide
Un modèle génératif apprend une distribution sur des données (texte, image, audio, vidéo, code) et échantillonne de nouveaux exemples plausibles. Contraire d’un modèle discriminatif qui classe.
Familles principales
- Autoregressifs : LLM (chat, code, TTS) — sampling (temp, top-p, top-k, pénalités).
- Diffusion : image/vidéo — in/out-painting, img2img, ControlNet, IP-Adapter.
- Multimodal natif : vision-langage, audio-langage, agents VLA.
Pourquoi maintenant ?
- Transformer (2017) + scaling laws → capacité émergente.
- Compute (GPU/TPU/NPU) + jeux de données massifs.
- Alignement (instruction-tuning, RLHF/DPO) pour l’usage humain.
Capacités par modalités
- Conversation / agents
- Résumé & extraction
- Traduction
- Génération de code
- Génération d’images
- Text-to-video
- TTS / voix clonée
- 3D / scènes
Limites inhérentes
- Stochastique : sorties variables, non déterministes.
- Hallucinations : erreurs plausibles si contexte pauvre.
- Connaissance figée à la date d’entraînement (hors RAG/outils).
Repères techniques
- 2017 : Transformer.
- 2019–2020 : GPT-2/3, BPE + pré-entraînement massif.
- 2020–2022 : Diffusion → images haute qualité.
- 2022 : RLHF grand public (assistants).
- 2023–2024 : Multimodal natif, contextes étendus, outils.
- 2025+ : MoE efficaces, vLLM/Ollama, NPU, fp8.
Repères métiers
- Assistants internes (search, RAG, agents outillés).
- Création : copy, images, vidéo, storyboard, musique.
- IT/Data : code-assist, data-to-SQL, QA, monitoring.
- Gouvernance : politiques d’usage, traçabilité, SRM.
Métriques de qualité
- Fidélité (factualité, groundedness / citations).
- Utilité (préférence humaine pairwise, tâche-spécifique).
- Style (ton, format, cohérence).
- Toxicité & sécurité (harms, jailbreaks).
Métriques ops
- Latence P50/P95, tokens/s, coût/req.
- Taux d’erreurs (timeouts, 429/5xx), robustesse.
- Taux d’hallucination (proxy) par use-case.
Mini-bench (structure)
Réglages usuels
| Use-case | Temp | Top-p | Notes |
|---|---|---|---|
| Résumé/extraction | 0.2–0.3 | 0.8–0.9 | priorité précision |
| Idéation | 0.8–1.0 | 0.9–1.0 | diversité |
| Code | 0.2–0.4 | 0.9 | cohérence stricte |
Principaux risques
- Hallucinations : réponses plausibles mais fausses.
- Prompt-injection / exfiltration via contenus hostiles.
- PII / secrets dans prompts ou documents.
- Copyright et réutilisation indue.
Parades opérationnelles
- RAG avec citations + vérification automatique.
- Filtrage entrée/sortie + allow-list d’outils + sandbox.
- Masquage PII, chiffrement, rétention limitée.
- Traçabilité, revue humaine, tests réguliers.
Mythes courants
- “Un LLM sait tout” → non, il prédit des suites probables.
- “Plus de tokens = toujours mieux” → pas sans ciblage.
- “Open-source = gratuit” → coût infra/ops significatif.
Faits utiles
- Le contexte prime souvent sur le choix du modèle.
- Le post-traitement (validators, schemas) réduit les erreurs.
- Le ROI vient d’abord des process (gouvernance, runbooks).
Brief technique (non-tech)
Pitch exécutif (30 sec)
Email de cadrage projet
FAQ interne
Direction (COMEX)
Produit
IT / Sécurité
RH / Formation
Patron universel (copiable)
Sampling express
Check de sortie
- Respect du format (JSON/markdown/tableau).
- Citations présentes si RAG.
- Éléments “non sûrs” marqués clairement.
Petits pièges
- Prompts vagues, contextes hors-sujet.
- Pas de critères d’échec (« je ne sais pas »).
- Absence de post-traitements/validators.
Génération de Texte (Large Language Models)
Les LLM sont le cœur de la GenAI textuelle. Ils modélisent la probabilité de la prochaine "token" (mot ou sous-mot) dans une séquence.
Capacités clés
- Rédaction & Création : Emails, articles, posts, scripts.
- Synthèse (Summarization) : Condenser des documents longs.
- Extraction (NER/NRE) : Extraire des entités (noms, dates) et leurs relations.
- Traduction : Haute performance, y compris "low-resource".
- Question/Réponse (Q&A) : Basé sur un contexte (RAG) ou ses connaissances.
- Génération de Code : Écrire, compléter, expliquer et déboguer du code.
Limites & Contrôles
- Hallucinations : Invention de faits (risque majeur).
- Fenêtre de contexte : Limite de tokens en entrée (de 4k à +1M).
- Coût & Latence : L'inférence est coûteuse, surtout pour les grands contextes.
- Contrôle fin : Difficile de garantir un format de sortie (JSON, etc.) sans "guardrails".
- Biais : Peut reproduire et amplifier les biais des données d'entraînement.
Cas d'usage principaux (par domaine)
| Domaine | Use Case | Prompt type |
|---|---|---|
| Marketing | Génération de posts (blog, réseaux sociaux), création de séquences d'email. | One-shot (avec exemple) + Persona |
| Support Client | Agent conversationnel (chatbot), synthèse d'appels, rédaction de réponses types. | RAG (base de connaissance) |
| IT / Dev | Génération de code (Copilot), écriture de tests unitaires, "rubber ducking". | Zero-shot (instruction directe) |
| Juridique | Synthèse de contrats, analyse de risques, recherche de jurisprudence. | RAG + Chain-of-Thought (CoT) |
Génération d'Images (Modèles de Diffusion)
Contenu à venir pour DALL-E, Stable Diffusion, Midjourney...
- Text-to-Image
- Image-to-Image (Img2Img)
- Inpainting & Outpainting
- Contrôle fin (ControlNet)
Génération Audio
Contenu à venir pour la synthèse vocale (TTS) et la musique...
- Text-to-Speech (TTS) - ex: ElevenLabs
- Clonage vocal (Voice Cloning)
- Génération de Musique (ex: Suno, Udio)
- Sound design (Text-to-Sound)
Génération Vidéo & 3D
Contenu à venir pour Sora, Runway, Luma AI...
- Text-to-Video
- Image-to-Video
- Simulation de mondes (World Simulators)
- Génération de maillages 3D (NeRFs, Gaussian Splatting)
Génération de Données & Code
Contenu à venir...
- Génération de code (voir onglet 1)
- Génération de données tabulaires (synthétiques)
- Text-to-SQL
Familles de modèles
- Propriétaires : GPT, Claude, Gemini, etc. — focus qualité, latence maîtrisée, tooling riche.
- Open/Community : Llama, Mistral/Mixtral, Qwen, DeepSeek… — contrôle, coût, custom.
- Spécialisés : code, vision-langage (VLM), audio, TTS, agents/outils.
Stratégie multi-fournisseurs
- Routing par use-case (qualité/coût/latence/sensibilité).
- Failover (timeouts, quotas), AB testing, versioning prompts.
Quand API vs Local ?
- API : time-to-value, SLO élevés, coûts Opex, données hors SI (vérifier DPA).
- Local/Privé (vLLM/Ollama/TGI) : contrôle & confidentialité, coûts Capex, ops à assumer.
| Famille | Forces | Limites | Contexte max | Multimodal | Fonctions/Tools | Notes |
|---|---|---|---|---|---|---|
| GPT | Qualité stable, outils/JSON strict, écosystème large | Coût premium, dépendance fournisseur | Étendu | Texte/vision/audio | Tool calling, structured output | Bon défaut pour production critique |
| Claude | Très long contexte, sûreté et refus mieux calibrés | Plugins/outils plus limités | Très étendu | Texte/vision | Functions | Excellent sur docs volumineux |
| Gemini | Natif multimodal, intégration G-Suite | Variabilité selon versions | Étendu | Natif multimodal | Tools/grounded output | Fort si G-Workspace central |
| Llama (open) | Hébergement privé, tuning facile, coût maîtrisé | Qualité/latence dépend de l’opérateur | Variable | Via variantes | Tools via frameworks | Bon pour data sensible |
| Mistral/Mixtral (open) | MoE rapide, bon coût/perf, petits modèles efficaces | Couverture de tâches hétérogène | Variable | — | — | Excellent rapport coût/latence |
Capacités spécifiques
- Code : modèles code-tuned (Code-Llama, DeepSeek-Coder, etc.).
- Vision : VLM (Llava, Idefics, etc.) + OCR/outils.
- Audio : ASR/TTS/VC dédiés selon langue et voix.
Risques fournisseurs
- Changements d’API/pricing, quotas, regionalité des données.
- Conformité (DPA, résidence, export contrôles).
Ordres de grandeur (indicatif)
| Tier | Qualité | Latence | Coût | Cas d’usage |
|---|---|---|---|---|
| Premium API | Très haute | Basse/stable | Élevé | Client-facing critique |
| Mid API/Open | Haute | Basse-moyenne | Moyen | Assistants internes |
| Self-host open | Variable | Variable | Faible/Capex | Data sensible, offline |
Politiques de routage
- Qualité→coût : choisir le modèle le moins cher qui respecte KPI.
- Latence : low-latency pour UX, sinon asynchrone.
- Sensibilité : data sensible → local; public → API.
Serving
- vLLM (PagedAttention, throughput), TGI, Ollama (dev/edge).
- Parallelism: TP/PP/DP · KV-cache offload · autoscaling.
- Observabilité: latence P95, coût, qualité par use-case.
Orchestration
- Graphes d’outils (LangGraph/Flowise), files/queues, retries.
- Policies: timeout, circuit-breaker, idempotence.
- Versioning prompts & modèles (labels/aliases).
Données & conformité
- DPA, résidence, chiffrement, rétention minimale.
- PII: masquage, tokenisation, “no-log” si dispo.
Garde-fous
- Filtrage pré/post (toxicity, PII, jailbreaks).
- Sandbox outils, allow-list, limitations d’actions.
- Traçabilité: prompts/outputs/versions, audits.
Arbre de décision (résumé)
- Data sensible ? oui → self-host open ; non → API possible.
- UX temps réel ? oui → modèle rapide/premium; non → asynchrone/cheaper.
- Budget strict ? oui → open+optimisation; sinon → qualité d’abord.
KPI de choix
- Qualité (score humain, exactitude), Latence P95, Coût/req, Taux d’erreur.
- Critères non-fonctionnels: DPA, résidence, support, roadmap.
Procédure
- Définir golden set (50–200 prompts) par use-case.
- Tester 2–3 modèles, 2 réglages (temp/top-p), mesurer qualité/latence/coût.
- Décider avec règle: “≤10% perte qualité pour ≥30% coût en moins”.
Mémo décision (API vs Local)
Benchmark express
Email achat/Legal (DPA)
Registre de risques
Matrice RACI — Sélection & mise en place
| Étape | R | A | C | I |
|---|---|---|---|---|
| Collecte besoins | PO Métier | Head Product | Data/Legal | IT Sec |
| Évaluation technique | Lead MLE | Head Data/AI | Ops/FinOps | Produit |
| Pilotage POC | PM IA | Head Product | Users clés | Direction |
| Contrats & DPA | Legal | Head Legal | Sec/IT | Finance |
| Mise en prod | Ops | Head Ops | MLE/Produit | Support |
Template “fiche modèle” (Model Card)
Checklist procurement
- DPA signé, résidence/region, clauses logs & rétention.
- SLO/SLAs (latence, disponibilité), quotas, tarification.
- Révocation clés/accès, audit & conformité.
Réglages de base (LLM)
Blocs essentiels
- Tokenisation (BPE/Unigram) → embeddings (pos/rotary).
- Self-Attention (Q·Kᵀ/√d) + MLP; résidus & normalisations.
- KV-cache pour réutiliser clés/valeurs à l’inférence.
Variantes d’attention
- Flash/Scaled (memoire efficace), ALiBi/RoPE (long contexte).
- Sparse/Long (Longformer, sliding), Grouped-Query, Multi-Query.
Mixture-of-Experts (MoE)
- Routeur choisit k experts (top-1/2) → capacité ↑, latence ≈.
- Paramètres: nombre d’experts, capacity factor, load balancing.
- Avantages: coût/qualité; Risques: instabilité, hot experts.
Sécurité & refus
Heads spécialisées émergent; l’alignement (ci-dessous) module les comportements indésirables.
Étapes
- Pré-entraînement (LM loss) sur large corpus.
- SFT (Supervised Fine-Tuning) sur instructions/solutions.
- Post-alignement : RLHF ou DPO.
- Spécialisation (domaine/outil), éval, durcissement.
Ressources & distribué
- Data/Model/Pipeline parallelism (DP/TP/PP), ZeRO, FSDP.
- Mixed precision (bf16/fp8), checkpointing, gradient accumulation.
Hyperparamètres usuels (SFT)
- LR warmup 1–3%, scheduler cosine, weight decay 0.01.
- Batch effectif = micro-batch × accumulation × n-GPU.
- Early-stopping sur loss/éval; détox (filtres) en entrée.
Qualité des données
- Dédupliquer, filtrer PII, équilibrer domaines/langues.
- Detect/repair: HTML, tables, OCR; instruction templates.
RLHF (schéma)
- SFT → policy π₀
- Collecte préférences humaines (A vs B)
- Entraîner Reward Model
- Optimisation PPO (π ← argmax E[R])
DPO / IPO
- Optimise directement la préférence sans RM explicite.
- Plus simple/rapide, moins de pièges PPO.
Durcissements
- Red-teaming, filtres tox/PII, refus calibrés, jailbreak tests.
PEFT (adapteurs légers)
- LoRA/QLoRA (8/4 bits), Adapters, Prefix/Prompt Tuning.
- Freeze des poids de base, petites matrices apprises.
Compression
- Quantization 8/4/2 bits; pruning; distillation; sparsité.
Recettes “qualité =/ coût”
- Contextes courts + retrieval ciblé (RAG) vs absorber tout.
- Spéculative decoding; KV-cache sharing; batching adaptatif.
- Seed/temperature contrôlés pour reproductibilité.
Serving
- vLLM/TGI/Ollama; paged-attention; quantized kernels.
- Timeouts, retries, circuit-breaker, observabilité P95.
- Multi-tenant: quotas, priorités, cache prompts/réponses.
Décodage & format
Sécurité runtime
- Filtrage I/O, sandbox outils, allow-list, audit/traçabilité.
Jeux d’entraînement
- Pré-train: web curé, livres, code; SFT: pairs tâche/solution.
- Domaines spécifiques: docs internes + synthèse contrôlée.
Évaluation
- Golden set (100–500); préférence humaine; exactitude (factualité/grounding).
- Robustesse: jailbreak, tox, PII; non-régression.
RAG vs fine-tuning
- RAG si connaissances changeantes ou sensibles.
- FT/PEFT si style/format/capacité intrinsèque à adapter.
Spécification Structured-Output
Playbook latence/coût
Plan d’entraînement SFT
Carte de risques runtime
RACI — Entraîner & mettre en prod un modèle
| Tâche | R | A | C | I |
|---|---|---|---|---|
| Collecte/curation données | Data Eng | Head Data | Legal/Sec | Produit |
| SFT/PEFT setup | MLE | Head AI | Ops | Prod |
| Alignement (RLHF/DPO) | MLE | Head AI | Annotateurs | Risk |
| Évaluation & QA | MLE | Head AI | Métier | Dir |
| Serving & monitoring | Ops | Head Ops | Sécurité | Toutes |
Hyperparamètres “bons par défaut”
- SFT: LR 1e-4 (cosine), warmup 2%, wd 0.01, dropout 0.1.
- LoRA: r=8/16, α=16/32, target q_proj/k_proj/v_proj/o_proj.
- QLoRA: nf4 + double quant; batch eff. ≥ 128.
Sampling
Checklist infra
- GPU mémoire >= modèle×(activations) · nvlink/pcie.
- Stockage datasets & checkpoints, versioning artefacts.
- Observabilité: coût, latence P95, qualité, erreur rate.
Entreprise (non-tech)
- Assistant interne (recherche, synthèse, actions)
- RAG documentaire (politiques, procédures)
- CRM copilote (emails, comptes-rendus, suivi)
- Marketing (briefs, variations, A/B)
- Ventes (objections, pitchs, scripts)
- RH (fiches poste, feedback, entretiens)
- Juridique (revue clauses, risques)
- Finance (notes, variance, commentaires)
Tech / Data
- Code review, refactor, tests
- Migrations & docs
- SQL copilote • NL→SQL
- ETL assisté, mapping, règles
- Observabilité IA (qualité/latence/coût)
- Données synthétiques
- Playbooks SRE (incidents IA)
- Gen d’APIs & stubs
Critères d’éligibilité (quand appliquer l’IA géné)
- Tâche textuelle/visuelle, semi-structurée, avec jugement humain.
- Volume récurrent >= 50/jour ou durée >= 10 min/tâche.
- Données disponibles et gouvernées (ou publiques).
Assistant documentaire (RAG fiable)
- Ingestion: chunk 300–800 tokens, overlap 10–20%, metadata (source, date).
- Embeddings: multi-lang, re-ranking (bi-encoder → cross-encoder).
- Chaîne: retrieve k=4–8 → synthèse avec citations + refus “Je ne sais pas”.
- Éval: faithfulness, answerability, coverage (100–500 Q/A).
Copilote d’actions (agents/outils)
- Outils: CRM, tickets, calendriers, fichiers — allow-list stricte.
- FSM / graph d’états (plan → exécution → validation → logs).
- Sécurité: sandbox, limites d’action, confirmations humaines.
Marketing — calendrier éditorial
Ventes — objections & scripts
RH — fiche poste & grille d’entretien
Juridique — revue de clause
Produit — mini-PRD
IT/Data — plan RAG
Finance — commentaire de variance
Support — macro N2
KPIs d’adoption
- Utilisateurs actifs/jour, sessions, requêtes/UA, rétention 7/30j.
- Taux d’acceptation des suggestions (% utilisées).
- Temps gagné/tâche (sondages + mesures outillage).
ROI (formule simple)
- Économies “hard” (temps, erreurs, retours).
- Gains “soft” (satisfaction, time-to-market).
Critères de succès
- Qualité ≥ seuil humain (préférences pairwise).
- Latence P95 <= cible UX.
- Coût/requête soutenable.
Tableau d’évaluation (exemple)
| Use-case | Qualité(1–5) | P95 (s) | Coût (€) | Commentaires |
|---|---|---|---|---|
| Assistant interne | 4.4 | 1.2 | 0.02 | Citations fiables |
| NL→SQL | 4.0 | 0.9 | 0.015 | Ambiguïtés gérées |
Plan de déploiement
- POC (2–4 semaines) avec golden set & KPIs clairs.
- Pilot utilisateurs (30–100) + feedback outillé.
- Durcissement (sécurité, observabilité, QA).
- Généralisation & formation (guides, vidéos, office hours).
Change & formation
- Guides “comment bien demander” (prompting).
- Templates, raccourcis, librairie de prompts d’équipe.
- Champions par équipe, gamification, FAQ.
Risques opérationnels
- Hallucinations/factualité, prompt-injection, exfiltration.
- PII/secrets dans les prompts, propriété intellectuelle.
- Dépendance fournisseur, quotas, coûts variables.
Contrôles
- RAG avec citations + vérif automatique.
- Filtrage I/O, allow-list d’outils, sandbox, journaux.
- Politiques d’usage, revue humaine, tests réguliers.
RACI — Déploiement assistant interne
| Tâche | R | A | C | I |
|---|---|---|---|---|
| Découverte besoins | PO Métier | Head Product | Users clés | IT |
| Implémentation RAG | Data Eng | Head Data | Sec/Legal | Support |
| Évaluation | MLE | Head AI | Métier | Dir |
| Run & QA | Ops | Head Ops | Support | Toutes |
Template “fiche use-case”
Scorecard d’éligibilité
Réglages conseillés
| Use-case | Temp | Top-p | Notes |
|---|---|---|---|
| Résumé/Extraction | 0.2–0.3 | 0.8–0.9 | précision & format |
| Idéation | 0.8–1.0 | 0.9–1.0 | diversité |
| Code | 0.2–0.4 | 0.9 | cohérence |
Principes directeurs
- Utilité & proportionnalité : bénéfice mesuré vs risques.
- Transparence : finalité, limites, traçabilité, disclaimers.
- Équité : éviter discriminations, tester les biais.
- Responsabilité humaine : “human in/on the loop”.
- Sécurité : prévention des abus, réponse incident.
Niveaux d’usage (interne)
- N0 — Sandbox/idéation (données publiques).
- N1 — Assistants internes (RAG, citations, pas de PII sensible).
- N2 — Données sensibles / actions sur SI (politiques & contrôles renforcés).
- N3 — Exposition client (exigences élevées en qualité & traçabilité).
Contenu & comportement
- Factualité/hallucinations · mensonge plausible.
- Toxicité · propos nuisibles; jailbreaks.
- Biais · représentations inéquitables.
- Copyright · réutilisation indue, style vivant.
Opérationnel & SI
- Prompt-injection / exfiltration, SSRF via outils.
- PII/secrets dans prompts ou documents.
- Dépendance fournisseur, variations de coûts/quotas.
- Traçabilité insuffisante pour audit ou litige.
Grille d’évaluation (exemple)
Référentiels (vue opérationnelle)
- RGPD : base légale, minimisation, droits personnes, DPA, transferts.
- AI Act (UE) : catégorisation des risques, exig. transparence & gouvernance.
- DSA (plateformes), sectoriels (santé/finance…), propriété intellectuelle.
Exigences clés pour assistants/RAG
- Informer l’utilisateur de l’usage d’IA et de ses limites.
- Citations/provenance, reproductibilité et logs gouvernés.
- Process de retrait/correction de contenu source.
Politique données
- Minimisation · ne collecter que le nécessaire.
- Rétention limitée · TTL, purge automatique.
- Chiffrement en transit & au repos, gestion clés.
PII & secrets
- Masquage/tokenisation avant envoi au modèle.
- Listes rouges (num. CB, santé…), blocage via regex/classif.
- Paramétrage “no-log” quand disponible; alternance local/API.
Traçabilité
- Journaliser prompts/outputs/versions, horodatage, sources RAG.
- Attacher identité d’utilisateur et contexte (use-case, politique).
Points d’attention
- Éviter l’imitation servile d’œuvres/voix identifiables.
- Respecter licences des données/poids modèles/LoRA.
- Marquage/watermarking, conserver la chaîne de provenance.
Usage responsable
- Privilégier sources internes ou libres avec attribution.
- Utiliser prompt négatif pour bannir logos/marques.
- Revue humaine obligatoire avant diffusion externe.
Chaînes de filtres
- Entrée: PII/secret, jailbreak, malware, catégorisation.
- Sortie: factualité (si RAG), toxicité, PII, style/format.
- Outils: allow-list, sandbox, confirmations humaines.
Politiques & SLO
- Timeouts, quotas, protection coût (circuit-breaker).
- Alertes: hallu-rate, P95, erreurs, anomalies.
- Runbook incident (qui fait quoi, en combien d’étapes).
Quand faire une DPIA ?
- Traitement à grande échelle de PII ou données sensibles.
- Décision automatisée à effets juridiques/significatifs.
- Surveillance systématique/public ciblé vulnérable.
Template (copiable)
Politique d’usage (niveau-par-niveau)
Checklist d’audit
Avis de confidentialité (assistant interne)
Registre des traitements (entrée)
RACI — Gouvernance IA
| Process | R | A | C | I |
|---|---|---|---|---|
| Politique d’usage & niveaux | Risk | COMEX | Legal/IT | Toutes |
| DPIA/PIA | DPO | Head Legal | Risk/IT | Produit |
| Revue modèles & prompts | Head AI | CTO | Risk/Legal | Produit |
| Gestion incidents | SecOps | CISO | Legal | Direction |
| Formation & sensibilisation | RH/L&D | Head People | Risk | Toutes |
Matrix “risques → contrôles”
| Risque | Détection | Prévention | Preuves |
|---|---|---|---|
| Hallucinations | Tests Q/A, score factuel | RAG + citations, validators | Rapports éval |
| Prompt-injection | Scanners & canaris | Sandbox/outils, allow-list | Logs sécurité |
| PII | Regex/PII-detector | Masquage/tokenisation | Registre DPIA |
Check “Go/No-Go” exposition externe
- Notice utilisateur prête; monitoring qualité & P95 en place.
- Logs, audit, mécanisme de retrait/correction.
- Revue Legal/Risk validée; owner & runbook définis.
Patron universel (copiable)
Patron “raisonnement sans dévoiler”
Few-shot efficace
Structured-output (strict)
Tool-/Function-calling
- Décrire chaque outil (input, output, limites) + exemples.
- Politique : “appeler l’outil uniquement si conditions X/Y/Z”.
Self-critique (auto-revue)
Ingestion & index
- Chunk 300–800 tok, overlap 10–20%, métadonnées (source, date, type).
- Nettoyage: titres, tableaux, OCR; déduplication.
- Embeddings multi-lang · espace de noms (namespace) par collection.
Retrieval & re-ranking
- Top-k 4–8; hygiène requête (expansion, synonymes).
- Bi-encoder → cross-encoder re-rank pour précision.
- Filtre par métadonnées (date, service, confidentialité).
Prompt de synthèse (robuste)
Évaluation RAG
- Faithfulness, Answerability, Context Recall/Precision.
- Jeu de 100–500 Q/A; gardez 10% pour non-régression.
Anti-patterns fréquents
- Prompt vague (“fais un résumé…”) sans objectifs/format.
- Contexte “dump” trop long, non trié.
- Pas de critères d’échec ni de limites d’action.
- Sortie non contrainte (pas de schéma ni validators).
Correctifs rapides
- Ajouter rôle, objectifs, contraintes, format strict.
- Réduire le contexte → extraits pertinents + citations.
- Post-traitements: schema/regex/validators, self-critique.
- Temp 0.2–0.4 pour tâches déterministes (extraction/code).
Data/IT — Ticket → SQL
Produit — User stories
Marketing — Personas & messages
Support — Playbook N1→N3
Juridique — Extraction clauses
RH — Feedback structuré
Judge LLM (pairwise)
- Utiliser un modèle différent de celui évalué.
- Échantillon 100–500 requêtes.
Tests de non-régression
- Goldens (prompts → outputs attendus) + tolérance.
- Monitorez qualité vs coût vs P95 par use-case.
- Canaris de sécurité (prompt-injection, PII, jailbreak).
Réglages recommandés
| Use-case | Temp | Top-p | Notes |
|---|---|---|---|
| Résumé / Extraction | 0.2–0.3 | 0.8–0.9 | précis, format strict |
| Idéation / Créatif | 0.8–1.0 | 0.9–1.0 | diversité |
| Code | 0.2–0.4 | 0.9 | cohérence |
| Traduction | 0.2–0.4 | 0.9 | style & registre fixés |
Mots-clefs utiles
- “format JSON strict”
- “critères d’arrêt”
- “citations [n°]”
- “ton [[professionnel|chaleureux]]”
- “expliquer brièvement”
- “si inconnu, dire je ne sais pas”
Checklist de prompt
- Rôle, objectifs, contraintes, format de sortie.
- Contexte trié/pertinent + tokens bornés.
- Critères d’échec + auto-revue + validators.
Piles de serving
- vLLM (PagedAttention) — haut débit, bon par défaut.
- TGI (HF) — production stable, compat. large.
- Ollama — dev/edge, simplicité, modèles locaux.
- API providers — SLO élevés, moins d’ops.
Orchestration
- Router multi-modèles (qualité/coût/latence/sensibilité).
- Graphes d’outils (LangGraph/Flowise) + files/jobs.
- Timeouts, retries, circuit-breaker, idempotence.
Perf pratique
- Batching dynamique, partage KV-cache, speculative decoding.
- Contextes courts + RAG ciblé > contextes géants.
- Pin des seeds pour génératifs visuels; fixer temp/top-p.
Adaptation légère
- LoRA/QLoRA (8/4 bits) — fine-tuning rapide, faible VRAM.
- Adapters / Prefix / Prompt Tuning.
- Distillation vers petit modèle pour infer rapide.
Compression
- Quantization 8/4/2 bits, pruning, sparsité structurée.
Choisir la stratégie
| Besoins | Option | Impact | Risques |
|---|---|---|---|
| Coût ↓ immédiat | Quantization 8/4 bits | VRAM/€ ↓ | Léger drop qualité |
| Style/format spécifique | LoRA | Qualité ↑ ciblée | Gestion artefacts |
| Débit ↑ | Speculative decoding | P95 ↓ | Complexité |
KPIs & alertes
- Latence P50/P95/P99, throughput, % erreurs (4xx/5xx/timeouts).
- Coût/req et coût/jour; ratio cache hit; tokens/s.
- Qualité par use-case (préférence humaine ou score).
Runbooks clés
- Dégradations P95, hausse coûts, baisse qualité, quotas.
- Incidents sécurité (PII, jailbreak, exfiltration).
Tests & non-régression
- Golden-set (100–500 prompts) + tolérances par métrique.
- Canaris (prompts toxiques/PII/injection), chaos testing.
- Shadow-deploy avant bascule; A/B contrôlé.
Modèle de coûts (simple)
- API : coût variable, SLO inclus.
- Self-host : Capex/OpEx, coût marginal faible si chargés.
Capacité & SLAs
- Planifier sur P95 cible, non sur P50.
- Autoscaling + file asynchrone pour tâches lourdes.
- Réservations GPU vs on-demand; burst via API.
Optimisations € rapides
- Cache des prompts/réponses; raccourcir prompts.
- Routing vers modèles moins chers si KPI OK.
- Batching & régulation trafic.
Prompts & versions
- Versionner prompts (id, auteur, date, notes, KPI).
- PR/Review, tests automatiques, déploiement progressif.
- Rollback instantané; étiquettes “stable/canary”.
Modèles & routing
- Aliases de modèles; compatibilité entrées/sorties.
- Règles de bascule (qualité/coût/latence/erreurs).
- Journal de décision (qui, pourquoi, résultats).
Chaîne de filtres
- Entrée: PII/secret, injection, malware.
- Sortie: factualité (RAG), toxicité, PII, style/format.
- Outils: allow-list, sandbox, confirmations humaines.
Traçabilité
- Logs prompts/outputs/versions/sources RAG.
- Attacher identité utilisateur & politique appliquée.
- Rétention limitée + purge; preuves d’audit.
Runbook incident (latence P95)
Budget FinOps (S/M/L)
Playbook “routing qualité→coût”
Plan de tests de non-régression
RACI — Mise en prod continue
| Activité | R | A | C | I |
|---|---|---|---|---|
| CI/CD prompts & modèles | MLE | Head AI | Produit/QA | Ops |
| Observabilité & alerting | Ops | Head Ops | MLE | Dir |
| FinOps & capacité | FinOps | CFO | Ops | Produit |
| Sécurité & conformité | SecOps | CISO | Legal/Risk | Toutes |
Réglages “bons par défaut” (LLM)
Checklist go-live
- KPIs et alertes définis (qualité, P95, coût, erreurs).
- Rollback/alias prêts; shadow-deploy validé.
- Politiques de logs & rétention; runbooks publiés.
Template “fiche service IA”
Capacités
- Agents outillés : planification, mémoire à long terme, outils multiples, exécution fiable.
- Raisonnement spatial/3D : vision+actions, simulation first (jumeaux numériques).
- Multimodal complet : texte, image, audio, vidéo, capteurs, UIs.
- Personnalisation : micro-modèles/LoRA par équipe, profils & préférences.
Efficience
- fp8, sparsité, MoE efficace, NPU/edge.
- Décodage spéculatif, caches distribués, distillation ciblée.
Confiance & contrôle
- Provenance/watermarking, attestations d’exécution.
- Évaluation automatisée + préférences humaines à grande échelle.
- Politiques dynamiques (données/outils) par contexte de risque.
Écosystèmes
- Mix API premium + open self-host + edge.
- Stack agents standardisée (graphes d’états, outils typés, journaux).
Paris “high-value”
- Agentic RAG : recherche multi-sauts + vérif automatique → qualité documentaire.
- NL→Action : agents connectés aux systèmes (CRM, ITSM, ERP) avec garde-fous.
- Copilotes code/data : couverture croissante des tâches quotidiennes.
- Génération synthétique contrôlée : data rare, QA, tests.
Risques/contre-paris
- Dépendance fournisseurs & coûts → multi-modèles + open + cache.
- Réglementaire mouvant → journaux/audits, DPIA, “explainable enough”.
- Hallucinations persistantes → citations, validators, sandbox outils.
Axes
- Coût/latence (faible ↔ élevé)
- Régulation (souple ↔ stricte)
| Régulation souple | Régulation stricte | |
|---|---|---|
| Coût bas | Explosion d’usages, différenciation par produit & data. | Usages ciblés, avantage aux acteurs bien gouvernés. |
| Coût haut | Centralisation API premium; use-cases premium only. | Consolidation, forts besoins d’audit/traçabilité. |
Roadmap (exemple entreprise)
- 2026 : Librarie de prompts d’équipe + RAG fiable (citations/QA).
- 2027 : Copilotes métiers (Ventes, Support, RH) avec actions limitées.
- 2028 : Orchestrations d’agents multi-outils + mesure ROI complète.
- 2029 : Personnalisation par équipe (LoRA) + edge/office.
- 2030 : Simulation-first (tests, formation, design).
Capacités à bâtir
- Data & RAG, gouvernance & sécurité, MLOps/FinOps IA.
- Évaluation continue (préférence humaine + auto-metrics).
- Change & formation (champions, standards prompts).
Tech & produits
- Long contexte “vraiment utile” (mémoire robuste & coût maîtrisé).
- Vidéos longues cohérentes; 3D/AR natif.
- Attestations hardware/TEE pour agents critiques.
Marché & régulation
- Standardisation des logs/évaluations.
- Clarification copyright/production dérivée.
- Incitations énergétiques/empreinte carbone.
Note stratégique trimestrielle
Scénarios 2×2 (auto-générés)
Feuille de route
Radar technos
Glossaire express (A–L)
- Agent : LLM + outils + mémoire + politique d’action.
- Alignment : SFT → RLHF/DPO pour préférences humaines.
- ALiBi/RoPE : encodages positionnels pour long contexte.
- Batching : servir plusieurs requêtes en parallèle.
- CFG : guidance pour diffusion (fidélité au prompt).
- CoT : chain-of-thought (raisonnement guidé).
- ControlNet : conditionner l’image (canny/pose/depth…).
- DPO : préférence directe sans Reward Model.
- Embedding : vecteur densifié pour similarité sémantique.
- FSDP/ZeRO : entraînement distribué mémoire-efficace.
- GQA/MQA : variantes d’attention (queries groupées/mono).
- KV-cache : clés/valeurs mémorisées pour l’inférence.
Glossaire express (M–Z)
- LoRA/QLoRA : adaptation légère (8/4 bits).
- MoE : mixture d’experts, gating top-k.
- Negative prompt : éléments à bannir en diffusion.
- PEFT : fine-tuning param-efficient.
- P95 : 95ᵉ centile de latence.
- RAG : retrieval-augmented generation (citations).
- Speculative decoding : accélération par modèle projet.
- Top-p/Top-k : stratégies d’échantillonnage.
- vLLM : serveur haut débit (PagedAttention).
- Watermark/Provenance : traçage de contenu généré.
LLM (vue opérationnelle)
| Famille | Contexte | Multimodal | Forces | Limites |
|---|---|---|---|---|
| GPT | Étendu | Texte/vision/audio | Qualité stable, tools/JSON | Coût premium |
| Claude | Très long | Texte/vision | Refus calibrés | Écosystème d’outils moindre |
| Gemini | Étendu | Natif multimodal | Intégration G-Suite | Variabilité |
| Llama (open) | Variable | Variantes | Privé & custom | Ops à assumer |
| Mistral/Mixtral | Variable | — | Rapide, coût/perf | Couverture hétérogène |
Stacks de serving
| Stack | Cas idéal | + | – |
|---|---|---|---|
| vLLM | API interne haut débit | Débit, mémoire | Complexité déploiement |
| TGI | Prod stable | Écosystème HF | Débit moindre |
| Ollama | Dev/edge | Simplicité | Moins d’options prod |
| API provider | Time-to-value | SLO inclus | Dépendance/prix |
Choix RAG — paramètres clés
| Étape | Options | Conseils |
|---|---|---|
| Chunking | 300–800 tok, overlap 10–20% | Inclure titres & métas |
| Index | Faiss/ScaNN/Vector-DB | Filtrage par métadonnées |
| Retrieval | k=4–8 + re-ranking | Cross-encoder ↑ précision |
| Génération | Citations + refus | Format structuré |
Transformer & training
- Attention Is All You Need — 2017.
- Scaling Laws (Kaplan et al.).
- RLHF/DPO (Ouyang, Rafailov et al.).
- QLoRA / LoRA (Hu, Dettmers).
RAG & évaluation
- RAG triad : retrieval, generation, evaluation.
- Faithfulness/Answerability metrics.
- Pairwise human preference & judge-LLM.
Vision/Audio/Diffusion
- Stable Diffusion & ControlNet.
- Text-to-Video (synthèse temporelle), TTS/VC.
Outils pratiques
- Vector DB : [[Weaviate|Qdrant|PGVector]]
- Serving : [[vLLM|TGI|Ollama]]
- Orchestration : [[LangGraph|Flowise]]
- Évaluation : [[Ragas|OpenAI Evals|DeepEval]]
- Annotation : [[Label Studio|Argilla]]
- Monitoring : [[Arize|Traceloop|WhyLabs]]
Guides & bonnes pratiques
- Checklists sécurité IA (prompt-injection, PII).
- Patrons de prompts (structured-output, self-critique).
- Playbooks RAG (citations + vérif automatique).
Model Card (fiche modèle)
Use-Case Card
Template DPIA/PIA
Runbook incident (exemple)
Text/Code
- Questions/Résumés : [[HotpotQA|SQuAD|Gov docs internes]].
- Code : [[HumanEval|MBPP|RepoQA interne]].
- Éval généraliste : [[MMLU-style interne]] (50–200 Q).
Vision/Audio
- OCR & tableaux : [[DocVQA|ChartQA|internes]].
- Diffusion : jeux de prompts + notations humaines.
- Audio : [[LibriSpeech]] TTS/VC tests (intelligibilité).
Format “mini-bench interne”
Réglages rapides
| Use-case | Temp | Top-p | Notes |
|---|---|---|---|
| Résumé/Extraction | 0.2–0.3 | 0.8–0.9 | précision & format |
| Idéation | 0.8–1.0 | 0.9–1.0 | diversité |
| Code | 0.2–0.4 | 0.9 | cohérence |
Mots-clefs utiles
- “format JSON strict”
- “citations [n°]”
- “critères d’arrêt”
- “si inconnue : dire je ne sais pas”
- “ton [[professionnel|chaleureux]]”
- “auto-revue avant réponse”
