IA Générative — IDEO-Lab

I. Introduction

Fondamentaux

Définitions, jalons, métriques clés, cas d’école.

TexteImageAudioVidéoCode

II. Types de génération

Multimodal

LLM, diffusion, speech, vidéo, 3D & data — capacités, limites, contrôles.

III. Modèles & Écosystèmes

Comparatifs

GPT/Claude/Gemini/Llama/Mixtral : forces, coûts, risques.

IV. Architecture & Training

Transformers

Tokenisation, attention, MoE, RLHF/DPO, inférence & ops.

V. Cas d’usage

Entreprise

Assistants, marketing, IT/data, juridique, produit, RH…

VI. Éthique & Légal

Conformité

Gouvernance, sécurité, copyright, traçabilité, AI Act.

VII. Prompting & Context

RAG

Patrons efficaces, anti-patterns, RAG robuste, évaluation.

VIII. Déploiement

MLOps

PEFT/quantization, vLLM/Ollama, monitoring & coûts.

IX. Perspectives

2026–2030

Agents outillés, confiance, 3D reasoning, simulation-first.

X. Ressources

Glossaire

Lexique, bibliographie, liens clés, checklists & templates.

I. Introduction à l’IA Générative

Définition rapide

Un modèle génératif apprend une distribution sur des données (texte, image, audio, vidéo, code) et échantillonne de nouveaux exemples plausibles. Contraire d’un modèle discriminatif qui classe.

Familles principales

Autoregressifs : LLM (chat, code, TTS) — sampling (temp, top-p, top-k, pénalités).
Diffusion : image/vidéo — in/out-painting, img2img, ControlNet, IP-Adapter.
Multimodal natif : vision-langage, audio-langage, agents VLA.

Pourquoi maintenant ?

Transformer (2017) + scaling laws → capacité émergente.
Compute (GPU/TPU/NPU) + jeux de données massifs.
Alignement (instruction-tuning, RLHF/DPO) pour l’usage humain.

Capacités par modalités

Conversation / agents
Résumé & extraction
Traduction
Génération de code
Génération d’images
Text-to-video
TTS / voix clonée
3D / scènes

Limites inhérentes

Stochastique : sorties variables, non déterministes.
Hallucinations : erreurs plausibles si contexte pauvre.
Connaissance figée à la date d’entraînement (hors RAG/outils).

Astuce : imposer le format de sortie, citer les sources, fixer des critères d’arrêt.

Métriques de qualité

Fidélité (factualité, groundedness / citations).
Utilité (préférence humaine pairwise, tâche-spécifique).
Style (ton, format, cohérence).
Toxicité & sécurité (harms, jailbreaks).

Métriques ops

Latence P50/P95, tokens/s, coût/req.
Taux d’erreurs (timeouts, 429/5xx), robustesse.
Taux d’hallucination (proxy) par use-case.

Mini-bench (structure)

Dataset: 50–200 requêtes représentatives. Mesures: {latency_ms, quality_score(1–5), cost} par modèle. Sortie: CSV → dashboard (qualité vs coût vs latence). Règle: préférer le modèle “< 10% de perte qualité pour –30% coût”.

Réglages usuels

Use-case	Temp	Top-p	Notes
Résumé/extraction	0.2–0.3	0.8–0.9	priorité précision
Idéation	0.8–1.0	0.9–1.0	diversité
Code	0.2–0.4	0.9	cohérence stricte

II. Types de génération

Génération de Texte (Large Language Models)

Les LLM sont le cœur de la GenAI textuelle. Ils modélisent la probabilité de la prochaine "token" (mot ou sous-mot) dans une séquence.

Capacités clés

Rédaction & Création : Emails, articles, posts, scripts.
Synthèse (Summarization) : Condenser des documents longs.
Extraction (NER/NRE) : Extraire des entités (noms, dates) et leurs relations.
Traduction : Haute performance, y compris "low-resource".
Question/Réponse (Q&A) : Basé sur un contexte (RAG) ou ses connaissances.
Génération de Code : Écrire, compléter, expliquer et déboguer du code.

Limites & Contrôles

Hallucinations : Invention de faits (risque majeur).
Fenêtre de contexte : Limite de tokens en entrée (de 4k à +1M).
Coût & Latence : L'inférence est coûteuse, surtout pour les grands contextes.
Contrôle fin : Difficile de garantir un format de sortie (JSON, etc.) sans "guardrails".
Biais : Peut reproduire et amplifier les biais des données d'entraînement.

Cas d'usage principaux (par domaine)

Domaine	Use Case	Prompt type
Marketing	Génération de posts (blog, réseaux sociaux), création de séquences d'email.	One-shot (avec exemple) + Persona
Support Client	Agent conversationnel (chatbot), synthèse d'appels, rédaction de réponses types.	RAG (base de connaissance)
IT / Dev	Génération de code (Copilot), écriture de tests unitaires, "rubber ducking".	Zero-shot (instruction directe)
Juridique	Synthèse de contrats, analyse de risques, recherche de jurisprudence.	RAG + Chain-of-Thought (CoT)

``` ### 🤓 Explication 1. **Fichier et ID** : Le code est à placer dans `IA/modal_context_type.html`. Le `div` principal a l'ID `#m-types` et la couleur `--accent:var(--types)`, correspondant à la 2ème carte de votre hub. 2. **Structure de la Modale** : J'ai respecté le format de `image_acbea9.png`, avec l'en-tête `.mh`, les boutons d'action `.mactions` (copier, imprimer, fermer), et le corps `.mbody`. 3. **Système d'Onglets** : J'ai créé des onglets pour chaque *type* de génération. "Texte (LLM)" est le premier et est sélectionné par défaut (`aria-selected="true"`). 4. **Contenu (Texte)** : J'ai rempli le premier onglet avec le contenu que vous demandiez ("LLMs, rédaction, traduction..."). J'ai utilisé les classes `.two` (deux colonnes) et `.panel` (panneau) que j'ai vues dans le CSS de `generative_home.html` pour structurer l'information (Capacités vs Limites). 5. **Stubs** : Les autres onglets ("Images", "Audio", etc.) sont présents mais "cachés" (`hidden`) et contiennent un placeholder, prêts à être remplis. 6. **Mode Diapo** : J'ai inclus un exemple de "Cours/Diapo" fonctionnel, basé sur les classes `.slides`, `.slide`, `.dot` et les attributs `data-slides` présents dans votre JS et CSS. Il vous suffit de sauvegarder ce code dans le bon fichier, et votre deuxième modale est prête. Prêt à remplir la modale suivante, "III. Modèles & Écosystèmes" ?

III. Modèles & Écosystèmes

Familles de modèles

Propriétaires : GPT, Claude, Gemini, etc. — focus qualité, latence maîtrisée, tooling riche.
Open/Community : Llama, Mistral/Mixtral, Qwen, DeepSeek… — contrôle, coût, custom.
Spécialisés : code, vision-langage (VLM), audio, TTS, agents/outils.

Stratégie multi-fournisseurs

Routing par use-case (qualité/coût/latence/sensibilité).
Failover (timeouts, quotas), AB testing, versioning prompts.

Quand API vs Local ?

API : time-to-value, SLO élevés, coûts Opex, données hors SI (vérifier DPA).
Local/Privé (vLLM/Ollama/TGI) : contrôle & confidentialité, coûts Capex, ops à assumer.

La qualité de contexte (RAG/outils) apporte souvent plus que changer de modèle.

Famille	Forces	Limites	Contexte max	Multimodal	Fonctions/Tools	Notes
GPT	Qualité stable, outils/JSON strict, écosystème large	Coût premium, dépendance fournisseur	Étendu	Texte/vision/audio	Tool calling, structured output	Bon défaut pour production critique
Claude	Très long contexte, sûreté et refus mieux calibrés	Plugins/outils plus limités	Très étendu	Texte/vision	Functions	Excellent sur docs volumineux
Gemini	Natif multimodal, intégration G-Suite	Variabilité selon versions	Étendu	Natif multimodal	Tools/grounded output	Fort si G-Workspace central
Llama (open)	Hébergement privé, tuning facile, coût maîtrisé	Qualité/latence dépend de l’opérateur	Variable	Via variantes	Tools via frameworks	Bon pour data sensible
Mistral/Mixtral (open)	MoE rapide, bon coût/perf, petits modèles efficaces	Couverture de tâches hétérogène	Variable	—	—	Excellent rapport coût/latence

Capacités spécifiques

Code : modèles code-tuned (Code-Llama, DeepSeek-Coder, etc.).
Vision : VLM (Llava, Idefics, etc.) + OCR/outils.
Audio : ASR/TTS/VC dédiés selon langue et voix.

Risques fournisseurs

Changements d’API/pricing, quotas, regionalité des données.
Conformité (DPA, résidence, export contrôles).

Ordres de grandeur (indicatif)

Tier	Qualité	Latence	Coût	Cas d’usage
Premium API	Très haute	Basse/stable	Élevé	Client-facing critique
Mid API/Open	Haute	Basse-moyenne	Moyen	Assistants internes
Self-host open	Variable	Variable	Faible/Capex	Data sensible, offline

Optimisation: batching, cache, quantization (8/4/2 bits), prompts courts, vLLM.

Politiques de routage

Qualité→coût : choisir le modèle le moins cher qui respecte KPI.
Latence : low-latency pour UX, sinon asynchrone.
Sensibilité : data sensible → local; public → API.

Matrice RACI — Sélection & mise en place

Étape	R	A	C	I
Collecte besoins	PO Métier	Head Product	Data/Legal	IT Sec
Évaluation technique	Lead MLE	Head Data/AI	Ops/FinOps	Produit
Pilotage POC	PM IA	Head Product	Users clés	Direction
Contrats & DPA	Legal	Head Legal	Sec/IT	Finance
Mise en prod	Ops	Head Ops	MLE/Produit	Support

R = Réalise • A = Approuve • C = Consulté • I = Informé.

IV. Architecture & Training

Blocs essentiels

Tokenisation (BPE/Unigram) → embeddings (pos/rotary).
Self-Attention (Q·Kᵀ/√d) + MLP; résidus & normalisations.
KV-cache pour réutiliser clés/valeurs à l’inférence.

Variantes d’attention

Flash/Scaled (memoire efficace), ALiBi/RoPE (long contexte).
Sparse/Long (Longformer, sliding), Grouped-Query, Multi-Query.

Mixture-of-Experts (MoE)

Routeur choisit k experts (top-1/2) → capacité ↑, latence ≈.
Paramètres: nombre d’experts, capacity factor, load balancing.
Avantages: coût/qualité; Risques: instabilité, hot experts.

Sécurité & refus

Heads spécialisées émergent; l’alignement (ci-dessous) module les comportements indésirables.

RACI — Entraîner & mettre en prod un modèle

Tâche	R	A	C	I
Collecte/curation données	Data Eng	Head Data	Legal/Sec	Produit
SFT/PEFT setup	MLE	Head AI	Ops	Prod
Alignement (RLHF/DPO)	MLE	Head AI	Annotateurs	Risk
Évaluation & QA	MLE	Head AI	Métier	Dir
Serving & monitoring	Ops	Head Ops	Sécurité	Toutes

V. Cas d’usage (catalogue & prompts par domaine)

Entreprise (non-tech)

Assistant interne (recherche, synthèse, actions)
RAG documentaire (politiques, procédures)
CRM copilote (emails, comptes-rendus, suivi)
Marketing (briefs, variations, A/B)
Ventes (objections, pitchs, scripts)
RH (fiches poste, feedback, entretiens)
Juridique (revue clauses, risques)
Finance (notes, variance, commentaires)

Tech / Data

Critères d’éligibilité (quand appliquer l’IA géné)

Tâche textuelle/visuelle, semi-structurée, avec jugement humain.
Volume récurrent >= 50/jour ou durée >= 10 min/tâche.
Données disponibles et gouvernées (ou publiques).

KPIs d’adoption

Utilisateurs actifs/jour, sessions, requêtes/UA, rétention 7/30j.
Taux d’acceptation des suggestions (% utilisées).
Temps gagné/tâche (sondages + mesures outillage).

ROI (formule simple)

ROI = (Heures économisées × coût horaire × adoption) − (infra + licences + run + change)

Économies “hard” (temps, erreurs, retours).
Gains “soft” (satisfaction, time-to-market).

Critères de succès

Qualité ≥ seuil humain (préférences pairwise).
Latence P95 <= cible UX.
Coût/requête soutenable.

Tableau d’évaluation (exemple)

Use-case	Qualité(1–5)	P95 (s)	Coût (€)	Commentaires
Assistant interne	4.4	1.2	0.02	Citations fiables
NL→SQL	4.0	0.9	0.015	Ambiguïtés gérées

RACI — Déploiement assistant interne

Tâche	R	A	C	I
Découverte besoins	PO Métier	Head Product	Users clés	IT
Implémentation RAG	Data Eng	Head Data	Sec/Legal	Support
Évaluation	MLE	Head AI	Métier	Dir
Run & QA	Ops	Head Ops	Support	Toutes

Template “fiche use-case”

Nom • Persona cible • Douleur/objectif • Données d’entrée • Sortie attendue • KPI (qualité/latence/coût) • Garde-fous • Process de revue • Owner & runbook.

Scorecard d’éligibilité

Valeur business (1–5) · Fréquence/volume (1–5) · Données prêtes (1–5) · Risque (1–5) → Priorité = (Valeur×Volume×Données)/Risque.

Réglages conseillés

Use-case	Temp	Top-p	Notes
Résumé/Extraction	0.2–0.3	0.8–0.9	précision & format
Idéation	0.8–1.0	0.9–1.0	diversité
Code	0.2–0.4	0.9	cohérence

VI. Éthique, Légal & Gouvernance

Principes directeurs

Utilité & proportionnalité : bénéfice mesuré vs risques.
Transparence : finalité, limites, traçabilité, disclaimers.
Équité : éviter discriminations, tester les biais.
Responsabilité humaine : “human in/on the loop”.
Sécurité : prévention des abus, réponse incident.

Niveaux d’usage (interne)

N0 — Sandbox/idéation (données publiques).
N1 — Assistants internes (RAG, citations, pas de PII sensible).
N2 — Données sensibles / actions sur SI (politiques & contrôles renforcés).
N3 — Exposition client (exigences élevées en qualité & traçabilité).

RACI — Gouvernance IA

Process	R	A	C	I
Politique d’usage & niveaux	Risk	COMEX	Legal/IT	Toutes
DPIA/PIA	DPO	Head Legal	Risk/IT	Produit
Revue modèles & prompts	Head AI	CTO	Risk/Legal	Produit
Gestion incidents	SecOps	CISO	Legal	Direction
Formation & sensibilisation	RH/L&D	Head People	Risk	Toutes

Matrix “risques → contrôles”

Risque	Détection	Prévention	Preuves
Hallucinations	Tests Q/A, score factuel	RAG + citations, validators	Rapports éval
Prompt-injection	Scanners & canaris	Sandbox/outils, allow-list	Logs sécurité
PII	Regex/PII-detector	Masquage/tokenisation	Registre DPIA

Check “Go/No-Go” exposition externe

Notice utilisateur prête; monitoring qualité & P95 en place.
Logs, audit, mécanisme de retrait/correction.
Revue Legal/Risk validée; owner & runbook définis.

VII. Prompting & Context Engineering

Patron universel (copiable)

SYSTEM: Rôle, objectifs, ton, critères d’arrêt (dire “Je ne sais pas” si info manquante). USER: [[tâche]] CONTEXT: [[contexte ciblé]] CONSTRAINTS: style, longueur, références, format strict. OUTPUT_SCHEMA: [[format attendu (JSON/markdown/tableau)]]

Patron “raisonnement sans dévoiler”

SYSTEM: Réfléchis étape par étape en interne puis fournis seulement la réponse finale expliquée brièvement (sans exposer toutes les étapes).

Few-shot efficace

Inclure 2–5 couples <input, output> courts et variés, puis “À partir de maintenant, applique le même style et le même format”.

Structured-output (strict)

SYSTEM: Tu dois répondre en JSON strict valide, rien d’autre. SCHEMA (exemple): {"title":string,"summary":string,"bullets":string[]} Si tu ne peux pas remplir un champ, mets "".

Tool-/Function-calling

Décrire chaque outil (input, output, limites) + exemples.
Politique : “appeler l’outil uniquement si conditions X/Y/Z”.

Self-critique (auto-revue)

Après génération, vérifie: (1) format strict (2) contradictions (3) critères d’acceptation. Si échec → régénère une seule fois.

Réglages recommandés

Use-case	Temp	Top-p	Notes
Résumé / Extraction	0.2–0.3	0.8–0.9	précis, format strict
Idéation / Créatif	0.8–1.0	0.9–1.0	diversité
Code	0.2–0.4	0.9	cohérence
Traduction	0.2–0.4	0.9	style & registre fixés

Mots-clefs utiles

“format JSON strict”
“critères d’arrêt”
“citations [n°]”
“ton [[professionnel|chaleureux]]”
“expliquer brièvement”
“si inconnu, dire je ne sais pas”

Checklist de prompt

Rôle, objectifs, contraintes, format de sortie.
Contexte trié/pertinent + tokens bornés.
Critères d’échec + auto-revue + validators.

VIII. Optimisation & Déploiement

Piles de serving

vLLM (PagedAttention) — haut débit, bon par défaut.
TGI (HF) — production stable, compat. large.
Ollama — dev/edge, simplicité, modèles locaux.
API providers — SLO élevés, moins d’ops.

Orchestration

Router multi-modèles (qualité/coût/latence/sensibilité).
Graphes d’outils (LangGraph/Flowise) + files/jobs.
Timeouts, retries, circuit-breaker, idempotence.

Perf pratique

Batching dynamique, partage KV-cache, speculative decoding.
Contextes courts + RAG ciblé > contextes géants.
Pin des seeds pour génératifs visuels; fixer temp/top-p.

Toujours mesurer qualité vs coût vs P95 sur un golden-set.

Adaptation légère

LoRA/QLoRA (8/4 bits) — fine-tuning rapide, faible VRAM.
Adapters / Prefix / Prompt Tuning.
Distillation vers petit modèle pour infer rapide.

Compression

Quantization 8/4/2 bits, pruning, sparsité structurée.

Choisir la stratégie

Besoins	Option	Impact	Risques
Coût ↓ immédiat	Quantization 8/4 bits	VRAM/€ ↓	Léger drop qualité
Style/format spécifique	LoRA	Qualité ↑ ciblée	Gestion artefacts
Débit ↑	Speculative decoding	P95 ↓	Complexité

RACI — Mise en prod continue

Activité	R	A	C	I
CI/CD prompts & modèles	MLE	Head AI	Produit/QA	Ops
Observabilité & alerting	Ops	Head Ops	MLE	Dir
FinOps & capacité	FinOps	CFO	Ops	Produit
Sécurité & conformité	SecOps	CISO	Legal/Risk	Toutes

IX. Perspectives 2026–2030

Capacités

Agents outillés : planification, mémoire à long terme, outils multiples, exécution fiable.
Raisonnement spatial/3D : vision+actions, simulation first (jumeaux numériques).
Multimodal complet : texte, image, audio, vidéo, capteurs, UIs.
Personnalisation : micro-modèles/LoRA par équipe, profils & préférences.

Efficience

fp8, sparsité, MoE efficace, NPU/edge.
Décodage spéculatif, caches distribués, distillation ciblée.

Confiance & contrôle

Provenance/watermarking, attestations d’exécution.
Évaluation automatisée + préférences humaines à grande échelle.
Politiques dynamiques (données/outils) par contexte de risque.

Écosystèmes

Mix API premium + open self-host + edge.
Stack agents standardisée (graphes d’états, outils typés, journaux).

Axes

Coût/latence (faible ↔ élevé)
Régulation (souple ↔ stricte)

	Régulation souple	Régulation stricte
Coût bas	Explosion d’usages, différenciation par produit & data.	Usages ciblés, avantage aux acteurs bien gouvernés.
Coût haut	Centralisation API premium; use-cases premium only.	Consolidation, forts besoins d’audit/traçabilité.

X. Ressources & Annexes

Glossaire express (A–L)

Agent : LLM + outils + mémoire + politique d’action.
Alignment : SFT → RLHF/DPO pour préférences humaines.
ALiBi/RoPE : encodages positionnels pour long contexte.
Batching : servir plusieurs requêtes en parallèle.
CFG : guidance pour diffusion (fidélité au prompt).
CoT : chain-of-thought (raisonnement guidé).
ControlNet : conditionner l’image (canny/pose/depth…).
DPO : préférence directe sans Reward Model.
Embedding : vecteur densifié pour similarité sémantique.
FSDP/ZeRO : entraînement distribué mémoire-efficace.
GQA/MQA : variantes d’attention (queries groupées/mono).
KV-cache : clés/valeurs mémorisées pour l’inférence.

Glossaire express (M–Z)

LoRA/QLoRA : adaptation légère (8/4 bits).
MoE : mixture d’experts, gating top-k.
Negative prompt : éléments à bannir en diffusion.
PEFT : fine-tuning param-efficient.
P95 : 95ᵉ centile de latence.
RAG : retrieval-augmented generation (citations).
Speculative decoding : accélération par modèle projet.
Top-p/Top-k : stratégies d’échantillonnage.
vLLM : serveur haut débit (PagedAttention).
Watermark/Provenance : traçage de contenu généré.

LLM (vue opérationnelle)

Famille	Contexte	Multimodal	Forces	Limites
GPT	Étendu	Texte/vision/audio	Qualité stable, tools/JSON	Coût premium
Claude	Très long	Texte/vision	Refus calibrés	Écosystème d’outils moindre
Gemini	Étendu	Natif multimodal	Intégration G-Suite	Variabilité
Llama (open)	Variable	Variantes	Privé & custom	Ops à assumer
Mistral/Mixtral	Variable	—	Rapide, coût/perf	Couverture hétérogène

Stacks de serving

Stack	Cas idéal	+	–
vLLM	API interne haut débit	Débit, mémoire	Complexité déploiement
TGI	Prod stable	Écosystème HF	Débit moindre
Ollama	Dev/edge	Simplicité	Moins d’options prod
API provider	Time-to-value	SLO inclus	Dépendance/prix

Choix RAG — paramètres clés

Étape	Options	Conseils
Chunking	300–800 tok, overlap 10–20%	Inclure titres & métas
Index	Faiss/ScaNN/Vector-DB	Filtrage par métadonnées
Retrieval	k=4–8 + re-ranking	Cross-encoder ↑ précision
Génération	Citations + refus	Format structuré

Réglages rapides

Use-case	Temp	Top-p	Notes
Résumé/Extraction	0.2–0.3	0.8–0.9	précision & format
Idéation	0.8–1.0	0.9–1.0	diversité
Code	0.2–0.4	0.9	cohérence

Mots-clefs utiles

“format JSON strict”
“citations [n°]”
“critères d’arrêt”
“si inconnue : dire je ne sais pas”
“ton [[professionnel|chaleureux]]”
“auto-revue avant réponse”

Thématique — IA Générative

I. Introduction

II. Types de génération

III. Modèles & Écosystèmes

IV. Architecture & Training

V. Cas d’usage

VI. Éthique & Légal

VII. Prompting & Context

VIII. Déploiement

IX. Perspectives

X. Ressources

Définition rapide

Familles principales

Pourquoi maintenant ?

Capacités par modalités

Limites inhérentes

Repères techniques

Repères métiers

Métriques de qualité

Métriques ops

Mini-bench (structure)

Réglages usuels

Principaux risques

Parades opérationnelles

Mythes courants

Faits utiles

Brief technique (non-tech)

Pitch exécutif (30 sec)

Email de cadrage projet

FAQ interne

Direction (COMEX)

Produit

IT / Sécurité

RH / Formation

Patron universel (copiable)

Sampling express

Check de sortie

Petits pièges

1 — Qu’est-ce que l’IA générative ?

2 — Familles

3 — Pourquoi maintenant

4 — Capacités

5 — Limites

6 — Risques

7 — Parades

8 — Métriques

9 — Cas d’usage

10 — Prochaines étapes

Génération de Texte (Large Language Models)

Capacités clés

Limites & Contrôles

Cas d'usage principaux (par domaine)

Génération d'Images (Modèles de Diffusion)

Génération Audio

Génération Vidéo & 3D

Génération de Données & Code

Diapo 1: Qu'est-ce qu'un LLM ?

Diapo 2: Texte vs. Diffusion

Familles de modèles

Stratégie multi-fournisseurs

Quand API vs Local ?

Capacités spécifiques

Risques fournisseurs

Ordres de grandeur (indicatif)

Politiques de routage

Serving

Orchestration

Données & conformité

Garde-fous

Arbre de décision (résumé)

KPI de choix

Procédure

Mémo décision (API vs Local)

Benchmark express

Email achat/Legal (DPA)

Registre de risques

Matrice RACI — Sélection & mise en place

Template “fiche modèle” (Model Card)

Checklist procurement

Réglages de base (LLM)