Project Oxygen & Ideo-LabIDEO LAB Dashboard 2026

Thématique — IA Générative

Cartes → modales (concepts, prêts à copier, prompts par domaine, matrices RACI, mode cours/diapo).
Retour IDEO-Lab

I. Introduction

Fondamentaux

Définitions, jalons, métriques clés, cas d’école.

TexteImageAudioVidéoCode

II. Types de génération

Multimodal

LLM, diffusion, speech, vidéo, 3D & data — capacités, limites, contrôles.

III. Modèles & Écosystèmes

Comparatifs

GPT/Claude/Gemini/Llama/Mixtral : forces, coûts, risques.

IV. Architecture & Training

Transformers

Tokenisation, attention, MoE, RLHF/DPO, inférence & ops.

V. Cas d’usage

Entreprise

Assistants, marketing, IT/data, juridique, produit, RH…

VI. Éthique & Légal

Conformité

Gouvernance, sécurité, copyright, traçabilité, AI Act.

VII. Prompting & Context

RAG

Patrons efficaces, anti-patterns, RAG robuste, évaluation.

VIII. Déploiement

MLOps

PEFT/quantization, vLLM/Ollama, monitoring & coûts.

IX. Perspectives

2026–2030

Agents outillés, confiance, 3D reasoning, simulation-first.

X. Ressources

Glossaire

Lexique, bibliographie, liens clés, checklists & templates.

I. Introduction à l’IA Générative
Définition rapide

Un modèle génératif apprend une distribution sur des données (texte, image, audio, vidéo, code) et échantillonne de nouveaux exemples plausibles. Contraire d’un modèle discriminatif qui classe.

Familles principales
  • Autoregressifs : LLM (chat, code, TTS) — sampling (temp, top-p, top-k, pénalités).
  • Diffusion : image/vidéo — in/out-painting, img2img, ControlNet, IP-Adapter.
  • Multimodal natif : vision-langage, audio-langage, agents VLA.
Pourquoi maintenant ?
  • Transformer (2017) + scaling laws → capacité émergente.
  • Compute (GPU/TPU/NPU) + jeux de données massifs.
  • Alignement (instruction-tuning, RLHF/DPO) pour l’usage humain.
Capacités par modalités
  • Conversation / agents
  • Résumé & extraction
  • Traduction
  • Génération de code
  • Génération d’images
  • Text-to-video
  • TTS / voix clonée
  • 3D / scènes
Limites inhérentes
  • Stochastique : sorties variables, non déterministes.
  • Hallucinations : erreurs plausibles si contexte pauvre.
  • Connaissance figée à la date d’entraînement (hors RAG/outils).
Astuce : imposer le format de sortie, citer les sources, fixer des critères d’arrêt.
II. Types de génération

Génération de Texte (Large Language Models)

Les LLM sont le cœur de la GenAI textuelle. Ils modélisent la probabilité de la prochaine "token" (mot ou sous-mot) dans une séquence.

Capacités clés

  • Rédaction & Création : Emails, articles, posts, scripts.
  • Synthèse (Summarization) : Condenser des documents longs.
  • Extraction (NER/NRE) : Extraire des entités (noms, dates) et leurs relations.
  • Traduction : Haute performance, y compris "low-resource".
  • Question/Réponse (Q&A) : Basé sur un contexte (RAG) ou ses connaissances.
  • Génération de Code : Écrire, compléter, expliquer et déboguer du code.

Limites & Contrôles

  • Hallucinations : Invention de faits (risque majeur).
  • Fenêtre de contexte : Limite de tokens en entrée (de 4k à +1M).
  • Coût & Latence : L'inférence est coûteuse, surtout pour les grands contextes.
  • Contrôle fin : Difficile de garantir un format de sortie (JSON, etc.) sans "guardrails".
  • Biais : Peut reproduire et amplifier les biais des données d'entraînement.

Cas d'usage principaux (par domaine)

DomaineUse CasePrompt type
MarketingGénération de posts (blog, réseaux sociaux), création de séquences d'email.One-shot (avec exemple) + Persona
Support ClientAgent conversationnel (chatbot), synthèse d'appels, rédaction de réponses types.RAG (base de connaissance)
IT / DevGénération de code (Copilot), écriture de tests unitaires, "rubber ducking".Zero-shot (instruction directe)
JuridiqueSynthèse de contrats, analyse de risques, recherche de jurisprudence.RAG + Chain-of-Thought (CoT)
``` ### 🤓 Explication 1. **Fichier et ID** : Le code est à placer dans `IA/modal_context_type.html`. Le `div` principal a l'ID `#m-types` et la couleur `--accent:var(--types)`, correspondant à la 2ème carte de votre hub. 2. **Structure de la Modale** : J'ai respecté le format de `image_acbea9.png`, avec l'en-tête `.mh`, les boutons d'action `.mactions` (copier, imprimer, fermer), et le corps `.mbody`. 3. **Système d'Onglets** : J'ai créé des onglets pour chaque *type* de génération. "Texte (LLM)" est le premier et est sélectionné par défaut (`aria-selected="true"`). 4. **Contenu (Texte)** : J'ai rempli le premier onglet avec le contenu que vous demandiez ("LLMs, rédaction, traduction..."). J'ai utilisé les classes `.two` (deux colonnes) et `.panel` (panneau) que j'ai vues dans le CSS de `generative_home.html` pour structurer l'information (Capacités vs Limites). 5. **Stubs** : Les autres onglets ("Images", "Audio", etc.) sont présents mais "cachés" (`hidden`) et contiennent un placeholder, prêts à être remplis. 6. **Mode Diapo** : J'ai inclus un exemple de "Cours/Diapo" fonctionnel, basé sur les classes `.slides`, `.slide`, `.dot` et les attributs `data-slides` présents dans votre JS et CSS. Il vous suffit de sauvegarder ce code dans le bon fichier, et votre deuxième modale est prête. Prêt à remplir la modale suivante, "III. Modèles & Écosystèmes" ?
III. Modèles & Écosystèmes
Familles de modèles
  • Propriétaires : GPT, Claude, Gemini, etc. — focus qualité, latence maîtrisée, tooling riche.
  • Open/Community : Llama, Mistral/Mixtral, Qwen, DeepSeek… — contrôle, coût, custom.
  • Spécialisés : code, vision-langage (VLM), audio, TTS, agents/outils.
Stratégie multi-fournisseurs
  • Routing par use-case (qualité/coût/latence/sensibilité).
  • Failover (timeouts, quotas), AB testing, versioning prompts.
Quand API vs Local ?
  • API : time-to-value, SLO élevés, coûts Opex, données hors SI (vérifier DPA).
  • Local/Privé (vLLM/Ollama/TGI) : contrôle & confidentialité, coûts Capex, ops à assumer.
La qualité de contexte (RAG/outils) apporte souvent plus que changer de modèle.
IV. Architecture & Training
Blocs essentiels
  • Tokenisation (BPE/Unigram) → embeddings (pos/rotary).
  • Self-Attention (Q·Kᵀ/√d) + MLP; résidus & normalisations.
  • KV-cache pour réutiliser clés/valeurs à l’inférence.
Variantes d’attention
  • Flash/Scaled (memoire efficace), ALiBi/RoPE (long contexte).
  • Sparse/Long (Longformer, sliding), Grouped-Query, Multi-Query.
Mixture-of-Experts (MoE)
  • Routeur choisit k experts (top-1/2) → capacité ↑, latence ≈.
  • Paramètres: nombre d’experts, capacity factor, load balancing.
  • Avantages: coût/qualité; Risques: instabilité, hot experts.
Sécurité & refus

Heads spécialisées émergent; l’alignement (ci-dessous) module les comportements indésirables.

V. Cas d’usage (catalogue & prompts par domaine)
Entreprise (non-tech)
  • Assistant interne (recherche, synthèse, actions)
  • RAG documentaire (politiques, procédures)
  • CRM copilote (emails, comptes-rendus, suivi)
  • Marketing (briefs, variations, A/B)
  • Ventes (objections, pitchs, scripts)
  • RH (fiches poste, feedback, entretiens)
  • Juridique (revue clauses, risques)
  • Finance (notes, variance, commentaires)
Tech / Data
  • Code review, refactor, tests
  • Migrations & docs
  • SQL copilote • NL→SQL
  • ETL assisté, mapping, règles
  • Observabilité IA (qualité/latence/coût)
  • Données synthétiques
  • Playbooks SRE (incidents IA)
  • Gen d’APIs & stubs
Critères d’éligibilité (quand appliquer l’IA géné)
  • Tâche textuelle/visuelle, semi-structurée, avec jugement humain.
  • Volume récurrent >= 50/jour ou durée >= 10 min/tâche.
  • Données disponibles et gouvernées (ou publiques).
VI. Éthique, Légal & Gouvernance
Principes directeurs
  • Utilité & proportionnalité : bénéfice mesuré vs risques.
  • Transparence : finalité, limites, traçabilité, disclaimers.
  • Équité : éviter discriminations, tester les biais.
  • Responsabilité humaine : “human in/on the loop”.
  • Sécurité : prévention des abus, réponse incident.
Niveaux d’usage (interne)
  • N0 — Sandbox/idéation (données publiques).
  • N1 — Assistants internes (RAG, citations, pas de PII sensible).
  • N2 — Données sensibles / actions sur SI (politiques & contrôles renforcés).
  • N3 — Exposition client (exigences élevées en qualité & traçabilité).
VII. Prompting & Context Engineering
Patron universel (copiable)
SYSTEM: Rôle, objectifs, ton, critères d’arrêt (dire “Je ne sais pas” si info manquante). USER: [[tâche]] CONTEXT: [[contexte ciblé]] CONSTRAINTS: style, longueur, références, format strict. OUTPUT_SCHEMA: [[format attendu (JSON/markdown/tableau)]]
Patron “raisonnement sans dévoiler”
SYSTEM: Réfléchis étape par étape en interne puis fournis seulement la réponse finale expliquée brièvement (sans exposer toutes les étapes).
Few-shot efficace
Inclure 2–5 couples <input, output> courts et variés, puis “À partir de maintenant, applique le même style et le même format”.
Structured-output (strict)
SYSTEM: Tu dois répondre en JSON strict valide, rien d’autre. SCHEMA (exemple): {"title":string,"summary":string,"bullets":string[]} Si tu ne peux pas remplir un champ, mets "".
Tool-/Function-calling
  • Décrire chaque outil (input, output, limites) + exemples.
  • Politique : “appeler l’outil uniquement si conditions X/Y/Z”.
Self-critique (auto-revue)
Après génération, vérifie: (1) format strict (2) contradictions (3) critères d’acceptation. Si échec → régénère une seule fois.
VIII. Optimisation & Déploiement
Piles de serving
  • vLLM (PagedAttention) — haut débit, bon par défaut.
  • TGI (HF) — production stable, compat. large.
  • Ollama — dev/edge, simplicité, modèles locaux.
  • API providers — SLO élevés, moins d’ops.
Orchestration
  • Router multi-modèles (qualité/coût/latence/sensibilité).
  • Graphes d’outils (LangGraph/Flowise) + files/jobs.
  • Timeouts, retries, circuit-breaker, idempotence.
Perf pratique
  • Batching dynamique, partage KV-cache, speculative decoding.
  • Contextes courts + RAG ciblé > contextes géants.
  • Pin des seeds pour génératifs visuels; fixer temp/top-p.
Toujours mesurer qualité vs coût vs P95 sur un golden-set.
IX. Perspectives 2026–2030
Capacités
  • Agents outillés : planification, mémoire à long terme, outils multiples, exécution fiable.
  • Raisonnement spatial/3D : vision+actions, simulation first (jumeaux numériques).
  • Multimodal complet : texte, image, audio, vidéo, capteurs, UIs.
  • Personnalisation : micro-modèles/LoRA par équipe, profils & préférences.
Efficience
  • fp8, sparsité, MoE efficace, NPU/edge.
  • Décodage spéculatif, caches distribués, distillation ciblée.
Confiance & contrôle
  • Provenance/watermarking, attestations d’exécution.
  • Évaluation automatisée + préférences humaines à grande échelle.
  • Politiques dynamiques (données/outils) par contexte de risque.
Écosystèmes
  • Mix API premium + open self-host + edge.
  • Stack agents standardisée (graphes d’états, outils typés, journaux).
X. Ressources & Annexes
Glossaire express (A–L)
  • Agent : LLM + outils + mémoire + politique d’action.
  • Alignment : SFT → RLHF/DPO pour préférences humaines.
  • ALiBi/RoPE : encodages positionnels pour long contexte.
  • Batching : servir plusieurs requêtes en parallèle.
  • CFG : guidance pour diffusion (fidélité au prompt).
  • CoT : chain-of-thought (raisonnement guidé).
  • ControlNet : conditionner l’image (canny/pose/depth…).
  • DPO : préférence directe sans Reward Model.
  • Embedding : vecteur densifié pour similarité sémantique.
  • FSDP/ZeRO : entraînement distribué mémoire-efficace.
  • GQA/MQA : variantes d’attention (queries groupées/mono).
  • KV-cache : clés/valeurs mémorisées pour l’inférence.
Glossaire express (M–Z)
  • LoRA/QLoRA : adaptation légère (8/4 bits).
  • MoE : mixture d’experts, gating top-k.
  • Negative prompt : éléments à bannir en diffusion.
  • PEFT : fine-tuning param-efficient.
  • P95 : 95ᵉ centile de latence.
  • RAG : retrieval-augmented generation (citations).
  • Speculative decoding : accélération par modèle projet.
  • Top-p/Top-k : stratégies d’échantillonnage.
  • vLLM : serveur haut débit (PagedAttention).
  • Watermark/Provenance : traçage de contenu généré.