IA – Briques : LLM Core (Noyau IA)

LLM = réseau entraîné sur d’immenses corpus pour approximer P(next_token | contexte).

Compréhension : parser une question, identifier objectifs/contraintes.
Génération : rédiger, résumer, traduire, produire du code.
Raisonnement limité : chaîner des étapes courtes sous contraintes.

Mental model : le LLM ne “sait” pas — il approxime la suite la plus probable donnée l’entrée.

Ce que le LLM n’est pas

Pas une base de données (mémoire courte, pas d’indexation native).
Pas un moteur de vérité (peut halluciner).
Pas connecté au monde réel sans RAG / tools.

Terminologie utile

Token (BPE/Unigram), logits (scores bruts), température, top-k, top-p.
Fenêtre de contexte = tokens in + tokens out.

Entrée → Tokenization → Embeddings (+ PosEnc/RoPE) → (Transformer: QKV Self-Attention + MLP + Norm) × N → Logits → Décodage

Tokenization

BPE/WordPiece/Unigram : le texte est scindé en tokens.
Les espaces et sauts de ligne sont souvent des tokens distincts.
Budget = coût et latence : compresser l’entrée, éviter le bruit.

Ex.: "ChatGPT est puissant" → ["Chat","G","PT"," est"," puissant"]

Embeddings

Projection de tokens/phrases/documents en vecteurs (dimension d ~ 512–4096).
Similarité (cosine) → recherche sémantique, clustering, RAG.
Normaliser la casse/ponctuation; conserver des métadonnées (titre, page, source).

Transformer

QKV Self-Attention : pondère chaque token par rapport à tous les autres (coût O(n²)).
PosEnc/RoPE/ALiBi : intègre la position/ordre.
Cache d’attention pour streaming; fenêtre ≠ mémoire longue.

Prédiction & Décodage

Stratégie	Usage	Avantages / limites
Greedy	Déterministe	Stable mais peu créatif
Beam search	Traduction/alignement	Coût ↑, évite incohérences locales
Top-k / Top-p	Créatif	Compromis diversité/cohérence

# Réglages usuels
code/SQL: temperature=0.0–0.2, top_p=0.8–1.0, max_tokens=300
tech:      temperature=0.2–0.5, top_p≈0.9,      max_tokens=600
créatif:   temperature=0.7–1.0, top_p=0.9–1.0,  max_tokens=800
stop=["\nEND", ""]

Budget & coût

Coût ≈ tokens_in + tokens_out × prix/token.
Limiter max_tokens, tronquer le contexte non pertinent.

Qualité de sortie

Exiger formats stricts (JSON/CSV/Markdown balisé).
Valider via JSON Schema / Pydantic avant usage.

Observabilité

Log des prompts/outputs (avec masquage PII).
Métriques : latence P50/P95, tokens/req, erreurs d’outils.

Fournisseur	Modèles	Forces	Notes de déploiement
OpenAI	GPT-3.5, GPT-4/4o, GPT-5	Tool-use robuste, qualité de code, multimodal (4o)	SaaS; gestion des clés, quotas/budgets requis
Google	Gemini 1.5 / 2.x	Multimodal natif, très longues fenêtres	Intégration Vertex AI (IAM, monitoring)
Anthropic	Claude 3.x	Fenêtres larges, alignement sécurité	Bon sur consignes longues
Mistral	Mistral 7B, Mixtral MoE	Open-weight, coûts/agilité	On-prem possible; quantization/LoRA
Meta	LLaMA 2 / 3	Open-weight, écosystème riche	Fine-tuning & distillation aisés

Choix SaaS vs On-prem

SaaS : time-to-value rapide, SLO cloud.
Open-weight : contrôle/Coût, données sensibles.

Quantization & perf

INT8/INT4 pour CPU/GPU edge; trade-off qualité.
Batching & KV-cache pour débit.

Fenêtre & impacts

Fenêtre ≠ mémoire; illusions de long contexte.
Préférer RAG + résumés que prompts géants.

Cerveau brut

Le LLM offre l’intelligence linguistique, mais dépend des autres briques pour mémoire, action et fiabilité.

Dépendances clés

RAG : actualise et source les réponses (citations).
Mémoire : session & long-terme (profil/intentions).
Agents/Tools : appels API, SQL, calcul, navigation.
Guardrails : politiques, validation schéma, modération.

Contrats & Ops

Contrats d’entrée (role, objectif, format, contraintes).
Contrats de sortie (JSON Schema), tests de régression.
Observabilité : latence, coûts, erreurs/outils, taux de groundedness.

{
  "llm_core": "GPT|Gemini|Claude|Mistral|LLaMA",
  "memory": "session + long-terme",
  "rag":     "vector store + retriever + reranker",
  "tools":   ["sql_read","search","weather","code_exec"],
  "guardrails": ["policy","validation_json","moderation"],
  "ops": ["logs","metrics","budgets","alerts","golden-prompts"]
}

Assistant documentation interne

# Ingestion
chunks = split_all(pdfs, 1200, 150)
index  = VectorStore(); index.add([embed(c.text, meta=c.meta) for c in chunks])

# Query
ctx    = index.search(embed(q), top_k=6)          # + reranker BM25/cross-encoder
prompt = render(tpl, {"q": q, "passages": ctx, "need_citations": true,
                      "format": "JSON {answer, citations[], confidence}"})
res    = llm.generate(prompt, temperature=0.2, top_p=0.9)
assert validate_json(res, schema)

Évaluer : answer correctness, citations valides, temps/req, coût/req.
Fallback : “je ne sais pas” en dessous d’un seuil de confiance.

Agent SQL (lecture seule)

# Tool contract (JSON Schema)
{"name":"sql_read","parameters":{"type":"object",
 "properties":{"sql":{"type":"string"}}, "required":["sql"]}}

# Policy guardrails
{"allow":["sql_read"], "deny":["sql_write","shell.exec"],
 "norms":["read-only", "timeout:15s", "row_limit:1000"]}

# Loop (simplifié)
msg = llm.chat(messages, tools=[sql_read])
if msg.tool_call == "sql_read": data = db.read(msg.args.sql)
final = llm.chat(messages + tool_response(data))

Whitelist de schémas (vue en lecture seule), masquage PII.
Tests de red teaming (prompt-injection SQL, exfiltration).

Micro-service d’inférence (squelette)

# /infer (POST)
{ "role":"system","content":"Tu réponds en JSON valide {title,steps[],risks[]}",
  "input":"...", "max_tokens":600, "temperature":0.2 }

# Réponse
{ "title":"Plan d'intégration SSO",
  "steps":["Audit","Design","Implémentation","Tests","Runbook"],
  "risks":["clé compromise","drift de config"] }

Inclure quotas/budgets par utilisateur, journaux masqués, alertes.
Tests de régression par golden prompts (qualité, coût, latence).

LLM Core (Noyau IA)

Définition

Fonctionnement interne

Capacités principales

Limites du LLM Core seul

Exemples de modèles

Rôle dans une architecture IA

Cas d’usage

Exemples / Projets