Mistral – 🧠 Briques cœur du LLM

Embeddings · Attention · FFN · Normalisation/Régularisation · Position/RoPE. Modales ultra-densifiées ++ : schémas, tableaux, formules, KPIs, checklists Dev/Ops & snippets PyTorch/pseudo-SDK.

Perf & stabilité Long context (RoPE/ALiBi) Snippets prêts à l’emploi

Résumé exécutable

Table |V| × d (poids appris) + weight-tying sortie ↓params.
Tokenizer BPE/SentencePiece multi-langue + code → OOV↓, compression↑.
Normaliser chiffres/unités si la tâche y est sensible.

Compression fr/en : ~1.3–1.5 tok/mot

Schéma (ASCII)

tokens: [He, ll, o, <sp>, Wo, rld]
             │
             ▼
 E(token_id) → vecteurs d (B×T×d) → + RoPE (Q/K) → blocs (attn/ffn)

Formules utiles

# Paramètres approximatifs
params_embeddings ≈ |V| * d
gain_weight_tying ≈ |V| * d (sortie partagée)
mémoire(batch) ≈ B*T*d*sizeof(dtype)

Comparatif tokenizer (indicatif)

Type	Avantages	Limites	Usages
BPE	Stable, répandu	Granularité code inégale	Général, web
SentencePiece	Sans espace, flexible	Paramétrage fin requis	Multi-langue
ByteLevel	Pas d’OOV	Seq. plus longues	Code/doc binaire

Anti-patterns

Changer de tokenizer en prod sans migration d’index RAG.
Vocab énorme (VRAM↑) sans ROI.
Mélanger plusieurs tokenizers sur un même flux RAG.

PyTorch (extrait)

import torch, torch.nn as nn
E = nn.Embedding(vocab_size, d_model)
x = E(tokens)  # [B, T, d]

Ops/Prod

Figer tokenizer & mapping ID entre versions majeures.
Documenter la date de build du vocabulaire (audit).
Tester équivalence post-quantization (8/4-bit).

Formule (par tête)

Q = X Wq ; K = X Wk ; V = X Wv
A = softmax( (Q K^T) / sqrt(d_h) ) V    # d_h = d_model / n_heads
masque causal: interdit de voir le futur

MHA capte des relations variées; GQA partage K,V → mémoire↓.
FlashAttention : kernels efficaces (latence/mémoire↓).

Complexité & gains

Variante	Temps	Mémoire	Notes
Naïve	O(T²·d)	O(T²)	petits T OK
+ KV cache	O(T·d)	O(T·d)	streaming rapide
GQA	≈ MHA	↓	K/V partagés
Fenêtre glissante	~O(T·w)	~O(T·w)	w≪T long contexte

Réglages & pièges

n_heads ≈ d/64..d/128 (selon implémentation).
Délimiteurs & sections clairs → attention guidée.
Stop sequences + max_new_tokens pour formats stricts.
⚠ Contexte > fenêtre → troncature silencieuse.

vLLM (OpenAI-like)

python -m vllm.entrypoints.openai.api_server \
  --model mistralai/Mixtral-8x7B-Instruct-v0.1 \
  --max-model-len 32768 --gpu-memory-utilization 0.92

Ops/Prod

Batching dynamique + paged KV cache.
Observabilité: p50/p95/p99, tokens, coûts, refus.
Cache de réponses par empreinte (prompt+ctx).

Bloc (SwiGLU)

# FFN (SwiGLU)
FFN(x) = W3 · ( (W1 x) ⊗ swish(W2 x) )   # ⊗ : produit Hadamard
d_ff ≈ 2–4× d_model

SwiGLU > GeLU (perplexity souvent meilleure, si kernels OK).
Dropout modéré + grad-clip pour stabilité fine-tuning.

MoE (Mixtral)

Routeur → top-2 experts actifs / token (capacité contrôlée).
Perplexity/qualité↑ à FLOPs quasi constants.
⚖ Ajoute complexité inferencing (routes, balance loss).

Paramètres & shapes

Objet	Shape	Note
Entrée	B×T×d	depuis attention
Largeur	d_ff	2–4×d (expert↓)
Sortie	B×T×d	résiduel + norm

PyTorch (schéma)

class FFN(nn.Module):
  def __init__(self, d, d_ff):
    super().__init__()
    self.w1 = nn.Linear(d, d_ff)
    self.w2 = nn.Linear(d, d_ff)
    self.w3 = nn.Linear(d_ff, d)
  def forward(self, x):
    return self.w3( self.w1(x) * torch.nn.functional.silu(self.w2(x)) )

Anti-patterns

FFN trop étroit → underfit (capacité limitée).
Pas de régularisation → sur-apprentissage/dérives.
MoE sans balance loss → experts déséquilibrés.

Tip : sur MoE, mesurer expert-utilization & latence p95; ajuster capacité (capacity factor) et le top-k du routeur.

Normals (pré-norm)

RMSNorm (fréquent sur Mistral) vs LayerNorm.
Pré-norm : la norme précède attn/ffn → gradients stables.
Init/échelle adaptées (post-init gains modestes).

Régularisation

Dropout modéré (attn/ffn), weight decay (AdamW).
Grad-clip (norme) contre explosions.
Drop-path (stochastic depth) si très profond.

Formules

# RMSNorm
y = x * rsqrt(mean(x^2) + eps) * w
# Label smoothing (indicatif): y_ls = (1-ε)*y + ε/|V|

PyTorch (extrait)

class RMSNorm(nn.Module):
  def __init__(self, d, eps=1e-6):
    super().__init__()
    self.w = nn.Parameter(torch.ones(d)); self.eps = eps
  def forward(self, x):
    return x * torch.rsqrt(x.pow(2).mean(-1, keepdim=True) + self.eps) * self.w

Anti-patterns

Cumuler trop de régularisations → sous-apprentissage.
Changer de norme entre pré-train & fine-tune.
Ignorer le grad-clip sur datasets hétérogènes.

[ x ] → Norm → Attention → + → Norm → FFN → + → ...
   ^___________________________________________ résidu

Tip : instabilités en FT → augmenter un peu dropout, activer grad-clip, vérifier ordre pré-norm, réduire lr (cosine/warmup).

Principe

RoPE applique une rotation dépendante de la position sur Q/K (fréquences log-spaced).
Conserve l’ordre dans l’espace vectoriel → meilleure extrapolation que sinus additifs.
Compat NTK/RoPE scaling pour étendre la fenêtre (8k→16k/32k).

Schéma (SVG)

Formules & pratiques

# Idée: rotation complexe dépendant de la position p
# Q', K' = rot(Q, θ(p)), rot(K, θ(p))
# NTK/RoPE scaling: ajuster θ pour fenêtres plus longues

Comparatif positions

Méthode	Atout	Limite	Contexte
Sinus additif	Simple	Extrapolation faible	court
RoPE	Extrapole mieux	Réglages requis	moyen/long
ALiBi	Très long, biais distance	Style différent	très long

Pièges & check

Ne pas mélanger stratégies entre base & FT sans re-calibrage.
Off-by-one sur positions → dégradations subtiles.
Évaluer prompts >8k si scaling actif (qualité & latence).

Long-context prompting (RAG):
[ chunks 500–1500 tok | overlap 10–20% ] → index → retrieve K → Re-rank → prompt balisé

Tip : constituer un golden set long-contexte (8k–32k) et monitorer perplexity/qualité + p95/p99.

Mistral – 🧠 Briques cœur du LLM

Embeddings

Attention

Feed-Forward (FFN)

Normalisation & Régularisation

Position & Rotary (RoPE)