Mistral – 📚 Entraînement

Pré-entraînement (LM) · Instruction Tuning / SFT · RLHF/RLAIF · Datasets (web filtré, code, multilingue, dialogues, docs). Modales ultra-densifiées : schémas, tableaux, formules, checklists & snippets.

Obj. LM & pertes Alignement (humain/IA) Curations & licences

Objectif & pertes

# Cross-entropy (LM)
L = - Σ_t log pθ(x_t | x_{<t})

Masque causal ; séquences tronquées/paddées.
Schedule warmup → cosine (ou plateau) + AdamW.
AMP/bfloat16 + grad-clip pour stabilité.

Hyperparamètres (ordres de grandeur)

Paramètre	7B	MoE 8×7B	Note
LR max	1e-4 → 2e-5	≈1e-4	cosine, warmup 1–3%
Batch eff.	128–512	256–1024	grad-accum
Seq len	4k–8k	8k–32k	RoPE scaling
WD	0.01	0.01	AdamW

Bonnes pratiques

Mix de données équilibré (texte/code/multi-langue).
Dedup agressif + filtres qualité (langue, toxicité, PII).
Checkpointing fréquent + reprise idempotente.

Snippets (Transformers)

from transformers import AutoModelForCausalLM, AutoTokenizer, Trainer, TrainingArguments
tok = AutoTokenizer.from_pretrained("mistralai/Mistral-7B-v0.2")
model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-7B-v0.2")
args = TrainingArguments(per_device_train_batch_size=2, fp16=True, lr_scheduler_type="cosine",
                         learning_rate=2e-5, warmup_ratio=0.02, gradient_accumulation_steps=16)
trainer = Trainer(model=model, args=args, train_dataset=lm_dataset)
trainer.train()

Anti-patterns

Mélanger sources bruyantes sans filtres → dérive & biais.
Sous-estimer la VRAM séquence-longue (OOM tardifs).
Pas de golden set pré-train → difficile de détecter régressions.

Tip : curriculum par longueur : commencer à 2k, augmenter vers 8–32k (RoPE scaling) une fois la perte stabilisée.

Principe

Supervisé sur paires (instruction, sortie) proches des cas d’usage.
Contrats de sortie (JSON/XML) + validateurs côté serveur.
QLoRA/LoRA pour mémoire réduite (4/8-bit) et itérations rapides.

Exemple dataset (JSONL)

{"instruction":"Résume en 3 puces","input":"...","output":"- A\n- B\n- C"}
{"instruction":"Extrais email","input":"Contact: ...","output":"{\"email\":\"x@y.com\"}"}

Qualité des données

Diversifier tons/formats, inclure contre-exemples.
Retirer PII, normaliser unités/chiffres si critique.
Split train/val/test par source (éviter fuite).

QLoRA (schéma)

from peft import LoraConfig, get_peft_model
peft_cfg = LoraConfig(r=64, lora_alpha=16, target_modules=["q_proj","v_proj"])
model = get_peft_model(model, peft_cfg)  # puis SFT sur dataset d'instructions

Éval SFT

Exact-match, conformité de schéma, longueur, refus appropriés.
Golden set versionné + CI (non-régression à chaque bump).
Red-team prompts (jailbreak, PII, toxicité) en post-SFT.

Tip : imposer des stop sequences & max_new_tokens + sampling conservatif (temp=0.2, top-p=0.9) pour formats stricts.

Boucle RLHF (schéma)
Policy π_θ  →  Génère réponses  →  Score RM / préférences  →  Optimise (PPO/DPO/ORPO)

Trois approches

PPO (avec RM) : policy vs reward model, KL-penalty.
DPO/ORPO : directement sur préférences (pairs win/lose), sans RM explicite.
RLAIF : préférences produites par un modèle IA (proxy humain).

Pertes (intuition)

# PPO (sketch)
L = E[ r_t - β KL(π_θ || π_ref) ]  (avec avantage/clip)
# DPO (préférences y⁺ > y⁻)
L = - log σ(β (log π_θ(y⁺|x) - log π_θ(y⁻|x)))

Comparatif

Méthode	+ Points forts	– Limites	Quand
PPO	Fin contrôle via RM	Setup complexe	Produits sensibles
DPO/ORPO	Simple, stable	Moins fin que RM	Alignement rapide
RLAIF	Scale facile	Qualité proxy	Volumes massifs

Snippets (pseudo)

# DPO mini
for x, y_pos, y_neg in prefs:
    loss = -logsigmoid(beta*(logp(y_pos|x)-logp(y_neg|x)))
    loss.backward(); opt.step()

# PPO (idée)
adv = compute_advantage(rm_scores, kl_penalty)
loss = ppo_clip(policy, old_policy, adv)

Bonnes pratiques

Curate préférences cohérentes (consigne/format/sécurité).
Contrôler la dérive via KL/similarité à une policy de référence.
Évaluer refus justifiés, toxicité, hallucinations guidées.

Tip : commencer par SFT solide + DPO léger ; réserver PPO complet aux domaines à haut risque/compliance.

Sources typiques

Web crawl filtré (qualité, langue, PII/NSFW, dé-duplication).
Dépôts de code (licences permissives), issues/PR.
Corpus multilingue & documentations techniques.
Dialogues & QA (humain↔humain/humain↔bot) curés.

Mix & pondérations

Type	% indicatif	But
Web	40–60%	Couverture générale
Code	10–25%	Raisonnement/formatage
Docs	10–20%	Qualité factuelle
Dialogues	10–20%	Interaction/ton

Licences & gouvernance

Inventaire des sources + conditions d’utilisation.
Traçabilité (hash, URL, date, licence) → audit.
Règles PII, rétention, purge & localisation des données.

Pipeline de curation (ASCII)

Crawl → Dé-dup → Lang/Qualité → PII/NSFW → Tokenisation → Shards → Mix → Train

Anti-patterns

Ignorer la dé-duplication → sur-apprentissage/local modes.
Mélanger des licences incompatibles → risques juridiques.
Pas de versioning dataset → non-reproductible.

Tip : conserver des snapshots (manifest JSON) de chaque build dataset + scripts de reproduction.

Métriques & jeux

Exact-match, conformité schéma, ROUGE/BLEU (si utile).
Groundedness (citations RAG), refus justifiés.
Temps/coûts par 1k tokens, latence p95/p99.

Golden set (exemple)

{"id":"r1","task":"extraction email","prompt":"...","gold":"{\"email\":\"x@y.com\"}"}
{"id":"r2","task":"résumé 3 puces","prompt":"...","gold":"- A\n- B\n- C"}

Tests rouges (sécurité)

PII, jailbreak, prompt injection, contenus à risque.
Règles de refus claires + alternatives sûres.
Modération pré/post + journalisation.

CI (pipeline)

- run: schema tests
- run: golden set (exact-match, groundedness)
- run: red-team suite (seuils min)
- deploy: canary + alerting + rollback

Anti-patterns

Ne bencher que des scores publics hors-domaine.
Confondre “style” avec “vérité” (hallucinations non pénalisées).
Ignorer p95/p99 (SLAs non tenus en prod).

Tip : séparer strictement évaluation offline (golden set) et monitoring online (télémétrie anonymisée + A/B).

Stratégies mémoire

ZeRO (stage 1–3) : sharding optim/grad/poids.
Activation checkpoint : recompute fwd → mémoire↓.
Offload (CPU/NVMe) si VRAM contrainte.

Choix de précision

bfloat16 recommandé si HW compatible (stabilité).
fp16 + loss-scaling si bfloat16 indisponible.
Int8/4-bit pour SFT avec QLoRA (poids gelés + adapters).

Throughput & coûts

# indicatif
tokens/s ≈ (batch_eff × seq_len) / latence_step
coût ≈ tokens_total × prix_tok (compute + IO)

Snippets (DeepSpeed/Accelerate)

{
  "zero_optimization": {"stage": 2},
  "bf16": {"enabled": true},
  "gradient_accumulation_steps": 16
}

Bonnes pratiques

Reprise de checkpoint idempotente (seed, sampler, mix).
Profiler GPU : temps en comms vs compute (optimiser buckets).
Alerting sur OOM tardifs & nan-loss (arrêt propre).

Tip : tracer config complète (hp, datasets, seeds, versions libs) dans un manifest joint à chaque checkpoint pour une reproductibilité totale.

Mistral – 📚 Entraînement

Pré-entraînement (LM)

Instruction Tuning / SFT

RLHF / RLAIF

Datasets & Curation

Évaluation & Validation

Pipeline & Infra