Context Engineering — Section 1 : Introduction

Définition, différences avec le Prompt Engineering et raisons du changement de paradigme.

Context Engineering : ingénierie systématique du contexte fourni aux LLM/agents pour des réponses fiables, traçables et économes. Elle englobe l’acquisition des sources, l’indexation, la sélection pertinente, la structuration (schémas/sections/rôles), la compression multi-niveaux, l’orchestration (outils/mémoires) et la gouvernance (sécurité, conformité, coût).

Pense “pipeline de contexte” : composable, observable, testable, versionné.

Objectifs métiers

Réduire les hallucinations, augmenter la précision, accélérer le time-to-answer, assurer la conformité (RGPD/ISO), maîtriser les coûts.

Objectifs techniques

Standardiser les prompts, tracer sources & citations, contrôler la sortie (JSON/schema), exploiter cache & fenêtres longues.

Portée

Docs internes, bases, APIs, tickets, logs, emails, Knowledge Graphs, mémoires.

KPI

relevance@k, faithfulness, %citations, latence p50/p95, token-cost, cache hit, incident rate.

Bonnes pratiques : tags tenant/role/scope, horodatage, provenance, versioning, RBAC jusque dans le retrieval.

Livrables concrets

Schéma JSON des prompts (sections/roles/constraints).
Templates assemblage (Jinja/Django).
Policy pack : RGPD, secrets, redaction, PII scrubbers.
Playbooks : support, code copilots, analytics.
Dashboards : coûts, latence, erreurs, health.
Corpus indexé (chunk + embeddings cohérents).
Repair prompts + validateurs (pydantic/jsonschema).
Scripts d’évaluation (gold sets, LLM-as-judge groundé).

Gabarit (template Django)

{% with ctx=builder.build(user, question) %}
{{ ctx.system }}
Contexte:
- Faits: {{ ctx.facts|join:" | " }}
- Citations: {{ ctx.citations|length }} ref.
Question: {{ ctx.user }}
Contraintes: {{ ctx.constraints|join:", " }}
{% endwith %}

Glossaire minimal

Chunking : découpage docs.
Embeddings : vecteurs.
Hybrid search : BM25 + vecteur.
RRF : fusion de rangs.
Re-ranking : rerang par cross-encoder.
Context cache : réutilisation.
Guarded output : validation JSON.
KG : Knowledge Graph.

Architecture type (texte)

[Ingestion] → [Indexation] → [Retrieval Hybride] → [Compression]
         → [Assembly: system+facts+citations+constraints] → [LLM/Agents]
         → [Validation JSON + Repair] → [Logging/Telemetry] → [Feedback Loop]

Pseudo-code d’orchestration

def answer(question, user, role):
    sources = retrieve_hybrid(question, k=8, user=user)
    distilled = compress_sources(sources, target_tokens=1200)
    prompt = assemble(role=role, facts=distilled.facts,
                      citations=distilled.citations,
                      constraints=["Réponse ≤ 250 mots","Puces","+ JSON si liste"])
    raw = call_llm(prompt, temperature=0.2, tools=TOOLS)
    return validate_or_repair(raw, schema=ANSWER_SCHEMA)

Deux cas d’usage

Support interne : docs IT + tickets → réponses sourcées, format FAQ.
Copilot code : contexte repo + issues + conventions → patch minimal + tests.

Exiger des citations (doc_id+loc) pour chaque affirmation non triviale.

Aspect	Prompt Eng.	Context Eng.
Unité	Prompt textuel	Pipeline (retrieval→assembly→validation)
Structure	Libre	JSON/roles/sections
Sources	Copier/coller	Indexées, scorées, filtrées
Contrôle sortie	Relecture manuelle	Schéma + validateur + repair
Traçabilité	Faible	Citations/IDs/offsets
Échelle	PoC	Production

Sans structure → fragilité : variations de phrasing, oublis, coûts inutiles.

5 patterns recommandés

Sectioned Prompt (roles/system/user/tools/constraints).
Facts→Claims→Citations (chaque claim référencé).
Task-Split : retrieve → compress → answer.
Memory-First : profil utilisateur + historique avant retrieval.
Guarded Output : validation JSON + repair.

Combiner patterns 2+5 pour limiter les hallucinations.

Anti-patterns fréquents

Coller des blobs (docs entiers non résumés).
Absence de rôle/contraintes/format.
Pas d’ID source ni de citations.
Mélanger mémoire session et profil permanent.
Pas d’observabilité/coûts.
Ignorer PII/consentement.

Ne loggez jamais des PII en clair dans vos traces.

Trois exemples

Juridique : prompts structurés + citations RGPD → fiches synthèse.
Support N2 : facts + runbooks + tool use (Grafana/PagerDuty).
Code : patch minimal + tests + chemins exacts.

{
  "system":"Assistant RGPD",
  "context":{"facts":["Art.5…","Art.32…"],"citations":[{"doc_id":"rgpd.md","loc":"§5.1"}]},
  "user":"Puis-je conserver les logs 6 mois ?",
  "constraints":["Puces","≤180 mots","Cite les articles"]
}

Gabarit (Django Template)

{{ system_block }}
Contexte:
- Faits: {{ facts|join:"; " }}
- Citations: {{ citations|length }} ref.
Question: {{ user_question }}
Contraintes: {{ constraints|join:", " }}

Validateur (pydantic)

class Answer(BaseModel):
    summary: str
    steps: list[str]
    confidence: float
    citations: list[dict]

Non-reproductibilité : sensibilité au phrasing, variabilité.
Faible traçabilité : pas de preuves, pas d’explicabilité.
Coût croissant : prompts verbeux, peu réutilisés.
Pas d’outillage : pas de tests, pas d’observabilité.

Ne pas confondre fenêtre longue et contexte utile : plus ≠ mieux.

LLM + longs contextes

Fenêtres 100k–1M tokens → besoin de sélection/compaction + cache.

Exigences métier

Traçabilité/citations, conformité, prévisibilité des coûts.

Écosystème

DB vecteur/KG, tool-use, observabilité, agents multi-étapes.

Le passage au pipeline permet A/B tests, mesures et itérations structurées.

Playbook (6 étapes)

Auditer vos prompts actuels, coûts, échecs typiques.
Définir un schéma de prompt + patrons de sortie.
Indexer le corpus (chunking/embeddings/KG).
Assembler un Context Builder (service/SDK).
Observer (logs/metrics/coûts) + tests automatiques.
Industrialiser (cache, policies, repair, guardrails).

def migrate_to_context_eng():
    audit = audit_prompts()
    schema = define_prompt_schema()
    index = build_index(corpus)
    builder = build_context_builder(schema, index)
    obs = setup_observability()
    return rollout(builder, obs)

KPI & ROI (exemple)

KPI	Avant	Après
Faithfulness	0.68	0.90
Latency p50	1600 ms	900 ms
Token cost / req	1.0×	0.65×
Cache hit	—	35%

Risques & mitigations

PII leak → scrubbers + masquage + RBAC.
Hallucination → citations obligatoires + re-rank.
Coût → compression + cache + batching.
Drift corpus → index refresh programmé.
Tech debt → schema versioning + tests.

Checklist déploiement : [ ] schéma versionné [ ] logs masqués [ ] tests retrieval [ ] budget tokens.

Context Engineering — Section 1 : Introduction

1.1 Définition

1.2 Différences

1.3 Changement de paradigme