1) C’est quoi un RAG ?

Le Retrieval-Augmented Generation combine un moteur de recherche sur tes données + un modèle génératif pour produire des réponses sourcées, fiables et à jour.

Recherche sémantique LLM génératif Moins d’hallucinations Réponses traçables

🌍 En termes simples

Retrieval = “Google interne” → retrouve les passages pertinents dans tes docs.
Generation = “ChatGPT d’entreprise” → rédige la réponse à partir de ces passages.
➡️ Un assistant qui lit tes sources avant de répondre. Résultat : réponses sourcées & fiables.

Mini-schéma (texte)

Question → [Retrieval] → Top_k passages → (Rerank) → [LLM] → Réponse + Citations

📦 Ce que n’est pas un RAG

❌ Pas un modèle ré-entraîné sur tes données.
❌ Pas un simple “search” mot-clé.
✅ Une architecture qui assemble index, filtres, prompts, LLM.

🧩 Composants usuels

Connecteurs (PDF, web, Confluence, DB).
Chunking + métadonnées (titre, H1-H3, auteur, langue, confidentialité).
Embeddings & index vectoriel (pgvector/FAISS), parfois hybride (BM25+dense).
Reranking (cross-encoder) pour améliorer la pertinence.
Prompt avec contraintes (citations, format, style, langue).

🆚 Sans vs Avec RAG

	Sans RAG	Avec RAG
Fiabilité	Risque d’inventions	Appui sur sources réelles
Mise à jour	Ré-entraînement coûteux	Ré-indexer de nouveaux docs
Traçabilité	Faible	Liens / citations / score
Sécurité	Contexte flou	Filtres + RBAC + logs

📘 À retenir

Le RAG rend l’IA utile sur la doc réelle de l’entreprise.
La confiance augmente grâce aux citations & au périmètre contrôlé.
On maîtrise les coûts : pas besoin d’énormes fine-tunings.

Contrat RAG minimal (extrait JSON)

{
  "retrieval": {"k":5, "filters":["product=ABC","lang=fr"]},
  "llm": {"model":"gpt-4o-mini", "latency_budget_ms":3000},
  "answer": {"must_cite": true, "format":"bullets", "max_tokens":600}
}

❓ Questions d’entretien (flash)

Différence RAG vs fine-tuning ?
Pourquoi le hybrid search aide-t-il ?
Que fait un reranker ?
Quels KPIs de base pour valider un MVP ?

🧠 Glossaire express

Embedding : vecteur numérique d’un texte.
Top-k : nombre de passages renvoyés au LLM.
Hit@k : passage pertinent présent dans le top-k.
RBAC : contrôle d’accès par rôles.

⚠️ Erreurs fréquentes

Indexer des PDF bruts sans nettoyage (bruit).
Oublier les métadonnées (filtrage impossible).
Ne pas forcer les citations dans le prompt.

🎯 Objectifs

Réduire les hallucinations.
Produire des réponses justifiables (citations).
Actualiser la connaissance par ré-indexation.
Protéger la sécurité/PII par filtres & RBAC.

💡 Bénéfices mesurables

Time-to-answer ↓ (recherche + synthèse auto).
Charge support ↓ (self-service).
Confiance ↑ (taux de citation, score pertinence).
Coûts ↓ vs entraînement/fine-tuning massif.

⛔ Anti-patterns

Indexer “tout” sans nettoyage/déduplication.
Pas de métadonnées (périmètre flou).
Pas d’obligation de citation → confiance faible.
Prompt générique (manque de guidage).

📏 KPIs simples (pour démarrer)

KPI	But	Conseil
Hit@k	>= 80% au POC	Soigner chunking + filtres
Citation rate	>= 95%	Prompt “must cite” + contrôle post
Feedback 👍/👎	> 80% 👍	Widget feedback simple
Latency p95	< 3–5 s	Cache, k réduit, rerank ciblé
Coût/1000 req	Budget produit	Tracking coût par étape

💶 ROI (ordre de grandeur)

ROI ≈ (tickets évités × coût moyen/ticket) + (temps gagné × TJM) − (coûts LLM + ops).

# Exemple
tickets_evites = 1200/an; cout_ticket = 6€
temps_gagne = 800 h/an; tjm = 400€/j
couts = 15 000€ (LLM+ops)
ROI ≈ 1200*6 + 800*(400/7) - 15000  → positif dès le MVP

🛡️ Sécurité par le retrieval

Filtrer par tags/métadonnées (produit, pays, langue, confidentialité).
Appliquer RBAC pour ne restituer que le visible pour l’utilisateur.
Logger les sources servies (traçabilité/audit).

🚫 Quand le RAG n’est pas adapté

Production de contenu créatif sans sources internes.
Besoin d’exécution d’actions (outil → agents/outils).
Apprentissage de nouvelles compétences du modèle (→ fine-tuning).

🏢 Support interne

FAQ IT/RH/Sécurité → réponses sourcées + liens internes.
Procédures (“onboarder un fournisseur ?”).
Impact : tickets ↓, MTTR ↓.

📖 Connaissance produit

Guides techniques, release notes, incidents passés.
Réponses avec version, plateforme, périmètre exact.
Avant-vente : synthèses argumentées + sources.

⚖️ Conformité & juridique

Politiques & normes (ISO, RGPD, HIPAA).
Clauses citées; niveau de confiance.
Audit trail : qui a consulté quelle source.

🎙️ Pitch 30 secondes (entretien)

« Un RAG est un assistant IA qui lit nos documents avant de répondre. Il combine un moteur de recherche sémantique et un LLM. Résultat : moins d’hallucinations, des réponses sourcées, mises à jour par simple ré-indexation, avec des garde-fous (filtres, RBAC, citations). »

Astuce : conclure par 1 KPI (ex. “taux de citation > 95%”).

⚙️ Chemin minimal d’un MVP

Choisir 1 périmètre (ex. FAQ IT FR).
Indexer 50–200 documents propres + métadonnées.
Brancher un LLM + prompt “must cite”.
Mesurer hit@k, citation rate, latence p95, coût/req.

Staff minimal : 1 dev (retrieval) + 1 PM/SME (sources) + 1 ops (déploiement).

🧾 Prompt d’exemple (avec citations obligatoires)

SYSTEM: Tu es l'assistant documentaire de l'entreprise. 
- Utilise UNIQUEMENT les passages fournis.
- CITE toujours les sources (titres + URLs) à la fin.
- Si l'info manque, dis-le clairement.

USER: 

CONTEXT (top_k=):

🧭 Décision rapide : RAG ou pas ?

Le besoin s’appuie sur des documents connus → RAG.
Besoin créatif sans sources → LLM seul.
Nouvelles compétences modèle → fine-tuning.
Actions/outils (tickets, CRM) → agents + tool calling.

1) C’est quoi un RAG ?

Définition simple

But & bénéfices

Exemples & pitch