1) C’est quoi un RAG ?
Le Retrieval-Augmented Generation combine un moteur de recherche sur tes données + un modèle génératif pour produire des réponses sourcées, fiables et à jour.
Recherche sémantique LLM génératif Moins d’hallucinations Réponses traçables
Définition d’un RAG (Retrieval-Augmented Generation)
🌍 En termes simples
- Retrieval = “Google interne” → retrouve les passages pertinents dans tes docs.
- Generation = “ChatGPT d’entreprise” → rédige la réponse à partir de ces passages.
- ➡️ Un assistant qui lit tes sources avant de répondre. Résultat : réponses sourcées & fiables.
Mini-schéma (texte)
Question → [Retrieval] → Top_k passages → (Rerank) → [LLM] → Réponse + Citations📦 Ce que n’est pas un RAG
- ❌ Pas un modèle ré-entraîné sur tes données.
- ❌ Pas un simple “search” mot-clé.
- ✅ Une architecture qui assemble index, filtres, prompts, LLM.
🧩 Composants usuels
- Connecteurs (PDF, web, Confluence, DB).
- Chunking + métadonnées (titre, H1-H3, auteur, langue, confidentialité).
- Embeddings & index vectoriel (pgvector/FAISS), parfois hybride (BM25+dense).
- Reranking (cross-encoder) pour améliorer la pertinence.
- Prompt avec contraintes (citations, format, style, langue).
🆚 Sans vs Avec RAG
| Sans RAG | Avec RAG | |
|---|---|---|
| Fiabilité | Risque d’inventions | Appui sur sources réelles |
| Mise à jour | Ré-entraînement coûteux | Ré-indexer de nouveaux docs |
| Traçabilité | Faible | Liens / citations / score |
| Sécurité | Contexte flou | Filtres + RBAC + logs |
📘 À retenir
- Le RAG rend l’IA utile sur la doc réelle de l’entreprise.
- La confiance augmente grâce aux citations & au périmètre contrôlé.
- On maîtrise les coûts : pas besoin d’énormes fine-tunings.
Contrat RAG minimal (extrait JSON)
{
"retrieval": {"k":5, "filters":["product=ABC","lang=fr"]},
"llm": {"model":"gpt-4o-mini", "latency_budget_ms":3000},
"answer": {"must_cite": true, "format":"bullets", "max_tokens":600}
}❓ Questions d’entretien (flash)
- Différence RAG vs fine-tuning ?
- Pourquoi le hybrid search aide-t-il ?
- Que fait un reranker ?
- Quels KPIs de base pour valider un MVP ?
🧠 Glossaire express
- Embedding : vecteur numérique d’un texte.
- Top-k : nombre de passages renvoyés au LLM.
- Hit@k : passage pertinent présent dans le top-k.
- RBAC : contrôle d’accès par rôles.
⚠️ Erreurs fréquentes
- Indexer des PDF bruts sans nettoyage (bruit).
- Oublier les métadonnées (filtrage impossible).
- Ne pas forcer les citations dans le prompt.
But, bénéfices, KPIs & anti-patterns
🎯 Objectifs
- Réduire les hallucinations.
- Produire des réponses justifiables (citations).
- Actualiser la connaissance par ré-indexation.
- Protéger la sécurité/PII par filtres & RBAC.
💡 Bénéfices mesurables
- Time-to-answer ↓ (recherche + synthèse auto).
- Charge support ↓ (self-service).
- Confiance ↑ (taux de citation, score pertinence).
- Coûts ↓ vs entraînement/fine-tuning massif.
⛔ Anti-patterns
- Indexer “tout” sans nettoyage/déduplication.
- Pas de métadonnées (périmètre flou).
- Pas d’obligation de citation → confiance faible.
- Prompt générique (manque de guidage).
📏 KPIs simples (pour démarrer)
| KPI | But | Conseil |
|---|---|---|
| Hit@k | >= 80% au POC | Soigner chunking + filtres |
| Citation rate | >= 95% | Prompt “must cite” + contrôle post |
| Feedback 👍/👎 | > 80% 👍 | Widget feedback simple |
| Latency p95 | < 3–5 s | Cache, k réduit, rerank ciblé |
| Coût/1000 req | Budget produit | Tracking coût par étape |
💶 ROI (ordre de grandeur)
ROI ≈ (tickets évités × coût moyen/ticket) + (temps gagné × TJM) − (coûts LLM + ops).
# Exemple
tickets_evites = 1200/an; cout_ticket = 6€
temps_gagne = 800 h/an; tjm = 400€/j
couts = 15 000€ (LLM+ops)
ROI ≈ 1200*6 + 800*(400/7) - 15000 → positif dès le MVP
🛡️ Sécurité par le retrieval
- Filtrer par tags/métadonnées (produit, pays, langue, confidentialité).
- Appliquer RBAC pour ne restituer que le visible pour l’utilisateur.
- Logger les sources servies (traçabilité/audit).
🚫 Quand le RAG n’est pas adapté
- Production de contenu créatif sans sources internes.
- Besoin d’exécution d’actions (outil → agents/outils).
- Apprentissage de nouvelles compétences du modèle (→ fine-tuning).
Exemples concrets & pitch 30 secondes
🏢 Support interne
- FAQ IT/RH/Sécurité → réponses sourcées + liens internes.
- Procédures (“onboarder un fournisseur ?”).
- Impact : tickets ↓, MTTR ↓.
📖 Connaissance produit
- Guides techniques, release notes, incidents passés.
- Réponses avec version, plateforme, périmètre exact.
- Avant-vente : synthèses argumentées + sources.
⚖️ Conformité & juridique
- Politiques & normes (ISO, RGPD, HIPAA).
- Clauses citées; niveau de confiance.
- Audit trail : qui a consulté quelle source.
🎙️ Pitch 30 secondes (entretien)
« Un RAG est un assistant IA qui lit nos documents avant de répondre. Il combine un moteur de recherche sémantique et un LLM. Résultat : moins d’hallucinations, des réponses sourcées, mises à jour par simple ré-indexation, avec des garde-fous (filtres, RBAC, citations). »
Astuce : conclure par 1 KPI (ex. “taux de citation > 95%”).
⚙️ Chemin minimal d’un MVP
- Choisir 1 périmètre (ex. FAQ IT FR).
- Indexer 50–200 documents propres + métadonnées.
- Brancher un LLM + prompt “must cite”.
- Mesurer hit@k, citation rate, latence p95, coût/req.
Staff minimal : 1 dev (retrieval) + 1 PM/SME (sources) + 1 ops (déploiement).
🧾 Prompt d’exemple (avec citations obligatoires)
SYSTEM: Tu es l'assistant documentaire de l'entreprise.
- Utilise UNIQUEMENT les passages fournis.
- CITE toujours les sources (titres + URLs) à la fin.
- Si l'info manque, dis-le clairement.
USER:
CONTEXT (top_k=):
🧭 Décision rapide : RAG ou pas ?
- Le besoin s’appuie sur des documents connus → RAG.
- Besoin créatif sans sources → LLM seul.
- Nouvelles compétences modèle → fine-tuning.
- Actions/outils (tickets, CRM) → agents + tool calling.
