Génération de Texte

LLMs, rédaction, traduction, génération de code.

Concept Fondamental : Le LLM

Un LLM (Large Language Model) est un réseau de neurones (type **Transformer**) entraîné sur des pétaoctets de texte.

Sa fonction première est statistique : prédire le prochain "token" (mot/sous-mot) dans une séquence.

C'est de cette tâche simple qu'"émergent" des capacités complexes que nous exploitons :

Compréhension contextuelle : Saisir le sens d'un paragraphe.
Raisonnement (limitée) : Suivre des instructions en plusieurs étapes.
Génération : Écrire du texte cohérent et pertinent.

Modèles & Acteurs Clés

OpenAI: GPT-4o, GPT-4 Turbo
Anthropic: Claude 3 (Opus, Sonnet)
Google: Gemini 1.5 Pro, 1.5 Flash
Meta (Open Source): Llama 3
Mistral AI (Open Source/Weight): Mixtral 8x22B

Applications Principales

La génération de texte est désormais au cœur de nombreux processus métier :

Rédaction & Création

Générer des articles de blog, emails, descriptions de produit, scripts. (Ex: Copy.ai)

Traduction

Traduire avec une fluidité contextuelle surpassant les outils NMT traditionnels. (Ex: DeepL)

Génération de Code

Écrire, compléter, expliquer et déboguer du code ; générer des tests unitaires. (Ex: GitHub Copilot)

Synthèse & Extraction

Résumer de longs documents, extraire des informations clés (NER), classer des sentiments. (Ex: Feedly)

Agents & Chatbots

Alimenter des agents conversationnels de nouvelle génération, capables de tenir une conversation et d'exécuter des tâches.

Prompt Engineering : L'art de demander

Puisque le LLM ne fait que "compléter" du texte, la qualité de l'entrée (le "prompt") dicte 90% de la qualité de la sortie. C'est le Prompt Engineering.

Patron de Prompt	Description
Zero-Shot	Demande directe sans exemple. (Ex: "Traduis ce texte en français...")
Few-Shot	Fournir 2 ou 3 exemples de paires Entrée/Sortie avant la demande finale.
Chain-of-Thought (CoT)	Demander au modèle de "réfléchir étape par étape" avant de donner sa réponse. Augmente la précision sur les problèmes de logique.
Role-Playing (Persona)	"Tu es un expert en marketing. Rédige un email pour..." Force le modèle à adopter un ton et un style spécifiques.

RAG (Retrieval-Augmented Generation)

Le problème majeur des LLM est leur "cut-off" de connaissances et leur tendance à halluciner. Le RAG résout ce problème.

Principe du RAG : Ne pas demander au LLM de "savoir" la réponse, mais de la "construire" à partir de documents fournis.

Processus simplifié :

1. Requête Utilisateur : "Quel est le statut du projet Alpha ?"
2. Recherche (Retrieval) : Le système cherche dans une base de données vectorielle (Embeddings) les documents pertinents (ex: emails, CR de réunion).
3. Augmentation : Le système injecte ces documents dans le prompt.
4. Génération : "En te basant sur ces documents [Doc1, Doc2], quel est le statut du projet Alpha ?"
5. Réponse "fondée" : "Basé sur le CR du 10/10, le projet Alpha est en phase de test..."

L'Architecture "Transformer"

Quasiment tous les LLM modernes (GPT, Llama, Claude...) sont basés sur l'architecture Transformer (papier "Attention Is All You Need", 2017). Son innovation clé est le **mécanisme d'attention**.

Avant, les modèles (RNN/LSTM) lisaient le texte mot à mot, oubliant le début de la phrase à la fin. Le mécanisme d'attention permet au modèle de "regarder" tous les mots de la phrase en même temps et de décider lesquels sont les plus importants pour comprendre le mot actuel.

Exemple : Dans "Le robot a traversé la rue car il était fatigué", l'attention connecte "il" à "robot", pas à "rue".

Cette architecture permet une parallélisation massive (entraînement sur GPU) et une compréhension supérieure du contexte long.

Diagramme de l'architecture Transformer (Encoder-Decoder)

Le Processus d'Entraînement

Étape	Description	Objectif
1. Pre-training (Pré-entraînement)	Entraîner le modèle sur l'intégralité d'Internet (Teraoctets de données) sur sa tâche simple : "prédire le mot suivant". C'est l'étape la plus coûteuse (des millions de $ en GPU).	Donner au modèle la connaissance générale du monde, la grammaire, la sémantique.
2. Fine-Tuning (SFT)	Entraîner le modèle pré-entraîné sur un dataset plus petit et de haute qualité, souvent sous forme de paires "Instruction / Réponse".	Apprendre au modèle à "suivre des instructions" et à être un assistant utile, pas seulement un compléteur de texte.
3. Alignment (RLHF/DPO)	Utiliser des techniques (comme le "Reinforcement Learning from Human Feedback") pour aligner les sorties du modèle sur les préférences humaines (utilité, honnêteté, sécurité).	Rendre le modèle moins toxique, plus sûr, et plus apte à refuser les demandes dangereuses.

Risques & Limites

Hallucinations : Le risque n°1. Le modèle "invente" des faits, des sources, des citations de manière très convaincante. Il ne sait pas qu'il ne sait pas.
Biais : Le modèle est un "perroquet stochastique". Il reproduit les stéréotypes (de genre, de race, culturels) présents dans ses données d'entraînement massives.
Sécurité & "Jailbreaking" : Des utilisateurs malveillants peuvent contourner les gardes-fous (via des "prompts injectés") pour générer du contenu haineux, des malwares, ou des plans dangereux.
Propriété Intellectuelle : Le modèle peut régurgiter mot pour mot des extraits de code ou de texte protégés par le droit d'auteur.
Coût & Environnement : L'entraînement et même l'inférence (utilisation) des plus gros modèles sont extrêmement coûteux et énergivores.

Comment évaluer la génération ?

Évaluer une génération de texte est notoirement difficile. "Est-ce que c'est bien ?" est subjectif.

Métriques Automatisées (Classiques)

Principalement pour la traduction et la synthèse. Elles comparent le texte généré à une "référence humaine".

BLEU : Compare la similarité des n-grams (groupes de mots) avec la référence.
ROUGE : Mesure le rappel (overlap) des n-grams. Souvent utilisé pour la synthèse.

Limite : Ces métriques sont faibles pour évaluer la créativité ou la pertinence factuelle.

Évaluation Basée sur l'IA (LLM-as-a-judge)

Une tendance moderne : utiliser un LLM puissant (comme GPT-4) pour noter la sortie d'un autre LLM sur des critères (pertinence, concision, style).

Évaluation Humaine (Le "Gold Standard")

La seule méthode infaillible. Des évaluateurs humains notent les sorties selon une grille de critères :

Utilité : La réponse répond-elle à la question ?
Factualité : La réponse est-elle correcte et "fondée" (grounded) ?
Sécurité : La réponse est-elle inoffensive ?