Génération d'Images

Modèles de diffusion (Stable, DALL-E), GANs.

Concept Clé : Modèles de Diffusion (Latente)

La quasi-totalité des générateurs d'images modernes (DALL-E 3, Stable Diffusion, Midjourney) utilisent la **Diffusion**.

Principe : Le modèle apprend à "débruiter" une image. Il part d'un pur bruit aléatoire (statique) et, étape par étape, le raffine pour qu'il corresponde à la description textuelle (le "prompt").

Diffusion "Latente" (ex: Stable Diffusion) : Pour être plus rapide, le modèle ne travaille pas sur l'image en pixels, mais dans un "espace latent" (une représentation compressée de l'image). C'est ce qui permet de le faire tourner sur des GPU grand public.

L'Ancêtre : Les GANs

Avant la Diffusion, les **GANs** (Generative Adversarial Networks) dominaient (ex: StyleGAN).

Principe : Un jeu du chat et de la souris entre deux réseaux de neurones :

Le Générateur : Crée de fausses images (ex: un faux visage).
Le Discriminateur : Tente de deviner si l'image est réelle ou fausse (générée).

Le Générateur s'améliore jusqu'à ce que le Discriminateur ne puisse plus faire la différence. Les GANs sont connus pour leur photoréalisme mais sont instables à entraîner.

Applications Principales

Marketing & Publicité : Création de visuels uniques, "mockups" de produits.
Design & Concept Art : Exploration rapide d'idées visuelles, "storyboarding".
Divertissement : Génération de "assets" pour les jeux vidéo, effets visuels.
Synthèse de données : Créer des données d'entraînement (ex: fausses radiographies) pour d'autres IA.

Les Principales Techniques de Génération

Le "Prompt Engineering" est aussi crucial pour les images. Il s'agit de décrire non seulement le **sujet**, mais aussi le **style**, l'**éclairage**, la **composition** et le **cadrage**.

Technique	Description	Cas d'usage
Text-to-Image (txt2img)	La plus commune. Génère une image à partir d'une description textuelle.	Création "ex-nihilo" d'un concept.
Image-to-Image (img2img)	Prend une image en entrée et un prompt en entrée. Transforme l'image en suivant le prompt (ex: "transforme ce croquis en photo réaliste").	Stylisation, transformation d'un croquis.
Inpainting (Édition)	Permet de "masquer" une zone de l'image et de la régénérer avec un nouveau prompt (ex: "remplacer la tasse par un vase").	Retouche photo, suppression/ajout d'objets.
Outpainting (Extension)	Étend l'image au-delà de ses bordures originales en générant un contexte cohérent.	Changer le format d'une image (ex: 1:1 -> 16:9).

Le Contrôle Fin : ControlNet

L'un des plus grands défis est de forcer le modèle à respecter une structure. **ControlNet** est une architecture qui s'ajoute à un modèle de diffusion (comme Stable Diffusion) pour lui donner des "conditions" précises.

Plutôt qu'un simple prompt, on peut lui fournir :

Une "Depth Map" : Pour forcer la profondeur et la perspective.
Une "Canny Edge" (Contours) : Pour forcer le modèle à suivre les lignes d'un croquis.
Une "Pose" (OpenPose) : Pour forcer le modèle à générer un personnage dans une pose squelettique exacte.

Cela transforme la génération d'une "loterie" en un véritable outil de design contrôlé.

Anatomie d'un Modèle de Diffusion (Stable Diffusion)

Un modèle de diffusion latent n'est pas monolithique. Il est composé de trois parties principales qui travaillent de concert :

1. Encodeur de Texte (ex: CLIP) : C'est le "traducteur". Il prend votre prompt (texte) et le convertit en une représentation numérique (Embeddings) que le modèle d'image peut comprendre. C'est lui qui lie "chat" à l'idée d'un chat.
2. Le Denoising U-Net : C'est le cœur du réacteur. Il opère dans l'espace latent. À chaque étape, il reçoit l'image bruitée et le "prompt" traduit, et prédit une version légèrement "moins bruitée" de l'image.
3. Le VAE (Variational Autoencoder) : C'est le "compresseur/décompresseur".
- Au début (img2img) : Il prend l'image pixel et la compresse en espace latent.
- À la fin : Il prend l'image finale débruitée (toujours en espace latent) et la "décode" en une image en pixels que vous pouvez voir.

Architecture de Stable Diffusion (CLIP, U-Net, VAE)

Écosystème des Modèles Principaux

Modèle	Propriétaire	Type	Force Principale
DALL-E 3 / 4	OpenAI (dans ChatGPT)	Fermé	Compréhension "surréaliste" des prompts complexes et intégration ChatGPT.
Stable Diffusion (SD3, SDXL)	Stability AI / Communauté	Open Source	Extrême flexibilité, écosystème d'outils (ControlNet), Fine-Tuning (LoRA).
Midjourney	Midjourney (serveur Discord)	Fermé	Considéré comme le leader en qualité esthétique et "artistique".
Imagen 3	Google (dans Vertex/Gemini)	Fermé	Très fort pour générer du texte lisible dans les images.

Risques & Limites

Deepfakes & Désinformation : Le risque n°1. Création d'images fausses (personnalités politiques, événements) indiscernables de la réalité, pouvant être utilisées pour la propagande ou le harcèlement.
Biais & Stéréotypes : Si on tape "docteur", le modèle génère un homme blanc. Les modèles amplifient les biais présents dans les données d'entraînement (ex: surreprésentation ou sexualisation).
Propriété Intellectuelle (Copyright) : Les modèles sont entraînés sur des milliards d'images (protégées) sans autorisation. Peuvent-ils régurgiter le style d'un artiste ou des images protégées ? (Sujet de nombreux procès).
Contenu "Not Safe For Work" (NSFW) : Sans filtres robustes, les modèles peuvent générer du contenu violent ou pornographique.
Problèmes de Cohérence : Difficulté notoire à générer des mains humaines correctes, du texte lisible (sauf Imagen), ou à maintenir la cohérence d'un personnage sur plusieurs images.

Comment évaluer la génération ?

L'évaluation est complexe et combine des métriques techniques et des jugements humains.

Métriques Automatisées

Fréchet Inception Distance (FID) : La métrique la plus populaire. Elle mesure la "distance" statistique entre la distribution des images générées et la distribution des images réelles. Un score FID bas est meilleur (signifie que les images générées sont "similaires" aux réelles).
CLIP Score : Mesure la "pertinence" entre le prompt et l'image générée. Un score élevé signifie que l'image correspond bien à la description textuelle.

Évaluation Humaine (Le "Gold Standard")

À la fin, c'est l'humain qui décide. Des évaluateurs notent les sorties selon des critères précis :

Qualité Esthétique : L'image est-elle "belle" ? (Très subjectif).
Fidélité au Prompt : L'image contient-elle tous les éléments demandés dans le prompt ?
Réalisme / Cohérence : L'image est-elle physiquement plausible ? (Pas de main à 6 doigts).
Comparaison A/B : On montre deux images (Modèle A vs Modèle B) et on demande "Laquelle est la meilleure ?".