Les outils de génération d'images sont basés sur une architecture de réseau de neurone appelée “Transformers”.
Ils fonctionnement également avec des prompts décrivant les images souhaitées. Contrairement aux Large-Language-Models, les modèles de génération d'images ont une compréhension beaucoup moins approfondi des subtilités de la langue.
Ces modèles ont plusieurs types d'utilisation.
Une description donnée au modèle permet la génération d'une image.
Une image de base est modifiée par la description du prompt.
Cette technique permet d'améliorer la qualité d'une image.
C'est notamment très utile après un zoom sur une partie d'une image quand la qualité visuelle a été dégradé.
Un détail d'une image est modifié en fonction du prompt.
C'est très utile pour les retouches.
Dans cette technique, le modèle va imaginer ce que pourrait être la suite d'une image.
Ce modèle est développé par StabilityAI et est disponible en Open Source.
C'est le plus populaire de part la taille de sa communauté et ses nombreuses extensions.
Il est disponible en local, en application web et en API.
Découvrir 👉 Notre guide Stable Diffusion
Midjourney est un modèle 100% propriétaire disponible uniquement au travers d'un bot Discord.
Les créations de Midjourney sont très appréciées car le niveau de réalisme et de détails y est généralement plus élevé que pour Stable Diffusion.
Découvrir 👉 Notre guide Midjourney
Dall-E 3 est la troisième version (you don't say!) du modèle Dall-E de OpenAI.
L'outil est intégré à l'interface web de ChatGPT et tire pleinement partie du haut niveau de compréhension du langage des LLM d'OpenAI, ce qui permet de générer des images très précises.
Découvrir 👉 Notre guide Dall-E 3
GenAI est un site français à propos des avancées technologiques dans le monde de l'intelligence artificielle.
© Copyright CC-BY-SA 2023-2024 gen-ai.fr