Google a récemment dévoilé Imagen. Imagen est une IA – Intelligence Artificielle– capable de générer une image remarquablement précise à partir d’un texte de votre choix.
« Nous présentons Imagen, un modèle de diffusion texte-image avec un degré de photoréalisme sans précédent et un niveau profond de compréhension du langage »
Précise Google.
Une version de démonstration
À ce jour, Google ne propose sur son site qu’une version de démonstration basique, avec seulement quelques mots utilisables. Et c’est normal, pour protéger son code open source du grand public, et aussi par peur de dérapages. Google indique d’ailleurs que les risques d’abus « soulèvent des inquiétudes quant à l’ouverture responsable du code et des démos ». Ils expliquent : “Bien que nous laissions une analyse empirique approfondie des préjugés sociaux et culturels aux travaux futurs, nos évaluations internes à petite échelle révèlent plusieurs limites qui guident notre décision de ne pas publier notre modèle pour le moment”.
“Pour le moment, nous avons décidé de ne pas publier de code ou de démo publique. Dans les travaux futurs, nous explorerons un cadre pour une externalisation responsable qui équilibre la valeur de l’audit externe avec les risques d’un accès ouvert sans restriction.”
Site imagen.research.google
L’IA est basée sur les modèles de langage à grands transformateurs
D’après les concepteurs, Imagen s’appuie sur la puissance des modèles de langage à grands transformateurs pour comprendre le texte et s’appuie sur la force des modèles de diffusion dans la génération d’images hautefidélité. la découverte clé consiste en le fait que les grands modèles de langage génériques (par exemple, T5), pré-entraînés sur des corpus textuels, sont étonnamment efficaces pour encoder du texte pour la synthèse d’images : l’augmentation de la taille du modèle de langage dans Imagen améliore à la fois la fidélité de l’échantillon et l’alignement image-texte.
Vous pouvez tester la version démo ICI.