Le générateur de texte en image de Google, Imagen, produit des images avec un « degré de photoréalisme sans précédent »
Google a dévoilé une nouvelle création baptisée «Imagen», un générateur de texte en image à travers les descriptions qu’une personne fournira. La société affirme qu’elle surpasse les performances de DALL-E 2, un autre générateur d’images AI. Il a présenté quelques échantillons, qui montrent indéniablement des détails exquis, mais Imagen n’est actuellement pas disponible au public.
Le nouveau modèle de diffusion texte-image est décrit comme ayant « un degré sans précédent de photoréalisme et un niveau profond de compréhension du langage ». Il comprend le texte à travers de grands modèles de langage de transformateur et on dit qu’il s’appuie sur des modèles de diffusion pour effectuer une génération d’images haute fidélité.
Google a fourni des images et des échantillons du travail d’Imagen, avec des styles allant des dessins aux peintures à l’huile et aux CGI. Ils sont accompagnés des mots et expressions utilisés pour les générer. Par exemple, un échantillon indique « un fruit du dragon portant une ceinture de karaté dans la neige », tandis que l’autre a la description « un petit cactus portant un chapeau de paille et des lunettes de soleil au néon dans le désert du Sahara ».
Les images générées semblent incroyablement réelles comme si elles avaient été créées par une personne réelle. Cependant, Google affirme que cela se fait grâce aux technologies de diffusion en utilisant une image de bruit pur et en l’affinant de la meilleure façon possible. En comprenant la description textuelle fournie, Imagen générera une image de 64 x 64 pixels, effectuera deux améliorations et convertira l’image en une plus grande pièce de 1024 x 1024 pixels.
Google Research, Brain Team dit qu’Imagen a excellé sur COCO (un ensemble de données de détection, de segmentation et de sous-titrage d’objets à grande échelle) même s’il n’y a pas été formé. L’équipe a indiqué qu’elle avait reçu un nouveau score FID de pointe de 7,27.
Google a également comparé les performances d’Imagen à d’autres modèles de texte en image en les évaluant à l’aide de « DrawBench ». Il sert de référence pour les modèles texte-image où Google a testé Imagen avec d’autres méthodes telles que VQ-GAN+CLIP, les modèles de diffusion latente et DALL-E 2. Après avoir testé leur composition, cardinalité, relations spatiales, forme longue texte, mots rares et invites difficiles, l’équipe a déclaré que « les évaluateurs humains préfèrent fortement Imagen aux autres méthodes, à la fois en termes d’alignement image-texte et de fidélité d’image ».
Malgré ces rapports impressionnants de l’équipe de recherche, tester Imagen vous-même ne sera pas possible car il n’est pas accessible au public. Google a des raisons à cela, telles que les défis éthiques, les risques potentiels d’utilisation abusive, les préjugés sociaux, les limites des grands modèles linguistiques et le risque de stéréotypes et de représentations nuisibles codés. L’équipe résume qu’avec tous ces défis, Imagen n’est toujours pas parfait lorsqu’il s’agit de générer des images liées aux personnes.
« Imagen présente de sérieuses limitations lors de la génération d’images représentant des personnes », explique l’équipe dans un article de blog. « Nos évaluations humaines ont révélé qu’Imagen obtient des taux de préférence significativement plus élevés lorsqu’il est évalué sur des images qui ne représentent pas de personnes, ce qui indique une dégradation de la fidélité de l’image. L’évaluation préliminaire suggère également qu’Imagen encode plusieurs préjugés et stéréotypes sociaux, y compris un biais général en faveur de la génération d’images de personnes à la peau plus claire et une tendance pour les images représentant différentes professions à s’aligner sur les stéréotypes de genre occidentaux. Enfin, même lorsque nous nous concentrons sur des générations éloignées des personnes, notre analyse préliminaire indique qu’Imagen encode une gamme de préjugés sociaux et culturels lors de la génération d’images d’activités, d’événements et d’objets. Nous visons à progresser sur plusieurs de ces défis ouverts et limites dans les travaux futurs. »