Stable Diffusion 3.5 est disponible avec de meilleures performances et le bon nombre de membres
Stability, la startup d'IA derrière le populaire générateur d'images Stable Diffusion, a annoncé une nouvelle génération de modèles conçus pour être plus personnalisables et polyvalents tout en produisant un contenu plus « diversifié » et représentatif.
Le nouveau Stable Diffusion 3.5 est disponible en trois variantes : Large, Large Turbo et Medium. Stable Diffusion 3.5 Large enregistre 8 milliards de paramètres et est capable de générer des images jusqu'à un mégapixel de résolution. Stable Diffusion 3.5 Large Turbo a les mêmes capacités que Large, bien qu'il génère des images plus rapidement au détriment d'une certaine qualité.
Stable Diffusion 3.5 Medium, quant à lui, est conçu pour fonctionner sur des appareils de pointe, comme les ordinateurs portables, les tablettes et les smartphones. Il peut générer des images dans une variété de tailles allant d'un quart de MP à 2 MP. Les versions Large et Large Turbo sont disponibles aujourd'hui, tandis que Medium arrivera à la fin du mois, le 29 octobre.
SD 3.5 promet des performances considérablement améliorées par rapport à son prédécesseur, Stable Diffusion 3.0, qui a fait ses débuts en juin. La sortie de SD3 a suscité l'indignation et la déception de la part de sa base d'utilisateurs en raison de l'incapacité du modèle à restituer avec précision les membres et les doigts, en particulier pour les sujets représentés allongés sur l'herbe, ainsi que des artefacts endémiques et de sa difficulté à suivre l'invite donnée.
La société concède que SD3 n'a pas « pleinement répondu à nos normes ni aux attentes de nos communautés » mais insiste sur le fait que « Stable Diffusion 3.5 reflète notre engagement à donner aux constructeurs et aux créateurs des outils largement accessibles, de pointe et gratuits pour la plupart des cas d'utilisation. « .
Le nouveau modèle 3.5 a également été formé pour générer des images de personnes plus diversifiées, créant « des images représentatives du monde, pas seulement un type de personne, avec des tons de peau et des caractéristiques différents », et sans avoir besoin de nombreuses invites.
« Pendant la formation, chaque image est sous-titrée avec plusieurs versions d'invites, les invites les plus courtes étant prioritaires », a déclaré Hanno Basse, CTO de Stability. TechCrunch. « Cela garantit une distribution plus large et plus diversifiée des concepts d’image pour toute description textuelle donnée. Comme la plupart des entreprises d’IA générative, nous nous entraînons sur une grande variété de données, y compris des ensembles de données filtrés accessibles au public et des données synthétiques.
Reste à savoir si cela conduit au même genre de problèmes que ceux auxquels Google a été confronté en février lorsque le générateur d'images de Gemini a commencé à cracher des messages « historiquement inexacts » (lire : soldats noirs nazis). « La génération d'images IA de Gemini génère un large éventail de personnes », une déclaration de Google posté sur Twitter en février, lit-on. « C'est généralement une bonne chose car les gens du monde entier l'utilisent. Mais ici, on manque le but. »
Si vous souhaitez essayer Stable Diffusion 3.5 par vous-même, Large et Large Turbo sont actuellement disponibles en téléchargement sur Hugging Face. Vous pouvez trouver le code d'inférence sur GitHub.