Chatgpt peut enfin générer des images avec du texte lisible
La génération d'images GPT-4O est désormais disponible dans Chatgpt. Le nouveau modèle de génération d'images, qui remplace Dall-E 3, est le plus remarquable pour son rendu de texte précis, ses capacités « de liaison » améliorées et sa facilité d'utilisation.
Contrairement à la méthodologie traditionnelle de génération d'images de diffusion, qui « peint » les détails au-dessus du bruit aléatoire, GPT-4O utilise un système autorégressif de haut en bas. Il est plus lent que la diffusion, mais les avantages de l'autorégression sont aussi clairs que le jour. GPT-4O est capable de cracher des images avec du texte parfaitement lisible – quelque chose que les modèles d'IA comme Dall-E 3 n'ont pas réussi à réaliser.
Non seulement cela, mais vous pouvez spécifier du contenu textuel pour les images générées. Écrivez une invite comme « Donnez-moi une image photoréaliste d'une fille écrivant sur un tableau blanc avec une écriture désordonnée », dites à l'AI quels que soient les mots que vous voulez voir sur le tableau blanc, et cela vous donnera quelque chose de assez précis. Et, peut-être plus important encore, le modèle est assez bon pour écrire du texte stylisé 2D pour les menus de restaurants, les publicités ou d'autres articles qui peuvent être utiles aux entreprises ou aux amateurs.
L'approche autorégressive semble également aider à «reliure», ce qui est une façon sophistiquée de dire que l'IA ne se confonde pas par des invites qui contiennent plusieurs sujets. Si vous demandez à Dall-E 3 de dessiner un cercle rouge, un triangle bleu, un cœur vert, une étoile rose et un carré violet, il peut se déclencher sur lui-même et cracher les mauvaises formes ou couleurs. GPT-4O, en revanche, peut gérer avec précision jusqu'à 20 objets différents.
Lorsqu'elle est associée aux capacités de distribution de texte du modèle, l'amélioration de la liaison crée clairement des opportunités intéressantes pour l'art ou la publicité d'entreprise, bien que ce soit également une chose généralement utile qui facilite la génération d'images.
Bien sûr, la génération d'images GPT-4O est juste « meilleure » que Dall-E 3. Les images photoréalistes semblent plus vraies à la vie, l'art numérique semble moins soupe ou granuleux, et de nouvelles techniques d'inférence réduisent la nécessité de taper des invites longues et compliquées. Le modèle possède également une «cohérence des caractères» améliorée, ce qui signifie qu'un caractère ou un objet généré dans une invite peut être transporté avec précision vers des invites suivantes – si vous dites à l'AI de réutiliser un chat cyborg qu'il a créé, il ne changera pas la couleur du chat, etc.
Openai admet que son nouveau modèle de génération d'images est imparfait. Il lutte toujours contre les hallucinations, les représentations mathématiques (comme les graphiques ou les graphiques), le texte multilingue, etc. Pourtant, c'est clairement une amélioration par rapport aux modèles de génération d'images précédents de l'entreprise.
En rapport
Linux Kernel 6.14 publié avec des améliorations pour les jeux et l'IA
Cette mise à jour offre des améliorations importantes de la fréquence d'images pour certains jeux Windows.
OpenAI dit que la génération d'images GPT-4O contient des garanties pour éviter une mauvaise utilisation, ainsi que des techniques de filigrane avancées pour aider les gens à différencier le contenu généré par l'IA de réels et de fabriquer des choses humaines. Mais je vais sortir sur un membre et supposer que ces garanties peuvent, avec effort, être contournées. Et OpenAI utilise toujours le filigrane C2PA, qui n'est que des métadonnées. Il faut très peu d'efforts pour éliminer ces métadonnées d'une image – C2PA est inefficace pour empêcher la propagation de la désinformation.
Le nouveau générateur d'images GPT-4O ne réduira pas non plus les préoccupations concernant le droit d'auteur ou l'utilisation équitable. Il a été formé sur un mélange de données «accessibles au public» et de données sous licence, selon un communiqué fourni à The Wall Street Journal. Les sociétés de l'IA sont connues pour défier la loi sur le droit d'auteur de base, et OpenAI ne partage pas ses données de formation avec le public, alors n'hésitez pas à tirer vos propres conclusions à ce sujet. (Pour ce que ça vaut, Openai faitse souciez du droit d'auteur quand c'est le travail est volé.)
En rapport
9 raisons de créer vos propres GPT personnalisés dans le chatppt
Transformez Chatgpt en votre outil d'IA parfait.
La génération d'images GPT-4O est disponible aujourd'hui. Ouvrez Chatgpt dans votre navigateur, demandez à l'AI de générer une image et profitez-en. Notez que le déploiement n'est pas complet, donc certains utilisateurs peuvent encore rencontrer l'ancien modèle DALL-E 3. La meilleure façon de faire la différence est d'observer comment une image générée se charge. Dall-E 3 charge des images avec une roue qui tourne, tandis que les images GPT-4O se chargent avec une animation de scanner à plat de haut en bas de haut en bas.
Tous les utilisateurs de ChatGPT peuvent accéder à la génération d'images GPT-4O, y compris les utilisateurs gratuits. Cependant, les utilisateurs gratuits font face à des limites d'utilisation, tout comme ils l'ont fait lors de l'utilisation de Dall-E 3.