La génération d'images à Chatgpt est devenue bien meilleure
Sommaire
Résumé
-
4O Génération d'images dans Chatgpt propose des images photoréalistes avec une cohérence améliorée et suit les instructions avec précision.
-
Les utilisateurs peuvent convertir des images en différents styles et les affiner via des invites.
-
Les images téléchargées peuvent être utilisées comme références, ou Chatgpt peut utiliser sa propre base de connaissances.
Quand Openai laisse tomber une nouvelle fonctionnalité, il y a souvent un petit buzz parmi les personnes intéressées, mais cela rare rarement Internet. Cependant, avec la sortie d'un modèle de génération d'images mis à jour, Chatgpt a fait exactement cela.
La génération d'images 4O a remplacé Dall-E en tant que outil de génération d'images par défaut dans Chatgpt, et les résultats sont vraiment impressionnants. Cela a conduit les gens à inonder Internet avec des images qu'ils ont générées en utilisant l'outil, et sa popularité semble même avoir pris Openai par surprise.
4o La génération d'images est intégrée à GPT-4O
Comme son nom l'indique, la génération d'images 4O est intégrée au modèle GPT-4O. Tant que vous utilisez ce modèle, vous n'avez rien à faire d'autre que de demander à Chatgpt de créer une image, et la génération d'images 4O se mettra au travail. Certains modèles, tels que O1, ne vous permettent pas du tout de créer des images, mais il semble que la génération d'images 4O ne se limite pas à GPT-4O. J'ai essayé de créer une image dans GPT-4, et il a quand même utilisé la génération d'images 4O plutôt que le modèle Dall-E qui a été utilisé précédemment.
Si vous préférez utiliser Dall-E pour une raison quelconque, il y a toujours un GPT Dall-E dédié disponible dans le magasin public GPT. Vous pouvez l'utiliser pour générer des images en utilisant le modèle plus ancien et moins capable. Il y a peu d'utilisation pour cela maintenant que pour voir à quel point la génération d'images est devenue meilleure.
Créer d'excellentes images photoréalistes
L'une des améliorations les plus évidentes par rapport à Dall-E est que la génération d'images 4O peut produire d'excellentes images photoréalistes, sans que vous ayez trop de vous soucier de l'artisanat rapide. Bien que les images prennent un peu de temps à générer et à révéler lentement à partir des de haut en bas d'une manière qui rappelle comment les images utilisées pour se charger lentement sur le dial-up, les résultats sont bien supérieurs à ce que Dall-E pourrait produire.
En rapport
La nouvelle génération d'images de Chatgpt ressemble à nouveau à Dial-up
Regarder mes images apparaître lentement de haut en bas me ramène au bon vieux temps.
J'ai demandé à Dall-E une image photoréaliste d'un singe portant un chapeau haut de gamme, et c'est ce qu'il m'a donné:
Il s'agit d'une image générée par la génération d'images 4O en utilisant la même invite:
La différence est stupéfiante et, franchement, un peu effrayante. Jusqu'à présent, il était généralement possible de dire si une image a été générée par AI si vous avez l'air assez fort pour des doigts supplémentaires ou du texte mutilé. Cependant, les images que le chatppt génère est très difficile à distinguer de la chose réelle, et comme on le dit communément sur les nouveaux développements d'IA, c'est le pire qu'ils seront jamais.
Vous pouvez convertir des images en différents styles
L'une des choses qui a allumé Internet depuis le lancement de la génération d'images 4O est la possibilité de demander à chatgpt pour convertir vos images en différents styles. Par exemple, vous pouvez télécharger une photo de vous-même et demander à Chatgpt de le changer dans le style de Van Gogh. Ce n'est pas quelque chose de nouveau, mais la qualité des résultats est une énorme étape de Dall-E.
Cela a fait commencer à télécharger des images d'eux-mêmes ou d'une culture populaire qui avait été transformée en style de studio Ghibli, le studio d'animation populaire derrière des films classiques tels que Fougueux et Mon voisin Totoro. Les résultats sont généralement géniaux, mais cela a déclenché un débat en ligne sur la façon dont il est éthique d'utiliser l'IA pour voler essentiellement le style d'un artiste sans leur permission. Au moment de la rédaction, cependant, j'ai pu faire des images dans le style du studio Ghibli sans problème.
Il est facile de affiner les images via des invites
Une autre amélioration majeure est que la génération d'images 4O a une excellente cohérence. Cela signifie que s'il y a une petite chose qui ne va pas avec votre image, vous pouvez demander à Chatgpt de le réparer, et cela laissera le reste de l'image seule. Dall-E apportera souvent des modifications majeures au reste de l'image lorsque vous essayez d'en corriger une partie.
Cela rend beaucoup plus facile d'obtenir l'image exacte que vous souhaitez, ce qui est souvent une énorme source de frustration avec Dall-E. Vous devriez essayer plusieurs fois pour vous rapprocher de l'image que vous vouliez, et parfois vous échoueriez complètement. Maintenant, par exemple, vous pouvez demander à avoir le chapeau supérieur du singe sous un angle différent, et le chapeau changera, mais le reste de l'image restera le même.
Cette cohérence le rend également idéal pour produire plusieurs images de la même personne ou du même caractère. Vous pouvez demander que le même personnage apparaisse dans un cadre différent, et Chatgpt préservera l'apparence du personnage dans leur nouvelle image.
Chatgpt peut enfin gérer le texte
C'est l'un des plus grands changements dans la génération d'images 4O. Dall-E pourrait ajouter du texte aux images, mais il a vraiment eu du mal à le faire. Vous obtiendrez généralement du texte qui ressemblait principalement aux mots que vous vouliez mais qui étaient très légèrement partis. Assez pour ruiner vos images, au moins. En utilisant la génération d'images 4O, vous pouvez créer le texte exact que vous souhaitez, et cela génère parfaitement.
Ceci, combiné à la cohérence améliorée, signifie que vous pouvez créer des choses en utilisant la génération d'images 4O qui n'étaient tout simplement pas possibles auparavant. J'ai esquissé un dessin terrible d'un étranger de dessin animé et j'ai pu créer un dessin animé à quatre panneaux qui a utilisé ce personnage, avec des bulles de la parole avec du texte parfait. Il a fallu plus de temps pour taper l'invite que pour générer mon dessin animé terminé.
La génération d'images 4o suivra réellement les instructions
C'est énorme. L'un des plus grands problèmes que j'ai eu avec Dall-E est qu'il refuserait souvent de suivre une instruction, surtout si cette instruction impliquait un négatif. J'ai passé des heures à essayer de le faire générer une image du Père Noël avec une moustache mais pas de barbe (juste pour voir à quoi il ressemblerait, évidemment), et peu importe ce que j'ai essayé, j'aurais une barbe complète à chaque fois.
La seule façon dont j'ai réussi à me rapprocher était de lui demander de générer une image d'Hercule Poirot déguisée en Père Noël, et même alors, il a fallu plusieurs tentatives avant d'avoir une image sans barbe et moustache blanche. Maintenant, cependant, je peux obtenir une image du Père Noël sans barbe lors du premier essai.
L'adhésion aux instructions est cependant encore plus impressionnante. Vous pouvez définir jusqu'à 20 objets différents, décrivant chacun, et la génération d'images 4O suivra les instructions pour chaque objet. L'exemple Openai donne pour une grille 4×4 d'emoji avec des formes et des couleurs spécifiques, et le chatgpt peut créer une image avec les 16 emoji exactement comme décrit.
Vous pouvez utiliser des images téléchargées comme références
L'un des inconvénients de la génération d'images à partir d'invites est que décrire ce que vous voulez dans une image peut être difficile, mais décrire le style de l'image peut être encore plus difficile. Dire Chatgpt pour produire le look exact que vous avez dans votre tête n'est pas toujours aussi simple.
Heureusement, vous n'avez pas seulement besoin d'utiliser du texte. Vous pouvez télécharger des images pour indiquer le type de style que vous souhaitez pour vos images. Chatgpt utilisera ensuite ces images pour informer l'image finale qu'elle génère à partir de votre invite.
Si vous souhaitez un élément spécifique dans votre image, par exemple, vous pouvez télécharger une image de celui-ci sur Chatgpt. Si vous voulez que les gens se tiennent dans une pose spécifique, vous pouvez télécharger une image de personnes debout dans cette pose. Si vous trouvez une illustration que vous souhaitez être une image photoréaliste, vous pouvez la télécharger et demander à Chatgpt de faire une photo.
Vous pouvez même dessiner une esquisse approximative de ce à quoi vous voulez que l'image ressemble, en prendre une photo et le télécharger à Chatgpt. Il peut ensuite générer une image photoréaliste basée sur votre terrible croquis. Il est tellement plus facile de générer l'image exacte que vous souhaitez.
Les images peuvent appeler les propres connaissances de Chatgpt
La génération d'images 4O ne se limite pas aux informations de votre invite ou aux fichiers que vous téléchargez. GPT-4O a sa propre base de connaissances vers laquelle elle peut se tourner, pour l'aider à créer les images que vous souhaitez. Les images du studio Ghibli sont un excellent exemple; Vous n'avez pas besoin d'expliquer à quoi ressemble l'animation Studio Ghibli; Chatgpt le sait déjà.
Cela va beaucoup plus loin que de simplement connaître différents styles artistiques. Toute connaissance que Chatgpt peut être appliquée à vos images. Par exemple, vous pouvez demander un diagramme expliquant le cycle de l'eau, et vous n'avez pas besoin d'expliquer ce qu'est le cycle de l'eau; Chatgpt tirera les informations clés de ses propres connaissances.
La génération d'images 4o n'est pas parfaite (encore)
La génération d'images 4o est incroyablement bonne. En fait, c'est tellement bon que Sam Altman, le PDG d'Openai, a dû ajouter des limites de taux parce que les GPU de l'entreprise commençaient à fondre.
Au départ, vous pouvez créer autant d'images que vous le vouliez, mais maintenant vous verrez souvent un message vous indiquant que vous devez attendre quelques minutes avant de créer une autre image. Ce n'est pas le seul problème que vous pouvez trouver avec la génération d'images 4O.
Il existe également des limites à la création de certains types de contenu. En théorie, au moins, vous ne devriez pas être en mesure de générer quoi que ce soit offensant ou inapproprié. Si vous essayez de créer des images avec des personnages protégés par le droit d'auteur, Chatgpt peut également refuser. Les lignes sont un peu floues ici. Vous pouvez généralement créer des personnages dans un style similaire, sinon les personnages eux-mêmes, ou contourner les restrictions en utilisant des invites légèrement vagues.
Le suivi des instructions ne fonctionne pas toujours parfaitement, et j'ai toujours parfois des problèmes avec le texte. C'est très rare maintenant, mais parfois, il ajoutera une lettre supplémentaire, surtout si l'ajout de cette lettre fait toujours du texte un mot valide. Cependant, vous pouvez généralement corriger ces erreurs avec la prochaine génération.
La génération d'images 4o est un bond en avant considérable dans la génération d'images IA, avec un photoréalisme amélioré, une meilleure cohérence et une instruction nettement meilleure. Il est désormais incroyablement facile de créer des images photoréalistes qui ressemblent exactement à ce que vous le souhaitez.
Il y a cependant beaucoup de questions éthiques que cela soulève. Si vous êtes graphiste ou photographe, cette mise à jour enverra des frissons dans votre colonne vertébrale. Ce qui ne peut pas être refusé, c'est que cette mise à jour a facilité les utilisateurs de Chatgpt de créer des images très impressionnantes, quels que soient les dilemmes éthiques.