Comment ils fonctionnent et ce qu'ils peuvent faire
Sommaire
Résumé
-
Les images générées par l’IA s’appuient sur la diffusion pour créer des images réalistes à partir de bruit pur, en inversant le processus étape par étape.
-
La formation continue et le perfectionnement des modèles d’IA, avec la contribution des utilisateurs, ont considérablement amélioré la qualité des images au fil des années.
-
Des invites textuelles sont utilisées pour générer des images, avec des paramètres supplémentaires et des outils de remplissage génératifs améliorant les résultats.
Les images générées par l’IA sont désormais partout, et les meilleures d’entre elles sont si belles que vous ne sauriez jamais qu’elles ont été créées par une machine et non par un humain. Mais comment est-ce possible ? La réponse au fonctionnement de la génération d’images IA est à la fois simple et très compliquée.
Tout est question de diffusion
Au cœur des images générées par l’IA se trouve le concept de « diffusion ». Il s’agit du processus de base utilisé aujourd’hui par tous les types d’IA générative qui créent des images, et cela ressemble à ceci :
-
Le processus de diffusion commence par un ensemble de données d'images existantes. Du bruit, ou des distorsions aléatoires, est progressivement ajouté à ces images jusqu'à ce qu'elles deviennent presque méconnaissables.
-
Le modèle d’IA apprend à inverser ce processus en supprimant le bruit étape par étape. Cela implique d’entraîner le modèle pour prédire à quoi ressemblait l’image avant l’ajout du bruit.
-
Une fois entraîné, le modèle peut commencer avec du bruit pur et appliquer ce qu'il a appris pour générer des images entièrement nouvelles et réalistes en inversant le processus de bruit.
Les générateurs d'images génératives d'IA utilisent un type spécial de réseau neuronal pour apprendre de ces données, et lorsque vous inversez le processus, en commençant par un bruit diffus et en itérant jusqu'à ce que l'image corresponde à l'invite de texte, vous exécutez essentiellement le réseau neuronal à l'envers.
Chaque jour est une journée de formation pour les générateurs d'images IA
Le processus ci-dessus semble simple, mais les modèles de génération d’images IA sont constamment affinés et améliorés, en utilisant autant de données que possible. Par exemple, lorsque vous votez pour les images que vous préférez sur des sites comme Midjourney, vous fournissez des données qui peuvent aider à affiner le modèle.
Les premiers générateurs d’images IA étaient plutôt horribles. Par exemple, voici une image d'une femme mangeant une pomme créée en utilisant Midjourney V1 par rapport à la dernière (au moment d'écrire ces lignes) V6.
Nous sommes passés du carburant du cauchemar au « est-ce que c'est une vraie photo ? » en seulement quelques années, tout cela grâce au perfectionnement et à la formation continus du modèle, ainsi qu'à l'ajustement des réseaux neuronaux sous-jacents qui rendent cela possible.
Transformer les invites en images
J'y ai fait allusion ci-dessus, mais lorsque vous, en tant qu'utilisateur, créez des images à l'aide de l'IA, ce que vous fournissez en réalité en entrée est une invite de texte. Il s'agit simplement d'une description du type « une femme mangeant une pomme », qui est exactement l'invite que j'ai utilisée pour générer les deux images ci-dessus.
Il faut beaucoup d'expérimentation avec les invites pour obtenir les résultats souhaités, et parfois vous tomberez sur un ensemble de mots ou d'expressions qui créent vraiment quelque chose de nouveau et d'intéressant.
Paramètres, remplissage génératif et autres astuces intéressantes
Bien sûr, savoir comment déclencher de la bonne manière et avoir quelques commandes spécialisées à votre actif peut améliorer encore davantage les excellents résultats obtenus avec des modèles de pointe. Ajuster les options et utiliser les outils de post-génération offerts par les modèles modernes sont essentiels pour créer des images IA parfaites.
Le remplissage génératif est l'un des aspects les plus utiles de cette technologie d'IA. Cela vous permet d'effacer une partie d'une image, puis d'utiliser l'IA pour remplir quelque chose de nouveau en fonction d'une invite ou simplement du contexte d'une image.
Personnellement, je l'utilise pour résoudre des problèmes tels que les personnages avec trop de doigts en permanence. Vous pouvez également le trouver intégré aux éditeurs de photos modernes, où des programmes comme Adobe Photoshop et la fonctionnalité Magic Erase de Canva.
L'IA générative a maintenant progressé au point où elle peut créer des vidéos, et les modèles sont de mieux en mieux capables de produire exactement ce que nous demandons, y compris des détails sur les poses, les objets et la manière dont ils doivent être disposés dans l'image.
Même si cette technologie n’est pas encore parfaite, elle a tellement progressé en si peu de temps que je m’attends à ce qu’elle soit pleinement mature le plus tôt possible.