Name: Tremplin Numérique
Price range: $$$

Le DALL-E 2 d’OpenAI a été un choc pour ceux qui pensaient que l’intelligence artificielle ne commencerait jamais (ou du moins pas rapidement) à s’infiltrer dans le domaine de la créativité. Mais DALL-E 2 est-il là pour prendre le travail des artistes ?

Sommaire

Comment fonctionne DALL-E 2 ?

Une représentation du réseau de neurones DALL-E 2

DALL-E 2 est si impressionnant qu’il semble presque magique, mais les détails généraux de la façon dont il crée des images aussi étonnantes et réalistes ne sont pas si difficiles à comprendre.

DALL-E 2 comporte deux composants principaux. Le premier est GPT-3, qui est sans doute l’algorithme d’apprentissage automatique en langage naturel le plus avancé à l’heure actuelle. DALL-E 2 utilise également un autre modèle OpenAI appelé CLIP (Contrastive Language-Image Pre-training).

GPT-3 et CLIP permettent à un ordinateur de comprendre et de générer un langage naturel sophistiqué. En entraînant le réseau neuronal DALL-E avec des milliards d’images et leurs descriptions en langage naturel provenant (principalement) d’Internet, il apprend les relations entre les concepts.

En un sens, DALL-E est l’inverse d’une pratique courante d’apprentissage automatique, où vous fournissez une image et l’IA tente de décrire ce qu’elle voit.

Un exemple de génération d'image de diffusion de DALL-E 2 représentant un ours polaire jouant de la guitare basse.

Pensez à cette tristement célèbre application « Not a Hotdog » de l’émission télévisée Silicon Valley. La différence ici est qu’au lieu de demander à l’IA si l’image est un hot-dog ou non, vous décrivez le hot-dog et il génère une image de hot-dog entièrement originale basée sur tout ce qu’elle a appris à leur sujet.

La deuxième grande partie de DALL-E est la façon dont il génère des images. Il utilise une méthode connue sous le nom de « diffusion ». Plus précisément, la compréhension de la description d’une image en langage humain qui a été créée est transformée en image à l’aide d’un modèle OpenAI nommé GLIDE. GLIDE prend une image composée de bruit généré de manière aléatoire, puis élimine progressivement ce bruit jusqu’à ce qu’il corresponde à l’image décrite en langage naturel. Cela rappelle un peu un sculpteur commençant par un bloc de marbre et s’écaillant jusqu’à ce qu’il ne reste plus qu’une statue.

Pour une description beaucoup plus technique et détaillée de DALL-E 2 sous le capot, nous recommandons vivement l’explicateur DALL-E 2 sur le blog d’apprentissage en profondeur AssemblyAI.

Pourquoi DALL-E 2 est si perturbateur

DALL-E 2 est loin d’être le premier logiciel d’apprentissage automatique capable de générer des images. Il y a eu de nombreux systèmes antérieurs, et DALL-E 2 s’appuie sur les leçons apprises par ces autres projets. Alors pourquoi cette fois-ci ressemble-t-elle à un tournant perturbateur ?

L’une des principales raisons est que les images produites par DALL-E et DALL-E 2 sont esthétiquement agréables. D’autres systèmes de génération d’images IA créent souvent des images que les gens décrivent comme dérangeantes ou comme quelque chose d’un rêve. C’est un peu comme l’Uncanny Valley, mais pour les arts visuels. DALL-E 2 crée des images qui ont clairement un œil artistique ou un certain sens de l’esthétique derrière elles.

Ainsi, les images créées par DALL-E 2 sont comparables à celles réalisées par des artistes ou des photographes talentueux qui ont passé leur vie à développer leur sens de l’esthétique. Il n’est pas difficile d’imaginer quelqu’un comme ça regardant les images que DALL-E 2 peut cracher en quelques secondes et avoir l’impression qu’elles sont sur le point de devenir hors de propos.

Variations d'une peinture existante générée par DALL-E 2.

Non seulement le système peut créer de belles images haute résolution en quelques secondes à partir d’invites en langage naturel, mais il peut également modifier et modifier ces images, ou fournir plusieurs variantes d’une image existante, même celle fournie par l’utilisateur. Cela signifie-t-il donc que les artistes devraient ranger leurs chevalets et leurs tablettes à dessin et «apprendre à coder» à la place?

DALL-E 2 signifie que les artistes vont changer, pas disparaître

Un artiste créant une peinture abstraite.

OpenAI a été très prudent quant à la simple diffusion de sa technologie dans le monde. C’est logique car il y a clairement beaucoup de possibilités d’abus. Pourtant, maintenant qu’ils ont montré que cela peut être fait, il ne faudra pas longtemps avant que des chercheurs commerciaux ou indépendants en IA reproduisent ce que DALL-E fait et le rendent accessible à tous. Les grands acteurs de l’espace d’apprentissage automatique ont également leurs propres artistes IA de haute performance qui attendent dans les coulisses, comme Imagen de Google.

Puisque la boîte de Pandore ne peut pas être fermée, nous devrons accepter que le monde des arts visuels va irrévocablement changer, mais cela ne signifie pas que les artistes appartiennent au passé.

Une façon de voir les choses est que la technologie comme celle-ci met le pouvoir de générer de l’art entre les mains de n’importe qui. L’accent passe désormais de la capacité technique à créer des images à la capacité de décrire et d’itérer avec précision votre vision, jusqu’à ce que ce que vous voyez à l’écran corresponde à ce que vous aviez en tête. En d’autres termes, davantage de personnes auront désormais la possibilité de s’exprimer visuellement, tout comme davantage de personnes pourront désormais effectuer des calculs précis grâce à l’existence de calculatrices.

Certains types d’artistes peuvent ne plus avoir de modèles commerciaux viables. Si vous gagnez votre vie en payant des commissions, il est difficile de rivaliser avec un programme capable de créer des centaines d’images par heure en fonction de la description d’un client et d’apporter des modifications à ces images presque instantanément. Au lieu de cela, vous voudrez peut-être utiliser ces outils pour réaliser votre propre vision, puis vendre ces images uniques en fonction de vos sensibilités.

Le client a toujours raison

Il est également important de se rappeler qu’en fin de compte, ces images sont créées pour la consommation humaine. Nous, les humains, avons notre propre ensemble de valeurs qui vont au-delà de la commodité et de la supériorité technique. Dans un monde où l’art généré est abondant et donc relativement bon marché et jetable, il y aura toujours un public prêt à apprécier (et à acheter) l’art créé par l’homme, simplement parce qu’il peut être relativement rare.

En d’autres termes, un logiciel comme DALL-E 2 pourrait sonner le glas des artistes qui gagnent leur vie en produisant des œuvres d’art à la chaîne, mais il est peu probable qu’il freine les perspectives des artistes qui ont quelque chose à dire et une identité visuelle unique à travers laquelle s’exprimer.