Pourquoi les images créées par l’IA Dall-E sont-elles si moches (et hilarantes) ?

IA UN DOUTE Ses images floues et horrifiques font le tour de Twitter, et nous montrent que les intelligences artificielles ne sont pas prêtes à remplacer l’être humain… Du moins, pas tout de suite

Pauline Ferrari
— 
Emmanuel Macron dans Danse avec les Stars
Emmanuel Macron dans Danse avec les Stars — Capture d'écran Dall-E Mini

Si vous traînez un peu sur les internets, cela n’a pas pu vous échapper : les créations de Dall-E sont partout. Visages déformés, couleurs beaucoup trop intenses, voire distorsion provoquant un effet de malaise… Des visions parfois horrifiques qui sont le fruit  d’une intelligence artificielle (IA pour les intimes), c’est-à-dire un programme de calcul informatique supposément intelligent, ou en tout cas qui draine toute la toile pour passer du texte à l’image. Et dans ce cas, il n’y a aucune limite, à part celle de votre imagination : plus votre formulation est précise, plus l’IA crée une image avec tous les éléments demandés. Et souvent, c’est très moche et très drôle. Pour essayer, ça se passe ici, et il vous suffit de rentrer une phrase, préférablement en anglais, et de laisser tourner la machine.

Elmo en guest star de la série Friends
Elmo en guest star de la série Friends - Capture d'écran Dall-E Mini

Le programme Dall-E Mini est l’œuvre de Boris Dayma, et de l’entreprise OpenAI, spécialisée en intelligence artificielle, cofondée par Elon Musk. Dall-E Mini est un programme chargé de mettre en image une proposition textuelle, dans une version à 12 milliards de paramètres du modèle de langage GPT-3, aussi créé par OpenAI. Cet algorithme se base sur du langage dit naturel, c’est-à-dire notre mode de communication d’humains, en opposition aux langages formels comme les langages informatiques, par exemple. Dévoilé au début de l’année 2021, le programme d’IA a connu un succès fou en quelques semaines sur Twitter. De nombreux  thread Twitter, Discord ou Reddit sont d’ailleurs consacrés aux images générées par Dall-E Mini. À l’origine, l’un des principaux objectifs d’OpenAI était de « donner aux modèles de langage une meilleure compréhension des concepts quotidiens que les humains utilisent pour donner un sens aux choses », selon la MIT Technology Review.

Pourquoi les images générées sont-elles si moches ?

Comme beaucoup d’intelligences artificielles, Dall-E apprend grâce au deep learning (ou apprentissage profond en VF) : en traitant des données dites non structurées (du son, des images, du langage humain…), le programme passe par un algorithme dit de « réseau de neurones » en mêlant plusieurs strates de calculs différenciés. En clair, le programme informatique tente de faire des liens entre plusieurs données, dans le cas de Dall-E entre une phrase et sa signification. Par exemple, nous avons demandé à Dall-E d’intégrer Emmanuel Macron à l’émission Danse avec les stars. Le résultat est… surprenant.

Emmanuel Macron dans Danse avec les Stars
Emmanuel Macron dans Danse avec les Stars - Capture d'écran Dall-E Mini

Mais comme on peut le constater, le résultat est souvent plus drôle que réaliste. Alors que Dall-E est devenu un mème parmi les mèmes, il permet surtout de relativiser la supposée supériorité de l’intelligence artificielle sur le cerveau humain. Si les IA se développent de manière exponentielle, plus ou moins maîtrisées, on est loin de I, Robot. Pour l’heure, Dall-E Mini sert encore d’épouvantail sur les capacités (limitées) des IA et de leur capacité à façonner notre avenir… Mais c’est sans compter sur son évolution, Dall-E 2.

Dalida Façon Cover Métal
Dalida Façon Cover Métal - Capture d'écran Dall-E Mini

Dall-E 2, ou le spectre d’une IA plus précise que jamais

En avril dernier, plus d’un an après le dévoilement de Dall-E Mini, OpenAI a annoncé l’apparition de Dall-E 2, affirmant que celui-ci pouvait produire des images plus réalistes que jamais à partir de descriptions textuelles. Selon ses créateurs, Dall-E 2 a été décrit comme un modèle qui « peut créer des images et des œuvres d’art originales et réalistes à partir d’une description textuelle. Il peut combiner des concepts, des attributs et des styles ». Depuis, le logiciel est en bêta test auprès de quelques utilisateurs triés sur le volet, dont le scientifique Ari Kouts, qui dévoile dans un thread quelques résultats ultra-réalistes de l’application de l’IA.



Car contrairement à sa version « mini » qui donne des combinaisons absurdes, Dall-E 2 comprend désormais les relations entre les objets, mais aussi retoucher et éditer des images de manière réaliste à partir d’une description écrite. Selon ses créateurs, l’IA serait même capable de remplacer une partie de l’image par un mélange d’autres images générées automatiquement. Frissons et stupeurs : Dall-E devient faiseur d’image, et est capable d’aller plus loin (et surtout plus vite) que le commun des mortels.

En raison de ce réalisme, OpenAI a mis en place des règles strictes. L’équipe a supprimé tout contenu violent, a déployé des filtres, et une politique contre toute forme de nudité, de complots ou de contenus politiques. Car comme les développeurs d’OpenAI le précisent sur leur site, « sans garde-fous suffisants, des modèles comme Dall-E 2 pourraient être utilisés pour générer un large éventail de contenus trompeurs ». À l’heure des deepfakes et des fake news, OpenAI préfère ne prendre aucun risque… Et peut-être continuer à communiquer sur sa version Mini et ses images moches.