L'intelligence artificielle nous a piégés avec le jeu du téléphone... et le résultat a été choquant !

Les modèles de génération d’images basés sur l’IA progressent rapidement, mais il est encore courant qu’ils produisent des images douteuses. Comme il est facile de supposer que les invites humaines sont le problème, j’ai décidé de tester si l’IA fonctionne plus facilement en utilisant uniquement des invites générées par l’IA. Le processus de génération d’images avec l’intelligence artificielle, comme ChatGPT et Gemini, dépend fortement de la qualité et de la précision des invites. Les résultats seront-ils différents en utilisant des réclamations automatisées ? C’est ce que nous allons découvrir dans cette expérience.

Règles empiriques

Lorsque les modèles de génération d’images par IA sont apparus il y a quelques années, nous pensions tous que ce serait un signal d’alarme pour tous ceux qui travaillent dans les médias visuels. Mais ce n’était pas le cas. Malgré leur capacité à créer des images très réalistes, les images d’IA tombent souvent dans la catégorie inattendue, surtout si vous avez besoin de quelque chose de plus complexe (par exemple, l’IA a tendance à avoir du mal à générer des images de mains).

Vous pouvez soit blâmer les modèles d’IA eux-mêmes pour ce problème, soit les lacunes des humains et nos compétences incohérentes dans la rédaction de revendications. Une façon naturelle de tester qui est responsable est de voir si les modèles de génération d’images donnent de meilleurs résultats si vous introduisez des invites générées.

L’IA peut-elle nous offrir de nouvelles perspectives sur des moments historiques ?

Pour tester cette hypothèse, j’utiliserai Gemini pour créer une série d’invites qui évitent d’utiliser le nom de l’objet ou de l’image que j’essaie de créer. Cela permettra de vérifier dans quelle mesure l’IA « lit » bien les instructions. Certes, il est toujours possible que le modèle s’inspire largement des données sur lesquelles il a été formé (en particulier lors de la recréation d’images existantes), mais c’est la réalité, explique Young.

Mon outil de choix pour créer des images sera Image Creator de Bing (oui, Bing existe toujours), qui est basé sur DALL-E 3. Pour mettre le modèle à l'épreuve, je commencerai par des formes simples, puis je passerai à des images plus complexes au fur et à mesure de la progression de l'expérience.

Si vous avez utilisé ChatGPT et autres, vous savez déjà à quel point certaines de ses réponses peuvent être inutiles, et ce n'était pas différent avec les invites que le modèle m'a posées lors d'une exécution « bêta ». J'ai donc décidé de me limiter à 500 caractères afin de maintenir la cohérence des invites.

Comment l'IA gère les formes simples

Commençons par un simple carré. J'ai demandé à Gemini de décrire un carré sans le nommer, et il a trouvé ceci :

Un quadrilatère dont tous les côtés sont égaux en longueur. Chaque angle intérieur mesure exactement 90 degrés. C'est un quadrilatère régulier dont les côtés opposés sont parallèles.

Après avoir entré la description dans DALL-E, j'ai obtenu ces résultats :

C'est un carré, d'accord, même si je pense que c'est un peu trop géométrique. Il était temps d'augmenter la difficulté, j'ai donc demandé à l'IA de détailler un cube.

Une forme tridimensionnelle avec six faces congruentes. Chaque face est un quadrilatère régulier avec quatre côtés égaux et quatre angles droits. Il possède 12 arêtes de longueur égale et 8 sommets. Tous les angles de la forme sont des angles droits.

Les résultats sont étonnants :

Vous vous souvenez de ce que nous avons dit sur l’imprévisibilité des modèles d’IA ? Eh bien, ici, DALL-E a créé un cube, mais s'est un peu trompé et en a fait un Rubik's Cube. Bien qu'elle ait complètement évité le mot exact, l'IA s'est en partie trompée – nous pouvons attribuer cela à la popularité du jeu de puzzle galactique.

L'IA s'attaque à la photographie avec des personnes

La situation du cube démontre que même avec une description précise et « impartiale », l’IA peut toujours mal interpréter des instructions assez simples. Voyons donc comment il fonctionne avec les descriptions générées par l'IA d'images classiques, comme « Migrant Mother » de Dorothea Lange. Voici l'image originale :

Une femme, le visage marqué par l'inquiétude, est vue détournant le regard de la caméra. Ses enfants l’entourent, le visage caché ou détourné. Sa main repose près de son visage, exprimant l’épuisement et la détresse. La scène suggère la pauvreté et la souffrance. Les vêtements de la femme sont minables et la composition générale est sombre, soulignant la gravité de sa situation.

Voici la vision de DALL-E de la célèbre image :

Si proche ! Mais ce n'est pas tout à fait exact, car DALL-E a clairement ignoré la phrase «Entourée de ses enfants, le visage caché ou détourné.Au lieu que la « mère » mette sa main près de son visage, c’est l’un des enfants qui assume ce rôle.

Essayons quelque chose de plus compliqué. Vous avez peut-être vu la célèbre photo « Déjeuner au sommet d’un gratte-ciel » :

Onze hommes sont assis sur une poutre d'acier, en hauteur, déjeunant, les jambes pendantes. La poutre est suspendue au-dessus d'une ville tentaculaire. Les hommes semblent détendus, malgré l'altitude extrême. Ils sont vêtus de vêtements de travail, et la scène a été tournée légèrement en contrebas, ce qui accentue l'altitude.

Cette merveilleuse affirmation a donné des résultats merveilleux :

Une fois que vous ignorez les marqueurs classiques d’une image générée par l’IA (pots identiques et sujets « copiés-collés »), cela devient presque surprenant en termes de composition et de sensation générale. Sans surprise, cette image est non seulement extrêmement courante, mais elle est également dans le domaine public, j'ai donc le vague soupçon que DALL-E a effectivement récupéré son contenu pendant l'entraînement.

L’IA peut-elle gérer des images complexes ?

Puisqu’il s’agit du « test » final de l’expérience, il est temps de passer aux choses sérieuses ! Bien que l’IA soit efficace pour gérer les images humaines, elle échoue souvent lorsqu’elle est confrontée à des scènes complexes et ambiguës. Et qu’en est-il de la célèbre photo du « Lever de Terre » prise depuis l’orbite lunaire d’Apollo 8 ?

Une sphère partiellement éclairée flotte dans l'espace sombre. Une sphère grise, plus petite, s'élève au-dessus de l'horizon. La plus grande sphère présente des taches bleues et blanches, suggérant l'eau et les nuages. Le contraste saisissant entre les deux sphères et la noirceur soulignent la fragilité et l'isolement de la plus petite sphère qui s'élève.

Les Gémeaux (ou plutôt devrais-je dire la balle) échouent dans cette description. Comme c'était trop abstrait, j'ai ajouté la phrase « capturé depuis une orbite proche de la Lune » à la revendication, mais cela n'a pas beaucoup aidé :

C'est une pochette d'album de rock progressif cool, mais elle n'a rien à voir avec Earthrise. Pour terminer l'expérience, j'ai choisi l'image la plus mystérieuse jusqu'à présent, le chef-d'œuvre industriel d'Edward Weston « Armco Steel » :

Une série de réservoirs métalliques industriels ronds occupent le cadre. Leurs formes douces et bombées créent un motif répétitif. La lumière se reflète sur les surfaces, soulignant leurs courbes et créant une impression de volume. La composition met l'accent sur l'aspect abstrait des objets industriels, privilégiant la forme et la texture plutôt que la fonction. La scène est simple et moderne, avec une forte emphase sur la lumière et l'ombre.

Cela semble être une bonne entrée, voyons si Dall-E est d'accord avec nous :

Même si j'apprécie l'aspect science-fiction, cela ne ressemble pas du tout à l'original. Je ne voulais pas terminer l'expérience par un échec complet, j'ai donc décidé d'aider la machine en ajoutant le terme « photographie des années 1920 » à la fin de l'entrée.

J’ai pensé que ce terme particulier pourrait aider à clarifier l’image à laquelle je faisais référence. Malheureusement, Dall-E m'a encore déçu et a fait une autre pochette d'album de rock progressif :

Les résultats de cette expérience sont intéressants et la conclusion que nous pouvons en tirer est que la génération d’images par l’IA est hautement imprévisible, en particulier avec des concepts plus abstraits. Peu importe que les données soient générées par l’IA et précises, ou générées par l’homme et imparfaites : les résultats semblent aléatoires.

Alors, la prochaine fois que vous essayez de vous blâmer vous-même et votre style de saisie, rappelez-vous que les résultats seront probablement assez similaires même s'il y a deux appareils qui communiquent entre eux.