L'intelligence artificielle nous a piégés avec le jeu du téléphone... et le résultat a été choquant !

Les modèles de génération d’images basés sur l’IA progressent rapidement, mais il est encore courant qu’ils produisent des images douteuses. Comme il est facile de supposer que les invites humaines sont le problème, j’ai décidé de tester si l’IA fonctionne plus facilement en utilisant uniquement des invites générées par l’IA. Le processus de génération d’images avec l’intelligence artificielle, comme ChatGPT et Gemini, dépend fortement de la qualité et de la précision des invites. Les résultats seront-ils différents en utilisant des réclamations automatisées ? C’est ce que nous allons découvrir dans cette expérience.

Logo ChatGPT à côté du logo Gemini, tous deux avec un téléphone et un robot IA partageant des données entre eux.

Règles empiriques

Lorsque les modèles de génération d’images par IA sont apparus il y a quelques années, nous pensions tous que ce serait un signal d’alarme pour tous ceux qui travaillent dans les médias visuels. Mais ce n’était pas le cas. Malgré leur capacité à créer des images très réalistes, les images d’IA tombent souvent dans la catégorie inattendue, surtout si vous avez besoin de quelque chose de plus complexe (par exemple, l’IA a tendance à avoir du mal à générer des images de mains).

Vous pouvez soit blâmer les modèles d’IA eux-mêmes pour ce problème, soit les lacunes des humains et nos compétences incohérentes dans la rédaction de revendications. Une façon naturelle de tester qui est responsable est de voir si les modèles de génération d’images donnent de meilleurs résultats si vous introduisez des invites générées.

La catastrophe du Hindenburg

L’IA peut-elle nous offrir de nouvelles perspectives sur des moments historiques ?

Pour tester cette hypothèse, j’utiliserai Gemini pour créer une série d’invites qui évitent d’utiliser le nom de l’objet ou de l’image que j’essaie de créer. Cela permettra de vérifier dans quelle mesure l’IA « lit » bien les instructions. Certes, il est toujours possible que le modèle s’inspire largement des données sur lesquelles il a été formé (en particulier lors de la recréation d’images existantes), mais c’est la réalité, explique Young.

Mon outil de choix pour créer des images sera Image Creator de Bing (oui, Bing existe toujours), qui est basé sur DALL-E 3. Pour mettre le modèle à l'épreuve, je commencerai par des formes simples, puis je passerai à des images plus complexes au fur et à mesure de la progression de l'expérience.

Si vous avez utilisé ChatGPT et autres, vous savez déjà à quel point certaines de ses réponses peuvent être inutiles, et ce n'était pas différent avec les invites que le modèle m'a posées lors d'une exécution « bêta ». J'ai donc décidé de me limiter à 500 caractères afin de maintenir la cohérence des invites.

Comment l'IA gère les formes simples

Commençons par un simple carré. J'ai demandé à Gemini de décrire un carré sans le nommer, et il a trouvé ceci :

Un quadrilatère dont tous les côtés sont égaux en longueur. Chaque angle intérieur mesure exactement 90 degrés. C'est un quadrilatère régulier dont les côtés opposés sont parallèles.

Après avoir entré la description dans DALL-E, j'ai obtenu ces résultats :

Image générée par l'IA d'un carré

C'est un carré, d'accord, même si je pense que c'est un peu trop géométrique. Il était temps d'augmenter la difficulté, j'ai donc demandé à l'IA de détailler un cube.

Une forme tridimensionnelle avec six faces congruentes. Chaque face est un quadrilatère régulier avec quatre côtés égaux et quatre angles droits. Il possède 12 arêtes de longueur égale et 8 sommets. Tous les angles de la forme sont des angles droits.

Les résultats sont étonnants :

Une image générée par l'IA d'un cube sur fond blanc

Vous vous souvenez de ce que nous avons dit sur l’imprévisibilité des modèles d’IA ? Eh bien, ici, DALL-E a créé un cube, mais s'est un peu trompé et en a fait un Rubik's Cube. Bien qu'elle ait complètement évité le mot exact, l'IA s'est en partie trompée – nous pouvons attribuer cela à la popularité du jeu de puzzle galactique.

L'IA s'attaque à la photographie avec des personnes

La situation du cube démontre que même avec une description précise et « impartiale », l’IA peut toujours mal interpréter des instructions assez simples. Voyons donc comment il fonctionne avec les descriptions générées par l'IA d'images classiques, comme « Migrant Mother » de Dorothea Lange. Voici l'image originale :

Une photographie emblématique prise par Dorothea Lange représentant une mère tenant ses enfants pendant la Grande Dépression.

Une femme, le visage marqué par l'inquiétude, est vue détournant le regard de la caméra. Ses enfants l’entourent, le visage caché ou détourné. Sa main repose près de son visage, exprimant l’épuisement et la détresse. La scène suggère la pauvreté et la souffrance. Les vêtements de la femme sont minables et la composition générale est sombre, soulignant la gravité de sa situation.

Voici la vision de DALL-E de la célèbre image :

Image générée par l'IA rappelant une célèbre photographie prise pendant la Grande Dépression d'une mère tenant ses enfants

Si proche ! Mais ce n'est pas tout à fait exact, car DALL-E a clairement ignoré la phrase «Entourée de ses enfants, le visage caché ou détourné.Au lieu que la « mère » mette sa main près de son visage, c’est l’un des enfants qui assume ce rôle.

Essayons quelque chose de plus compliqué. Vous avez peut-être vu la célèbre photo « Déjeuner au sommet d’un gratte-ciel » :

Photographie emblématique en noir et blanc représentant des ouvriers assis sur une poutre de construction sur un gratte-ciel

Onze hommes sont assis sur une poutre d'acier, en hauteur, déjeunant, les jambes pendantes. La poutre est suspendue au-dessus d'une ville tentaculaire. Les hommes semblent détendus, malgré l'altitude extrême. Ils sont vêtus de vêtements de travail, et la scène a été tournée légèrement en contrebas, ce qui accentue l'altitude.

Cette merveilleuse affirmation a donné des résultats merveilleux :

Une image générée par l'IA recrée la célèbre photo d'ouvriers assis sur une poutre d'un gratte-ciel en train de déjeuner.

Une fois que vous ignorez les marqueurs classiques d’une image générée par l’IA (pots identiques et sujets « copiés-collés »), cela devient presque surprenant en termes de composition et de sensation générale. Sans surprise, cette image est non seulement extrêmement courante, mais elle est également dans le domaine public, j'ai donc le vague soupçon que DALL-E a effectivement récupéré son contenu pendant l'entraînement.

L’IA peut-elle gérer des images complexes ?

Puisqu’il s’agit du « test » final de l’expérience, il est temps de passer aux choses sérieuses ! Bien que l’IA soit efficace pour gérer les images humaines, elle échoue souvent lorsqu’elle est confrontée à des scènes complexes et ambiguës. Et qu’en est-il de la célèbre photo du « Lever de Terre » prise depuis l’orbite lunaire d’Apollo 8 ?

Photo de la Terre prise depuis l'orbite lunaire

Une sphère partiellement éclairée flotte dans l'espace sombre. Une sphère grise, plus petite, s'élève au-dessus de l'horizon. La plus grande sphère présente des taches bleues et blanches, suggérant l'eau et les nuages. Le contraste saisissant entre les deux sphères et la noirceur soulignent la fragilité et l'isolement de la plus petite sphère qui s'élève.

Les Gémeaux (ou plutôt devrais-je dire la balle) échouent dans cette description. Comme c'était trop abstrait, j'ai ajouté la phrase « capturé depuis une orbite proche de la Lune » à la revendication, mais cela n'a pas beaucoup aidé :

Image générée par l'IA représentant la Lune au premier plan et la Terre en arrière-plan.

C'est une pochette d'album de rock progressif cool, mais elle n'a rien à voir avec Earthrise. Pour terminer l'expérience, j'ai choisi l'image la plus mystérieuse jusqu'à présent, le chef-d'œuvre industriel d'Edward Weston « Armco Steel » :

Photographie en noir et blanc montrant une scène industrielle remplie de cheminées

Une série de réservoirs métalliques industriels ronds occupent le cadre. Leurs formes douces et bombées créent un motif répétitif. La lumière se reflète sur les surfaces, soulignant leurs courbes et créant une impression de volume. La composition met l'accent sur l'aspect abstrait des objets industriels, privilégiant la forme et la texture plutôt que la fonction. La scène est simple et moderne, avec une forte emphase sur la lumière et l'ombre.

Cela semble être une bonne entrée, voyons si Dall-E est d'accord avec nous :

Une image générée par l'IA représentant une série de cylindres brillants alignés côte à côte, remplissant tout l'écran.

Même si j'apprécie l'aspect science-fiction, cela ne ressemble pas du tout à l'original. Je ne voulais pas terminer l'expérience par un échec complet, j'ai donc décidé d'aider la machine en ajoutant le terme « photographie des années 1920 » à la fin de l'entrée.

J’ai pensé que ce terme particulier pourrait aider à clarifier l’image à laquelle je faisais référence. Malheureusement, Dall-E m'a encore déçu et a fait une autre pochette d'album de rock progressif :

Les images générées par l'IA montrent de grands cylindres ronds vus d'en haut.

Les résultats de cette expérience sont intéressants et la conclusion que nous pouvons en tirer est que la génération d’images par l’IA est hautement imprévisible, en particulier avec des concepts plus abstraits. Peu importe que les données soient générées par l’IA et précises, ou générées par l’homme et imparfaites : les résultats semblent aléatoires.

Alors, la prochaine fois que vous essayez de vous blâmer vous-même et votre style de saisie, rappelez-vous que les résultats seront probablement assez similaires même s'il y a deux appareils qui communiquent entre eux.

Les commentaires sont fermés.