Voyez par vous-même : les nouvelles capacités de génération d'images de ChatGPT sont étonnantes

OpenAI a publié une mise à jour massive des capacités de génération d'images de ChatGPT, une mise à jour époustouflante qui redéfinit la réalité. Cette évolution représente un saut qualitatif dans le domaine de la génération d’images par intelligence artificielle.

Je ne vous ferai pas perdre votre temps avec des chiffres, des tailles de modèles ou le nombre d'heures GPU utilisées par le nouveau modèle. Je vais simplement vous montrer ce que cette mise à jour peut faire et comment elle se compare au modèle DALL-E précédent.

7. mains et doigts

Gros plan d'une personne jouant un accord de mi mineur sur une guitare, les doigts appuyant sur les cordes avec une faible profondeur de champ.

La technologie de génération d’images par l’IA nous a époustouflés lorsqu’elle est devenue populaire. Ensuite... nous avons regardé attentivement. La caractéristique distinctive de l’image IA est l’anatomie étrange de la main et des doigts. Alors, quelle meilleure façon de tester des modèles que de leur demander de photographier une corde de guitare ?

Pour garder le meilleur pour la fin, j'ai d'abord demandé le modèle DALL-E original, puis le nouveau générateur d'images intégré au modèle ChatGPT 4o.

L'image ci-dessus est celle produite par DALL-E. Malgré les défauts du DALL-E, il a géré les doigts et l'anatomie générale de manière décente ici. Mais la corde elle-même... ne l'est pas. La position de la main est trop haute sur le manche pour jouer en mi mineur. Si vous zoomez un peu, vous remarquerez que la guitare a plus de sept cordes. L'espacement entre les cordes est également irrégulier.

Avec cela à l’esprit, passons à ChatGPT 4o.

J'aurais pu vous dire que je plaisantais et que c'était une vieille photo de l'époque où je jouais de la guitare. ChatGPT 4o est-il aussi bon ? Six cordes, régulièrement espacées, et l'accord est en fait mi mineur. Je suis impressionné.

6. personnages historiques

Albert Einstein mangeant une glace à Central Park, portant une chemise décontractée et des bretelles.

Après avoir expérimenté la génération d'images de différentes choses, nous avons maintenant décidé d'essayer de générer des images de personnages historiques, et comme ils ne seraient pas offensés, ce serait amusant de les voir dans un cadre moderne. Commençons par essayer DALL-E 2 et ChatGPT 4 pour générer une image d'Einstein.

Le résultat de DALL-E 2 a été décevant, car on m’avait prévenu à l’avance qu’on ne pouvait pas utiliser une photo d’Einstein lui-même, mais qu’on utiliserait une photo de quelqu’un qui « lui ressemblait beaucoup ». Les visuels de DALL-E 2 ont un style cartoon réaliste, ce qui est clairement évident ici. Le bâtiment San Remo en arrière-plan suggère que cette photo a été prise à Central Park, mais c'est la seule réussite ici.

Passons maintenant à ChatGPT 4o.

En appliquant un filtre noir et blanc à cette photo, je peux vous convaincre qu'il s'agit d'une vraie photo vintage. La crème sur le cornet semble parfaitement crémeuse, Einstein apparaît dans son style calme caractéristique et le bâtiment de San Remo est toujours présent en arrière-plan. Tout semble parfait. ChatGPT 4o a fait un excellent travail sur cette image.

5. personnages fictifs

Une silhouette ressemblant à Lord Sith hèle un taxi à George Square, à Glasgow, sous une pluie légère et des feux de circulation en arrière-plan.

Jusqu'à présent, nous avons constaté que ChatGPT excelle à dessiner des personnages historiques. Puisque les visages et les personnes restent les meilleurs moyens de tester les capacités de l'IA, essayons Plus.

J'ai utilisé le mot « similaire » pour que le chatbot coopère avec moi sans faire face à une réclamation pour atteinte aux droits d'auteur. Le résultat DALL-E était bon. Le personnage rappelle vraiment un Seigneur Sith, et le reste des éléments sont assez précis.

Il n'y a rien de vraiment caricatural là-dedans, mais ça ne semble pas réel. Vous voulez du réalisme ? Découvrez ce que ChatGPT 4o a produit avec la même invite :

J'adore l'atmosphère : l'éclairage, la brume et la présence sinistre du Seigneur Sith. Tout y est. Le seul problème est que le Seigneur des Ténèbres se tient dans la rue, appelant un taxi tout en faisant face… au trottoir. De plus, le panneau du taxi indique « TAXL ».

Passons de la fiction future à la fiction historique. Quelque chose comme ça :

Un personnage ressemblant à Geralt de Rivia fait ses courses dans un supermarché moderne, poussant un caddie et fronçant les sourcils devant les conserves.

Pas mal du tout. L'image a toujours cette ambiance artificielle de dessin animé, et le texte sur les boîtes de céréales est, comme prévu, complètement incompréhensible.

ChatGPT 4o a initialement rejeté la réclamation en raison du droit d'auteur, mais a réussi une fois que j'ai remplacé « similaire à » par « similaire à ». Regarder:

Je suis sans voix. Comme la plupart des gens, l'interprétation de Geralt par ChatGPT est fondamentalement celle d'Henry Cavill, pas celle du jeu vidéo – mais il l'a réussi. Le froncement de sourcils est parfait et la scène semble normale.

Cela pourrait passer pour une scène tirée d'une publicité étrange. Et oui, j'ai lu des livres. Le sorceleur Avant que cela ne devienne une série.

4. les dessins animés

Un dessin animé d'un capitaine pirate portant un long manteau rouge et un bras bionique, riant sur le pont d'un navire volant. Fond transparent.

La génération d’images d’OpenAI ne se limite pas au réalisme. Alors que DALL-E a toujours tendance à ajouter une touche de lissage quelle que soit l'entrée, j'ai décidé de pousser les deux modèles en mode caricature complet. L’accent a été mis sur l’amélioration de la qualité des dessins animés grâce à l’utilisation de techniques avancées d’intelligence artificielle.

En fait, DALL·E a fait du bon travail ici – il a même compris la demande d’un arrière-plan transparent. quelque peu. Ce que nous obtenons est le motif classique en damier gris et blanc qui signifie généralement transparence… sauf qu'ici, il est mélangé à l'image. Donc, ce n’est pas du tout transparent.

Il est également ironique que la main biologique générée par l’IA du pirate informatique ait quatre doigts tandis que la main électronique en a cinq. Peut-être qu'il a recouvert le mauvais bras avec du chrome ?

ChatGPT 4o semble plus clair et intentionnel. Le style de coloration varie - qu'il soit meilleur ou non est une question personnelle - mais il semble clairement qu'un artiste l'ait peint de cette façon. Les graphismes de ChatGPT sont de haute qualité et détaillés.

L'arrière-plan est également déjà transparent. Vous pouvez le mettre sur un t-shirt, l'imprimer ou même le transformer instantanément en autocollant WhatsApp.

3. Miroirs et reflets

Lavabo de salle de bain moderne avec brosse à dents et rasoir sur le comptoir, tous deux visibles dans le miroir et dans la réalité – l'éclairage est doux et uniforme. La précision des reflets dans les images générées par l’IA est un défi permanent.

Les miroirs reflètent les images, et les reflets ont besoin d’une logique spatiale pour paraître naturels. J'ai fait une entrée sur laquelle je savais que DALL-E tomberait. Générer des images réalistes avec des reflets précis est l’un des plus grands défis auxquels est confrontée l’intelligence artificielle.

Comme prévu. Il y a quelque chose qui essaie d'être le reflet du robinet dans le miroir, mais c'est trop long. La brosse à dents flotte à l'intérieur du lavabo et ne projette aucun reflet. DALL-E a consacré beaucoup d’efforts à cet exemple.

Le nouveau modèle fait un bien meilleur travail en rendant l'image plus réelle, comme une vraie photographie. Le reflet du robinet est un peu biaisé mais acceptable. Ensuite, il y a la brosse à dents, qui a un reflet mais n'existe pas dans le monde physique, comme un vampire à l'envers.

Il n’y a pas de vainqueur clair ici. Les résultats de l'IA étaient incohérents, j'ai donc donné une autre chance aux deux avec quelque chose de plus ambitieux :

Une femme se tient devant un miroir pleine longueur dans une chambre ensoleillée, ses vêtements et sa posture se reflétant parfaitement, avec un reflet clair de la fenêtre derrière elle.

…Je ne veux même pas honorer cet exemple par une analyse. Les amis, si vous voulez donner une mauvaise image de DALL-E, ajoutez simplement le mot « miroir » à votre entrée. Passons à autre chose.

Comme prévu, ChatGPT 4o semble plus réaliste – mais peut-être un peu surréaliste cette fois ? La pose et les vêtements de la femme sont reflétés, mais seulement partiellement, comme un effet Photoshop XNUMXD. Les angles de réflexion sont également erronés. L’intelligence artificielle ne peut toujours pas gérer la logique spatiale. Comprendre l’espace XNUMXD et les réflexions semble être un défi majeur pour l’IA.

2. Voitures et rues

Une Ford GT 2006 et une Peugeot 206 grillent un feu rouge à Wall Street, à New York, à midi.

Je suis un passionné de voitures. Lorsque le logiciel de génération d’images IA est sorti pour la première fois, l’une des premières choses que j’ai essayées a été de créer des images de voitures. Les résultats n'étaient pas bons à l'époque, mais avec la sortie du nouveau modèle, j'ai dû réessayer.

Voici à nouveau DALL-E montrant son esthétique caricaturale de plus en plus dérangeante. La Peugeot est sur le trottoir, les feux de circulation que j'ai demandés sont face à des bâtiments et les numéros de plaques d'immatriculation sont tous incompréhensibles.

Les résultats de ChatGPT 4o sont bien meilleurs. Les voitures sont représentées correctement – même les enjoliveurs Peugeot sont très précis et correspondent à l’époque. Ce genre de détail n’est pas accidentel. C'est encore mieux :

Je pourrais en fait utiliser cette image comme fond d’écran de mon téléphone. Éclairage, composition, reflets – tout semble parfait. À l’exception du vide étrange dans la rue, cela pourrait passer pour une vraie photo.

1. Textes et messages

Une lettre manuscrite sur du vieux papier en écriture cursive, placée à côté d'un stylo plume et d'un flacon d'encre.

Enfin, nous ciblons le point faible de chaque générateur d’images. La plupart des générateurs d’images IA ont du mal à produire un texte correct. À présent, vous avez vu suffisamment de charabia de DALL-E dans les exemples précédents pour savoir ce que je veux dire. Générer du texte à partir d’images est un défi majeur pour les développeurs de ces technologies.

Pour le rendre plus intéressant et cohérent, j'ai ajouté que la lettre devrait contenir le texte de la lettre du roi Terenas à Arthas de Warcraft III.

DALL-E a fait ce qu’il fait de mieux avec le texte : il l’a transformé en un texte flou et incompréhensible. Il a réussi à écrire quelques mots correctement, et l'ambiance générale semble bonne – le stylo plume et le flacon d'encre sont beaux. Mais la précision de la génération de texte est encore limitée.

ChatGPT 4o le maîtrise – chaque mot, en cursive claire. idéal. Par rapport à DALL-E, il s’agit d’un énorme bond en avant. Bravo OpenAI. Cette évolution montre à quel point les technologies d’IA ont progressé dans la génération de texte.

Les technologies de génération d’images par l’IA ont parcouru un long chemin – et cela se voit. ChatGPT 4o semble être le premier modèle à vraiment comprendre l'éclairage, la texture et le contexte. Il s’agit d’une avancée majeure dans le domaine de la génération d’images par IA.

À ce stade, la seule vraie question qui reste est : quelle est la force des protections de ChatGPT ? J'ai facilement contourné ses restrictions de droits d'auteur. Combien de temps faudra-t-il avant que quelqu'un jailbreake ChatGPT et commence à créer le contenu qu'il souhaite en utilisant ce modèle incroyablement performant ? Cette capacité soulève des questions sur l’utilisation responsable des technologies d’IA.

ChatGPT