Nvidia aide à résoudre les plus grands défis de la génération d’images IA.

Les exigences élevées en matière de puissance et de calcul constituent un problème fondamental dans l’IA, en particulier dans des tâches telles que la création de médias. Sur les téléphones mobiles, lors de l'exécution de ces tâches localement, seuls quelques appareils coûteux dotés de processeurs puissants peuvent exécuter l'ensemble des fonctionnalités. Même lorsqu’il est mis en œuvre à grande échelle dans le cloud, il s’agit d’un processus coûteux.

Nvidia a peut-être discrètement relevé ce défi en partenariat avec le MIT et l’Université Tsinghua. L'équipe a créé un outil hybride de génération d'images d'IA appelé HART (Hybrid Auto Transformer) combine essentiellement deux des techniques de génération d'images IA les plus utilisées. Le résultat est un outil très rapide avec des besoins de calcul nettement inférieurs.

Pour vous donner une idée de sa rapidité, je lui ai demandé de créer une image d'un perroquet jouant de la guitare basse. Il a renvoyé l'image suivante en une seconde environ. J'avais du mal à suivre la barre de progression. Lorsque j'ai utilisé la même entrée avec un formulaire Image Google 3 Sur Gemini, cela a pris environ 9 à 10 secondes sur une connexion Internet de 200 Mbps.

Un grand pas en avant dans la génération d'images grâce à l'intelligence artificielle

Lorsque les images d'IA ont commencé à gagner du terrain, la technologie de diffusion était la force motrice derrière tout cela, alimentant des produits comme le générateur d'images Dall-E d'OpenAI, Imagen de Google et Stable Diffusion. Cette méthode produit des images haute résolution et détaillées. Cependant, la génération d’images IA nécessite plusieurs étapes, ce qui la rend lente et coûteuse en termes de calcul.

La deuxième approche qui a récemment gagné en popularité est celle des modèles autorégressifs, qui fonctionnent de manière similaire aux chatbots et génèrent des images à l’aide de la technologie de prédiction de pixels. Cette méthode est plus rapide, mais elle est également plus sujette aux erreurs dans la génération d’images IA.

Une équipe du MIT a combiné les deux méthodes dans un seul package appelé HART. Cette technique s'appuie sur un modèle autorégressif pour prédire les éléments d'image compressés sous forme de jetons discrets, tandis qu'un petit modèle de diffusion s'occupe du reste pour compenser la perte de qualité. Cette approche réduit le nombre d’étapes utilisées de plus de vingt à seulement huit.

Les experts derrière HART affirment que cette technologie « génère des images qui correspondent ou dépassent la qualité des modèles de diffusion de pointe, mais le fait environ neuf fois plus rapidement ». HART combine un modèle autorégressif avec une gamme de 700 millions de paramètres et un petit modèle de diffusion capable de gérer 37 millions de paramètres.

Résoudre la crise des coûts informatiques

Il est intéressant de noter que cet outil HART hybride a pu générer des images aussi bonnes que les modèles de pointe avec une capacité de 2 milliards de paramètres. Plus important encore, HART a pu réaliser cet exploit avec une génération d’images neuf fois plus rapide, tout en réduisant les ressources informatiques de 31 %.

Selon l’équipe, l’approche à faible calcul permet à HART de fonctionner nativement sur les téléphones et les ordinateurs portables, ce qui constitue un succès majeur. Jusqu'à présent, les produits populaires du marché comme ChatGPT et Gemini nécessitent une connexion Internet pour générer des images, car le calcul est effectué sur des serveurs cloud.

Dans la vidéo de test, l'équipe a démontré son exécution native sur un ordinateur portable MSI équipé d'un processeur de la série Intel Core et d'une carte graphique Nvidia GeForce RTX. C'est une combinaison que vous pouvez retrouver dans la plupart des ordinateurs portables de jeu du marché, sans avoir à dépenser une fortune.

HART est capable de produire des images au format 1:1 avec une résolution de 1024 x 1024 pixels. Le niveau de détail de ces images est impressionnant, tout comme la variété stylistique et la précision de la scène. Lors des tests, l’équipe a observé que l’outil d’IA hybride était trois à six fois plus rapide et offrait une productivité plus de sept fois supérieure.

Les possibilités futures sont passionnantes, en particulier lorsque l’on combine les capacités d’image de HART avec des modèles de langage. « À l’avenir, on pourrait interagir avec un modèle génératif unifié de vision et de langage, peut-être en lui demandant de montrer les étapes intermédiaires nécessaires à l’assemblage d’un meuble », explique l’équipe du MIT.

Ils explorent déjà cette idée et prévoient même de tester l’approche de HART en matière de génération audio et vidéo. Vous pouvez l'essayer sur Panneau de contrôle Web MIT.

Quelques inconvénients

Avant d’aborder la discussion sur la qualité, il convient de noter que HART est encore un projet de recherche à ses débuts. Techniquement, l’équipe a mis en évidence certains obstacles, comme l’augmentation des frais généraux lors des processus d’inférence et de formation. Ce programme devrait connaître des développements majeurs dans un avenir proche.

Ces défis peuvent être résolus ou ignorés, car ils sont mineurs dans le cadre plus large des choses ici. De plus, compte tenu des avantages considérables offerts par HART en termes d’efficacité de calcul, de vitesse et de latence, ces défis peuvent persister sans entraîner de problèmes de performances significatifs.

Au cours de ma courte expérience avec HART en utilisant des invites de texte, j'ai été étonné de la rapidité avec laquelle les images étaient générées. Je n'ai jamais rencontré de scénario dans lequel le logiciel gratuit prenait plus de deux secondes pour créer une image. Même avec des invites qui s'étendaient sur trois paragraphes (près de 200 mots), HART a pu générer des images qui correspondaient parfaitement à la description.

Outre l'exactitude de la description, il y avait beaucoup de détails dans les photos. Cependant, HART souffre des inconvénients des logiciels de génération d’images IA classiques. Il a du mal à générer des figures et des dessins de base tels que manger, aligner des personnages et capturer la perspective.

Le réalisme dans le contexte humain est un domaine dans lequel j’ai remarqué des défauts évidents. À certaines occasions, le programme a mal compris des choses de base, comme par exemple en confondant une bague avec un collier. Mais dans l’ensemble, ces erreurs étaient peu nombreuses et attendues. De nombreux outils d’IA ne parviennent toujours pas à le faire correctement, même s’ils existent depuis un certain temps.

Dans l’ensemble, je suis très enthousiasmé par l’énorme potentiel de HART. Il sera intéressant de voir si le MIT et Nvidia créent un produit à partir de celui-ci, ou adoptent simplement l’approche de génération d’images d’IA hybride dans un produit existant. Quoi qu’il en soit, c’est un aperçu d’un avenir très prometteur.