Évaluation du public : 27 modèles d’IA, ChatGPT en 8e position – Voici les modèles qui l’ont surpassé

Bien que le monde intelligence artificielle (IA) Même si cela peut souvent sembler être un domaine turbulent, il existe une quantité surprenante d'analyses, d'analyses comparatives et de tests effectués en coulisses, non seulement par les entreprises elles-mêmes, mais également par des groupes créés pour déterminer leurs propres classements.

Ces groupes testent tout, depuis la capacité d'un chatbot à effectuer des tests de mathématiques,
Créer des images, ou fournir des explications logiques, ou même donner des conseils médicaux, ou simplement montrer à quel point elle est intelligente émotionnellement.

Au cours de ces différents tests, les modèles démontrent leurs forces et leurs faiblesses dans différents domaines. Par exemple, GPT-5 Il excelle en déduction scientifique, mais est à la traîne par rapport à Gemini et Claude dans sa capacité à s'adapter à de nouveaux concepts.

Chacun de ces tests nous apprend quelque chose de nouveau sur les modèles d'IA et est important pour nous rappeler quels outils sont les plus performants dans différents scénarios. Mais il manque souvent un indicateur : quels modèles d'IA offrent la meilleure expérience utilisateur ?

Système de classification humaine

Une société technologique basée au Royaume-Uni appelée Prolific a créé Un classement d'IA appelé HumaineAu lieu de tester la capacité de l’IA à accomplir des tâches, Prolific a testé différentes expériences utilisateur avec ces modèles.

En évaluant les expériences de 21 352 personnes avec les outils, ils ont non seulement pu trouver un gagnant global, mais ont également pu décomposer les résultats par âge, par lieu (les tests ont été effectués au Royaume-Uni et aux États-Unis) et par convictions politiques.

Cela comprend des listes individuelles pour :

Royaume-Uni : tranches d'âge
Royaume-Uni : Race
Royaume-Uni : point de vue politique
États-Unis : tranches d'âge
États-Unis : Race
États-Unis : point de vue politique

L’équipe a demandé à chaque participant d’interagir avec deux modèles d’IA distincts dans le cadre d’une comparaison et leur a demandé de fournir un retour sur le modèle qui fonctionnait le mieux dans chaque interaction.

Il en a résulté un gagnant général et un classement pour la performance, mais également des classements séparés pour la performance des tâches de base et le raisonnement, ainsi qu'un gagnant pour la communication, la résilience, la confiance et l'éthique.

Que montrent les résultats ?

Après un examen approfondi, un vainqueur incontestable s'est imposé, non seulement dans la catégorie des performances globales, mais aussi dans la plupart des sous-catégories. Le Gemini 2.5-Pro a excellé dans presque tous les tests.

Les jeunes âgés de 18 à 34 ans au Royaume-Uni, les électeurs démocrates et ceux de plus de 55 ans aux États-Unis ont convenu que Gémeaux 2.5 Pro C'est le meilleur modèle dans l'ensemble. Le seul domaine où toutes les données démographiques ont obtenu de meilleurs résultats que Gemini était la confiance, l'éthique et la sécurité, et il s'agissait de Grok-3 – un résultat quelque peu ironique compte tenu des problèmes de sécurité et d'éthique rencontrés récemment par les modèles d'IA.

Il est intéressant de noter que les trois modèles qui ont émergé après Gemini sont Deepseek, Magistral Le Chat et GrokBien que Deepseek ait connu une grande popularité en début d'année, il a récemment disparu des radars. Le Chat, en revanche, est un chatbot moins populaire, mais qui bénéficie d'une base de fans fidèles.

Et le célèbre ChatGPT, où se situe-t-il dans tout cela ? Il est en bas de la liste, à la huitième place, avec le modèle GPT-4.1 le mieux noté. Pire encore, Claude, où ses quatre éditions se sont classées onzième et douzième au classement général.

Alors, qu'est-ce que tout cela signifie ?

Cela signifie-t-il que Gemini est le meilleur chatbot IA au monde ? Faut-il pour autant abandonner ChatGPT… ? Pas vraiment.

Ces résultats ne reflètent pas nécessairement les performances de ces modèles. Lors des tests sur la plupart des autres indicateurs, les options généralement les plus performantes sont ChatGPT, Gemini, Claude et Grok.

Il s'agit toutefois d'un ajout important à ces tests. Ils nous aident à mieux comprendre l'IA du point de vue de l'expérience humaine. Par exemple, Le Chat n'obtient pas un score élevé aux tests de performance standard, mais il est souvent cité comme un excellent choix en termes d'expérience et de fiabilité.

Si les performances d'Anthropic et d'OpenAI n'ont pas atteint ce niveau lors de cette série de tests, Gemini et Grok ont de nouveau enregistré de solides performances. Les deux entreprises obtiennent régulièrement des scores élevés lors des benchmarks standards, et elles ont continué à le faire ici.

ChatGPT