Une nouvelle étude révèle pourquoi ChatGPT continue de fabriquer des informations.

Un jour, j'échangeais des idées avec ChatGPT Soudain, il s'est lancé dans une longue histoire fictive qui n'avait rien à voir avec mes instructions. C'était tellement ridicule que j'en ai ri. Ces derniers temps, je n'ai pas vu ce genre d'erreurs dans les instructions textuelles, mais j'en vois encore assez régulièrement avec la génération d'images.

Pourquoi les chatbots continuent-ils à deviner alors qu'ils ne sont pas censés le faire ?

Les recherches suggèrent qu’un problème structurel est à l’origine de ces hallucinations ; la racine du problème provient des normes et des classements qui évaluent les modèles d’IA et récompensent les réponses sûres.

En d'autres termes, lorsqu'un chatbot répond « Je ne sais pas », il est pénalisé lors du test. Cela signifie que les modèles sont activement encouragés à toujours fournir une réponse, même s'ils ne sont pas certains de son exactitude.

En pratique, cela incite votre assistant intelligent à deviner plutôt qu'à reconnaître l'incertitude. Cela peut être inoffensif pour des requêtes simples et courantes. Mais dans des situations plus sensibles, des questions médicales aux conseils financiers, ces erreurs de jugement peuvent rapidement se transformer en risques réels.

En tant qu'utilisateur expérimenté, c'est pourquoi je vérifie toujours les faits et demande la source au chatbot. Parfois, si l'information me semble tirée par les cheveux et que je demande la source, le chatbot répondra quelque chose comme « Bien vu ! » ou quelque chose de similaire, sans admettre son erreur.

Les modèles plus récents ne sont pas à l’abri.

Il est intéressant de noter que l'article d'OpenAI a révélé que les modèles axés sur l'inférence, comme o3 et o4-mini, hallucinent plus souvent que certains modèles plus anciens. Pourquoi ? Parce qu'ils produisent généralement plus d'affirmations, ce qui implique davantage de risques d'erreur.

Ainsi, le fait qu’un modèle soit « plus intelligent » en matière d’inférence ne le rend pas nécessairement plus véridique sur ce qu’il ne sait pas.

Quelle est la solution à ce problème?

Les chercheurs pensent que la solution réside dans une nouvelle façon d'évaluer et de mesurer l'IA. Au lieu de pénaliser les modèles qui disent « Je ne suis pas sûr », des tests plus pertinents devraient récompenser les réponses calibrées, les indications d'incertitude ou la possibilité de se référer à d'autres sources.

Cela pourrait signifier que votre futur chatbot pourrait mieux répondre, en privilégiant moins l'approche « Voici la réponse » et davantage celle « Voici ce que je pense, mais je n'en suis pas sûr ». Cela peut sembler plus lent, mais cela pourrait réduire considérablement les erreurs dangereuses. Cela prouve que notre esprit critique reste important.

À quel point est-ce important pour vous ?

Si vous utilisez des chatbots populaires comme ChatGPT, Gemini, Claude ou Grok, vous avez probablement déjà eu des « hallucinations ». Cette étude suggère que le problème ne réside pas uniquement dans le modèle lui-même, mais plutôt dans la façon dont il est testé, comme un jeu de hasard pour voir qui a raison la plupart du temps.

Pour les utilisateurs, cela signifie que nous devons être prudents et considérer les réponses de l'IA comme une première suggestion, et non comme un aboutissement. Pour les développeurs, c'est le signe qu'il est temps de repenser notre façon de mesurer la réussite afin que les futurs assistants IA puissent identifier leurs ignorances au lieu de commettre des erreurs critiques.

ChatGPT