Une startup spécialisée dans l'IA surpasse Gemini 3 dans un test d'inférence clé

Depuis son apparition Gemini 3 Pour la première fois, il parvient à conserver sa position au sommet du classement. Classement LMArenaCette liste est un classement collectif où des milliers d'utilisateurs réels comparent des modèles. L'intelligence artificielle Ils s'affrontent directement sur un large éventail de tâches et votent pour la meilleure réponse. Mais lorsqu'il s'agit de satisfaire aux critères d'inférence les plus exigeants, une nouvelle étoile montante se distingue, surpassant même Google, et ce sans avoir entraîné son propre modèle.

Poetiq, une start-up de six personnes, affirme s'être classée première dans Kit de test semi-spécial ARC-AGI-2Il s'agit d'un défi d'inférence extrêmement difficile, créé par le chercheur en IA François Chollet. Le système de la start-up a obtenu un score de 54 %, surpassant ainsi le score précédemment annoncé par Google, qui était d'environ 45 % pour Gemini 3 Deep Think.

Pour mettre les choses en perspective, la plupart des modèles d'IA plafonnaient à moins de 5 % sur ce critère de référence il y a seulement six mois. Dépasser les 50 % était, selon la plupart des chercheurs, un objectif qui prendrait des années.

Et le plus surprenant : la percée de Poetiq ne reposait pas sur un modèle novateur, mais sur une manière plus intelligente d’organiser les modèles existants.

Comment Poetiq a-t-il réalisé cet exploit ?

Au lieu de concevoir un convertisseur massif de A à Z, Poetiq a développé ce qu'elle appelle un métasystème ; il s'agit essentiellement d'un contrôleur IA qui supervise, analyse et améliore les résultats de tout modèle auquel il est connecté. Pour leurs travaux sur ARC-AGI-2, l'équipe a utilisé le Gemini 3 Pro comme modèle de base.

Poetiq décrit le système comme une boucle d'optimisation étroitement contrôlée : Créer > Critiquer > Améliorer > Vérifier.

Voici ce qui le rend spécial :

Aucune formation de recyclage requise : Le système s'adapte aux nouveaux modèles en quelques heures.
Il repose entièrement sur de grands modèles de langage prêts à l'emploi : Aucune modification personnalisée disponible
Moindre coût: Le service Deep Think de Google coûterait 77 dollars par tâche ; le système de Poetiq est plus proche de 30 dollars.
Open source: La solution est accessible au public et vérifiable.
Auto-évaluation : Le système évalue ses propres réponses avant de renvoyer le résultat final.

على Site Web Pour l'entreprise, l'équipe de Poetiq explique que cette approche fonctionne en extrayant Plus de la puissance d'inférence des grands modèles de langage existants, et non en augmentant la puissance de calcul par la force brute.

Pourquoi le test ARC-AGI-2 est-il important ?

Alors que la plupart des tests standardisés mesurent des compétences limitées telles que la programmation ou les mathématiques, ARC-AGI-2 a été conçu pour tester quelque chose de plus profond : la reconnaissance de formes, la mesure, le raisonnement abstrait et le type de généralisation que les humains apprennent dans la petite enfance.

Il est volontairement difficile et particulièrement hostile aux grands modèles de langage (LLM) actuels. Même de nombreux modèles sophistiqués y échouent lamentablement.

C’est pourquoi le bond de résultats à un chiffre à 54 % en six mois a été surprenant. Cela témoigne de progrès dans les méthodes d’inférence, et pas seulement dans la taille du modèle brut.

Cependant, les résultats de Poetiq concernent spécifiquement le groupe de test semi-privé, dont les résultats ne sont pas entièrement accessibles au public. Le site web de l'entreprise indique que ces résultats ont été validés par l'organisme de référence, mais une réplication indépendante par un tiers est toujours en cours, ce qui est significatif pour un test de référence d'une telle ampleur.

La prochaine percée pourrait ne pas venir de modèles plus grands, comme le soulignent les travaux de Poetiq, qui mettent en lumière une tendance croissante en intelligence artificielle : le progrès ne nécessite pas toujours des milliards de dollars d’infrastructures ou un immense laboratoire de recherche.

Si de tels systèmes parviennent à dépasser les paramètres standards pour intégrer la planification, la programmation, la recherche, voire la prise de décision en situation réelle, ils pourraient transformer en profondeur le développement de l'intelligence artificielle. Au lieu d'attendre le prochain supercalculateur, les entreprises pourraient se concentrer sur la création d'une intelligence composite qui rende les modèles actuels plus performants, moins coûteux et plus fiables.

CONCLUSION

Poetiq a publié une solution open source pour ARC-AGI afin que les chercheurs puissent tester, étendre, voire contester ses résultats. La norme contient un ensemble de tests caché, et l'expérience montre que les résultats peuvent évoluer lorsqu'un nombre significatif d'évaluations indépendantes sont réalisées.

Si les résultats de Poetiq se confirment, cela pourrait marquer un tournant dans la recherche en inférence IA. Une équipe de six personnes vient peut-être de démontrer que l'organisation des modèles peut rivaliser, voire surpasser, l'entraînement de modèles beaucoup plus vastes. Poetiq vient de prouver qu'il n'est pas nécessaire d'avoir un laboratoire gigantesque pour réussir.

GEMINI