DeepSeek se prépare à la prochaine révolution de l'IA avec des modèles auto-améliorés.

Il y a quelques mois à peine, le grand pari de Wall Street sur l'IA générative a connu un moment décisif lorsqu'il est apparu. Recherche profonde Dans la scène. Malgré sa nature hautement contrôlée, DeepSeek open source a prouvé qu'un modèle d'IA inférentiel révolutionnaire ne nécessite pas nécessairement des milliards de dollars et peut être réalisé avec des ressources modestes. Cela représente un changement majeur dans notre compréhension du développement de modèles d’IA avancés.

Il a été rapidement adopté commercialement par des entreprises géantes comme Huawei, Oppo et Vivo, tandis que des entreprises comme Microsoft, Alibaba et Tencent lui ont rapidement donné une place sur leurs plateformes. Désormais, la prochaine cible de cette entreprise chinoise en plein essor est l'auto-amélioration des modèles d'IA qui utilisent une approche en boucle « jugement-récompense » pour s'améliorer. Cette tendance reflète la volonté constante des entreprises de développer des systèmes d’IA plus efficaces et plus efficients.

Dans un article pré-imprimé (via BloombergDes chercheurs de DeepSeek et de l'Université Tsinghua en Chine décrivent une nouvelle approche qui pourrait rendre les modèles d'IA plus intelligents et plus efficaces de manière auto-améliorée. La technique sous-jacente est connue sous le nom de « contrôle critique auto-fondé » (SPCT), et cette approche est techniquement connue sous le nom de « modélisation générative de récompense » (GRM). Cette approche représente une avancée significative dans le domaine de l’apprentissage par renforcement pour l’intelligence artificielle.

En termes simples, c’est un peu comme créer une boucle de rétroaction en temps réel. Un modèle d’IA est principalement amélioré en augmentant la taille du modèle pendant la formation. Cela nécessite beaucoup de travail humain et de ressources informatiques. DeepSeek propose un système dans lequel un « arbitre » principal propose son propre ensemble de critiques et de principes pour le modèle d’IA alors qu’il prépare une réponse aux requêtes des utilisateurs. Cette approche vise à réduire le recours aux ressources humaines intensives dans le processus de formation.

Cet ensemble de critiques et de principes est ensuite comparé aux règles établies au cœur du modèle d’IA et au résultat souhaité. S'il y a un degré élevé de correspondance, un signal de récompense est généré, ce qui incite efficacement l'IA à mieux performer au tour suivant. Ce processus continu d’évaluation et de récompense améliore la capacité du modèle à apprendre et à s’adapter.

Les experts qui se cachent derrière cette idée soulignent que Document de recherche Vers la prochaine génération de modèles d’IA auto-améliorés appelés DeepSeek-GRM. Les benchmarks inclus dans le document indiquent que ces modèles fonctionnent mieux que Gemini de Google, Llama de Meta et GPT-4o d'OpenAI. DeepSeek affirme que ces modèles d'IA de nouvelle génération seront publiés en open source. Cet engagement en faveur de l’ouverture peut accélérer le rythme de l’innovation dans l’IA.

L’IA auto-améliorée : est-ce possible ?

L’idée d’une intelligence artificielle capable de s’améliorer a suscité des discussions ambitieuses et controversées. L’ancien PDG de Google, Eric Schmidt, a déclaré que nous pourrions avoir besoin d’un « interrupteur » pour de tels systèmes. Et il a été transféré fortune Schmidt a déclaré : « Lorsqu’un système peut s’améliorer, nous devrions sérieusement envisager de le mettre hors tension. » Les systèmes d’IA auto-améliorés comptent parmi les développements les plus importants dans le domaine de l’IA.

Le concept d’IA qui s’auto-améliore de manière itérative n’est pas entièrement nouveau. L'idée d'une machine super-intelligente, capable de fabriquer de meilleures machines, Revenir En fait, au mathématicien I. J. Good en 1965. En 2007, l'expert en intelligence artificielle Eliezer Yudkowsky a émis l'hypothèse selon laquelle IA de semences, une intelligence artificielle « conçue pour l’auto-compréhension, l’auto-modification et l’auto-amélioration itérative ».

En 2024, la société japonaise Sakana AI a présenté les détails de Concept « AI World » parle d’un système capable de gérer toute une chaîne de production d’articles de recherche du début à la fin. Et dans Papier Dans un article de recherche publié en mars de cette année, les experts de Meta ont dévoilé des modèles de langage auto-récompensés dans lesquels l'IA elle-même agit comme juge pour attribuer des récompenses pendant la formation. Cette évolution vers des systèmes d’IA auto-apprenants représente un changement de paradigme dans le développement de l’intelligence artificielle.

Le PDG de Microsoft, Satya Nadella, affirme que le développement de l'IA est optimisé par le modèle o1 d'OpenAI et est entré dans une phase récursive : « nous utilisons l'IA pour créer des outils d'IA afin de créer une meilleure IA » pic.twitter.com/IHuFIpQl2C

– Tsarathoustra (@tsarnick) 21 octobre 2024

Les tests internes de Meta sur son modèle d'IA Llama 2, utilisant une technologie innovante d'auto-récompense, ont montré qu'il surpasse des concurrents comme Claude 2 d'Anthropic, Gemini Pro de Google et les modèles GPT-4 d'OpenAI. Anthropic, soutenu par Amazon Détails fournis Ce qu’elle a appelé la manipulation des récompenses, un processus imprévisible « où le modèle modifie directement son propre mécanisme de récompense ».

Google n’est pas loin derrière sur cette idée. Dans une étude publiée dans la revue Nature Plus tôt ce mois-ci, les experts de Google DeepMind ont démontré un algorithme d'IA appelé Dreamer qui peut s'auto-améliorer, en utilisant Minecraft comme exemple d'exercice.

Travaux Experts IBM Ils ont leur propre approche appelée formation par fermeture inférentielle, où un modèle d'IA utilise ses propres réponses et les évalue par rapport aux données de formation pour s'améliorer. Cependant, l’hypothèse dans son ensemble n’est pas entièrement positive.

Les recherches suggèrent que lorsque les modèles d’IA tentent de s’entraîner sur des données synthétiques auto-générées, ils rencontrent des défauts familièrement appelés « plantages de modèle ». Il sera intéressant de voir comment DeepSeek mettra en œuvre l’idée et s’il peut le faire de manière plus économique que ses concurrents occidentaux.

Recherche profonde