Alibaba, le chinois, surpasse Meta avec ses nouveaux modèles d'IA Qwen 3

Résumé:

Le géant technologique chinois Alibaba a lancé une famille de modèles d'IA Qwen 3 open source. La collection comprend 8 nouveaux modèles.
Le modèle phare, Qwen3-235B-A22B MoE, a été formé sur 235 milliards de paramètres, avec 22 milliards de paramètres activés.
Le modèle plus petit, Qwen3-30B-A3B MoE, qui ne possède que 3 milliards de paramètres activés, surpasse largement le GPT-4o.

Le géant technologique chinois Alibaba a lancé huit nouveaux modèles d'intelligence artificielle (IA) open source dans sa série Qwen 3. Les nouveaux modèles Qwen 3 comprennent deux modèles MoE (Mixture of Experts), Qwen3-235B-A22B et Qwen3-30B-A3B. Le Qwen3-235B-A22B est le modèle le plus grand et le plus performant, avec un total de 235 milliards de paramètres et 22 milliards de paramètres activés.

Le Qwen3-30B-A3B est un modèle MoE plus petit avec un total de 30 milliards de paramètres et 3 milliards de paramètres activés. De plus, il existe six modèles denses dans la série Qwen 3, notamment Qwen3-32B, Qwen3-14B, Qwen3-8B, Qwen3-4B, Qwen3-1.7B et Qwen3-0.6B. Ces nouveaux modèles Alibaba Qwen 3 AI renforcent encore la position de l'entreprise dans le domaine de l'intelligence artificielle.

Présentation de Qwen3 !

Nous publions et ouvrons Qwen3, nos derniers grands modèles de langage, comprenant 2 modèles MoE et 6 modèles denses, allant de 0.6B à 235B. Notre modèle phare, Qwen3-235B-A22B, obtient des résultats compétitifs dans les évaluations de référence en codage, mathématiques,… pic.twitter.com/JWZkJeHWhC

– Qwen (@Alibaba_Qwen) le 28 avril 2025

Tous les modèles Qwen 3 prennent en charge les modes de pensée hybrides, ce qui signifie qu'ils sont à la fois des modèles d'IA inférentiels et des modèles de langage traditionnels à grande échelle (LLM). En « mode Pensée », le modèle peut déduire étape par étape, tandis qu’en « mode Non-Pensée », le modèle fournit une réponse rapide. Cette fonctionnalité améliore la flexibilité d’utilisation du modèle dans diverses applications.

En outre, Supports Les modèles Qwen 3 prennent en charge plus de 119 langues et dialectes du monde entier. C'est l'un des modèles multilingues les plus polyvalents. De plus, Alibaba a amélioré la prise en charge du protocole MCP (Model Context Protocol) pour les modèles Qwen 3, débloquant ainsi des fonctionnalités agentiques supplémentaires. Cette amélioration permet aux modèles de mieux comprendre le contexte et de prendre des décisions plus éclairées.

En termes de performances, le modèle Qwen3-235B-A22B, plus grand, offre des résultats compétitifs en ligne avec DeepSeek R1 et Grok 3 Beta et Gémeaux 2.5 Pro et OpenAI o1. Ce que je trouve intéressant, c'est que le modèle plus petit Qwen3-30B-A3B, qui ne possède que 3 milliards de paramètres actifs, surpasse DeepSeek V3 et le modèle GPT-4o d'OpenAI. Cela indique une efficacité élevée des ressources et la capacité d'obtenir des performances exceptionnelles avec une taille de modèle plus petite.

Alibaba affirme que les modèles Qwen 3 fonctionnent bien en programmation, en mathématiques, en sciences et en compétences générales. Dans l’ensemble, Qwen 3 représente une famille de modèles d’IA avancés et hautement performants en provenance de Chine. Désormais, avec le prochain DeepSeek R2, la Chine est bien placée pour concurrencer les laboratoires d’IA occidentaux. Cette évolution reflète les progrès rapides de la Chine dans le domaine de l’intelligence artificielle.