全新MoE架構(gòu)!阿里開源Qwen3-Next,訓練成本直降九成
大語言模型(LLM),正在進入 Next Level。
周五凌晨,阿里通義團隊正式發(fā)布、開源了下一代基礎模型架構(gòu) Qwen3-Next。總參數(shù) 80B 的模型僅激活 3B ,性能就可媲美千問 3 旗艦版 235B 模型,也超越了 Gemini-2.5-Flash-Thinking,實現(xiàn)了模型計算效率的重大突破。
新模型立即在 Qwen.ai 上線,并上傳了 HuggingFace。
- 新模型網(wǎng)頁版:https://chat.qwen.ai/
- HuggingFace:https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d
- Kaggle:https://www.kaggle.com/models/qwen-lm/qwen3-next-80b
Qwen3-Next 針對大模型在上下文長度擴展(Context Length Scaling)和參數(shù)量擴展(Total Parameter Scaling)的未來趨勢而設計。通義團隊表示,其模型結(jié)構(gòu)相較 4 月底推出的 Qwen3 的 MoE 模型新增了多種技術并進行了核心改進,包括混合注意力機制、高稀疏度 MoE 結(jié)構(gòu)、一系列提升訓練穩(wěn)定性的優(yōu)化,以及提升推理效率的多 token 預測(MTP)機制等。
模型結(jié)構(gòu)示意圖:
通義團隊介紹了新架構(gòu)使用的一些機制。
- 混合架構(gòu):Gated DeltaNet + Gated Attention
線性注意力打破了標準注意力的二次復雜度,在處理長上下文時有著更高的效率。通義團隊發(fā)現(xiàn),單純使用線性注意力或標準注意力均存在局限:前者在長序列建模上效率高但召回能力弱,后者計算開銷大、推理不友好。
通過系統(tǒng)實驗,人們發(fā)現(xiàn) Gated DeltaNet 相比常用的滑動窗口注意力(Sliding Window Attention)和 Mamba2 有更強的上下文學習(in-context learning)能力,并在 3:1 的混合比例(即 75% 層使用 Gated DeltaNet,25% 層保留標準注意力)下能一致超過超越單一架構(gòu),實現(xiàn)性能與效率的雙重優(yōu)化。
在保留的標準注意力中,通義進一步引入多項增強設計:
(1)沿用先前工作中的輸出門控機制,緩解注意力中的低秩問題;
(2)將單個注意力頭維度從 128 擴展至 256;
(3)僅對注意力頭前 25% 的位置維度添加旋轉(zhuǎn)位置編碼,提高長度外推效果。
- 極致稀疏 MoE:僅激活 3.7% 參數(shù)
Qwen3-Next 采用了高稀疏度的 Mixture-of-Experts (MoE) 架構(gòu),總參數(shù)量達 80B,每次推理僅激活約 3B 參數(shù)。實驗表明,在使用全局負載均衡后,當激活專家固定時,持續(xù)增加專家總參數(shù)可帶來訓練 loss 的穩(wěn)定下降。
相比 Qwen3 MoE 的 128 個總專家和 8 個路由專家,Qwen3-Next 擴展到了 512 總專家,10 路由專家與 1 共享專家的組合,在不犧牲效果的前提下最大化資源利用率。
- 訓練穩(wěn)定性友好設計
通義團隊發(fā)現(xiàn), 注意力輸出門控機制能消除注意力池與極大激活等現(xiàn)象,保證模型各部分的數(shù)值穩(wěn)定。Qwen3 采用了 QK-Norm,部分層的 norm weight 值會出現(xiàn)異常高的情況。為緩解這一現(xiàn)象,進一步提高模型的穩(wěn)定性,通義在 Qwen3-Next 中采用了 Zero-Centered RMSNorm,并在此基礎上對 norm weight 施加 weight decay,以避免權(quán)重無界增長。
通義還在初始化時歸一化了 MoE router 的參數(shù),確保每個 expert 在訓練早期都能被無偏地選中,減小初始化對實驗結(jié)果的擾動。
- Multi-Token Prediction
Qwen3-Next 引入原生 Multi-Token Prediction (MTP) 機制,既得到了 Speculative Decoding 接受率較高的 MTP 模塊,又提升了主干本身的綜合性能。Qwen3-Next 還特別優(yōu)化了 MTP 多步推理性能,通過訓練推理一致的多步訓練,進一步提高了實用場景下的 Speculative Decoding 接受率。
通義千問大模型負責人林俊旸在 X 上分享了新一代模型開發(fā)的細節(jié)。他表示團隊已經(jīng)在混合模型和線性注意力機制上進行了大約一年的實驗。新的解決方案應該足夠穩(wěn)定可靠,能夠應對超長上下文。
Gated DeltaNet 加混合是經(jīng)過大量嘗試和錯誤才實現(xiàn)的,而 Gated Attention 的實現(xiàn)就像是免費的午餐,可以獲得額外好處。
得益于創(chuàng)新的混合模型架構(gòu),Qwen3-Next 在推理效率方面表現(xiàn)出顯著優(yōu)勢。與 Qwen3-32B 相比,Qwen3-Next-80B-A3B 在預填充(prefill)階段展現(xiàn)出卓越的吞吐能力:在 4k tokens 的上下文長度下,吞吐量接近前者的七倍;當上下文長度超過 32k 時,吞吐提升更是達到十倍以上。
在解碼(decode)階段,該模型同樣表現(xiàn)優(yōu)異 —— 在 4k 上下文下實現(xiàn)近四倍的吞吐提升,而在超過 32k 的長上下文場景中,仍能保持十倍以上的吞吐優(yōu)勢。
基于 Qwen3-Next 的模型結(jié)構(gòu),通義團隊訓練了 Qwen3-Next-80B-A3B-Base 模型,該模型擁有 800 億參數(shù)(僅激活 30 億參數(shù)),實現(xiàn)了與 Qwen3-32B dense 模型相近甚至略好的性能,同時訓練成本(GPU hours) 僅為 Qwen3-32B 的十分之一不到,在 32k 以上的上下文下的推理吞吐則是 Qwen3-32B 的十倍以上,實現(xiàn)了極致的訓練和推理性價比。
通義團隊開源了 Qwen3-Next-80B-A3B 的指令(Insctruct)模型和推理(Thinking)兩款模型。新模型解決了混合注意力機制 + 高稀疏度 MoE 架構(gòu)在強化學習訓練中長期存在的穩(wěn)定性與效率難題,實現(xiàn)了 RL 訓練效率與最終效果的雙重提升。
在編程(LiveCodeBench v6)、人類偏好對齊 (Arena-Hard v2) 以及綜合性能力 (LiveBench) 評測中,Qwen3-Next-Instruct 表現(xiàn)甚至超過了千問的開源旗艦模型,并在包含通用知識(SuperGPQA)、數(shù)學推理(AIME25)等核心測評中全面超越了 SOTA 密集模型 Qwen3-32B;Qwen3-Next-Thinking 則全面超越了 Gemini2.5-Flash-Thinking,在數(shù)學推理 AIME25 評測中獲得了 87.8 分。而達到如此高水平的模型性能,僅需激活 Qwen3-Next 總參數(shù) 80B 中的 3B。
目前,Qwen3-Next 模型也已經(jīng)在很多第三方平臺中上線。
使用新模型在 anycoder 中的 vibe coding 示例: