實(shí)測!Qwen下一代基礎(chǔ)架構(gòu)突襲!秒解AIME數(shù)學(xué)競賽題,提速10倍+,性價(jià)比提升10倍
Qwen下一代模型架構(gòu),搶先來襲!
Qwen3-Next發(fā)布,Qwen團(tuán)隊(duì)負(fù)責(zé)人林俊旸說,這就是Qwen3.5的搶先預(yù)覽版。
基于Qwen3-Next,團(tuán)隊(duì)先開源了Qwen3-Next-80B-A3B-Base。
模型參數(shù)80B,但訓(xùn)練成本連Qwen3-32B的十分之一都不到,并且在32 k以上的上下文推理吞吐能達(dá)到后者的十倍以上。
基于這一模型,團(tuán)隊(duì)接連出手,同步開發(fā)并發(fā)布了兩大新模型:
- Qwen3-Next-80B-A3B-Instruct:在256K超長上下文處理任務(wù)中展現(xiàn)出顯著優(yōu)勢。
- Qwen3-Next-80B-A3B-Thinking:在多項(xiàng)基準(zhǔn)測試中超越閉源模型Gemini-2.5-Flash-Thinking。
網(wǎng)友表示,這更新頻率令人震驚。
圖片
話不多說,趕緊來看看新模型有哪些改進(jìn)吧。
4大重要改進(jìn)
Qwen3-Next的核心改進(jìn)有4方面:
- 混合注意力機(jī)制
- 高稀疏度MoE結(jié)構(gòu)
- 穩(wěn)定性優(yōu)化
- 多token預(yù)測機(jī)制
混合注意力機(jī)制
線性注意力在長上下文處理中效率很高,但召回能力有限,而標(biāo)準(zhǔn)注意力計(jì)算開銷大、推理效率低,單獨(dú)使用均存在局限。
為此,Qwen團(tuán)隊(duì)引入Gated DeltaNet,其在上下文學(xué)習(xí)能力上優(yōu)于常用的滑動(dòng)窗口注意力和Mamba2,并在采用3:1的混合策略(75%層使用 Gated DeltaNet,25%層保留標(biāo)準(zhǔn)注意力)時(shí),兼顧性能與效率。
同時(shí),在保留的標(biāo)準(zhǔn)注意力層中,他們進(jìn)一步引入了多項(xiàng)優(yōu)化設(shè)計(jì):
1、延續(xù)先前工作的輸出門控機(jī)制,以緩解注意力中的低秩問題;
2、將單個(gè)注意力頭的維度從128擴(kuò)展至256;
3、僅對注意力頭前25%的維度加入旋轉(zhuǎn)位置編碼,以增強(qiáng)長序列外推能力。
圖片
高稀疏度MoE結(jié)構(gòu)
Qwen3-Next采用高稀疏度的MoE架構(gòu),總參數(shù)量達(dá)800億,但每次推理僅激活約30億參數(shù)。
相比Qwen3-MoE的128個(gè)總專家和8個(gè)路由專家,Qwen3-Next 擴(kuò)展到512個(gè)總專家,并采用10路由專家加1共享專家的組合設(shè)計(jì),在保證性能的前提下最大化資源利用率。
訓(xùn)練穩(wěn)定性優(yōu)化
在Qwen3-Next中,團(tuán)隊(duì)為進(jìn)一步提高模型穩(wěn)定性,采用了Zero-Centered RMSNorm,并在此基礎(chǔ)上,對norm weight施加weight decay,以避免權(quán)重?zé)o界增長。
不僅如此,他們還在初始化時(shí)歸一化了MoE router的參數(shù),確保每個(gè)expert在訓(xùn)練早期都能被無偏地選中,減小初始化對實(shí)驗(yàn)結(jié)果的擾動(dòng)。
多token預(yù)測機(jī)制
Qwen3-Next引入了原生Multi-Token Prediction(MTP) 機(jī)制,不僅獲得了Speculative Decoding接受率較高的MTP模塊,還提升了模型主干的整體性能。
此外,它還對MTP的多步推理進(jìn)行了專項(xiàng)優(yōu)化,即通過訓(xùn)練推理一致的多步策略,進(jìn)一步提高了在實(shí)際應(yīng)用場景下Speculative Decoding的接受率。
快10倍,但便宜10倍
接下來,讓我們一起看看新模型表現(xiàn)如何。
首先,Qwen3-Next使用了Qwen3 36T預(yù)訓(xùn)練語料的均勻采樣子集,僅包含15T tokens。
圖片
其訓(xùn)練所需的GPU Hours不到 Qwen3-30A-3B的80%,相比 Qwen3-32B,僅需9.3%的GPU計(jì)算資源就能取得更優(yōu)性能。
不僅如此,得益于創(chuàng)新的混合模型架構(gòu),Qwen3-Next在推理效率上也表現(xiàn)突出。
與Qwen3-32B相比,Qwen3-Next-80B-A3B在預(yù)填充(prefill)階段就展現(xiàn)出卓越的吞吐能力:
在4k tokens的上下文長度下,吞吐量接近前者的7倍;當(dāng)上下文長度超過32k時(shí),吞吐提升更是達(dá)到10倍以上。
圖片
在解碼(decode)階段,該模型同樣高效。4k上下文吞吐量提升約4倍,長上下文(32k+)場景中仍可保持超過10倍的吞吐優(yōu)勢。
圖片
基于Qwen3-Next,Qwen團(tuán)隊(duì)首先訓(xùn)練了Qwen3-Next-80B-A3B-Base模型。
該模型僅使用十分之一的Non-Embedding激活參數(shù),就已在大多數(shù)基準(zhǔn)測試中超越Qwen3-32B-Base,并顯著優(yōu)于Qwen3-30B-A3B,展現(xiàn)出出色的效率與性能優(yōu)勢。
圖片
基于Qwen3-Next-80B-A3B-Base的優(yōu)異表現(xiàn),團(tuán)隊(duì)進(jìn)一步開發(fā)并發(fā)布了Qwen3-Next-80B-A3B-Instruct與Qwen3-Next-80B-A3B-Thinking。
Qwen3-Next-80B-A3B-Instruct
首先,Qwen3-Next-80B-A3B-Instruct的表現(xiàn)顯著優(yōu)于 Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,并在多數(shù)指標(biāo)上接近Qwen3-235B-A22B-Instruct-2507。
圖片
除此之外,在RULER測試中,無論上下文長度如何,Qwen3-Next-80B-A3B-Instruct 的表現(xiàn)均超過了層數(shù)相同但注意力層更多的Qwen3-30B-A3B-Instruct-2507。
圖片
甚至在256 k范圍內(nèi)也優(yōu)于層數(shù)更多的Qwen3-235B-A22B-Instruct-2507,充分體現(xiàn)了Gated DeltaNet與Gated Attention混合模型在長文本處理場景下的優(yōu)勢。
Qwen3-Next-80B-A3B-Thinking
再來看Qwen3-Next-80B-A3B-Thinking,其表現(xiàn)也相當(dāng)不錯(cuò)。
在多項(xiàng)基準(zhǔn)測試中都超過了閉源模型Gemini-2.5-Flash-Thinking,并在部分指標(biāo)上接近Qwen最新的旗艦?zāi)P?Qwen3-235B-A22B-Thinking-2507。
圖片
推理能力相當(dāng)可以
接下來讓我們實(shí)測一下Qwen3-Next-80B-A3B的推理能力。
使用Qwen Chat網(wǎng)頁,一上來就給它扔一道AIME數(shù)學(xué)競賽題試試:
圖片
由于Qwen3-Next-80B-A3B支持多模態(tài),這里我們可以直接上傳圖片。
圖片
幾乎瞬間,模型就開始飛快地列出了詳細(xì)解題思路和計(jì)算過程,最終得到的答案“588”與AIME標(biāo)準(zhǔn)答案完全吻合。
圖片
小試牛刀之后,接下來進(jìn)入編程環(huán)節(jié)。
用p5js創(chuàng)建一個(gè)可直接玩的掃雷游戲。
代碼成功運(yùn)行后,我們也簡單試玩了一下,流暢度還可以(doge)。
就是誰能解釋一下為什么這個(gè)游戲背景是大紅色,還沒有網(wǎng)格線???
圖片
還有網(wǎng)友奇思妙想,用它生成了天氣卡片。
圖片
不過,看到這個(gè)更新時(shí),網(wǎng)友開心之余還是忍不住吐槽:
名字實(shí)在太復(fù)雜了。
圖片
目前,新模型已在魔搭社區(qū)和抱抱臉開源,大家可通過Qwen Chat免費(fèi)體驗(yàn),也可直接調(diào)用阿里云百煉平臺提供的API服務(wù)。
魔搭社區(qū)直通車:https://t.co/mld9lp8QjK
抱抱臉直通車:https://t.co/zHHNBB2l5XQwen
Chat直通車:https://t.co/V7RmqMaVNZ
阿里云API直通車:https://t.co/RdmUF5m6JA
參考鏈接:
[1]https://x.com/Alibaba_Qwen/status/1966197643904000262
[2]https://x.com/JustinLin610/status/1966199996728156167
[3]https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag?scene=1