精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

實(shí)測!Qwen下一代基礎(chǔ)架構(gòu)突襲!秒解AIME數(shù)學(xué)競賽題,提速10倍+,性價(jià)比提升10倍

人工智能
基于Qwen3-Next,團(tuán)隊(duì)先開源了Qwen3-Next-80B-A3B-Base。模型參數(shù)80B,但訓(xùn)練成本連Qwen3-32B的十分之一都不到,并且在32 k以上的上下文推理吞吐能達(dá)到后者的十倍以上。

Qwen下一代模型架構(gòu),搶先來襲!

Qwen3-Next發(fā)布,Qwen團(tuán)隊(duì)負(fù)責(zé)人林俊旸說,這就是Qwen3.5的搶先預(yù)覽版。

圖片

基于Qwen3-Next,團(tuán)隊(duì)先開源了Qwen3-Next-80B-A3B-Base。

模型參數(shù)80B,但訓(xùn)練成本連Qwen3-32B的十分之一都不到,并且在32 k以上的上下文推理吞吐能達(dá)到后者的十倍以上。

基于這一模型,團(tuán)隊(duì)接連出手,同步開發(fā)并發(fā)布了兩大新模型:

  • Qwen3-Next-80B-A3B-Instruct:在256K超長上下文處理任務(wù)中展現(xiàn)出顯著優(yōu)勢。
  • Qwen3-Next-80B-A3B-Thinking:在多項(xiàng)基準(zhǔn)測試中超越閉源模型Gemini-2.5-Flash-Thinking。

網(wǎng)友表示,這更新頻率令人震驚。

圖片圖片

話不多說,趕緊來看看新模型有哪些改進(jìn)吧。

4大重要改進(jìn)

Qwen3-Next的核心改進(jìn)有4方面:

  • 混合注意力機(jī)制
  • 高稀疏度MoE結(jié)構(gòu)
  • 穩(wěn)定性優(yōu)化
  • 多token預(yù)測機(jī)制

混合注意力機(jī)制

線性注意力在長上下文處理中效率很高,但召回能力有限,而標(biāo)準(zhǔn)注意力計(jì)算開銷大、推理效率低,單獨(dú)使用均存在局限。

為此,Qwen團(tuán)隊(duì)引入Gated DeltaNet,其在上下文學(xué)習(xí)能力上優(yōu)于常用的滑動(dòng)窗口注意力和Mamba2,并在采用3:1的混合策略(75%層使用 Gated DeltaNet,25%層保留標(biāo)準(zhǔn)注意力)時(shí),兼顧性能與效率。

同時(shí),在保留的標(biāo)準(zhǔn)注意力層中,他們進(jìn)一步引入了多項(xiàng)優(yōu)化設(shè)計(jì):

1、延續(xù)先前工作的輸出門控機(jī)制,以緩解注意力中的低秩問題;

2、將單個(gè)注意力頭的維度從128擴(kuò)展至256;

3、僅對注意力頭前25%的維度加入旋轉(zhuǎn)位置編碼,以增強(qiáng)長序列外推能力。

圖片圖片

高稀疏度MoE結(jié)構(gòu)

Qwen3-Next采用高稀疏度的MoE架構(gòu),總參數(shù)量達(dá)800億,但每次推理僅激活約30億參數(shù)。

相比Qwen3-MoE的128個(gè)總專家和8個(gè)路由專家,Qwen3-Next 擴(kuò)展到512個(gè)總專家,并采用10路由專家加1共享專家的組合設(shè)計(jì),在保證性能的前提下最大化資源利用率。

訓(xùn)練穩(wěn)定性優(yōu)化

在Qwen3-Next中,團(tuán)隊(duì)為進(jìn)一步提高模型穩(wěn)定性,采用了Zero-Centered RMSNorm,并在此基礎(chǔ)上,對norm weight施加weight decay,以避免權(quán)重?zé)o界增長。

不僅如此,他們還在初始化時(shí)歸一化了MoE router的參數(shù),確保每個(gè)expert在訓(xùn)練早期都能被無偏地選中,減小初始化對實(shí)驗(yàn)結(jié)果的擾動(dòng)。

多token預(yù)測機(jī)制

Qwen3-Next引入了原生Multi-Token Prediction(MTP) 機(jī)制,不僅獲得了Speculative Decoding接受率較高的MTP模塊,還提升了模型主干的整體性能。

此外,它還對MTP的多步推理進(jìn)行了專項(xiàng)優(yōu)化,即通過訓(xùn)練推理一致的多步策略,進(jìn)一步提高了在實(shí)際應(yīng)用場景下Speculative Decoding的接受率。

快10倍,但便宜10倍

接下來,讓我們一起看看新模型表現(xiàn)如何。

首先,Qwen3-Next使用了Qwen3 36T預(yù)訓(xùn)練語料的均勻采樣子集,僅包含15T tokens。

圖片圖片

其訓(xùn)練所需的GPU Hours不到 Qwen3-30A-3B的80%,相比 Qwen3-32B,僅需9.3%的GPU計(jì)算資源就能取得更優(yōu)性能。

不僅如此,得益于創(chuàng)新的混合模型架構(gòu),Qwen3-Next在推理效率上也表現(xiàn)突出。

與Qwen3-32B相比,Qwen3-Next-80B-A3B在預(yù)填充(prefill)階段就展現(xiàn)出卓越的吞吐能力:

在4k tokens的上下文長度下,吞吐量接近前者的7倍;當(dāng)上下文長度超過32k時(shí),吞吐提升更是達(dá)到10倍以上。

圖片圖片

在解碼(decode)階段,該模型同樣高效。4k上下文吞吐量提升約4倍,長上下文(32k+)場景中仍可保持超過10倍的吞吐優(yōu)勢。

圖片圖片

基于Qwen3-Next,Qwen團(tuán)隊(duì)首先訓(xùn)練了Qwen3-Next-80B-A3B-Base模型。

該模型僅使用十分之一的Non-Embedding激活參數(shù),就已在大多數(shù)基準(zhǔn)測試中超越Qwen3-32B-Base,并顯著優(yōu)于Qwen3-30B-A3B,展現(xiàn)出出色的效率與性能優(yōu)勢。

圖片圖片

基于Qwen3-Next-80B-A3B-Base的優(yōu)異表現(xiàn),團(tuán)隊(duì)進(jìn)一步開發(fā)并發(fā)布了Qwen3-Next-80B-A3B-InstructQwen3-Next-80B-A3B-Thinking

Qwen3-Next-80B-A3B-Instruct

首先,Qwen3-Next-80B-A3B-Instruct的表現(xiàn)顯著優(yōu)于 Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking,并在多數(shù)指標(biāo)上接近Qwen3-235B-A22B-Instruct-2507。

圖片圖片

除此之外,在RULER測試中,無論上下文長度如何,Qwen3-Next-80B-A3B-Instruct 的表現(xiàn)均超過了層數(shù)相同但注意力層更多的Qwen3-30B-A3B-Instruct-2507。

圖片圖片

甚至在256 k范圍內(nèi)也優(yōu)于層數(shù)更多的Qwen3-235B-A22B-Instruct-2507,充分體現(xiàn)了Gated DeltaNet與Gated Attention混合模型在長文本處理場景下的優(yōu)勢。

Qwen3-Next-80B-A3B-Thinking

再來看Qwen3-Next-80B-A3B-Thinking,其表現(xiàn)也相當(dāng)不錯(cuò)。

在多項(xiàng)基準(zhǔn)測試中都超過了閉源模型Gemini-2.5-Flash-Thinking,并在部分指標(biāo)上接近Qwen最新的旗艦?zāi)P?Qwen3-235B-A22B-Thinking-2507。

圖片圖片

推理能力相當(dāng)可以

接下來讓我們實(shí)測一下Qwen3-Next-80B-A3B的推理能力。

使用Qwen Chat網(wǎng)頁,一上來就給它扔一道AIME數(shù)學(xué)競賽題試試:

圖片圖片

由于Qwen3-Next-80B-A3B支持多模態(tài),這里我們可以直接上傳圖片。

圖片圖片

幾乎瞬間,模型就開始飛快地列出了詳細(xì)解題思路和計(jì)算過程,最終得到的答案“588”與AIME標(biāo)準(zhǔn)答案完全吻合。

圖片圖片

小試牛刀之后,接下來進(jìn)入編程環(huán)節(jié)。

用p5js創(chuàng)建一個(gè)可直接玩的掃雷游戲。

代碼成功運(yùn)行后,我們也簡單試玩了一下,流暢度還可以(doge)。

就是誰能解釋一下為什么這個(gè)游戲背景是大紅色,還沒有網(wǎng)格線???

圖片圖片

還有網(wǎng)友奇思妙想,用它生成了天氣卡片。

圖片圖片

不過,看到這個(gè)更新時(shí),網(wǎng)友開心之余還是忍不住吐槽:

名字實(shí)在太復(fù)雜了。

圖片圖片

目前,新模型已在魔搭社區(qū)和抱抱臉開源,大家可通過Qwen Chat免費(fèi)體驗(yàn),也可直接調(diào)用阿里云百煉平臺提供的API服務(wù)。

魔搭社區(qū)直通車:https://t.co/mld9lp8QjK

抱抱臉直通車:https://t.co/zHHNBB2l5XQwen

Chat直通車:https://t.co/V7RmqMaVNZ

阿里云API直通車:https://t.co/RdmUF5m6JA

參考鏈接:

[1]https://x.com/Alibaba_Qwen/status/1966197643904000262

[2]https://x.com/JustinLin610/status/1966199996728156167

[3]https://mp.weixin.qq.com/s/STsWFuEkaoUa8J8v_uDhag?scene=1

責(zé)任編輯:武曉燕 來源: 量子位
相關(guān)推薦

2013-05-10 09:47:31

日本開發(fā)超算機(jī)

2013-07-27 21:28:44

2013-05-27 13:59:39

銅纜布線技術(shù)綜合布線技術(shù)網(wǎng)絡(luò)綜合布線

2023-05-10 15:07:00

Mojo開發(fā)選項(xiàng)

2025-01-03 09:24:10

模型架構(gòu)論文

2016-10-08 16:02:37

WIFIMegaMIMO系統(tǒng)

2009-08-21 17:44:00

寬帶接入EPON

2013-06-27 11:21:17

2013-09-24 09:40:41

Java圖形加速

2019-07-12 09:36:37

Windows操作系統(tǒng)功能

2019-07-12 14:30:43

Windows 10搜索框Windows

2011-07-01 10:11:39

2021-05-27 09:19:55

Windows10操作系統(tǒng)微軟

2020-06-05 10:40:33

Windows 10Windows微軟

2020-09-27 17:27:58

邊緣計(jì)算云計(jì)算技術(shù)

2015-10-19 17:15:33

網(wǎng)絡(luò)架構(gòu)/華三

2021-03-03 07:12:47

Windows10操作系統(tǒng)微軟

2017-12-27 08:53:17

Java JDK 10敏捷軟件區(qū)塊鏈

2020-09-16 10:28:54

邊緣計(jì)算云計(jì)算數(shù)據(jù)中心

2016-02-18 09:36:52

光纖wifi
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 咸阳市| 东乌珠穆沁旗| 连云港市| 聂拉木县| 贡嘎县| 绍兴县| 平塘县| 房产| 鞍山市| 丰顺县| 邛崃市| 河源市| 博白县| 北流市| 英德市| 万盛区| 沂南县| 沛县| 且末县| 宜阳县| 萝北县| 定西市| 临江市| 黎城县| 澄迈县| 会宁县| 阜康市| 烟台市| 夹江县| 寻甸| 三明市| 鹿邑县| 平遥县| 鸡西市| 宁国市| 响水县| 三门县| 赤峰市| 那坡县| 舟曲县| 隆昌县|