OpenAI終于開源了！gpt-oss-120B對飆o4-mini，20B可手機(jī)運(yùn)行原創(chuàng)

發(fā)布于 2025-8-11 08:19

瀏覽

0收藏

8月5日，AI圈被OpenAI這記“王炸”炸懵了。

自2019年GPT-2發(fā)布以來，OpenAI首次再次開源語言模型，而且一口氣放出了兩個(gè)版本：gpt-oss-120B 和 gpt-oss-20B。不同于之前那種“只準(zhǔn)調(diào)API，不準(zhǔn)看底細(xì)”的閉源策略，這一次是真·全權(quán)開放：你可以自由下載、部署、調(diào)優(yōu)，甚至在手機(jī)上跑！

這不僅僅是一次模型發(fā)布，更像是宣告了一個(gè)全新時(shí)代的到來：開源模型可以和商業(yè)巨頭正面對剛了。

一、為什么這次發(fā)布值得特別關(guān)注？

眾所周知，OpenAI以技術(shù)強(qiáng)悍、閉源保守著稱。多年來，GPT-3、GPT-4都被牢牢鎖在API后面，外界只能“租用”而無法“擁有”。但這一次，OpenAI破天荒地發(fā)布了Apache 2.0許可的開源模型，意味著：

可商用 ??
可本地部署 ??
可二次訓(xùn)練 ??
可完全控制推理過程 ??

換句話說，OpenAI把曾經(jīng)的“云上神器”交到了你我手中。

二、來認(rèn)識(shí)下這對新模型“兄弟”：120B 與 20B

?? gpt-oss-120B：桌面級“王炸”

這款體量達(dá)1170億參數(shù)的模型，采用Mixture-of-Experts（MoE）架構(gòu)，每個(gè)Token只激活5.1B參數(shù)，極大優(yōu)化了性能與資源消耗的平衡。

參數(shù)量：1170億（活躍參數(shù)5.1億/Token）
性能表現(xiàn)：可媲美甚至超越OpenAI o4-mini
推理支持：單張80GB顯卡即可運(yùn)行，支持鏈?zhǔn)剿季S（CoT）、Agent功能、結(jié)構(gòu)化輸出等
上下文長度：高達(dá)128K Tokens，一口氣讀完一本書毫無壓力
定制能力：支持“推理力度”調(diào)節(jié)（低、中、高），平衡性能與資源

?實(shí)測場景：代碼生成、技術(shù)寫作、研究自動(dòng)化，樣樣精通。

?? gpt-oss-20B：移動(dòng)端AI的性價(jià)比之王

別小看它“只有”210億參數(shù)，它是目前最強(qiáng)可本地部署的輕量級模型之一。

參數(shù)量：210億（活躍參數(shù)3.6億/Token）
性能表現(xiàn)：介于o3-mini與o4-mini之間
硬件需求：僅需16GB內(nèi)存的筆記本就能跑，甚至支持移動(dòng)端部署
定位：為低延遲、私有化、離線推理場景量身打造

??典型應(yīng)用：智能助手、嵌入式設(shè)備、移動(dòng)終端AI推理

三、技術(shù)細(xì)節(jié)亮點(diǎn)：性能猛、資源省、定制靈

兩款模型都使用了MoE專家網(wǎng)絡(luò)架構(gòu)，即每次只激活部分子網(wǎng)絡(luò)，既保留了大模型的理解力，又大幅壓縮內(nèi)存使用。

每個(gè)Token只激活少量專家子網(wǎng)，模型雖大，推理成本卻小。

120B：128個(gè)專家，每次僅用4個(gè)
20B：32個(gè)專家，每次也用4個(gè)

此外，它們還采用MXFP4量化技術(shù)，使模型更容易適配消費(fèi)級設(shè)備。這項(xiàng)原生量化技術(shù)讓模型不僅跑得快，而且占用內(nèi)存小。

部分關(guān)鍵結(jié)構(gòu)如下：

模型	層數(shù)	總參數(shù)	激活參數(shù)/Token	總專家數(shù)	每Token激活專家數(shù)	支持上下文
gpt-oss-120B	36	117B	5.1B	128	4	128k
gpt-oss-20B	24	21B	3.6B	32	4	128k

無論是多輪復(fù)雜問題（Chain-of-Thought），還是API調(diào)用、代碼執(zhí)行，兩個(gè)模型都表現(xiàn)得相當(dāng)成熟。甚至支持“系統(tǒng)消息中一句話切換推理力度”，真正實(shí)現(xiàn)了按需“燒腦”。

四、對開發(fā)者與企業(yè)意味著什么？

?? 企業(yè)：AI主權(quán)時(shí)代來臨

你可以將模型部署在本地集群或?qū)Ｓ杏布希瑢?shí)現(xiàn)：

數(shù)據(jù)隱私保障
合規(guī)性管理
邊緣計(jì)算部署

金融、醫(yī)療、法律等領(lǐng)域終于有了可以落地的強(qiáng)力開源大模型。

??? 開發(fā)者：從調(diào)用到掌控的躍遷

不再受限于API調(diào)用次數(shù)、費(fèi)用與封裝限制，你可以：

調(diào)整推理流程
注入自定義指令
精細(xì)化調(diào)參
本地?zé)o障礙迭代

而且模型已上傳至 Hugging Face 和 Ollama，部署快到起飛。

五、性能實(shí)測：真打得過商用模型？

從OpenAI官方發(fā)布的Benchmark成績看，gpt-oss系列在多個(gè)標(biāo)準(zhǔn)測試中全面碾壓開源對手、追平閉源模型：

MMLU綜合學(xué)科測試：gpt-oss-120B 達(dá)到90%準(zhǔn)確率，接近GPT-4o。
健康問答（HealthBench）：gpt-oss-20B超過o4-mini，成為最強(qiáng)“醫(yī)療類”開源模型。
數(shù)學(xué)競賽（AIME 2025）：兩個(gè)模型均超過98%準(zhǔn)確率，超越多款商用閉源模型。

這些結(jié)果說明：它不僅“開源”，還“頂級”。

其他具體評測結(jié)果如下：

??任務(wù)名稱	??評估維度	??gpt-oss-120B	??gpt-oss-20B	??OpenAI o4-mini	??OpenAI o3	??OpenAI o3-mini
Codeforces 編程競賽	Elo 排名（越高越好）	2622 （含工具） 2463（無工具）	2516（含工具） 2230（無工具）	2706	2719	2073
Humanity's Last Exam 專家級通識(shí)問答	準(zhǔn)確率（%）	19（含工具） 14.9（無工具）	17.3（含工具） 10.9（無工具）	24.9	17.7	13.4
HealthBench 通用健康問答	得分（%）	57.6	59.8	50.1	42.5	37.8
HealthBench Hard 復(fù)雜健康問答	得分（%）	30.0	10.8	17.5	31.6	4.0
AIME 2024 數(shù)學(xué)競賽	準(zhǔn)確率（%）	96.6	96.0	98.7	95.2	87.3
AIME 2025 數(shù)學(xué)競賽	準(zhǔn)確率（%）	97.9	98.7	99.5	98.4	86.5
GPQA Diamond 博士級科學(xué)問答（無工具）	準(zhǔn)確率（%）	80.1	71.5	83.3	81.4	77.0
MMLU 多學(xué)科通識(shí)	準(zhǔn)確率（%）	90.0	85.3	93.4	93.0	87.0
Tau-Bench Retail 函數(shù)調(diào)用任務(wù)	準(zhǔn)確率（%）	67.8	54.8	70.4	65.6	–