OpenAI終于開源了!gpt-oss-120B對飆o4-mini,20B可手機(jī)運(yùn)行 原創(chuàng)
8月5日,AI圈被OpenAI這記“王炸”炸懵了。
自2019年GPT-2發(fā)布以來,OpenAI首次再次開源語言模型,而且一口氣放出了兩個(gè)版本:gpt-oss-120B 和 gpt-oss-20B。不同于之前那種“只準(zhǔn)調(diào)API,不準(zhǔn)看底細(xì)”的閉源策略,這一次是真·全權(quán)開放:你可以自由下載、部署、調(diào)優(yōu),甚至在手機(jī)上跑!
這不僅僅是一次模型發(fā)布,更像是宣告了一個(gè)全新時(shí)代的到來:開源模型可以和商業(yè)巨頭正面對剛了。
一、為什么這次發(fā)布值得特別關(guān)注?
眾所周知,OpenAI以技術(shù)強(qiáng)悍、閉源保守著稱。多年來,GPT-3、GPT-4都被牢牢鎖在API后面,外界只能“租用”而無法“擁有”。但這一次,OpenAI破天荒地發(fā)布了Apache 2.0許可的開源模型,意味著:
- 可商用 ??
- 可本地部署 ??
- 可二次訓(xùn)練 ??
- 可完全控制推理過程 ??
換句話說,OpenAI把曾經(jīng)的“云上神器”交到了你我手中。
二、來認(rèn)識(shí)下這對新模型“兄弟”:120B 與 20B
?? gpt-oss-120B:桌面級“王炸”
這款體量達(dá)1170億參數(shù)的模型,采用Mixture-of-Experts(MoE)架構(gòu),每個(gè)Token只激活5.1B參數(shù),極大優(yōu)化了性能與資源消耗的平衡。
- 參數(shù)量:1170億(活躍參數(shù)5.1億/Token)
- 性能表現(xiàn):可媲美甚至超越OpenAI o4-mini
- 推理支持:單張80GB顯卡即可運(yùn)行,支持鏈?zhǔn)剿季S(CoT)、Agent功能、結(jié)構(gòu)化輸出等
- 上下文長度:高達(dá)128K Tokens,一口氣讀完一本書毫無壓力
- 定制能力:支持“推理力度”調(diào)節(jié)(低、中、高),平衡性能與資源
?實(shí)測場景:代碼生成、技術(shù)寫作、研究自動(dòng)化,樣樣精通。
?? gpt-oss-20B:移動(dòng)端AI的性價(jià)比之王
別小看它“只有”210億參數(shù),它是目前最強(qiáng)可本地部署的輕量級模型之一。
- 參數(shù)量:210億(活躍參數(shù)3.6億/Token)
- 性能表現(xiàn):介于o3-mini與o4-mini之間
- 硬件需求:僅需16GB內(nèi)存的筆記本就能跑,甚至支持移動(dòng)端部署
- 定位:為低延遲、私有化、離線推理場景量身打造
??典型應(yīng)用:智能助手、嵌入式設(shè)備、移動(dòng)終端AI推理
三、技術(shù)細(xì)節(jié)亮點(diǎn):性能猛、資源省、定制靈
兩款模型都使用了MoE專家網(wǎng)絡(luò)架構(gòu),即每次只激活部分子網(wǎng)絡(luò),既保留了大模型的理解力,又大幅壓縮內(nèi)存使用。
每個(gè)Token只激活少量專家子網(wǎng),模型雖大,推理成本卻小。
- 120B:128個(gè)專家,每次僅用4個(gè)
- 20B:32個(gè)專家,每次也用4個(gè)
此外,它們還采用MXFP4量化技術(shù),使模型更容易適配消費(fèi)級設(shè)備。這項(xiàng)原生量化技術(shù)讓模型不僅跑得快,而且占用內(nèi)存小。
部分關(guān)鍵結(jié)構(gòu)如下:
模型 | 層數(shù) | 總參數(shù) | 激活參數(shù)/Token | 總專家數(shù) | 每Token激活專家數(shù) | 支持上下文 |
gpt-oss-120B | 36 | 117B | 5.1B | 128 | 4 | 128k |
gpt-oss-20B | 24 | 21B | 3.6B | 32 | 4 | 128k |
無論是多輪復(fù)雜問題(Chain-of-Thought),還是API調(diào)用、代碼執(zhí)行,兩個(gè)模型都表現(xiàn)得相當(dāng)成熟。甚至支持“系統(tǒng)消息中一句話切換推理力度”,真正實(shí)現(xiàn)了按需“燒腦”。
四、對開發(fā)者與企業(yè)意味著什么?
?? 企業(yè):AI主權(quán)時(shí)代來臨
你可以將模型部署在本地集群或?qū)S杏布希瑢?shí)現(xiàn):
- 數(shù)據(jù)隱私保障
- 合規(guī)性管理
- 邊緣計(jì)算部署
金融、醫(yī)療、法律等領(lǐng)域終于有了可以落地的強(qiáng)力開源大模型。
??? 開發(fā)者:從調(diào)用到掌控的躍遷
不再受限于API調(diào)用次數(shù)、費(fèi)用與封裝限制,你可以:
- 調(diào)整推理流程
- 注入自定義指令
- 精細(xì)化調(diào)參
- 本地?zé)o障礙迭代
而且模型已上傳至 Hugging Face 和 Ollama,部署快到起飛。
五、性能實(shí)測:真打得過商用模型?
從OpenAI官方發(fā)布的Benchmark成績看,gpt-oss系列在多個(gè)標(biāo)準(zhǔn)測試中全面碾壓開源對手、追平閉源模型:
- MMLU綜合學(xué)科測試:gpt-oss-120B 達(dá)到90%準(zhǔn)確率,接近GPT-4o。
- 健康問答(HealthBench):gpt-oss-20B超過o4-mini,成為最強(qiáng)“醫(yī)療類”開源模型。
- 數(shù)學(xué)競賽(AIME 2025):兩個(gè)模型均超過98%準(zhǔn)確率,超越多款商用閉源模型。
這些結(jié)果說明:它不僅“開源”,還“頂級”。
其他具體評測結(jié)果如下:
??任務(wù)名稱 | ??評估維度 | ??gpt-oss-120B | ??gpt-oss-20B | ??OpenAI o4-mini | ??OpenAI o3 | ??OpenAI o3-mini |
Codeforces 編程競賽 | Elo 排名(越高越好) | 2622 (含工具) | 2516(含工具) | 2706 | 2719 | 2073 |
Humanity's Last Exam 專家級通識(shí)問答 | 準(zhǔn)確率(%) | 19(含工具) | 17.3(含工具) | 24.9 | 17.7 | 13.4 |
HealthBench 通用健康問答 | 得分(%) | 57.6 | 59.8 | 50.1 | 42.5 | 37.8 |
HealthBench Hard 復(fù)雜健康問答 | 得分(%) | 30.0 | 10.8 | 17.5 | 31.6 | 4.0 |
AIME 2024 數(shù)學(xué)競賽 | 準(zhǔn)確率(%) | 96.6 | 96.0 | 98.7 | 95.2 | 87.3 |
AIME 2025 數(shù)學(xué)競賽 | 準(zhǔn)確率(%) | 97.9 | 98.7 | 99.5 | 98.4 | 86.5 |
GPQA Diamond 博士級科學(xué)問答(無工具) | 準(zhǔn)確率(%) | 80.1 | 71.5 | 83.3 | 81.4 | 77.0 |
MMLU 多學(xué)科通識(shí) | 準(zhǔn)確率(%) | 90.0 | 85.3 | 93.4 | 93.0 | 87.0 |
Tau-Bench Retail 函數(shù)調(diào)用任務(wù) | 準(zhǔn)確率(%) | 67.8 | 54.8 | 70.4 | 65.6 | – |
六、安全機(jī)制與紅隊(duì)挑戰(zhàn):開源也得嚴(yán)陣以待
OpenAI非常謹(jǐn)慎地處理安全問題:
- 訓(xùn)練階段剔除了敏感數(shù)據(jù)(如生物化學(xué)、網(wǎng)絡(luò)攻擊等)
- 提供三種“推理力度”以防不必要的高風(fēng)險(xiǎn)輸出
- 經(jīng)過外部專家審查與對抗性微調(diào)測試,確保模型在被惡意修改后仍難以達(dá)到高能力水平
而且,OpenAI還發(fā)起了一項(xiàng)全球紅隊(duì)挑戰(zhàn)賽,設(shè)立50萬美元獎(jiǎng)金鼓勵(lì)開發(fā)者發(fā)現(xiàn)潛在風(fēng)險(xiǎn),可謂誠意滿滿。
七、意義何在?誰將受益?
“這不是普通的模型發(fā)布,而是OpenAI向全球開發(fā)者發(fā)出的一封邀請函。”
從小型初創(chuàng)到跨國企業(yè),從AI研究員到開發(fā)愛好者,每一個(gè)渴望掌控AI命運(yùn)的人,都將從gpt-oss系列中受益:
- 有能力的人可精調(diào)模型,訓(xùn)練專屬版本
- 沒有GPU的人也能運(yùn)行20B版本,快速落地
- 想用AI做產(chǎn)品的團(tuán)隊(duì)終于可以低成本、快節(jié)奏驗(yàn)證方案
這將重新定義“開源大模型”的底線與天花板。
尾聲:這一次,OpenAI真的“開”了
曾經(jīng)我們只能在遠(yuǎn)端的API中感受GPT的威力,而現(xiàn)在,OpenAI把這個(gè)能力交到了我們手里。 gpt-oss系列并不完美,但它們無疑是一把鑰匙,一把能夠打開AI“自主時(shí)代”的鑰匙。
本文轉(zhuǎn)載自???Halo咯咯??? 作者:基咯咯
