精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

SFT遠(yuǎn)不如RL?永不過時(shí)的剃刀原則打開「終身學(xué)習(xí)」大模型訓(xùn)練的大門

人工智能 新聞
來自麻省理工學(xué)院(MIT)Improbable AI Lab 的研究者針對(duì)該問題發(fā)表了一篇研究論文,將奧卡姆的剃刀伸向了大模型后訓(xùn)練,揭示了大模型遺忘現(xiàn)象的基本規(guī)律和訓(xùn)練策略,目前已在 Alphaxiv 上熱度排名第一。

我們已經(jīng)進(jìn)入了大模型時(shí)代,越來越多的應(yīng)用依賴大模型的能力,可以說大模型已經(jīng)成為智能化基礎(chǔ)設(shè)施的核心組成部分,支撐著語言,視覺分析,智能駕駛,機(jī)器人等各種下游應(yīng)用。

在大模型的實(shí)際使用中我們發(fā)現(xiàn),大部分的模型還只是某個(gè)細(xì)分領(lǐng)域任務(wù)的大牛,離我們理想中的 AGI 仍然遙遙無期。

準(zhǔn)確的說,這些投入部署的大模型大多是「靜態(tài)」模型,對(duì)于其預(yù)訓(xùn)練或微調(diào)時(shí)優(yōu)化的系列任務(wù)表現(xiàn)良好,但是在動(dòng)態(tài)學(xué)習(xí),自我提升這部分能力是缺位的。

如果我們希望實(shí)現(xiàn)更加通用的大模型,使其能像長(zhǎng)期的智能助手一樣,隨時(shí)間不斷適應(yīng)新的任務(wù)與需求,很多技術(shù)瓶頸亟待突破。而最大的挑戰(zhàn)之一就是「災(zāi)難性遺忘」。

相信大家對(duì)這個(gè)概念已經(jīng)非常熟悉了,災(zāi)難性遺忘指的是模型在學(xué)習(xí)新任務(wù)時(shí),會(huì)丟掉之前學(xué)到的技能。擴(kuò)大模型規(guī)模、增加預(yù)訓(xùn)練數(shù)據(jù)確實(shí)能稍微緩解遺忘現(xiàn)象,但始終不能徹底解決。

針對(duì)災(zāi)難性遺忘的問題,研究者們提出了各種各樣的改進(jìn)方法,包括正則化、經(jīng)驗(yàn)回放、參數(shù)微調(diào)等等。

但有沒有一種可能,我們對(duì)大模型遺忘的研究想的有些太復(fù)雜了,如無必要勿增實(shí)體的剃刀原則才是根治問題的最佳手段。

幾天前,來自麻省理工學(xué)院(MIT)Improbable AI Lab 的研究者針對(duì)該問題發(fā)表了一篇研究論文,將奧卡姆的剃刀伸向了大模型后訓(xùn)練,揭示了大模型遺忘現(xiàn)象的基本規(guī)律和訓(xùn)練策略,目前已在 Alphaxiv 上熱度排名第一。

  • 論文標(biāo)題:RL's Razor: Why Online Reinforcement Learning Forgets Less
  • 論文鏈接:https://www.arxiv.org/abs/2509.04259v1

現(xiàn)代 AI 系統(tǒng)面臨一個(gè)根本性挑戰(zhàn):在學(xué)習(xí)新任務(wù)時(shí),它們常常災(zāi)難性地遺忘先前獲得的知識(shí)。這種現(xiàn)象嚴(yán)重限制了基礎(chǔ)模型作為長(zhǎng)期、持續(xù)學(xué)習(xí)代理的能力。

這項(xiàng)研究集中在一個(gè)驚人的實(shí)證觀察上:

研究者比較了兩種常見的后訓(xùn)練方式:監(jiān)督微調(diào)(SFT) 和 強(qiáng)化學(xué)習(xí)(RL)。結(jié)果很出乎意料:

  • 即便 SFT 和 RL 在新任務(wù)上表現(xiàn)一樣好,SFT 往往是通過 「犧牲舊知識(shí)」 來換取新任務(wù)的提升;
  • RL 卻能在學(xué)習(xí)新技能的同時(shí),更多地保留原有能力。

那么問題來了:為什么 RL 不容易遺忘?

遺忘定律

研究揭示了一個(gè)新的規(guī)律,稱為 「遺忘定律」:

當(dāng)模型 π 在新任務(wù) τ 上進(jìn)行微調(diào)時(shí),遺忘程度可以通過 精確預(yù)測(cè),即在新任務(wù)上評(píng)估的微調(diào)策略和基線策略之間的KL散度。

這條定律在實(shí)踐中非常有用,因?yàn)樗梢栽谖⒄{(diào)過程中進(jìn)行測(cè)量甚至影響,而無需訪問舊任務(wù)數(shù)據(jù)。盡管其機(jī)制仍有待充分理解,但這條定律在不同模型和領(lǐng)域之間的一致性表明它反映了遺忘的一個(gè)基本屬性。

也就是說,微調(diào)后模型與原始模型在新任務(wù)分布上的差異越大,遺忘就越嚴(yán)重。

偏向 KL - 最小解減少了遺忘。左圖顯示,在能夠解決新任務(wù)的策略中,RL 收斂到 KL 散度上最接近基模型的那些策略。右圖顯示,在相同的新任務(wù)性能下,這種 KL 偏向使得 RL 相比 SFT 能更好地保留先驗(yàn)任務(wù)的知識(shí)。

研究者進(jìn)行了廣泛的實(shí)驗(yàn),以確定什么因素預(yù)示著災(zāi)難性遺忘。他們測(cè)試了各種假設(shè),包括權(quán)重級(jí)變化、表示偏移和分布差異。通過對(duì)多個(gè)領(lǐng)域和模型架構(gòu)進(jìn)行系統(tǒng)性消融研究,他們發(fā)現(xiàn)微調(diào)策略和基礎(chǔ)策略之間的前向 KL 散度是遺忘的一個(gè)驚人一致的預(yù)測(cè)指標(biāo)。

前向 KL 散度定義為:

其中代表微調(diào)策略,代表原始模型。

這種關(guān)系適用于不同的訓(xùn)練算法和超參數(shù),形成了作者所稱的「經(jīng)驗(yàn)性遺忘定律」。在使用簡(jiǎn)化 ParityMNIST 任務(wù)的對(duì)照實(shí)驗(yàn)中,這種關(guān)系實(shí)現(xiàn)了 0.96 的 R2,證明了其預(yù)測(cè)能力。

該圖顯示,在帕累托前沿上,RL 始終優(yōu)于 SFT,在語言模型(數(shù)學(xué)、科學(xué)問答、工具使用)和機(jī)器人任務(wù)中,RL 在新任務(wù)性能和先驗(yàn)知識(shí)保留之間實(shí)現(xiàn)了更好的權(quán)衡。

RL 的剃刀:KL 最小路徑原理

更有意思的是,RL 的優(yōu)勢(shì)正來自于它的 「KL 偏好」。

  • 在新任務(wù)上,存在許多能達(dá)到高表現(xiàn)的解。
  • RL 天然偏向選擇那些 離原始模型更近(KL 更小) 的解;
  • 而 SFT 則可能收斂到距離原始模型很遠(yuǎn)的解,從而帶來嚴(yán)重遺忘。

核心理論貢獻(xiàn)是「RL 的剃刀」—— 即在解決新任務(wù)的所有方法中,RL 偏好與原始模型在 KL 散度上最接近的解決方案。這種偏向 KL 最小解的偏好解釋了為什么 RL 比 SFT 遺忘得少。

為了驗(yàn)證 KL 假設(shè),研究者構(gòu)造了一個(gè)理想的 「oracle SFT」 分布:它在保證新任務(wù)完美準(zhǔn)確的同時(shí),也做到 KL 最小化。結(jié)果顯示,在這個(gè)分布上訓(xùn)練,遺忘比 RL 還少。這說明 RL 的優(yōu)勢(shì)并不是來自某種「本質(zhì)上的不同」,而是源于它 隱式地執(zhí)行了 KL 最小化。只要訓(xùn)練過程偏向 KL 最小解,模型遺忘就會(huì)隨之減少。

左圖通過使用一個(gè)「Oracle SFT」分布來證明這一原理,該分布在實(shí)現(xiàn)完美新任務(wù)準(zhǔn)確性的同時(shí),解析地最小化了 KL 散度。使用這種 Oracle 分布進(jìn)行訓(xùn)練產(chǎn)生的遺忘比標(biāo)準(zhǔn) RL 更少,證實(shí)了 KL 最小化是關(guān)鍵機(jī)制。中圖展示了 KL 散度與遺忘之間的強(qiáng)關(guān)聯(lián)(R2 = 0.961),而右圖則說明了與 SFT 相比,RL 如何通過較小的 KL 偏移實(shí)現(xiàn)高準(zhǔn)確性。

機(jī)制分析:在線策略學(xué)習(xí)與離線策略學(xué)習(xí)

為了理解 RL 何種機(jī)制驅(qū)動(dòng)了其 KL 保守行為,研究人員比較了四種不同的訓(xùn)練范式:

分析揭示,數(shù)據(jù)收集的在線策略性質(zhì)是關(guān)鍵因素,而不是負(fù)面示例的使用。在線策略方法(GRPO 和 1-0 Reinforce)保持較小的 KL 偏移和更好的先驗(yàn)任務(wù)保留,而離線方法(SFT 和 SimPO)無論是否使用負(fù)面示例,其行為都相似。

理論基礎(chǔ)

作者通過信息幾何的視角,為強(qiáng)化學(xué)習(xí)的 KL - 最小收斂提供了理論基礎(chǔ)。他們表明,帶有二元獎(jiǎng)勵(lì)的策略梯度方法可以被理解為在概率空間中執(zhí)行交替的信息(I-)投影和期望(M-)投影:

這種迭代過程收斂到可表示策略類中的 KL - 最小最優(yōu)策略,為「RL 的剃刀」提供了形式化解釋。I - 投影步驟在滿足獎(jiǎng)勵(lì)約束的同時(shí)最小化 KL 散度,而 M - 投影步驟則朝著更高獎(jiǎng)勵(lì)的動(dòng)作更新。

更多數(shù)據(jù)

這項(xiàng)研究表明,這一原理超越了簡(jiǎn)單的實(shí)驗(yàn)環(huán)境。使用中心核對(duì)齊(Centered Kernel Alignment)進(jìn)行的表示保留分析表明,與 SFT 相比,RL 保持與基礎(chǔ)模型更高的相似性:

此外,對(duì)更大模型(70 億和 140 億參數(shù))的實(shí)驗(yàn)證實(shí),僅僅擴(kuò)大規(guī)模并不能消除 SFT 中固有的遺忘權(quán)衡:

總結(jié)

本篇論文的核心貢獻(xiàn)有三點(diǎn):

1.  實(shí)驗(yàn)證明:在相同性能下,RL 比 SFT 更不容易遺忘。

2. 提出遺忘定律:新任務(wù)上的 KL 散度 是預(yù)測(cè)遺忘的關(guān)鍵指標(biāo)。

3. 理論與實(shí)證結(jié)合,解釋了 RL 的優(yōu)勢(shì)來自其 on-policy 特性。

這項(xiàng)研究為后訓(xùn)練提供了新的視角:為了實(shí)現(xiàn)無遺忘的持續(xù)適應(yīng),算法應(yīng)該明確地旨在最小化與基模型之間的 KL 散度,確立了 KL 散度作為持續(xù)學(xué)習(xí)系統(tǒng)的基本設(shè)計(jì)原則。

這一原則為設(shè)計(jì)未來的訓(xùn)練方法打開了大門,這些方法將 RL 保留先驗(yàn)知識(shí)的能力與 SFT 的效率相結(jié)合,使基礎(chǔ)模型能夠真正地「終身學(xué)習(xí)」。

對(duì)于使用基礎(chǔ)模型的實(shí)踐者來說,這項(xiàng)研究提供了明確的指導(dǎo):當(dāng)持續(xù)適應(yīng)很重要時(shí),在線策略 RL 方法比標(biāo)準(zhǔn)微調(diào)方法具有顯著優(yōu)勢(shì)。KL 散度指標(biāo)還為模型適應(yīng)期間的遺忘監(jiān)測(cè)和預(yù)測(cè)提供了一個(gè)實(shí)用工具。

這項(xiàng)工作有助于我們理解為什么像 RLHF 中的 KL 正則化這樣的常見實(shí)踐是有效的,將經(jīng)驗(yàn)觀察提升到理論基礎(chǔ)。這種原則性理解為開發(fā)真正長(zhǎng)壽、能夠持續(xù)學(xué)習(xí)而不會(huì)災(zāi)難性遺忘的 AI 代理開辟了新方向。

責(zé)任編輯:張燕妮 來源: 機(jī)器之心
相關(guān)推薦

2020-10-09 11:06:38

C語言桌面語法

2020-02-17 11:35:34

工程師技術(shù)程序員

2025-06-06 04:10:00

LLM人工標(biāo)注RL

2025-07-28 09:12:00

2021-09-08 09:27:52

軟件工程師技能算法

2023-02-19 15:33:51

WindowsC++窗口程序

2020-12-11 17:42:13

混合多云

2025-08-04 08:49:00

2021-12-29 21:46:20

iOS蘋果系統(tǒng)

2025-06-05 08:40:00

2025-01-21 09:36:51

2012-12-10 13:53:55

ITCIOGartner

2019-11-19 08:55:37

DOS命令網(wǎng)絡(luò)協(xié)議網(wǎng)絡(luò)攻擊

2025-04-25 00:20:00

大模型tokenizer

2024-11-04 00:24:56

2024-11-26 09:33:44

2024-12-26 00:46:25

機(jī)器學(xué)習(xí)LoRA訓(xùn)練

2025-04-01 09:54:09

AI算法大模型AI

2025-06-10 09:05:00

2023-09-06 13:17:00

AI數(shù)據(jù)
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 祥云县| 康平县| 长武县| 皋兰县| 江西省| 双辽市| 常德市| 承德市| 满城县| 泉州市| 莒南县| 叙永县| 新乡市| 余江县| 河津市| 泰宁县| 赤城县| 防城港市| 新安县| 长岭县| 浦北县| 泌阳县| 青海省| 泸州市| 抚顺县| 清丰县| 蒲城县| 乌拉特前旗| 云霄县| 普格县| 彭水| 故城县| 临邑县| 浠水县| 泸州市| 霍山县| 丽水市| 道真| 灌阳县| 博罗县| 闽清县|