獎(jiǎng)勵(lì)模型終于迎來(lái)預(yù)訓(xùn)練新時(shí)代!上海AI Lab、復(fù)旦POLAR,開啟Scaling新范式
在大語(yǔ)言模型后訓(xùn)練階段,強(qiáng)化學(xué)習(xí)已成為提升模型能力、對(duì)齊人類偏好,并有望邁向 AGI 的核心方法。然而,獎(jiǎng)勵(lì)模型的設(shè)計(jì)與訓(xùn)練始終是制約后訓(xùn)練效果的關(guān)鍵瓶頸。
目前,主流的獎(jiǎng)勵(lì)建模方法包括 “基于偏好的獎(jiǎng)勵(lì)建?!保≒reference-based Reward Modeling)和 “基于規(guī)則的驗(yàn)證”(Rule-based Verifier)兩種方法。
其中,“基于偏好的獎(jiǎng)勵(lì)建?!?一般利用標(biāo)注的偏好對(duì)數(shù)據(jù)來(lái)訓(xùn)練獎(jiǎng)勵(lì)模型,這種方法存在著諸多局限。首先,高質(zhì)量偏好數(shù)據(jù)的獲取成本極高,難以大規(guī)模擴(kuò)展;其次,這種基于 “主觀絕對(duì)偏好” 的獎(jiǎng)勵(lì)建模面對(duì)新任務(wù)時(shí)表現(xiàn)不佳,泛化能力有限,極易受到 “獎(jiǎng)勵(lì)黑客”(Reward Hacking)的影響。這些問題嚴(yán)重制約了獎(jiǎng)勵(lì)模型在大模型后訓(xùn)練階段的實(shí)際落地。
隨著 Deepseek R1 等推理模型的成功,“基于規(guī)則的驗(yàn)證” 強(qiáng)化學(xué)習(xí)方法(RLVR)迎來(lái)了廣泛應(yīng)用。RLVR 會(huì)依賴給定問題的標(biāo)準(zhǔn)答案或預(yù)期行為給出獎(jiǎng)勵(lì),從而保證了獎(jiǎng)勵(lì)信號(hào)的準(zhǔn)確性。因此,RLVR 尤其適用于數(shù)學(xué)推理、代碼生成等具有明確評(píng)價(jià)標(biāo)準(zhǔn)的 “可驗(yàn)證” 任務(wù)。然而,在真實(shí)世界中,大量任務(wù)難以用規(guī)則簡(jiǎn)單驗(yàn)證,如開放域?qū)υ?、寫作、?fù)雜交互等。這導(dǎo)致基于規(guī)則的驗(yàn)證方法難以擴(kuò)展到更通用的場(chǎng)景。
基于偏好的獎(jiǎng)勵(lì)建模難以擴(kuò)展和泛化,基于規(guī)則的驗(yàn)證難以滿足通用場(chǎng)景的需求。那么,究竟什么才是擴(kuò)展方便、泛化性強(qiáng)、場(chǎng)景通吃的獎(jiǎng)勵(lì)建模方案呢?
圖一:傳統(tǒng)的獎(jiǎng)勵(lì)模型和基于規(guī)則的驗(yàn)證器
回顧大模型(LLM)的成功之路,是利用 Next Token Prediction 的形式統(tǒng)一了所有任務(wù),解決了任務(wù)形式不同導(dǎo)致無(wú)法泛化的難題。而獎(jiǎng)勵(lì)模型(RM)的設(shè)計(jì)仍然在重蹈?jìng)鹘y(tǒng)方案的老路,即為特定場(chǎng)景標(biāo)注偏好數(shù)據(jù),訓(xùn)特定場(chǎng)景的 RM。因此,是否可以仿照 LLM 的成功之路,重新設(shè)計(jì) RM 的訓(xùn)練范式呢?消除 RM 的 “打分標(biāo)準(zhǔn)”,就像消除 LLM 的 “任務(wù)形式” 一樣,找到一個(gè)脫離于 “打分標(biāo)準(zhǔn)” 之外的更本質(zhì)的優(yōu)化目標(biāo)函數(shù)來(lái)進(jìn)行預(yù)訓(xùn)練,從而達(dá)到真正的通用性。
近期,上海人工智能實(shí)驗(yàn)室鄒易澄團(tuán)隊(duì)聯(lián)合復(fù)旦大學(xué)桂韜團(tuán)隊(duì)推出了預(yù)訓(xùn)練獎(jiǎng)勵(lì)模型 POLAR,找到了一種與絕對(duì)偏好解耦的、可以真正高效擴(kuò)展的獎(jiǎng)勵(lì)建模新范式:策略判別學(xué)習(xí)(Policy Discriminative Learning, POLAR),使獎(jiǎng)勵(lì)模型能夠像大語(yǔ)言模型一樣,具備可擴(kuò)展性和強(qiáng)泛化能力。POLAR 為大模型后訓(xùn)練帶來(lái)突破性進(jìn)展,有望打通 RL 鏈路擴(kuò)展的最后一環(huán)。
- 論文鏈接:https://arxiv.org/pdf/2507.05197
- 項(xiàng)目鏈接:https://github.com/InternLM/POLAR
- 模型鏈接:https://huggingface.co/internlm/POLAR-7B
POLAR 是什么?—— 與絕對(duì)偏好解耦的策略判別學(xué)習(xí)
在強(qiáng)化學(xué)習(xí)中,策略優(yōu)化實(shí)際上是一個(gè)不斷調(diào)整策略分布、使其逐步接近最優(yōu)策略分布的過程。因此,當(dāng)前的候選策略與最優(yōu)策略之間的 “距離” 可以被視為一種潛在的獎(jiǎng)勵(lì)信號(hào):當(dāng)候選策略越接近最優(yōu)策略時(shí),獎(jiǎng)勵(lì)函數(shù)應(yīng)當(dāng)給予越高的獎(jiǎng)勵(lì),從而引導(dǎo)策略進(jìn)一步向最優(yōu)方向收斂。
通過衡量候選策略與目標(biāo)最優(yōu)策略之間的 “距離”,我們可以建立一種不依賴于人類絕對(duì)偏好的獎(jiǎng)勵(lì)建模方式,使獎(jiǎng)勵(lì)模型擺脫 “絕對(duì)的好壞”,而是為更接近目標(biāo)策略的候選策略賦予更高的獎(jiǎng)勵(lì)分?jǐn)?shù)。由于 “距離” 是一種相對(duì)性的概念,因此目標(biāo)策略可任意指定,從而擺脫了對(duì)偏好數(shù)據(jù)人工標(biāo)注的依賴,具有極強(qiáng)的可擴(kuò)展?jié)摿?。具體而言,POLAR 利用從候選策略采樣的軌跡(trajectories)來(lái)近似候選策略的分布;同時(shí),以參考軌跡(demonstrations)來(lái)近似最優(yōu)策略分布。通過衡量軌跡之間的差異來(lái)近似衡量策略分布之間的距離。
對(duì)于 “距離度量”,經(jīng)典的方案有 “對(duì)比學(xué)習(xí)”(Contrastive Learning),通過構(gòu)造正負(fù)樣本來(lái)訓(xùn)練模型(如 CLIP)。POLAR 就是一種利用對(duì)比學(xué)習(xí)來(lái)建模策略分布之間 “距離” 的訓(xùn)練方案。至此,還剩下一個(gè)最關(guān)鍵的問題:正負(fù)例如何定義?
不論是候選策略的采樣軌跡,還是代表最優(yōu)策略的參考軌跡,直接用來(lái)近似策略分布都會(huì)造成一定的偏差,因此我們不能單純基于單個(gè)軌跡來(lái)衡量?jī)烧叩臉颖鞠嗨菩?。例如,在?shù)學(xué)場(chǎng)景中,如果候選策略輸出的答案與參考相同,可以說(shuō)明此策略質(zhì)量較高;但是,在寫作等多樣性較高的場(chǎng)景中,如果候選策略每次輸出的都與標(biāo)準(zhǔn)答案相同,反而說(shuō)明此策略質(zhì)量不好。因此,“軌跡是否相似” 無(wú)法成為無(wú)偏的判斷標(biāo)準(zhǔn)。
對(duì)此,POLAR 采用了另一種方案:同一個(gè)策略生成的軌跡作為正例,不同策略生成的軌跡作為負(fù)例。這一判斷標(biāo)準(zhǔn)雖然有一些反直覺,但它是一種真正無(wú)偏的信號(hào),和對(duì)抗生成網(wǎng)絡(luò)(GAN)中判斷是否是真實(shí)樣本類似。我們可以把策略模型看作是某個(gè)分布的無(wú)偏采樣器,雖然單次采樣可能會(huì)產(chǎn)生正負(fù)例相反的噪聲,但是當(dāng)采樣規(guī)模增大,大規(guī)模擴(kuò)展數(shù)據(jù)時(shí),分布間的差異和距離會(huì)被刻畫得越來(lái)越精確。
如圖二所示,POLAR 的預(yù)訓(xùn)練階段采用上述對(duì)比學(xué)習(xí)方案進(jìn)行大規(guī)模擴(kuò)展。由同一個(gè)模型輸出的一對(duì)樣本作為正例,由不同模型輸出的樣本作為負(fù)例,從而讓獎(jiǎng)勵(lì)模型學(xué)會(huì)區(qū)分策略分布,而非建模人類的絕對(duì)偏好。這一階段無(wú)需任何的人類偏好數(shù)據(jù)。在第二階段的 SFT 微調(diào)中,才引入少量的偏好數(shù)據(jù)對(duì)齊到人類偏好。
圖二:策略判別學(xué)習(xí)(Policy Discriminative Learning)
POLAR 如何訓(xùn)練?—— 預(yù)訓(xùn)練和偏好微調(diào)
POLAR 的預(yù)訓(xùn)練語(yǔ)料完全通過自動(dòng)化合成數(shù)據(jù)構(gòu)建。具體而言,從 LLM 預(yù)訓(xùn)練語(yǔ)料中采樣出大量的文本前綴,并從策略模型池(由開源的 131 個(gè) Base LLM 和 53 個(gè) Chat LLM 組成)中隨機(jī)取模型進(jìn)行軌跡采樣。預(yù)訓(xùn)練目標(biāo)使用 Bradley-Terry Loss:
其中,A1 和 A2 代表相同策略模型生成的軌跡(正樣本對(duì));B1 代表不同策略模型生成的軌跡(負(fù)樣本)。通過這種方式,POLAR 使 RM 學(xué)會(huì)為相近策略產(chǎn)生的軌跡賦予更高獎(jiǎng)勵(lì),從而隱式建模策略分布的差異和距離。在這一階段,POLAR-1.8B 共使用了 0.94T Token 的預(yù)訓(xùn)練數(shù)據(jù),POLAR-7B 共使用了 3.6T Token 的預(yù)訓(xùn)練數(shù)據(jù)。
在微調(diào)階段,POLAR 使用少量的偏好數(shù)據(jù)對(duì)齊人類偏好。對(duì)于同一個(gè) Prompt,采樣三條軌跡,由人工標(biāo)注偏好順序。同樣使用 Bradley-Terry Loss 進(jìn)行微調(diào):
其中,A > B > C,分別代表偏好最優(yōu)、次優(yōu)、最差的軌跡。這種偏好排序隱式定義了一種 “策略差異”,例如 A 可以視為從最佳策略分布中采樣得到,而 C 可以視為從一個(gè)與最佳策略相差較遠(yuǎn)的策略分布中采樣得到。
圖三:POLAR 的兩階段訓(xùn)練(預(yù)訓(xùn)練和偏好微調(diào))以及在 RFT 中的使用方法
POLAR 如何使用?—— 對(duì)強(qiáng)化微調(diào)的完美適配
強(qiáng)化微調(diào)(Reinforcement Fine-tuning,RFT)是 POLAR 的最佳使用場(chǎng)景。
傳統(tǒng)的獎(jiǎng)勵(lì)模型建模的是絕對(duì)偏好,無(wú)法根據(jù)參考來(lái)打分,難以應(yīng)用于領(lǐng)域外(Out-of-Domain)場(chǎng)景。RLVR 雖然可以根據(jù)參考答案和規(guī)則對(duì)模型輸出進(jìn)行正確與否的判斷,但難以擴(kuò)展到通用任務(wù)。
POLAR 完美適配 RFT 強(qiáng)化學(xué)習(xí)框架,基于問題的參考答案對(duì)模型輸出進(jìn)行打分。如果模型輸出與參考答案更為接近,則會(huì)獲得更高的獎(jiǎng)勵(lì)值。通過這一訓(xùn)練過程,可以使得候選策略逐步向最優(yōu)策略偏移。
POLAR 效果如何?—— 性能和泛化的雙重保證
1. 樣例展示:閉式問題和開放問題全搞定
以下分別展示了在閉式問題和開放問題下,POLAR-7B 的打分效果,以分?jǐn)?shù)從高到低呈現(xiàn)。測(cè)試?yán)浞挚紤]了各種陷阱,以及軌跡之間的細(xì)微差別,考驗(yàn)其在邊界情況下的打分準(zhǔn)確性。
- 閉式問題:
問題: 單詞 “strawberry” 中有幾個(gè) “r”?
參考答案: 單詞 “strawberry” 中包含 3 個(gè)字母 “r”。我們可以逐字母數(shù)一下:“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。因此,答案是 3。
軌跡一(與參考完全一致):?jiǎn)卧~ “strawberry” 中包含 3 個(gè)字母 “r”。我們可以逐字母數(shù)一下:“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。因此,答案是 3。
分?jǐn)?shù): -1.5380859375
軌跡二(答案正確,思路正確): 我們來(lái)數(shù)一數(shù)單詞 “strawberry” 中有幾個(gè) “r”:“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。這里一共有三個(gè) “r”,因此答案是三。
分?jǐn)?shù): -2.767578125
軌跡三(答案正確,無(wú)思路):?jiǎn)卧~ “strawberry” 中有 3 個(gè) “r”
分?jǐn)?shù): -7.45703125
軌跡四(答案錯(cuò)誤,思路正確):我們來(lái)數(shù)一數(shù)單詞 “strawberry” 中有幾個(gè) “r”:“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。這里一共有三個(gè) “r”,因此答案是二。
分?jǐn)?shù): -7.6328125
軌跡五(答案正確,思路錯(cuò)誤):我們來(lái)數(shù)一數(shù)單詞 “strawberry” 中有幾個(gè) “r”:“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。這里一共有兩個(gè) “r”,因此答案是三。
分?jǐn)?shù): -8.65625
軌跡六(答案錯(cuò)誤,思路錯(cuò)誤):我們來(lái)數(shù)一數(shù)單詞 “strawberry” 中有幾個(gè) “r”:“s”、“t”、“r”、“a”、“w”、“b”、“e”、“r”、“r”、“y”。這里一共有兩個(gè) “r”,因此答案是二。
分?jǐn)?shù): -9.2890625
軌跡七(答案錯(cuò)誤,無(wú)思路):?jiǎn)卧~ “strawberry” 中有 2 個(gè) “r”
分?jǐn)?shù): -11.921875
- 開放問題
問題:幫我想 3 個(gè)形容雨很大的成語(yǔ),要求不能重復(fù)。
參考答案:1. 傾盆大雨 2. 暴雨如注 3. 瓢潑大雨
軌跡一(與參考完全一致):1. 傾盆大雨 2. 暴雨如注 3. 瓢潑大雨
分?jǐn)?shù):-1.4267578125
軌跡二(正確回答):1. 大雨滂沱 2. 狂風(fēng)驟雨 3. 大雨如注
分?jǐn)?shù):-5.234375
軌跡三(與參考相似,多一個(gè)):1. 傾盆大雨 2. 暴雨如注 3. 瓢潑大雨 4. 大雨滂沱
分?jǐn)?shù):-5.6328125
軌跡四(非成語(yǔ)):1. 急雨如瀑 2. 豪雨傾天 3. 雨勢(shì)磅礴
分?jǐn)?shù):-5.70703125
軌跡五(與參考相似,少一個(gè)):1. 傾盆大雨 2. 暴雨如注
分?jǐn)?shù):-6.609375
軌跡六(與參考相似,重復(fù)一個(gè)):1. 傾盆大雨 2. 暴雨如注 3. 暴雨如注
分?jǐn)?shù):-6.65625
軌跡七(成語(yǔ)正確,少一個(gè)):1. 大雨滂沱 2. 狂風(fēng)驟雨
分?jǐn)?shù):-6.83203125
軌跡八(成語(yǔ)正確,多一個(gè)):1. 大雨滂沱 2. 狂風(fēng)驟雨 3. 大雨如注 4. 傾盆大雨
分?jǐn)?shù):-7.0234375
軌跡九(成語(yǔ)正確,重復(fù)一個(gè)):1. 大雨滂沱 2. 狂風(fēng)驟雨 3. 狂風(fēng)驟雨
分?jǐn)?shù):-7.234375
軌跡十(帶雨字成語(yǔ),一個(gè)含義不符):1. 大雨滂沱 2. 狂風(fēng)驟雨 3. 雨后春筍
分?jǐn)?shù):-7.26953125
軌跡十一(帶雨字成語(yǔ),兩個(gè)含義不符):1. 大雨滂沱 2. 雨過天晴 3. 雨后春筍
分?jǐn)?shù):-8.578125
2. 偏好評(píng)估:準(zhǔn)確率躍升
圖四:偏好評(píng)估實(shí)驗(yàn)結(jié)果
在偏好評(píng)估方面,POLAR 展現(xiàn)出優(yōu)越的性能和全面性,在大多數(shù)任務(wù)維度上優(yōu)于 SOTA 獎(jiǎng)勵(lì)模型。例如,在 STEM 任務(wù)中,POLAR-1.8B 和 POLAR-7B 分別超越了最佳基線 24.9 和 26.2 個(gè)百分點(diǎn),并且能夠準(zhǔn)確識(shí)別推理、聊天、創(chuàng)意寫作等通用任務(wù)中軌跡的細(xì)微區(qū)別,準(zhǔn)確預(yù)測(cè)人類偏好。值得注意的是,POLAR-1.8B 僅有 1.8B 參數(shù),就可取得與 Skywork-Reward-27B 和 WorldPM-72B-UltraFeedback(參數(shù)量分別為其 15 倍和 40 倍)相當(dāng)?shù)慕Y(jié)果,凸顯了 POLAR 的強(qiáng)大潛力。
3. RFT 應(yīng)用:全面增強(qiáng) LLM 能力
圖五:強(qiáng)化微調(diào)實(shí)驗(yàn)結(jié)果
在 RFT 實(shí)驗(yàn)中,POLAR 持續(xù)優(yōu)于 SOTA 的開源獎(jiǎng)勵(lì)模型。例如,使用 POLAR-7B 微調(diào)的 Llama-3.1-8B 在所有基準(zhǔn)測(cè)試中,相對(duì)于初始結(jié)果平均提升了 9.0%,相對(duì)于 WorldPM-72B-UltraFeedback 優(yōu)化的結(jié)果提升了 6.7%。POLAR 能夠從預(yù)訓(xùn)練階段學(xué)習(xí)策略模型之間的細(xì)微區(qū)別,而不僅僅依賴于標(biāo)注的偏好對(duì),從而顯著增強(qiáng)了實(shí)際 RL 應(yīng)用時(shí)的獎(jiǎng)勵(lì)信號(hào)泛化性。實(shí)驗(yàn)結(jié)果表明,盡管 POLAR-1.8B 和 POLAR-7B 在偏好評(píng)估中表現(xiàn)相似,但在下游 RL 實(shí)驗(yàn)中,POLAR-7B 展現(xiàn)出了顯著優(yōu)勢(shì)。從 1.8B 到 7B 的效果提升,進(jìn)一步說(shuō)明了 POLAR 所具有的 Scaling 效應(yīng)。這也側(cè)面說(shuō)明了當(dāng)前傳統(tǒng) Reward Bench 可能存在的局限性,即與真實(shí)強(qiáng)化學(xué)習(xí)場(chǎng)景存在較大的差別。
4. Scaling 效應(yīng)
圖六:POLAR 的 Scaling Laws
POLAR 展現(xiàn)出了與 LLM Next Token Prediction 目標(biāo)類似的 Scaling Laws。這進(jìn)一步體現(xiàn)了 POLAR 無(wú)監(jiān)督預(yù)訓(xùn)練方法的巨大潛力。驗(yàn)證集損失隨模型參數(shù) N 的增加呈冪律關(guān)系下降,擬合的冪律函數(shù)為 L=0.9?N^?0.0425, R2 值為 0.9886。驗(yàn)證集損失也隨最優(yōu)訓(xùn)練計(jì)算量 C 的增加呈冪律關(guān)系下降,擬合的冪律函數(shù)為 L=2.4?C^?0.0342, R2 值為 0.9912。這些結(jié)果表明,分配更多的計(jì)算資源將持續(xù)帶來(lái)更好的 RM 性能。POLAR 的極佳 Scaling 效應(yīng),體現(xiàn)了其用于構(gòu)建更通用和更強(qiáng)大的獎(jiǎng)勵(lì)模型的巨大潛力。
結(jié)語(yǔ)
POLAR 在預(yù)訓(xùn)練階段通過對(duì)比學(xué)習(xí)建模策略間的距離,僅需少量偏好樣本就可對(duì)齊人類偏好。在使用階段,POLAR 利用 RFT 范式對(duì) LLM 進(jìn)行強(qiáng)化學(xué)習(xí),展現(xiàn)出了極佳的泛化性。POLAR 作為一種全新的、可擴(kuò)展的獎(jiǎng)勵(lì)模型預(yù)訓(xùn)練方法,為 LLM 后訓(xùn)練帶來(lái)了新的可能,讓通用 RFT 多了一種有效實(shí)踐方案。有望打通 RL 鏈路 Scaling 的最后一環(huán)。