攻克AI過度思考難題!美團(tuán)新研究讓通過“可驗(yàn)證”過程獎勵(lì)激活LRM的高效推理
LRM通過簡單卻有效的RLVR范式,培養(yǎng)了強(qiáng)大的CoT推理能力,但伴隨而來的冗長的輸出內(nèi)容,不僅顯著增加推理開銷,還會影響服務(wù)的吞吐量,這種消磨用戶耐心的現(xiàn)象被稱為“過度思考”問題。
針對這一缺陷,來自美團(tuán)等機(jī)構(gòu)的研究團(tuán)隊(duì)提出可驗(yàn)證的過程獎勵(lì)機(jī)制(VSRM),鼓勵(lì)CoT中的“有效步驟”,懲戒“無效步驟”,最大限度保持性能的同時(shí),實(shí)現(xiàn)高效推理。
通過在數(shù)學(xué)任務(wù)上的實(shí)驗(yàn)顯示,在多個(gè)常用benchmark上,VSRM加持的后訓(xùn)練使得不同尺度的模型實(shí)現(xiàn)了輸出長度的大幅縮減,甚至在部分情況下提升了模型表現(xiàn)。
過度思考問題的本質(zhì)
此前的工作將過度思考問題的現(xiàn)象總結(jié)為:對于一個(gè)問題,模型傾向于給出多種不同的解答,特別簡單的問題。在這一認(rèn)識的基礎(chǔ)上,作者團(tuán)隊(duì)更進(jìn)一步,對現(xiàn)有LRM在MATH-500上做出的回復(fù)進(jìn)行了深入的case study。
如圖所示,在這個(gè)例子中,模型為解決一個(gè)非常簡單的子問題([-500,0]中有多少個(gè)小于0的整數(shù))進(jìn)行了反復(fù)的思考,在正確和錯(cuò)誤之間反復(fù)橫跳,最終得出了一個(gè)不正確的中間結(jié)論,進(jìn)而導(dǎo)致了最終結(jié)論的錯(cuò)誤。
這些無效步驟不但不能指引推理路徑的發(fā)展,反而會導(dǎo)致中間過程出錯(cuò)。
這樣的案例并不孤立,甚至頻繁出現(xiàn)。
基于上述觀察,作者團(tuán)隊(duì)提出:大量無效的中間步驟是導(dǎo)致模型過度思考的根本原因。因此,抑制這些無效步驟,鼓勵(lì)有效步驟,是后訓(xùn)練的核心優(yōu)化目標(biāo)。
設(shè)計(jì)可驗(yàn)證的逐步驟獎勵(lì)
現(xiàn)有RLVR的機(jī)制,通過獎勵(lì)函數(shù)以可驗(yàn)證的二元結(jié)果獎勵(lì)促進(jìn)模型探索能夠獲得正確答案的解法。
但是結(jié)果獎勵(lì)無法精確地獎懲不同的步驟,也因此無法達(dá)到作者所期望的目標(biāo)。
過程獎勵(lì)機(jī)制雖然能滿足這一要求,但過程獎勵(lì)模型(PRM)往往難以訓(xùn)練且預(yù)測結(jié)果的可靠性有限,針對數(shù)學(xué)問題/代碼編程等推理任務(wù)更是嚴(yán)重欠缺可解釋性。
作者團(tuán)隊(duì)將可驗(yàn)證獎勵(lì)與步驟級獎勵(lì)結(jié)合在一起,創(chuàng)造性地提出VSRM,為推理過程中的每個(gè)中間步驟分配獎勵(lì)信號,從而實(shí)現(xiàn)對不同步驟的鼓勵(lì)和抑制,天然地契合推理任務(wù)分步作答的特點(diǎn)。
引入步驟級獎勵(lì)的第一步是定位所有的步驟。
在CoT中,一些特殊的token,比如“However”、“Therefore”、“So”、“But”、“Wait”等往往表示模型已經(jīng)完成了一個(gè)推理步驟,即將進(jìn)行下一步推理(遞進(jìn)或是轉(zhuǎn)折)。這些特殊token的存在將整個(gè)軌跡劃分成了多個(gè)中間步驟。
為了保證劃分后內(nèi)容的可讀性,作者額外設(shè)計(jì)了三條規(guī)則:1. 跳過最初的若干token,這部分內(nèi)容往往是對問題進(jìn)行重述。2. 相鄰劃分點(diǎn)之間必須至少間隔一定距離,避免過度分割。3. 若特殊token位于句子內(nèi)部,將劃分點(diǎn)放在該句句首。
為了評估中間步驟有效與否,最直接的方式就是評估該步驟完成前后帶來的正確率增益。而正確率是完全可以通過可驗(yàn)證的方式得到的。
只需要在每個(gè)劃分點(diǎn)的位置前,加上一個(gè)token,這樣,從query開始,到該處的,就構(gòu)成了一條子軌跡。以每個(gè)子軌跡為prompt,模型能夠產(chǎn)生多個(gè)候選答案,平均正確率體現(xiàn)了當(dāng)前步驟得到正確答案的概率。
相鄰子軌跡的正確率差值,即為完成當(dāng)前步驟后獲得的正確率增益。
直接將增益作為步驟級獎勵(lì)就能夠指導(dǎo)模型區(qū)分有效與無效步驟。但考慮到,往往若干個(gè)步驟才能夠?qū)е陆忸}過程的實(shí)質(zhì)性推進(jìn),因此,多個(gè)連續(xù)步驟的平均正確率很可能保持不變,進(jìn)而導(dǎo)致稀疏的獎勵(lì)信號,不利于優(yōu)化。
為了避免這種情況,作者引入一個(gè)前瞻窗口機(jī)制,將未來的正確率變化通過折扣因子傳播給當(dāng)前步,從而確保獎勵(lì)信號盡量密集。
通過這種機(jī)制,VSRM機(jī)制實(shí)現(xiàn)了為每個(gè)步驟分配可驗(yàn)證的,步驟級獎勵(lì)信號,從而鼓勵(lì)模型減少無效步驟的輸出。與直接施加長度懲罰不同,VSRM直接從源頭上給予模型最清晰明了的獎勵(lì)信號,引導(dǎo)模型更多選擇對提升最終正確率有幫助的步驟,在緩解過度思考問題的同時(shí),最大限度地保留模型性能。
VSRM機(jī)制本身與強(qiáng)化學(xué)習(xí)算法解耦,能夠天然地適配支持過程獎勵(lì)的方法,只需將逐步獎勵(lì)添加到最終的reward tensor即可,搭配常用的結(jié)果二元結(jié)果獎勵(lì)和格式獎勵(lì),即可無縫實(shí)現(xiàn)高效推理。
實(shí)驗(yàn)結(jié)果
作者在數(shù)學(xué)問題最常用的benchmark上,使用三個(gè)不同base model,兩種RL算法,將VSRM與多種最新的相關(guān)工作進(jìn)行對比,實(shí)驗(yàn)結(jié)果展現(xiàn)出VSRM在降低輸出長度的同時(shí),能夠最大限度地保持性能,取得很好的均衡。
消融實(shí)驗(yàn)的結(jié)果顯示了VSRM中,前瞻窗口機(jī)制的有效性,以及,額外的顯式長度懲罰對于VSRM機(jī)制并無幫助。
在困難benchamrk上,隨著k的增加,Pass@k指標(biāo)的提升趨勢能夠反饋模型探索更多可行解的能力。可以看到VSRM-PPO訓(xùn)練后的模型,體現(xiàn)了與原本模型一致的趨勢,說明模型并沒有因?yàn)檩敵鲩L度的壓縮而失去了最重要的探索能力。
總結(jié)
通過廣泛的對比實(shí)驗(yàn),作者證明了可驗(yàn)證的過程獎勵(lì)在不同RL算法,不同base model的設(shè)置下,均能實(shí)現(xiàn)保持性能的同時(shí),極大緩解過度思考問題。消融實(shí)驗(yàn)以及進(jìn)一步的實(shí)證分析也展示出,可驗(yàn)證的過程獎勵(lì),真正起到了抑制無效步驟,鼓勵(lì)有效步驟的作用,是從根本上解決過度思考問題,保持模型良好推理行為的有效途徑。
論文鏈接:https://arxiv.org/abs/2508.10293
項(xiàng)目鏈接:https://github.com/1benwu1/VSRM-Efficient-LRMs