8塊A100,32B碾壓DeepSeek V3、o1-preview!普林斯頓北大首提分層RL推理
僅用8塊A100,訓出的32B模型,數學性能直接反超o1-preivie?!
看來,小模型真的要逆天改命了……
近日,來自普林斯頓和北大的華人團隊基于一種創新性的「分層LLM推理」方法(Hierarchical LLM Reasoning)提出了全新的ReasonFlux框架。
即,通過Scaling思維模板(Thought Template),有效地優化推理搜索空間。
論文地址:https://arxiv.org/abs/2502.06772
開源項目:https://github.com/Gen-Verse/ReasonFlux
結果顯示,團隊訓出的ReasonFlux-32B,在多個數學基準測試中直接吊打o1-preview、DeepSeek V3等一眾SOTA模型。
在MATH基準中,ReasonFlux-32B以91.2%準確率傲視群雄,比o1-preview高出6.7%。
而在AIME基準中,它的解題率高達56.7%,再次將o1-preview遠遠甩在身后,領先27%。
以下就是ReasonFlux-32B的一個推理示例。
可以看到,對于同一道數學題的解答中,o1-mini從只有第一步的推理是對的,從第二步就開始犯錯。
而Reason Flux在四步思考中沒有一步犯錯,最終給出了完全正確的答案。
不得不說,ReasonFlux-32B堪稱一位頂尖「數學大師」。
它的成功證明了,分層LLM推理與Scaling思維模板的強大威力,其背后離不開這三大創新:
- 結構化通用思維模板庫:包含約500個高層次思維模板,可泛化到類似或相關的推理問題。
- 分層強化學習:在思維模板序列上執行強化學習,不再在長思維鏈(CoT)數據上進行優化,使基礎LLM能夠規劃最優模板軌跡,逐步解決復雜問題。
- 全新的推理Scaling系統:在推理過程中自適應Scaling思維模板,從而實現分層LLM推理。
令人驚喜的是,思維模板庫還是開源的。
分層強化學習,掌控數學推理
LLM近年來成績斐然,在一些任務上甚至超越了人類專家。
但在處理如美國數學奧林匹克競賽(AIME)中的數學問題、OlympiadBench中的復雜推理任務以及LiveCodeBench中的編程任務時,仍有提升空間。
為了提升LLM在復雜問題上的推理能力,研究人員提出了多種推理時策略,主要分深度搜索和獎勵模型引導兩類方法。
深度搜索方法,如思維樹(ToT)和思維圖(GoT),讓LLM探索多條推理路徑,并通過自我評估來選擇;獎勵模型引導方法則利用獎勵模型評估推理步驟的質量。
不過,這些方法存在計算成本高、依賴手動設計的搜索策略和實例/步驟級獎勵等問題,泛化能力也受限。
檢索增強生成(RAG)通過從外部知識源檢索相關文檔來輔助LLM生成回復,在一定程度上緩解了模型幻覺問題,提高了準確性。
但在復雜推理任務中,如數學、編程領域,通過標準嵌入相似性搜索檢索相關模板非常困難,在處理大規模文檔時效果也會下降。
最新研究中,普林斯頓聯手北大學者提出了ReasonFlux框架——分層LLM推理,通過構建結構化思維模板庫、進行思維模板軌跡的分層RL和設計新的推理Scaling系統,顯著提升了復雜推理能力。
研究的主要貢獻如下:
- 提出了ReasonFlux,一種分層LLM推理框架,顯著提升模型復雜推理能力。
- 構建了一個結構化且精煉的模板庫,包含約500個從高難度數學問題中提煉的思維模板。
- 開發了基于高層次思維模板序列的分層強化學習,使LLM能夠生成最優的思維模板軌跡,將復雜問題拆解為一系列更簡單的子問題,從而有效減少推理路徑的搜索空間。
- 設計了一種新的推理Scaling系統,通過自適應Scaling思維模板來實現分層推理。該系統能夠動態檢索一系列高層次模板,并在推理過程中自適應執行實例化推理,實現高效的問題求解。
ReasonFlux框架解析
結構化思維模板庫
ReasonFlux的核心之一是,構建結構化思維模板庫。
人類在解決復雜推理問題時常常借助外部資源,受此啟發,研究人員精心打造了這個模板庫。
研究者從不同來源廣泛收集具有挑戰性的數學推理問題,利用LLM深入分析解題思路,總結解題策略并挖掘常見模式,進而得到了約500個以解決方案為導向的高質量思維模板。
每個模板都經過精心設計,包含名稱、標簽、描述、適用范圍、應用步驟和示例等關鍵信息。
以「類型三角代換」模板為例,名稱清晰地表明了模板的核心內容;標簽便于基于關鍵詞進行檢索,如「三角代換」「無理函數優化」等;詳細解釋了在特定條件下(當問題中出現
形式的根式且
時)使用三角代換(
或
)的原理,將無理表達式轉化為三角函數表達式,以便利用三角函數的性質和恒等式進行簡化和求解。
適用范圍明確界定了該模板可解決的問題類型,包括涉及函數優化或值域的問題、含有特定根式的方程或不等式問題以及與圓相關的幾何問題等。
通過這些豐富的元數據,模板庫能夠實現高效檢索,為不同問題精準匹配最合適的模板。
分層強化學習:規劃最優推理路徑
有了結構化模板庫,還需要有效的方法來選擇合適的模板解決實際問題。
ReasonFlux采用分層強化學習來實現這一目標。
首先是基于結構的微調。利用結構化模板庫構建知識密集型訓練數據集,該數據集包含從模板庫中提取的模板名稱、標簽、原理描述和適用范圍等信息,以元組(T_nam, T_tag, T_des, T_sco)的形式呈現。
然后,在這個數據集上對基礎LLM進行微調,讓模型深入理解每個模板的結構、內容和用途。
微調的優化目標是最大化模型在給定模板名稱和標簽時,生成正確描述和適用范圍的可能性,確保微調后的模型能夠有效關聯模板的識別信息和功能信息,將微調后的模型記為π_struct。
接著是思維模板軌跡的偏好學習。基于微調后的π_struct,進一步訓練它為輸入問題規劃出一系列高級思維模板(即思維模板軌跡T_traj)。
給定一個輸入問題x,π_struct首先分析和抽象問題的條件信息,識別其中的核心數學概念和關系,然后配置一條軌跡T_traj={S_1, S_2, ..., S_N},每個S_i代表推理過程中的一個高級步驟,關聯一個從模板庫中檢索到的可用于解決問題的模板名稱。每個檢索到的模板T_i會根據輸入問題x的具體細節進行實例化,并為單獨的推理大模型π_inf提供細粒度的指導來解決問題。
為了衡量給定軌跡的有效性和泛化能力,研究人員利用一組與原始輸入問題x相似的問題X_sim,使用軌跡上實例化的模板引導π_inf解決每個X_i ∈ X_sim,π_inf在這些問題上的平均準確率作為軌跡獎勵R(T_traj),公式為:
這個獎勵信號用于構建優化對,進一步優化π_struct。
具體來說,對于每個輸入問題x,采樣多個不同的T_traj并評估其質量,定義優化π_struct的損失函數為:
其中D_pair是優化對數據集,每個對包含一個輸入問題x和兩條軌、
,
,π_θ是從π_struct初始化的待優化LLM。
推理Scaling系統
經過分層強化學習優化后的模型被稱為ReasonFlux。在此基礎上,研究人員設計了全新的推理Scaling系統。
面對一個輸入問題時,ReasonFlux首先分析并提取問題中的核心數學概念和關系,據此配置一條最優的模板軌跡.這條軌跡不是固定不變的,而是根據問題的具體特點動態生成的。
然后,ReasonFlux根據軌跡中的步驟信息,從模板庫中檢索最相關的思維模板。
通過分析推理過程中生成的中間結果,ReasonFlux能夠獲得有價值的見解,從而調整軌跡,這與人類通過檢查部分結果發現更高效解決方案的過程相似。
檢索到模板后,ReasonFlux會指示推理LLM根據問題的具體細節實例化每個模板,將抽象的模板轉化為具體的推理步驟。
在這個過程中,ReasonFlux會不斷評估和分析推理LLM生成的中間結果,根據評估結果決定是否調整軌跡,比如調整后續步驟或檢索其他替代模板。
這種迭代反饋機制模仿了人類在解決復雜問題時,通過分析部分結果不斷優化解決方案的過程,使ReasonFlux能夠更有效地解決復雜問題。
實驗結果
研究人員使用Gemini-2.0從各種數學數據集的訓練集中,構建了約500個思維模板的結構化模板庫。
訓練過程中,由于GPU資源有限,選用Qwen2.5-32B-Instruct作為基礎模型和推理LLM,僅使用8個NVIDIA A100 GPU,大大降低了成本。
在基于結構的微調階段,用包含15K個樣本的訓練數據集訓練初始化的模型;在模板軌跡優化過程中,用從MATH 和自制數據集中收集的10K對軌跡進行訓練。
為了全面評估ReasonFlux的復雜推理能力,選擇了一系列具有挑戰性的推理基準測試,包括MATH、AIME 2024、AMC 2023、OlympiadBench和Gaokao En 2023。
在實驗中,選擇了前沿LLM(如GPT-4o、Claude、OpenAI o1-preview和o1-mini)和開源推理模型(如DeepSeek-Coder-v2-Instruct、Mathstral、NuminaMath-72B等)作為基線模型,這些模型代表了當前數學推理的最高水平。
在具有挑戰性的推理基準測試中,ReasonFlux-32B表現出色,以32B參數達到了新的最先進性能。
在MATH基準測試中,準確率達到91.2%,比o1-preview高出6.7%;在AIME 2024基準測試中,準確率為56.7%,比o1-preview和DeepSeek-V3分別高出27%和45%,與OpenAI o1-mini的性能相當。
在其他具有挑戰性的數據集上,ReasonFlux-32B同樣展現出了強大的泛化能力和有效性。
在OlympiadBench上,其準確率達到63.3%,超過DeepSeek-V3 14%。在Gaokao En 2023中,準確率為 83.6%,比o1-mini高出7%。
值得注意的是,ReasonFlux使用的模板庫主要由公開可用的數據集構建而成,并且在所有評估過程中使用相同的模板庫,這充分證明了其強大的泛化能力。
通過在MATH基準測試上的實驗發現,使用模板增強推理的方法能顯著提高不同基礎模型的推理準確率。
實驗結果顯示,較小規模的LLM在模板的引導下,推理準確率提升明顯,甚至能夠超越較大規模LLM的直接推理表現,進一步凸顯了結構化模板庫的有效性。
在推理過程中,ReasonFlux能夠根據問題的復雜性自適應地規劃合理的模板軌跡,并確定與推理LLM交互的輪數。
隨著問題復雜度的增加,它會自動調整檢索的模板數量和交互輪數,有效平衡了推理成本和性能。
在探索與利用的權衡方面,與Best-of-N和MCTS等推理策略相比,ReasonFlux在所有難度級別下都保持著更低且更穩定的探索成本。
這得益于其結構化模板庫對搜索空間的有效優化,以及模板的高質量和泛化能力,使得推理LLM能夠更準確高效地進行推理,從而在探索與利用之間實現了更優的平衡。
ReasonFlux目前也存在一定的局限性。例如,模板庫雖然已經較為豐富,但可能無法涵蓋所有類型的復雜問題;在處理某些極端復雜或全新領域的問題時,其推理能力或許還需要進一步提升。
未來的研究可以朝著進一步擴展模板庫的覆蓋范圍、探索更高效的學習算法的方向展開,將ReasonFlux應用于更多領域。
作者介紹
Ling Yang
Ling Yang現為北大在讀博士生(即將畢業),師從Bin Cui和Luxia Zhang教授。
同時,他也是普林斯頓大學高級研究助理,與Mengdi Wang教授合作。
他的研究興趣主要包括生成式人工智能(擴散模型、大模型)和AI for Science。
此外,他擔任多個國際會議和期刊的程序委員會成員或審稿人,包括SIGGRAPH、TPAMI、ICML、ICLR、NeurIPS、CVPR、KDD和AAAI。
Zhaochen Yu
Zhaochen Yu是新加坡國立大學研究生,目前在PKU-DAIR Lab實習,與Ling Yang和Bin Cui合作。
此前,他于2024年在北京理工大學獲得學士學位。