OctoThinker：借“中期訓練”之力，縮小 Llama 和 Qwen 模型的差距

作者：肆零柒 2025-07-10 10:25:23

在大型語言模型的推理能力提升之路上，OctoThinker 研究直擊核心——通過精妙的中期訓練策略，成功喚醒 Llama 模型在強化學習中的巨大潛力，跨越性能屏障，與 Qwen2.5 模型并駕齊驅，為模型優化帶來創新思路。

大家好，我是肆〇柒，大型語言模型（LLM）通過鏈式思考（CoT）進行深度推理，并借助大規模強化學習（RL）在復雜任務（如競賽級數學問題解決）上取得了顯著進展。OpenAI 的 o1、o3 等模型在數學推理任務上表現卓越，這些模型通常采用多層神經網絡架構，通過大規模數據訓練捕捉語言的復雜模式，從而實現高效的文本生成和推理。而 DeepSeek-R1-Zero 等模型在基礎語言模型上直接應用大規模 RL 也展現了有趣的推理行為。然而，不同基礎語言模型家族（如 Qwen 和 Llama）在 RL 后表現差異顯著。這引發了研究者對如何提升 Llama 模型 RL 可擴展性的深入探索。

例如，Qwen 系列模型在 RL 訓練后表現出色，而 Llama 等通用基礎模型在復制 R1-Zero 風格訓練成功方面卻面臨困難。這種現象引發了研究者對預訓練與推理能力提升內在聯系的深入思考。深入分析 Qwen 和 Llama 模型在架構、預訓練目標等方面的差異，對于理解這些差異如何影響 RL 訓練效果具有重要意義。這些差異可能導致模型在處理數學推理任務時的內在機制不同，進而影響 RL 訓練中的表現。

由上海交大提出的這份研究《OctoThinker: Mid-training Incentivizes Reinforcement Learning Scaling》，目的就是為了深入探究預訓練與推理能力提升的內在聯系，為下一代 RL 友好型基礎模型的設計提供關鍵指導。通過系統研究中期訓練策略對 Llama 模型 RL 可擴展性的影響，研究者希望為大型語言模型在推理任務上的進一步發展提供理論支持和實踐指導。這一研究不僅有助于縮小不同模型家族在 RL 訓練后的性能差距，還可能推動整個領域對 RL 訓練機制的理解，為未來模型的設計和優化提供新的思路。文末參考資料有OctoThinker模型家族的開源權重，以及 Github 開源代碼倉庫。

中期訓練激勵了Llama的強化學習擴展，使其性能與Qwen2.5相當

研究背景與動機

在數學推理任務上，OpenAI 的 o1、o3 等模型取得顯著成功，這背后隱藏著哪些關鍵因素？

這些模型通常采用多層神經網絡架構，通過大規模數據訓練捕捉語言的復雜模式，從而實現高效的文本生成和推理。與 Qwen 和 Llama 模型相比，它們在預訓練目標和優化策略上存在顯著差異。Qwen 模型可能更注重特定領域的推理優化，而 Llama 模型則傾向于通用語言理解。這些差異可能導致模型在 RL 訓練中對數據的適應性和泛化能力不同。

目前，在 Llama 等通用基礎模型上復制 R1-Zero 風格訓練成功面臨諸多困難。現有研究在這一問題上的局限性主要體現在對預訓練數據質量、模型架構適配性以及 RL 訓練動態的深入理解不足。解決這一問題對于拓展大型語言模型的應用場景和提升其推理能力具有重要價值。通過優化中期訓練策略，研究者希望能夠顯著提升 Llama 模型的 RL 可擴展性，使其在數學推理等復雜任務上表現出色。

Qwen 與 Llama 模型家族的 RL 動態差異

在 RL 訓練中，Llama-3.2-3B-Base 和 Qwen2.5-3B-Base 展現出了截然不同的表現。

在訓練中期可能影響訓練后期階段的潛在因素

從模型架構來看，Qwen 模型采用了更適應推理任務的神經網絡結構，例如更深層次的注意力機制和更高效的參數優化策略，這使得它在處理數學推理任務時，能夠更有效地捕捉問題的邏輯結構，并逐步構建解決方案。而 Llama 模型則更側重于通用語言任務，這可能導致其在處理復雜推理鏈條時出現困難，從而影響輸出內容的連貫性和合理性。

以數學問題求解為例，Qwen 模型在處理涉及多步邏輯推理的問題時，能夠逐步推導出正確的解決方案，而 Llama 模型可能會在中間步驟中丟失關鍵信息，導致最終答案錯誤。這種差異可能源于 Qwen 模型在預訓練階段對數學推理任務的特殊優化，使其在 RL 訓練中能夠更好地適應和利用相關數據。

從下圖可以直觀地看到 Llama-3.2-3B 和 Qwen2.5-3B 在 RL 訓練過程中的表現差異。Llama 模型的平均回答長度異常增加，而 Qwen 模型的長度則合理增長。這表明 Qwen 模型在推理過程中能夠更好地控制輸出長度，保持答案的連貫性和合理性。

Llama-3.2-3B 和 Qwen2.5-3B 的訓練動態對比，包括下游任務性能和正確回答的平均長度

中期訓練的關鍵因素深度探索

?? 什么是中期訓練？
中期訓練是一種介于預訓練和微調之間的訓練階段，其計算和數據（token）需求介于兩者之間。它旨在通過顯著改變數據質量和分布（和/或修改模型架構以提高推理效率）來實現特定目標，例如領域和語言擴展、長文本上下文擴展、提升數據質量、利用大規模合成數據以及為微調做準備等。

數學語料庫的數據質量

在中期訓練中，使用高質量的數學語料庫是提升模型性能的關鍵。MegaMath-Web-Pro 等優質語料庫在數據分布和內容深度上明顯優于 FineMath-4plus。

在50億token的預訓練預算下，按照其年度數據更新對比設置，對快速文本召回語料庫（未經過大語言模型優化）與MegaMath-Web進行了對比，并展示了相應的召回閾值

為了確保數據質量，研究者對語料庫進行了嚴格的篩選，包括數據的相關性、準確性和邏輯性評估。預處理步驟涉及數據清洗、格式統一等操作，以確保數據的一致性和可用性。

例如，在對 MegaMath-Web-Pro 進行預處理時，研究者首先對數據進行了清洗，去除了重復和低質量的內容。然后對文本進行了格式化處理，確保每條數據都包含清晰的問題描述和解答過程。這種嚴格的數據預處理流程為模型訓練提供了堅實的基礎。具體來說，MegaMath-Web-Pro 語料庫中的問題描述詳細且準確，解答過程邏輯清晰，有助于模型學習到有效的推理模式。而 FineMath-4plus 語料庫中的內容可能存在較多噪聲和不完整的推理步驟，導致模型在學習過程中難以形成有效的推理能力。

下圖展示了不同數學網絡語料庫在中期訓練中的效果。可以看出，MegaMath-Web-Pro 和 MegaMath-Web-Pro-Max 在提升模型性能方面表現優于 FineMath-4plus，這進一步證明了高質量語料庫的重要性。

不同數學網絡語料庫在中期訓練中的效果

QA 格式數據的引入與優化

在中期訓練中引入不同類型的 QA 數據（如長鏈式思考、短鏈式思考示例）能夠有效提升模型的推理能力。長 CoT 數據雖然能夠增強模型的推理深度，但可能導致模型輸出過于冗長，影響 RL 訓練的穩定性。短 CoT 數據則有助于提升模型的簡潔性和連貫性。通過合理混配長 CoT 和短 CoT 數據，并結合指令數據，可以平衡模型的回答質量和 RL 訓練的穩定性。

在實際操作中，研究者選擇了多種 QA 數據集，如 MegaMath-QA 和 Open-R1-Math-220K，并根據數據的特點和任務需求進行了合理的比例分配。例如，在處理長 CoT 數據時，通過設置最大響應長度和優化 RL 提示模板，有效避免了模型輸出的冗長問題。具體來說，長 CoT 數據中包含多步推理過程，模型在學習這些數據時能夠掌握更復雜的推理邏輯。但為了防止模型在生成答案時過于冗長，研究者設置了最大響應長度限制，并優化了 RL 提示模板，引導模型在保持推理深度的同時，生成簡潔明了的答案。

下圖展示了引入不同特性的 CoT 數據對中期訓練基礎模型性能的影響。可以看出，長 CoT 數據在提升推理深度方面表現出色，但也可能導致模型輸出冗長。而短 CoT 數據則有助于提升模型的簡潔性和連貫性。

引入不同特性的 CoT 數據對中期訓練基礎模型性能的影響

指令跟隨數據的深度挖掘

指令跟隨數據的篩選和處理對于提升模型的指令遵循能力至關重要。研究者從多個高質量數據集中選取指令跟隨數據，包括 TULU3-sft-personas-instruction-following、WildChat 和 UltraChat-200K 等。通過對數據來源和質量評估標準的嚴格把控，確保指令數據的可靠性和有效性。在不同訓練階段和模型尺寸下，指令跟隨數據的效果差異顯著。通過合理混配不同類型數據，可以優化模型性能，使其在處理復雜指令時表現出色。

在數據篩選過程中，研究者采用了多層次的評估標準，確保選取的數據不僅內容優質，且與數學推理任務高度相關。例如，通過人工標注和自動化評估相結合的方式，對數據的準確性和適用性進行了全面評估。具體而言，指令跟隨數據中的指令需要清晰、明確，且與數學推理任務緊密相關。通過這種方式篩選出的數據能夠幫助模型更好地理解用戶指令，并在生成答案時遵循這些指令，從而提高模型在數學推理任務中的表現。

以下兩圖分別展示了在中期訓練中引入指令跟隨數據對短 CoT 和長 CoT 混合數據效果的影響。可以看出，指令跟隨數據能夠顯著提升模型的性能，尤其是在處理復雜指令時表現出色。

引入指令跟隨數據對短 CoT 混合數據效果的影響

引入指令跟隨數據對長 CoT 混合數據效果的影響

中期訓練預算的擴展與優化

擴大中期訓練token預算（如從 20B 到 70B、100B tokens）能夠顯著提升模型性能。在實驗中，研究者詳細描述了訓練步驟，包括數據的加載方式、訓練批次的劃分和模型的更新頻率等。硬件資源配置方面，采用了高性能計算設備，確保訓練過程的高效性和穩定性。通過優化訓練流程，合理分配訓練預算，能夠在有限的資源條件下實現最佳的訓練效果，顯著提升模型的推理能力和 RL 訓練效果。

下圖展示了擴大中期訓練預算對 RL 性能的影響。可以看出，隨著訓練預算的增加，模型性能持續提升，證明了擴展訓練預算的重要性。

擴大中期訓練預算對 RL 性能的影響

OctoThinker 模型家族的提出與構建

兩階段中期訓練策略（Stable-then-Decay）的深度解讀

OctoThinker 模型家族基于兩階段中期訓練策略（Stable-then-Decay）構建。穩定階段的目標是通過高質量的預訓練語料庫（如 MegaMath-Web-Pro-Max）提升模型的基礎推理能力。采用恒定學習率訓練 200B tokens，確保模型在大規模數據上逐步提升性能。衰減階段則通過調整學習率和引入不同的數據分支（如短 CoT、長 CoT 和混合分支），使模型在特定推理模式上表現出色。這種策略的優勢在于既能提升模型的通用推理能力，又能通過數據分支優化實現模型行為的多樣化。

在穩定階段，初始學習率的確定基于對模型參數規模和數據復雜度的綜合評估。例如，對于 3B 模型，初始學習率設置為 2e-5，并根據訓練過程中的損失變化進行微調。在衰減階段，學習率按照余弦衰減公式逐漸降低，確保模型在訓練后期能夠精細調整參數，避免過擬合。

下圖展示了 Llama-3.2-3B-Base、OctoThinker 系列和 Qwen2.5-Base 在 RL 訓練中的對比。可以看出，OctoThinker 模型通過兩階段中期訓練策略，顯著提升了性能，與 Qwen2.5 模型的性能差距大幅縮小。

Llama-3.2-3B-Base、OctoThinker 系列和 Qwen2.5-Base 在 RL 訓練中的對比

OctoThinker 模型的具體構建與優化

OctoThinker 模型家族的構建過程涉及多個關鍵步驟。模型架構的選擇基于對不同架構在推理任務上的性能評估，最終確定了適合數學推理的神經網絡結構。訓練超參數的優化通過大量的實驗驗證，確保模型在不同訓練階段都能達到最佳性能。數據集的詳細構成和權重分配根據數據的質量和相關性進行調整，以最大化模型的訓練效果。

在不同模型尺寸（如 1B、3B）上實現該訓練方案時，研究者根據模型的性能表現和訓練需求進行動態調整。例如，對于較小的模型，可能需要更精細的超參數調整和更嚴格的數據篩選。訓練過程中的監控指標（如準確率、損失值）和評估方法（如在驗證集上的性能測試）確保了模型訓練的穩定性和有效性。通過這些措施，OctoThinker 模型在數學推理任務上表現出色，顯著提升了 Llama 模型的 RL 可擴展性。

以下三張表分別展示了第一階段的數據構成和權重分配、穩定階段的超參數設置以及衰減階段的超參數設置。這些表格詳細描述了模型訓練過程中的關鍵參數和數據配置，為讀者提供了清晰的訓練方案。

第一階段的數據構成和權重分配

穩定階段的超參數設置

衰減階段的超參數設置

OctoThinker 模型的評估與分析

不同分支模型在數學推理基準測試上的精細表現

OctoThinker-Base 系列（包括 Stable、Long、Hybrid、Short 分支）在 13 個數學推理基準測試（如 GSM8K、MATH500、Olympiad Bench、AMC23 等）上的評估結果顯示，各分支模型在不同任務上的性能差異顯著。例如，Long 分支在處理復雜數學問題時表現出更強的推理能力，而 Short 分支則在簡單問題上具有更高的效率。與原始 Llama 基礎模型相比，OctoThinker 模型在所有基準測試中均表現出顯著的性能提升。穩定階段中期訓練后的模型進一步優化了性能，證明了兩階段中期訓練策略的有效性。

以下兩圖分別展示了 OctoThinker-1B 系列和 OctoThinker-3B 系列不同分支在 RL 訓練中的動態表現。可以看出，各分支模型在不同任務上的優勢和不足。Long 分支在處理需要多步驟推理的問題時具有明顯優勢，而 Short 分支則更適合單步或少步推理任務。Hybrid 分支結合了長 CoT 和短 CoT 數據的優點，在多種任務上表現出平衡的性能。

OctoThinker-1B 系列不同分支在 RL 訓練中的動態表現

OctoThinker-3B 系列不同分支在 RL 訓練中的動態表現

RL 訓練后的 OctoThinker-Zero 模型家族的深入剖析

對 OctoThinker 基礎模型進行強化學習訓練后得到的 OctoThinker-Zero 模型家族在數學推理任務上表現出卓越性能。不同分支模型（如 OctoThinker-Short-Zero、OctoThinker-Long-Zero、OctoThinker-Hybrid-Zero）在 RL 訓練過程中的動態變化顯著。Long 分支在訓練后期逐漸展現出更強的推理能力，而 Short 分支則在早期階段表現出較高的效率。各分支模型在不同應用場景下的適用性和優勢不同，例如 Long 分支適合處理復雜的數學競賽問題，而 Short 分支則更適合快速解答簡單問題。

結合模型的架構和訓練數據特點，可以深入理解各分支模型的表現模式。Long 分支通過長 CoT 數據訓練，能夠處理復雜的推理鏈條， suitable for tasks requiring multi-step reasoning。Short 分支則通過短 CoT 數據優化，提升了單步推理的效率和準確性。Hybrid 分支通過結合長 CoT 和短 CoT 數據，實現了在多種任務上的平衡性能。這些特點使 OctoThinker-Zero 模型家族能夠適應不同的數學推理需求。

與 Qwen2.5 模型的深度對比分析

對比 OctoThinker 模型（特別是 Long 分支）與 Qwen2.5 模型在 RL 訓練過程中的性能表現，可以發現兩者在模型架構、預訓練目標和訓練數據等方面存在顯著差異。Qwen2.5 模型在數學推理任務上表現出色，得益于其專門針對數學推理優化的預訓練目標和數據選擇。OctoThinker 模型通過兩階段中期訓練策略，在穩定階段提升基礎推理能力，在衰減階段通過數據分支優化實現模型行為的多樣化。通過具體數據和圖表展示，OctoThinker 模型成功縮小了與 Qwen2.5 模型的性能差距，在某些任務上甚至表現出相近的性能水平。這驗證了中期訓練策略的有效性，證明了 OctoThinker 模型在提升 Llama 模型 RL 可擴展性方面的潛力。

下圖進一步展示了 OctoThinker 模型與 Qwen2.5 模型在 RL 訓練中的對比。可以看出，OctoThinker-Long 分支在多個基準測試中的性能接近 Qwen2.5 模型，證明了中期訓練策略的有效性。

OctoThinker 模型與 Qwen2.5 模型在 RL 訓練中的對比

總結

通過系統探索中期訓練策略，OctoThinker 成功提升了 Llama 模型的強化學習（RL）可擴展性，揭示了高質量、推理密集型語料庫（如 MegaMath-Web-Pro）對模型性能提升的關鍵作用。兩階段中期訓練策略（Stable-then-Decay）有效增強了 Llama 模型的推理能力，使其在數學推理任務上表現出色。OctoThinker 模型家族在多個數學推理基準測試中展現了卓越的性能，顯著縮小了與 Qwen2.5 等 RL 友好型模型家族的性能差距。

從模型性能、訓練效率和可擴展性等多個維度綜合評估，OctoThinker 模型憑借高質量數據、合理訓練策略和精心模型優化的深度融合，展現了顯著的優勢和價值。這一研究成果不僅為 Llama 模型的持續發展指明了新的方向，更為大型語言模型在推理任務上的整體進步展示了堅實的理論與實踐基礎。

基于當前的成果與局限性，有幾個關鍵探索方向值得深入挖掘：

1. 數學語料庫的持續優化：改進數據收集、篩選和預處理流程，進一步提升語料庫質量與多樣性。例如，拓展領域特定的數學數據來源，或開發更高效的自動篩選工具，確保語料庫覆蓋更廣泛的數學知識點和推理模式。

2. RL 友好型基礎模型的設計：探索無需從強大長 CoT 推理模型蒸餾的 RL 友好型基礎模型設計方法，可能涉及改進模型架構（如引入更高效的注意力機制）或優化訓練目標（如設計更適合推理任務的損失函數）。

3. QA 格式與內容的獨立貢獻研究：通過針對性實驗設計，深入剖析 QA 數據格式和內容對模型性能的獨立影響，以更精準地優化數據選擇和訓練策略，進一步提升模型推理能力。

4. OctoThinker 家族功能與應用場景的拓展：探索引入工具集成、多模態推理等功能，使 OctoThinker 模型適應更多應用場景。例如，結合圖表理解能力，提升模型在可視化數學問題上的推理表現。

這些探索方向將為大型語言模型在推理任務上的進一步發展注入新的活力，提供創新的思路與方法。至此，如果大家對OctoThinker有興趣，可以從參考資料處查看它的模型家族權重，以及Github開源倉庫。

責任編輯：龐桂玉來源：覺察流

精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频