阿里開源QwenLong-L1：首個以強化學習訓練的長上下文推理大模型

發布于 2025-5-30 05:33

瀏覽

0收藏

LRMs 在通過強化學習（RL）提升了推理能力，但，擴展到長文本場景（如 120K tokens）仍然是一個未解決的挑戰，為此，阿里提出并開源了QwenLong-L1框架，首個通過強化學習訓練用于長文本情境推理的長文本情境大型推理模型（LRM）。

阿里開源QwenLong-L1：首個以強化學習訓練的長上下文推理大模型-AI.x社區

QwenLong-L1-32B優于OpenAI-o3-mini和Qwen3-235B-A22B等旗艦LRMs，其性能與Claude-3.7-Sonnet-Thinking相當，展現出在最先進的LRMs中領先的性能。

阿里開源QwenLong-L1：首個以強化學習訓練的長上下文推理大模型-AI.x社區

QwenLong-L1是一個新穎的強化學習 (RL) 框架，旨在促進 LRM 從短上下文熟練度向穩健的長上下文泛化能力的轉變。在初步實驗中，展示了短上下文和長上下文推理 RL 訓練動態之間的差異。

阿里開源QwenLong-L1：首個以強化學習訓練的長上下文推理大模型-AI.x社區

QWENLONG-L1 框架：該框架通過逐步擴展上下文（progressive context scaling）的方式，將短文本情境的 LRMs 適應到長文本情境。它包含三個核心組件：

預熱階段的有監督微調（Supervised Fine-Tuning, SFT）：通過高質量的標注數據對模型進行初始化，以建立穩健的初始策略。

基于課程的分階段強化學習（Curriculum-Guided Phased RL）：通過逐步增加輸入長度的方式，穩定地從短文本到長文本進行適應。

基于難度感知的回顧性采樣策略（Difficulty-Aware Retrospective Sampling）：通過優先采樣復雜實例來激勵策略探索。

RL 算法：文章采用了GRPO（Group Relative Policy Optimization）和DAPO（Decoupled Clip and Dynamic Sampling Policy Optimization）兩種算法，以提高訓練的穩定性和效率。
混合獎勵機制（Hybrid Reward Mechanisms）：結合基于規則的驗證（rule-based verification）和基于 LLM 的判斷（LLM-as-a-judge），平衡了精確性和召回率。

阿里開源QwenLong-L1：首個以強化學習訓練的長上下文推理大模型-AI.x社區

QwenLong-L1-32B是第一個使用強化學習訓練的用于長上下文推理的長上下文 LRM。在七個長上下文 DocQA 基準上的實驗表明，QwenLong-L1-32B 的表現優于 OpenAI-o3-mini 和 Qwen3-235B-A22B 等旗艦 LRM，達到了與 Claude-3.7-Sonnet-Thinking 相當的性能，在最先進的 LRM 中表現出色。

阿里開源QwenLong-L1：首個以強化學習訓練的長上下文推理大模型-AI.x社區

https://www.arxiv.org/pdf/2505.17667
QWENLONG-L1: Towards Long-Context Large Reasoning Models with Reinforcement Learning
https://huggingface.co/Tongyi-Zhiwen/QwenLong-L1-32B

本文轉載自??PaperAgent??

標簽

開源

QwenLong-L1

學習訓練

贊

回復