精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

強化學習與軟件工程:開源軟件獎勵演化的強化學習

發布于 2025-2-27 12:49
瀏覽
0收藏

SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution

2025-02-25|Meta FAIR, UIUC, Meta GenAI, CMU|??37

???http://arxiv.org/abs/2502.18449v1????
????https://huggingface.co/papers/2502.18449????
????https://github.com/facebookresearch/swe-rl???

研究背景與意義

強化學習與軟件工程:開源軟件獎勵演化的強化學習-AI.x社區

近年來,大型語言模型(LLMs)在軟件工程(SE)任務中的應用引起了廣泛關注。研究者們探索了LLMs在自動化復雜SE任務中的潛力,例如庫級和復雜代碼生成、真實世界錯誤/問題解決以及軟件測試。然而,現有的技術大多依賴于強大的專有LLMs,如GPT-4o或Claude-3.5-Sonnet,這些模型的進步更多依賴于增強的提示策略,而非底層LLM的改進。隨著DeepSeek-R1的發布,基于規則的強化學習(RL)成為增強LLMs推理能力的關鍵技術,但其在SE任務中的有效性仍然有限。本文提出的SWE-RL方法首次將RL應用于真實世界的軟件工程任務,通過利用軟件演化數據(如PRs)和基于規則的獎勵,顯著提升了LLMs在SE任務中的表現。

研究方法與創新

強化學習與軟件工程:開源軟件獎勵演化的強化學習-AI.x社區

SWE-RL方法的核心在于利用軟件演化數據和基于規則的獎勵來增強LLMs的推理能力。具體而言,SWE-RL通過從GitHub PR數據中創建種子RL數據集,包括問題描述、代碼上下文和Oracle補丁。在RL過程中,策略LLM通過推理生成代碼更改,并根據預測補丁與Oracle補丁的匹配程度計算獎勵。SWE-RL的創新點在于其輕量級的基于規則獎勵機制,使得LLMs能夠從廣泛的軟件演化數據中自主學習開發者的推理過程和解決方案。此外,SWE-RL在Llama 3的基礎上訓練,生成的推理模型Llama3-SWE-RL-70B在SWE-bench Verified上達到了41.0%的解決率,這是迄今為止中等規模LLMs(<100B)中表現最好的,甚至可與GPT-4o等領先的專有LLMs相媲美。

實驗設計與結果分析

強化學習與軟件工程:開源軟件獎勵演化的強化學習-AI.x社區

實驗部分,SWE-RL在SWE-bench Verified上進行了評估,這是一個包含500個經過人工驗證的真實世界GitHub問題的子集。實驗結果顯示,Llama3-SWE-RL-70B在SWE-bench Verified上的解決率為41.0%,顯著優于其他開源模型。此外,盡管SWE-RL僅在軟件演化數據上進行RL訓練,但Llama3-SWE-RL-70B還表現出在多個領域外的任務(如函數編碼、庫使用、代碼推理、數學和一般語言理解)上的推理能力提升。這表明,SWE-RL不僅提升了LLMs在SE任務中的表現,還增強了其通用推理能力。

結論與展望

本文提出的SWE-RL方法首次將RL應用于真實世界的軟件工程任務,通過利用軟件演化數據和基于規則的獎勵,顯著提升了LLMs在SE任務中的表現。Llama3-SWE-RL-70B在SWE-bench Verified上的表現達到了中等規模LLMs中的最佳水平,甚至可與GPT-4o等專有模型相媲美。此外,SWE-RL還增強了LLMs的通用推理能力,使其在多個領域外的任務上表現出色。未來的工作將集中在改進獎勵機制、增強模型的局部化能力以及提高樣本效率上,以進一步提升SWE-RL的實用性和性能。

通過本文的研究,我們為LLMs在軟件工程任務中的應用開辟了新的方向,展示了RL在提升LLMs推理能力方面的巨大潛力。

本文轉載自??AI研究前瞻??,作者: 胡耀淇 ????

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 米脂县| 沅江市| 泸溪县| 湘阴县| 股票| 禹州市| 德清县| 平定县| 龙岩市| 新龙县| 鹤峰县| 拉萨市| 金溪县| 博爱县| 炉霍县| 襄城县| 鸡东县| 永济市| 安徽省| 婺源县| 台中县| 砚山县| 恩平市| 四子王旗| 江津市| 县级市| 平南县| 黄浦区| 周宁县| 安福县| 平遥县| 漳平市| 衡阳县| 新密市| 济宁市| 什邡市| 临沂市| 桃江县| 兴城市| 太原市| 蓝山县|