精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

交互擴展時代來臨:創(chuàng)智復(fù)旦字節(jié)重磅發(fā)布AgentGym-RL,昇騰加持,開創(chuàng)智能體訓(xùn)練新范式

人工智能 新聞
復(fù)旦、創(chuàng)智、字節(jié)的研究者們基于智能體自我進化框架 AgentGym,全新打造了多環(huán)境強化學(xué)習(xí)智能體訓(xùn)練框架 AgentGym-RL。

強化學(xué)習(xí)之父、2024 年 ACM 圖靈獎得主 Richard Sutton 曾指出,人工智能正在邁入「經(jīng)驗時代」—— 在這個時代,真正的智能不再僅僅依賴大量標(biāo)注數(shù)據(jù)的監(jiān)督學(xué)習(xí),而是來源于在真實環(huán)境中主動探索、不斷積累經(jīng)驗的能力。正如人類通過實踐理解世界、優(yōu)化行為一樣,智能體也必須在交互中積累經(jīng)驗、改進策略,才能掌握長期決策的能力。

無獨有偶,特斯拉前 AI 負責(zé)人,OpenAI 聯(lián)合創(chuàng)始人 Andrej Karpathy 進一步指出,環(huán)境的多樣性與真實性,是智能體獲得泛化能力、應(yīng)對復(fù)雜任務(wù)的關(guān)鍵前提。缺乏豐富的環(huán)境,智能體就無法充分暴露于多樣化情境,也難以從經(jīng)驗中形成穩(wěn)健的決策策略。

在這一背景下,復(fù)旦、創(chuàng)智、字節(jié)的研究者們基于智能體自我進化框架 AgentGym,全新打造了多環(huán)境強化學(xué)習(xí)智能體訓(xùn)練框架 AgentGym-RL。

本文的第一作者為復(fù)旦大學(xué)自然語言處理實驗室博士生奚志恒,通訊作者為復(fù)旦大學(xué)自然語言處理實驗室的桂韜教授和張奇教授。

這一框架是首個無需監(jiān)督微調(diào)、具備統(tǒng)一端到端架構(gòu)、支持交互式多輪訓(xùn)練,且在多類真實場景中驗證有效的 LLM 智能體強化學(xué)習(xí)框架,為 LLM 智能體的強化學(xué)習(xí)提供了全新的解決方案。

依托 AgentGym-RL 框架,研究人員創(chuàng)新性地提出了智能體范式下擴展測試時計算的新路徑 —— 擴展環(huán)境交互(Scaling Interaction)。其核心是通過增加訓(xùn)練與測試階段模型和外部環(huán)境的交互回合數(shù),讓模型借助多輪反饋逐步完善決策、提升表現(xiàn)。

相較于傳統(tǒng)測試時擴展方法,新路徑優(yōu)勢顯著:傳統(tǒng)方法局限于模型內(nèi)部,僅靠延長思維鏈消耗更多 Token,缺乏與外部環(huán)境的實時互動,難以應(yīng)對復(fù)雜任務(wù)的動態(tài)場景需求;而擴展交互輪次突破了這種封閉式推理,允許模型依據(jù)每輪反饋動態(tài)修正策略,最終以更結(jié)構(gòu)化的決策流程、更高效率的問題解決路徑完成任務(wù),成為智能體范式下表現(xiàn)更優(yōu)的測試時擴展方案。

然而,長交互輪次訓(xùn)練面臨著容易出現(xiàn)崩潰的問題。針對這一痛點,研究團隊再次突破,提出了 ScalingInter RL 交互輪次擴展策略,通過分階段增加模型最長交互輪次限制,使智能體能夠先在短交互輪次下掌握基礎(chǔ)技能,再逐步過渡到中長交互輪次解決復(fù)雜任務(wù),平衡了智能體訓(xùn)練過程中的探索與利用,有效規(guī)避了模型崩潰的風(fēng)險,成功構(gòu)建了穩(wěn)定的交互輪次擴展訓(xùn)練范式。

借助 AgentGym-RL 這一統(tǒng)一框架,結(jié)合 ScalingInter-RL 算法的穩(wěn)定擴展能力,研究團隊取得了令人矚目的成果:

僅僅是 7B 大小的模型,在多個真實任務(wù)導(dǎo)向的環(huán)境中經(jīng)過長輪次交互訓(xùn)練后,竟逐步掌握了理解任務(wù)目標(biāo)、預(yù)測行動后果、規(guī)劃多步操作等復(fù)雜任務(wù)處理技能。從自主瀏覽界面、精準(zhǔn)篩選選項,到對比參數(shù)、執(zhí)行操作,整個過程流暢高效,展現(xiàn)出前所未有的自主決策水平。在五種測試環(huán)境、26 項測試任務(wù)中,它不僅超越了 100B 以上的大型開源模型,還追平了 OpenAI o3、谷歌 Gemini 2.5 Pro、DeepSeek r1 等頂尖商業(yè)模型的水平,充分彰顯出 AgentGym-RL 框架與交互輪次擴展范式的強大潛力與競爭力,也為人工智能在 「經(jīng)驗時代」 的發(fā)展注入了強勁動力。

商業(yè)模型、開源模型以及本文強化學(xué)習(xí)模型在不同智能體任務(wù)中的表現(xiàn)。

從網(wǎng)頁導(dǎo)航到科學(xué)實驗,從文字游戲到實體交互,這套兼容 PPO、GRPO 等主流算法的模塊化框架,正為開源社區(qū)推開自主智能體研發(fā)的全新大門。

  • 論文標(biāo)題:AgentGym-RL: Training LLM Agents for Long-Horizon Decision Making through Multi-Turn Reinforcement Learning
  • 論文地址:https://arxiv.org/abs/2509.08755
  • 項目主頁:https://agentgym-rl.github.io
  • 代碼地址:https://github.com/WooooDyy/AgentGym-RL
  • 環(huán)境框架地址:https://github.com/WooooDyy/AgentGym

研究背景:從 「數(shù)據(jù)密集」 到 「經(jīng)驗密集」

構(gòu)建能夠在復(fù)雜現(xiàn)實場景中完成多輪決策的自主 LLM 智能體,是人工智能領(lǐng)域一個新興且快速發(fā)展的前沿方向。

Sutton 曾強調(diào),人工智能的發(fā)展正從 「數(shù)據(jù)密集型」 向 「經(jīng)驗密集型」 轉(zhuǎn)型:早期模型依賴海量標(biāo)注數(shù)據(jù)進行監(jiān)督學(xué)習(xí),如同通過教科書間接獲取知識;而真正的智能體應(yīng)當(dāng)像人類一樣,在真實環(huán)境中通過 「做中學(xué)」積累經(jīng)驗,在持續(xù)交互中理解環(huán)境規(guī)則、預(yù)測行動后果、優(yōu)化長期目標(biāo)。

而在這一過程中,構(gòu)建真實、多樣、貼合現(xiàn)實需求的交互環(huán)境則成為了強化學(xué)習(xí)的重中之重。真實的環(huán)境是智能體獲得有效經(jīng)驗的基礎(chǔ),只有還原場景中的動態(tài)變化與不確定因素,才能避免智能體陷入 「實驗室表現(xiàn)優(yōu)異、落地即失效」 的困境;環(huán)境的多樣化是智能體具備泛化能力的前提,只有覆蓋多類型任務(wù)場景的交互邏輯,才能讓智能體在新場景中快速遷移已有經(jīng)驗。

然而, 當(dāng)前大多數(shù)現(xiàn)有研究局限于單輪任務(wù),缺乏與復(fù)雜環(huán)境的多輪交互機制。雖然最近有研究嘗試擴展 RL 以訓(xùn)練具有多輪能力的 LLM 智能體,但這些工作仍然存在任務(wù)場景單一、環(huán)境適配性差、優(yōu)化穩(wěn)定性低等問題,使得智能體無法接觸到足夠豐富的環(huán)境信息,難以生成和利用第一手經(jīng)驗,自然難以應(yīng)對現(xiàn)實世界復(fù)雜多變的任務(wù)。因此,該領(lǐng)域目前仍然缺乏一個統(tǒng)一的、端到端的、交互式多輪 RL 框架,能夠在廣泛的實際場景和環(huán)境中有效地從頭開始訓(xùn)練 LLM 智能體,而無需依賴監(jiān)督微調(diào)(SFT)作為初步步驟。

為填補這一空白,研究團隊提出了 AgentGym-RL,一個通過強化學(xué)習(xí)訓(xùn)練 LLM 智能體進行多輪交互式?jīng)Q策的新框架。該框架的研究工作圍繞著推動智能體高效學(xué)習(xí)和決策展開,主要有以下貢獻:

  • 提出并開源 AgentGym-RL 框架:這是一個全新的、統(tǒng)一的、模塊化且靈活的端到端 RL 框架,專為智能體多輪交互式?jīng)Q策而設(shè)計,包含豐富多樣的場景和環(huán)境,讓 「從經(jīng)驗學(xué)習(xí)」 有了標(biāo)準(zhǔn)化的實驗場。
  • 引入 ScalingInter-RL 方法:這是一種基于漸進式交互輪數(shù)拓展的強化學(xué)習(xí)訓(xùn)練方法,使智能體能夠逐步適應(yīng)環(huán)境,優(yōu)化其交互模式、行為和技能,最終在探索和利用之間實現(xiàn)更好的平衡。
  • 驗證框架和方法的有效性:通過大量實驗驗證了 AgentGym-RL 和 ScaleInter-RL 能夠顯著且穩(wěn)定地提升智能體性能,使其在復(fù)雜任務(wù)處理能力上與頂尖商業(yè)模型形成對標(biāo)甚至實現(xiàn)性能反超。

AgentGym-RL:為經(jīng)驗時代打造的自主智能體訓(xùn)練基礎(chǔ)設(shè)施

AgentGym-RL 集成了多種環(huán)境、豐富的軌跡數(shù)據(jù)和全面的基準(zhǔn)測試,通過標(biāo)準(zhǔn)化環(huán)境操作接口,將復(fù)雜的環(huán)境配置流程簡化為便捷的模塊化操作。該框架以 AgentGym 為基礎(chǔ)進行迭代升級,通過優(yōu)化模型與環(huán)境的交互協(xié)議、強化分布式并行計算架構(gòu)、引入強化學(xué)習(xí)訓(xùn)練模塊等方式進行改進。

其核心目標(biāo),就是為 LLM 智能體構(gòu)建一個能夠持續(xù)產(chǎn)生 「有效經(jīng)驗」 的生態(tài),讓「經(jīng)驗驅(qū)動學(xué)習(xí)」不再依賴零散的實驗設(shè)置,而是具備可復(fù)現(xiàn)、可擴展的堅實基礎(chǔ)。

模塊架構(gòu)

AgentGym-RL 框架主要包含環(huán)境、代理和訓(xùn)練三個組件。

  • 環(huán)境模塊中,每個環(huán)境打包為獨立服務(wù),支持并行請求,環(huán)境客戶端通過 HTTP 連接服務(wù)器,向代理暴露如獲取觀測、動作等 API,涵蓋多場景、環(huán)境、任務(wù)和數(shù)據(jù)實例,為 LLM 代理訓(xùn)練提供支持。
  • 代理模塊封裝語言模型代理與環(huán)境的交互邏輯,支持多種提示和采樣配置,擴展長期規(guī)劃、自我反思等高級機制。
  • 訓(xùn)練模塊實現(xiàn)支持在線算法的統(tǒng)一強化學(xué)習(xí)管道,管理經(jīng)驗收集等,支持課程學(xué)習(xí)和交互擴展,高度模塊化,支持多訓(xùn)練方法,訓(xùn)練過程可分布在多節(jié)點。

AgentGym-RL 架構(gòu)圖:采用解耦化設(shè)計,兼具靈活性與可擴展性,能夠支持多種場景、環(huán)境類型及算法的應(yīng)用與適配。

多樣化的環(huán)境

AgentGym-RL 框架包含多種環(huán)境和豐富的任務(wù),涵蓋了網(wǎng)頁導(dǎo)航、文字游戲、具身控制、科學(xué)探索和深度搜索等多個類別 —— 精準(zhǔn)對應(yīng)了語言智能體領(lǐng)域的重要推動者、OpenAI 研究科學(xué)家姚順雨所說的 「AI 下半場落地場景」,每一類環(huán)境都指向真實世界中 AI 需要解決的實際問題。該框架支持主流的 RL 算法,并配備了廣泛的實際場景:

  • 網(wǎng)頁導(dǎo)航:對應(yīng) WebArena 等環(huán)境,包含電商、Reddit 論壇、GitLab 協(xié)作開發(fā)、OpenStreetMap 地圖、CMS 內(nèi)容管理系統(tǒng)等 5 個子任務(wù),共 372 個訓(xùn)練查詢和 50 個測試查詢。智能體需模擬人類與網(wǎng)頁交互,完成在線購物、信息提取、表單填寫等操作,涉及地圖、計算器等工具的使用。
  • 深度搜索:對應(yīng)基于搜索引擎的環(huán)境,涵蓋 NQ、TriviaQA、PopQA 等 7 個數(shù)據(jù)集的任務(wù)。智能體需通過動態(tài)生成搜索查詢、調(diào)用瀏覽器和 Python 解釋器等工具,從外部源獲取信息并整合,完成多輪檢索與推理任務(wù)。
  • 電子游戲:對應(yīng) TextCraft 等環(huán)境,這是一種類 Minecraft 的文本制作游戲。任務(wù)按制作樹深度分為 1-4 級,智能體需通過自然語言交互使用制作、 inventory 管理等 API,完成從簡單到復(fù)雜的物品制作任務(wù)。
  • 具身控制:對應(yīng) BabyAI 等環(huán)境,這是一個可控的網(wǎng)格世界,任務(wù)按最終目標(biāo)分為 6 個子集。智能體需通過自然語言指令導(dǎo)航,執(zhí)行移動、拾取物體、開門等動作,涉及空間推理和環(huán)境交互能力。
  • 科學(xué)任務(wù):對應(yīng) SciWorld 等環(huán)境,選取 8 個子任務(wù)。智能體需在模擬的科學(xué)場景中,使用實驗室儀器相關(guān) API 進行實驗(如測量溫度、連接電路、混合化學(xué)物質(zhì)),完成科學(xué)探索和假設(shè)驗證任務(wù)。

多種強化學(xué)習(xí)算法

AgentGym-RL 提供全面的算法支持,涵蓋不同的學(xué)習(xí)方法,包括監(jiān)督微調(diào)(SFT)、直接偏好優(yōu)化(DPO)、拒絕采樣和在線 RL 算法等。在線 RL 是 AgentGym-RL 的核心,支持多種主流在線 RL 算法,如近端策略優(yōu)化(PPO)、組近端策略優(yōu)化(GRPO)、增強型 REINFORCE(REINFORCE++)和基于回合的策略優(yōu)化(RLOO)等。

ScalingInter-RL:交互擴展新策略

基于 AgentGym-RL 框架,研究團隊創(chuàng)新性地提出了 ScalingInter-RL 方法,通過擴展智能體在訓(xùn)練過程中的交互輪數(shù),平衡智能體對環(huán)境的探索與利用,顯著提升智能體在復(fù)雜環(huán)境中的學(xué)習(xí)和決策能力。

ScalingInter-RL 算法示意圖

ScalingInter-RL 方法的核心在于逐步、動態(tài)地擴展智能體與環(huán)境的交互輪次。

在訓(xùn)練的初始階段,智能體的主要任務(wù)是快速學(xué)習(xí)基本技能,解決相對簡單的問題。此時,ScalingInter-RL 會限制交互輪次,引導(dǎo)智能體集中精力利用已有的知識和策略,盡可能高效地完成任務(wù)。這種策略就像是為智能體制定了一個循序漸進的學(xué)習(xí)計劃,讓它在穩(wěn)固的基礎(chǔ)上逐步成長。

隨著訓(xùn)練的穩(wěn)步推進,智能體已經(jīng)掌握了一定的基礎(chǔ)能力,此時 ScalingInter-RL 會適時地增加交互輪次。這一舉措鼓勵智能體勇敢地探索更多未知的領(lǐng)域,嘗試不同的行動和策略。通過這種方式,智能體能夠避免陷入固定的思維模式和行動路徑,不斷優(yōu)化自己的行為,從而更好地應(yīng)對復(fù)雜多變的環(huán)境。

在實際應(yīng)用中,這種策略展現(xiàn)出了顯著的優(yōu)勢。在網(wǎng)頁導(dǎo)航任務(wù)中,初始階段,智能體通過有限的交互輪次,迅速掌握了基本的網(wǎng)頁操作技能,如點擊鏈接、填寫表單等。隨著訓(xùn)練的深入,交互輪次的增加使得智能體能夠更加深入地探索網(wǎng)頁的各種功能和結(jié)構(gòu),學(xué)會了根據(jù)不同的任務(wù)需求,靈活地調(diào)整操作策略,從而更加高效地完成任務(wù)。在科學(xué)任務(wù)中,智能體在初期利用有限的交互學(xué)習(xí)基本實驗操作,隨著交互輪次的增多,能夠更全面地探索實驗條件和變量之間的關(guān)系,優(yōu)化實驗步驟,提高實驗成功率。

實驗

為了全面驗證 AgentGym-RL 框架的穩(wěn)定性和有效性,研究團隊開展了一系列廣泛且深入的實驗。這些實驗覆蓋了豐富多樣的場景和環(huán)境,旨在模擬智能體在實際應(yīng)用中可能面臨的各種復(fù)雜情況,從而全面、準(zhǔn)確地評估智能體的性能。

實驗涵蓋了五個主要場景,包括網(wǎng)頁導(dǎo)航、深度搜索、數(shù)字游戲、具身任務(wù)和科學(xué)任務(wù)。

主要結(jié)果

在 5 個不同場景(Web 導(dǎo)航、深度搜索、數(shù)字游戲、具身任務(wù)、科學(xué)任務(wù))中,使用 AgentGym-RL 框架訓(xùn)練的開源模型展現(xiàn)出了出色的多輪交互決策能力。

進一步,通過 ScalingInter-RL 方法的優(yōu)化,這些模型實現(xiàn)了顯著的性能提升,甚至超越了一些大型商業(yè)閉源模型。在網(wǎng)頁導(dǎo)航任務(wù)中,ScalingInter-7B 模型的總體準(zhǔn)確率達到了 26.00%,大幅超越了 GPT-4o 的 16.00%,與 DeepSeek-R1-0528 和 Gemini-2.5-Pro 的表現(xiàn)相當(dāng);在科學(xué)場景中,ScalingInter-7B 模型以 57.00% 的總體得分創(chuàng)下新的最優(yōu)成績,遠超所有開源和專有模型,包括排名第二的專有模型 OpenAI o3(41.50%)。

因篇幅所限,此處僅展示部分實驗結(jié)果,更多詳細結(jié)果請查閱論文。實驗結(jié)果表明,經(jīng) ScalingInter-RL 算法訓(xùn)練的模型在多個環(huán)境中均達到了領(lǐng)先水平,實現(xiàn)了顯著的性能提升。

在 WebArena 環(huán)境下的實驗結(jié)果。

在 SciWorld 環(huán)境下的實驗結(jié)果。

ScalingInter-RL 展現(xiàn)更穩(wěn)定高效的強化學(xué)習(xí)優(yōu)化動態(tài)

ScalingInter-RL 方法在訓(xùn)練穩(wěn)定性與效率上顯著優(yōu)于傳統(tǒng)方案。實驗表明,訓(xùn)練周期內(nèi),采用該方法的智能體獎勵值始終保持上升趨勢,而固定輪次模型 150 步后獎勵值衰減 32%。這種穩(wěn)定性源于其漸進式交互設(shè)計 —— 通過動態(tài)調(diào)整交互深度,使智能體在技能積累階段避免因探索過度導(dǎo)致的策略震蕩,在優(yōu)化階段又能保持足夠的行為多樣性。

效率方面,ScalingInter-RL 方法同樣提升顯著。TextCraft 任務(wù)中,ScalingInter-RL 以傳統(tǒng)方法 60% 步數(shù)達成 89% 成功率;WebArena 導(dǎo)航任務(wù)里,單位計算量性能增益是 PPO 算法 1.8 倍,適合大規(guī)模多場景訓(xùn)練。

ScalingInter-RL和傳統(tǒng)RL算法的訓(xùn)練動態(tài)對比

后訓(xùn)練與測試時計算量比模型規(guī)模具有更高的縮放潛力

實驗得出一個關(guān)鍵見解:有策略地投入后訓(xùn)練計算和測試時計算,比僅僅增加模型的參數(shù)數(shù)量更具影響力。7B 參數(shù)的 ScalingInter-RL 模型在經(jīng)過本文研究者的強化學(xué)習(xí)框架訓(xùn)練后,不僅超過了其他同等規(guī)模的開源模型,還顯著優(yōu)于參數(shù)規(guī)模近其十倍的更大模型。

這表明,針對性的訓(xùn)練與推理計算投資,比單純擴大模型參數(shù)更具性價比。

本文框架和方法通過后訓(xùn)練,顯著提升了7B參數(shù)規(guī)模開源模型的能力,不僅超過了其他同等規(guī)模的開源模型,且顯著優(yōu)于參數(shù)規(guī)模近其十倍的更大模型。

環(huán)境結(jié)構(gòu)是決定強化學(xué)習(xí)效率的關(guān)鍵因素

不同場景的結(jié)構(gòu)特性對 RL 訓(xùn)練效果產(chǎn)生顯著分化影響。在規(guī)則明確、反饋清晰的環(huán)境(如 TextCraft、BabyAI、SciWorld)中,RL 能帶來大幅性能提升;而在開放式環(huán)境(如 WebArena、SearchQA)中,性能提升則有限。

這表明,環(huán)境的規(guī)則明確性、狀態(tài)可觀測性和獎勵稀疏度,共同構(gòu)成了 RL 算法效率的邊界條件 —— 當(dāng)環(huán)境復(fù)雜度超出智能體的狀態(tài)表征能力時,即使最優(yōu)訓(xùn)練策略也難以發(fā)揮作用。

討論

研究團隊從三個角度調(diào)查了智能體表現(xiàn)如何隨推理時計算增加:

  • 擴展交互輪次:隨著推理時交互輪次的增加,所有模型的性能均呈現(xiàn)上升趨勢,其中經(jīng) AgentGym-RL 訓(xùn)練的智能體始終保持領(lǐng)先優(yōu)勢,驗證了交互擴展對環(huán)境探索的重要性。

隨著測試時交互輪次的增加,所有模型的性能均呈現(xiàn)上升趨勢。

  • 擴展采樣數(shù)量:在并行采樣方面,增加采樣數(shù)量(K 值)能顯著提升 Pass@K 指標(biāo),且經(jīng) RL 訓(xùn)練的模型在相同采樣預(yù)算下表現(xiàn)更優(yōu)。

隨著采樣數(shù)量的增加,所有模型的性能均呈上升趨勢。

  • 不同 RL 算法比較:對比 GRPO 與 REINFORCE++ 兩種主流 RL 算法發(fā)現(xiàn),GRPO 在 TextCraft、BabyAI 和 SearchQA 任務(wù)上均顯著優(yōu)于 REINFORCE++。即使 3B 參數(shù)的 GRPO 模型,其性能也超過 7B 參數(shù)的 REINFORCE++ 模型,表明算法選擇對性能的影響可能大于模型規(guī)模。

模型在不同強化學(xué)習(xí)算法下的測試結(jié)果

真實交互示例

不妨聚焦這些真實交互場景 —— 在以 BabyAI 為代表的具身任務(wù)中,該研究中的智能體展現(xiàn)出了卓越性能。以 「找到黃色小球并帶回起點」 這一任務(wù)為例,其不僅要求智能體具備基礎(chǔ)的路徑規(guī)劃與避障能力,還涉及更為復(fù)雜的長程依賴與順序規(guī)劃邏輯。跨步驟的信息利用能力、動態(tài)化的探索策略,以及對多階段任務(wù)的全局把控能力,使得該任務(wù)的難度遠超單一反應(yīng)類操作。

而基于 AgentGym-RL 框架、經(jīng) ScalingInter 算法訓(xùn)練的智能體,正是在這類高難度場景中展現(xiàn)出了令人矚目的表現(xiàn)。它不僅能精準(zhǔn)理解任務(wù)核心目標(biāo),還能在多扇彩色門與未知房間構(gòu)成的復(fù)雜環(huán)境中,開展有條理的探索活動,合理規(guī)劃行動順序;當(dāng)確認某一區(qū)域無探索價值后,更能主動離開并轉(zhuǎn)向新的探索路徑。尤為難得的是,它能高效利用已獲取的環(huán)境信息,將分散在不同時間節(jié)點的觀察結(jié)果串聯(lián)起來,構(gòu)建連貫的決策鏈路。正是這種跨步驟的信息整合能力與動態(tài)調(diào)整機制,讓它在復(fù)雜環(huán)境中始終保持清晰且高效的任務(wù)執(zhí)行能力。

而在以 WebArena 環(huán)境為代表的真實網(wǎng)頁交互場景中,智能體需要面對充斥著大量噪音的網(wǎng)頁界面,真正的功能入口往往被隱藏在層層標(biāo)簽頁和復(fù)雜的交互邏輯之下。若缺乏對頁面結(jié)構(gòu)的理解,智能體很容易陷入低效的窮舉式搜索。然而,基于 AgentGym-RL 框架、經(jīng) ScalingInter 算法訓(xùn)練后,智能體能夠主動點擊 「Sales」 標(biāo)簽頁,精準(zhǔn)鎖定與任務(wù)相關(guān)的入口,并進一步利用內(nèi)置的 「Filter」 功能進行篩選,而不是依賴低效的遍歷查看。這一系列操作表明它已經(jīng)掌握了網(wǎng)頁的結(jié)構(gòu)與規(guī)則,并能基于探索經(jīng)驗選擇更高效的策略,從而顯著提升任務(wù)的準(zhǔn)確性與執(zhí)行效率。

結(jié)論與展望:以經(jīng)驗學(xué)習(xí)開啟 AI 下半場的自主智能體時代

AgentGym-RL 框架的推出,不僅是自主 LLM 智能體訓(xùn)練領(lǐng)域的一次技術(shù)突破,更標(biāo)志著 AI 行業(yè)向「經(jīng)驗時代」的深度邁進。

從技術(shù)層面看,AgentGym-RL 通過統(tǒng)一的端到端 RL 框架,解決了自主智能體訓(xùn)練中 「場景單一、算法割裂、效率低下」 的痛點,讓 「從經(jīng)驗中學(xué)習(xí)」 成為標(biāo)準(zhǔn)化、可復(fù)現(xiàn)的技術(shù)路徑;而 ScalingInter-RL 方法則通過漸進式交互輪次擴展,平衡了經(jīng)驗探索與利用的關(guān)系,讓智能體能夠像人類一樣 「循序漸進積累能力」。實驗數(shù)據(jù)充分證明了這一方案的價值:7B 參數(shù)的開源模型在 26 項任務(wù)中對標(biāo)甚至超越頂級閉源模型,為 AI 下半場的技術(shù)發(fā)展提供了新范式。

然而,探索的道路永無止境。未來,本文研究者們將重點關(guān)注以下三個方向:

1. 通用能力升級:使智能體打破 「領(lǐng)域壁壘」,在全新環(huán)境和面對未知工具時仍能進行高效決策;

2. 復(fù)雜場景拓展:向更長周期、更貼近物理世界的任務(wù)拓展,例如機器人操作、現(xiàn)實場景規(guī)劃等,以應(yīng)對更豐富的感官輸入和龐大的行動空間;

3. 多智能體協(xié)同:從 「單打獨斗」 轉(zhuǎn)向 「團隊協(xié)作」,探索多智能體系統(tǒng)的訓(xùn)練模式,以解鎖更復(fù)雜的群體決策能力。

AgentGym-RL 框架已全面開源,期待與全球研究者攜手,共同推動下一代智能體的發(fā)展,讓人工智能在現(xiàn)實世界中展現(xiàn)出更卓越的 「行動力」!

本研究得到了華為昇騰 AI 處理器的算力支持。在昇騰和開源社區(qū)的努力下,諸多大模型訓(xùn)練框架均已支持昇騰 AI 處理器。此外,昇騰聯(lián)合 vllm 社區(qū)推出了 vllm-ascend 框架,極大提升了百億乃至千億級參數(shù)量的大模型在國產(chǎn)算力上的推理效率。在本研究中,昇騰 910B NPU 在多個實驗階段中發(fā)揮作用 ,提高了研究效率。

責(zé)任編輯:張燕妮 來源: 機器之心
相關(guān)推薦

2025-08-29 09:16:06

2020-04-15 16:44:38

谷歌強化學(xué)習(xí)算法

2021-07-09 22:54:38

昇騰產(chǎn)業(yè)升級智能化

2024-06-13 09:20:26

2022-06-30 09:16:17

昇騰

2022-11-16 15:37:42

昇騰AI

2022-11-09 13:42:16

鯤鵬昇騰

2020-03-30 12:35:53

華為

2025-07-10 14:51:29

人工智能AI模型

2022-11-23 16:54:49

昇思

2023-09-06 19:44:26

昇騰

2025-02-18 11:02:49

2021-07-07 18:04:33

計算

2022-11-08 16:20:08

昇騰

2025-06-06 14:30:52

點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 澜沧| 板桥市| 开远市| 奈曼旗| 富平县| 乌兰县| 保亭| 慈利县| 喀什市| 德保县| 三门县| 沁源县| 尖扎县| 蒙城县| 拉萨市| 景泰县| 都昌县| 龙陵县| 纳雍县| 平武县| 涪陵区| 新丰县| 三亚市| 五大连池市| 焦作市| 上高县| 扎兰屯市| 乌拉特中旗| 大理市| 花垣县| 宁化县| 寻甸| 商城县| 安仁县| 册亨县| 博乐市| 射阳县| 龙口市| 汝阳县| 忻城县| 扶风县|