精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

Memory-R1:強(qiáng)化學(xué)習(xí)如何大幅提升 LLM 記憶 Agent 能力

譯文 精選
人工智能
大語(yǔ)言模型(LLMs)已成為眾多 AI 突破的核心技術(shù),廣泛應(yīng)用于聊天機(jī)器人、編程助手、問(wèn)答系統(tǒng)、創(chuàng)意寫作等領(lǐng)域。然而,盡管功能強(qiáng)大,這些模型仍然是無(wú)狀態(tài)的:每次查詢都是獨(dú)立的,無(wú)法記住之前的交互內(nèi)容。受到固定上下文窗口的限制,它們無(wú)法在長(zhǎng)時(shí)間對(duì)話或跨會(huì)話任務(wù)中積累持久記憶,更難以基于復(fù)雜的歷史信息進(jìn)行推理。

譯者 | 劉汪洋

審校 | 重樓

Memory-R1 通過(guò)強(qiáng)化學(xué)習(xí)為 LLM 智能體提供主動(dòng)且高效的記憶管理能力,實(shí)現(xiàn)了最先進(jìn)的效果。

大語(yǔ)言模型(LLMs)已成為眾多 AI 突破的核心技術(shù),廣泛應(yīng)用于聊天機(jī)器人、編程助手、問(wèn)答系統(tǒng)、創(chuàng)意寫作等領(lǐng)域。然而,盡管功能強(qiáng)大,這些模型仍然是無(wú)狀態(tài)的:每次查詢都是獨(dú)立的,無(wú)法記住之前的交互內(nèi)容。受到固定上下文窗口的限制,它們無(wú)法在長(zhǎng)時(shí)間對(duì)話或跨會(huì)話任務(wù)中積累持久記憶,更難以基于復(fù)雜的歷史信息進(jìn)行推理。雖然檢索增強(qiáng)生成(RAG)等近期方案試圖通過(guò)在提示中附加歷史信息來(lái)解決這一問(wèn)題,但往往產(chǎn)生嘈雜、未經(jīng)篩選的上下文,要么用大量無(wú)關(guān)細(xì)節(jié)淹沒模型,要么遺漏關(guān)鍵信息。

來(lái)自慕尼黑大學(xué)、慕尼黑工業(yè)大學(xué)、劍橋大學(xué)和香港大學(xué)的聯(lián)合研究團(tuán)隊(duì)提出了 Memory-R1,一個(gè)能夠教會(huì) LLM 智能體如何決定記憶內(nèi)容和使用方式的創(chuàng)新框架。在這個(gè)框架下,LLM 智能體學(xué)會(huì)了主動(dòng)管理和運(yùn)用外部記憶,可以自主決定哪些信息需要添加、更新、刪除或忽略,并在回答問(wèn)題時(shí)有效過(guò)濾噪音。關(guān)鍵創(chuàng)新是利用強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練這些行為:系統(tǒng)只需要基于結(jié)果的獎(jiǎng)勵(lì)信號(hào)就能學(xué)習(xí),大大減少了監(jiān)督需求,同時(shí)在多種模型和任務(wù)中都表現(xiàn)出色。

LLMs 為什么難以處理記憶?

設(shè)想這樣一個(gè)多輪對(duì)話場(chǎng)景:用戶在第一輪中說(shuō):"我領(lǐng)養(yǎng)了一只叫 Buddy 的狗。"隨后又補(bǔ)充:"我又領(lǐng)養(yǎng)了一只叫 Scout 的狗。"面對(duì)這種情況,系統(tǒng)應(yīng)該替換原有信息、合并兩條信息,還是忽略這次更新?傳統(tǒng)記憶系統(tǒng)往往會(huì)判斷失誤,它們可能刪除"Buddy"的記錄并添加"Scout",錯(cuò)誤地將新信息理解為矛盾而非補(bǔ)充。久而久之,這類系統(tǒng)會(huì)失去連貫性,導(dǎo)致用戶知識(shí)呈現(xiàn)碎片化而非有機(jī)演進(jìn)。

RAG 系統(tǒng)雖能檢索信息,卻缺乏過(guò)濾機(jī)制:無(wú)關(guān)條目會(huì)污染推理過(guò)程,噪音干擾模型的注意力。而人類的做法截然不同,我們會(huì)廣泛搜索信息,然后有選擇地篩選出重要內(nèi)容。目前大多數(shù) AI 記憶系統(tǒng)都是靜態(tài)的,依賴人工設(shè)計(jì)的啟發(fā)式規(guī)則來(lái)決定記憶內(nèi)容,而非通過(guò)反饋進(jìn)行學(xué)習(xí)。

Memory-R1 框架

Memory-R1 的核心架構(gòu)包含兩個(gè)專門的 RL 微調(diào)智能體:

  • 記憶管理器:在每輪對(duì)話結(jié)束后決定執(zhí)行何種記憶操作(添加、更新、刪除或無(wú)操作),動(dòng)態(tài)維護(hù)外部記憶庫(kù)。
  • 回答 Agent:針對(duì)每個(gè)用戶問(wèn)題,檢索最多 60 個(gè)候選記憶片段,將其精煉為最相關(guān)的子集,然后基于這些過(guò)濾后的上下文進(jìn)行推理并生成答案。

兩個(gè)組件均采用強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練——具體使用近端策略優(yōu)化(PPO)或群體相對(duì)策略優(yōu)化(GRPO)算法——僅將問(wèn)答準(zhǔn)確性作為獎(jiǎng)勵(lì)信號(hào)。這意味著智能體無(wú)需人工標(biāo)注的記憶操作數(shù)據(jù),而是通過(guò)試錯(cuò)機(jī)制學(xué)習(xí),直接優(yōu)化最終任務(wù)性能。

記憶管理器:學(xué)習(xí)編輯知識(shí)

每輪對(duì)話結(jié)束后,LLM 會(huì)提取其中的關(guān)鍵事實(shí)。記憶管理器隨即從記憶庫(kù)中檢索相關(guān)條目,并選擇相應(yīng)的操作:

  • 添加:插入尚未存在的新信息。
  • 更新:當(dāng)新細(xì)節(jié)詳細(xì)說(shuō)明或完善先前事實(shí)時(shí),將其合并到現(xiàn)有記憶中。
  • 刪除:移除過(guò)時(shí)或矛盾的信息。
  • 無(wú)操作:如果沒有添加相關(guān)內(nèi)容,則保持記憶不變。

訓(xùn)練:記憶管理器根據(jù)回答 Agent 基于新編輯的記憶庫(kù)所生成答案的質(zhì)量來(lái)進(jìn)行更新。如果記憶操作能夠幫助回答 Agent 生成準(zhǔn)確回答,記憶管理器就會(huì)獲得正獎(jiǎng)勵(lì)。這種基于結(jié)果的獎(jiǎng)勵(lì)機(jī)制避免了對(duì)記憶操作進(jìn)行大量人工標(biāo)注。

具體案例:當(dāng)用戶先說(shuō)"我領(lǐng)養(yǎng)了一只叫 Buddy 的狗",后來(lái)又說(shuō)"我又領(lǐng)養(yǎng)了一只叫 Scout 的狗"時(shí),傳統(tǒng)系統(tǒng)往往會(huì)刪除"Buddy"的記錄并添加"Scout",錯(cuò)誤地將其視為矛盾信息。而經(jīng)過(guò) RL 訓(xùn)練的記憶管理器則會(huì)更新記憶為:"Andrew 領(lǐng)養(yǎng)了兩只狗,Buddy 和 Scout",從而維持了知識(shí)庫(kù)的連貫性和成長(zhǎng)性。

消融實(shí)驗(yàn):RL 微調(diào)顯著改善了記憶管理,PPO 和 GRPO 都優(yōu)于基于上下文的啟發(fā)式管理器。系統(tǒng)實(shí)現(xiàn)了知識(shí)的融合貫通,而非割裂分散。

回答 Agent:選擇性推理

對(duì)于每個(gè)問(wèn)題,系統(tǒng)使用 RAG 檢索多達(dá) 60 個(gè)候選記憶。但回答 Agent不是將所有這些都輸入給 LLM,而是首先對(duì)候選集進(jìn)行提煉,只保留最相關(guān)的條目,然后再生成答案。

訓(xùn)練:回答 Agent 也使用 RL 訓(xùn)練,使用其答案與標(biāo)準(zhǔn)答案之間的精確匹配作為獎(jiǎng)勵(lì)。這鼓勵(lì)它專注于過(guò)濾噪音和在高質(zhì)量上下文上進(jìn)行推理。

示例:當(dāng)被問(wèn)到"John 住在海灘附近還是山區(qū)附近?"時(shí),傳統(tǒng) LLM 受到無(wú)關(guān)記憶的影響可能輸出"山區(qū)"。然而,Memory-R1 的回答 Agent 在回答之前只提取海灘相關(guān)的條目,從而得出正確的"海灘"回答。

消融實(shí)驗(yàn)結(jié)果:RL 微調(diào)顯著提升了靜態(tài)檢索的答案質(zhì)量。記憶精煉(過(guò)濾無(wú)關(guān)記憶)機(jī)制進(jìn)一步提升了性能表現(xiàn)。在更優(yōu)秀的記憶管理器配合下,收益更為明顯,產(chǎn)生了多重疊加的改進(jìn)效果。

訓(xùn)練數(shù)據(jù)效率

Memory-R1 的訓(xùn)練非常高效:只用 152 個(gè)問(wèn)答對(duì)就能訓(xùn)練出有效的模型。原因在于智能體能直接從最終結(jié)果中學(xué)習(xí),不需要大量人工標(biāo)注的記憶操作數(shù)據(jù)。這種最小化監(jiān)督的方式使系統(tǒng)能夠輕松擴(kuò)展到大規(guī)模、真實(shí)世界的對(duì)話歷史場(chǎng)景。

評(píng)估采用的 LOCOMO 基準(zhǔn)包含多輪對(duì)話(每個(gè)對(duì)話約 600 輪,平均 26,000 tokens)及相應(yīng)的問(wèn)答對(duì),涵蓋單跳推理、多跳推理、開放域問(wèn)答和時(shí)間推理等多個(gè)維度——這為測(cè)試長(zhǎng)期記憶管理能力提供了理想的評(píng)估環(huán)境。

實(shí)驗(yàn)結(jié)果

研究團(tuán)隊(duì)在 LLaMA-3.1-8B-Instruct 和 Qwen-2.5-7B-Instruct 兩個(gè)基礎(chǔ)模型上測(cè)試了 Memory-R1,并與多個(gè)對(duì)比基準(zhǔn)(LOCOMO、Zep、A-Mem、LangMem、Mem0)進(jìn)行對(duì)比。主要評(píng)估指標(biāo)包括:

  • F1 分?jǐn)?shù):衡量預(yù)測(cè)答案與標(biāo)準(zhǔn)答案之間的重疊程度。
  • BLEU-1 分?jǐn)?shù):評(píng)估單詞級(jí)別的詞匯相似性。
  • LLM 評(píng)判:采用獨(dú)立的 LLM 代替人類來(lái)評(píng)估答案的事實(shí)準(zhǔn)確性、相關(guān)性和完整性。
  • 實(shí)驗(yàn)結(jié)果:Memory-R1-GRPO 實(shí)現(xiàn)了最佳整體性能,在 LLaMA-3.1-8B 模型上相比 Mem0(此前的最佳基線)實(shí)現(xiàn)了 F1 分?jǐn)?shù) 48% 的提升、BLEU-1 分?jǐn)?shù) 69% 的提升,以及 LLM 評(píng)判分?jǐn)?shù) 37% 的提升。在 Qwen-2.5-7B 模型上也觀察到了類似的明顯改進(jìn)。這些改進(jìn)效果涵蓋各類問(wèn)題,且在多種模型架構(gòu)中都能復(fù)現(xiàn)。

為什么這很重要

Memory-R1 證明了記憶管理和利用能力是可以習(xí)得的,LLM 智能體無(wú)需依賴脆弱的啟發(fā)式規(guī)則。通過(guò)采用結(jié)果驅(qū)動(dòng)的 RL 方法,該系統(tǒng)實(shí)現(xiàn)了:

  • 知識(shí)的自動(dòng)整合,伴隨對(duì)話發(fā)展而非簡(jiǎn)單分割或覆蓋。
  • 有效的噪音過(guò)濾,在回答過(guò)程中提升事實(shí)準(zhǔn)確性和推理質(zhì)量。
  • 高效的學(xué)習(xí)機(jī)制,僅需少量監(jiān)督即可擴(kuò)展至真實(shí)世界的長(zhǎng)期任務(wù)。
  • 良好的跨模型泛化性,為下一代智能體式、記憶感知 AI 系統(tǒng)奠定了堅(jiān)實(shí)基礎(chǔ)。

結(jié)論

Memory-R1 成功將 LLM 智能體從無(wú)狀態(tài)限制中解放出來(lái),通過(guò)強(qiáng)化學(xué)習(xí)賦予它們有效管理和運(yùn)用長(zhǎng)期記憶的能力。通過(guò)將記憶操作和信息過(guò)濾重新定義為 RL 問(wèn)題,該方法以最小的監(jiān)督需求和優(yōu)異的通用性達(dá)到了頂尖的性能表現(xiàn)。這意味著 AI 系統(tǒng)正從單純的對(duì)話能力邁向具備記憶、學(xué)習(xí)和推理能力的智能體,為用戶提供更加豐富、持久且實(shí)用的 AI 體驗(yàn)。

常見問(wèn)題解答

問(wèn)題1:Memory-R1 相比傳統(tǒng) LLM 記憶系統(tǒng)有何優(yōu)勢(shì)?

Memory-R1 采用強(qiáng)化學(xué)習(xí)主動(dòng)管理記憶,即智能決定信息的添加、更新、刪除或保留。相比靜態(tài)的啟發(fā)式方法,實(shí)現(xiàn)了更加智能的知識(shí)整合和更少的信息碎片化。

問(wèn)題2:Memory-R1如何提升長(zhǎng)對(duì)話中的答案質(zhì)量?

回答 Agent 采用"記憶精煉"策略:從檢索到的最多 60 個(gè)記憶片段中篩選出與當(dāng)前問(wèn)題最相關(guān)的內(nèi)容,相比于簡(jiǎn)單地將所有上下文直接輸入模型,這種方式有效減少了噪音干擾并大幅改善了事實(shí)準(zhǔn)確性。

問(wèn)題3:Memory-R1 的訓(xùn)練數(shù)據(jù)效率如何?

非常高效。Memory-R1 僅使用 152 個(gè)問(wèn)答對(duì)就達(dá)到了業(yè)界領(lǐng)先的性能提升,這得益于其面向結(jié)果的 RL 獎(jiǎng)勵(lì)機(jī)制,避免了對(duì)每個(gè)記憶操作進(jìn)行昂貴人工標(biāo)注的需要。

查看論文鏈接。歡迎查看我們的GitHub頁(yè)面獲取教程、代碼和筆記

原文標(biāo)題:Memory-R1: How Reinforcement Learning Supercharges LLM Memory Agents,作者:Asif Razzaq

譯者介紹

劉汪洋,51CTO社區(qū)編輯,昵稱:明明如月,一個(gè)擁有 5 年開發(fā)經(jīng)驗(yàn)的某大廠高級(jí) Java 工程師。

責(zé)任編輯:姜華 來(lái)源: 51CTO內(nèi)容精選
相關(guān)推薦

2024-09-30 14:40:00

AI強(qiáng)化學(xué)習(xí)框架

2025-06-23 09:09:00

2025-03-25 09:12:00

LIMAI模型

2023-04-23 10:12:14

算法強(qiáng)化學(xué)習(xí)

2025-05-30 04:00:00

IBMRLVRGRPO

2025-05-28 02:25:00

2025-04-09 09:41:43

2025-04-09 09:15:00

數(shù)據(jù)模型AI

2025-02-25 08:06:05

2025-06-16 08:46:00

2024-09-13 06:32:25

2025-06-10 11:22:09

強(qiáng)化學(xué)習(xí)AI模型

2025-04-25 13:34:53

R1DeepSeekAgent

2025-06-09 09:32:35

2025-06-23 09:26:24

2025-03-07 09:24:00

2025-06-05 06:36:17

2025-04-27 09:23:00

模型訓(xùn)練AI

2025-02-20 09:11:28

2023-03-09 08:00:00

強(qiáng)化學(xué)習(xí)機(jī)器學(xué)習(xí)圍棋
點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 澄迈县| 淮阳县| 安溪县| 汾西县| 高唐县| 贵阳市| 元朗区| 普陀区| 乌鲁木齐县| 镇宁| 涿州市| 双辽市| 潼南县| 定结县| 外汇| 大荔县| 元阳县| 广饶县| 华安县| 乌拉特中旗| 太康县| 柏乡县| 大竹县| 鹤壁市| 南投县| 陆川县| 准格尔旗| 会宁县| 沂南县| 五寨县| 涟水县| 九龙城区| 元江| 确山县| 夏邑县| 台山市| 开江县| 合作市| 商南县| 永兴县| 象州县|