Agent planning終篇：打造更聰明的智能體！

發布于 2024-8-9 16:34

瀏覽

0收藏

今天我們從另外一個角度對規劃能力進行總結，明天開始我們會分享關于Memory相關的內容。當我們談論LLM支撐的Agent時，規劃模塊（Planning Module）是它們智能行為的核心。想象一下，如果你要完成一項復雜的任務，比如組織一場大型活動，你可能會把它分解成一系列小任務，然后逐一解決。智能體的規劃模塊也是這么干的！

規劃模塊的設計理念是模擬人類的規劃能力，它能讓智能體更合理、更強大、更可靠地行動。

Agent planning終篇：打造更聰明的智能體！-AI.x社區

首先，我們得決定智能體在規劃過程中是否能接收外部反饋。沒有外部反饋的情況下，智能體就像一個孤獨的思考者，它依靠內部的邏輯和預設的規則來制定計劃。比如，使用CoT（Chain of Thought）模型，智能體會將復雜問題分解成多個推理步驟，每一步都緊密相連，引導LLM按順序解決問題。這就像按照食譜做菜，食譜上的每個步驟都直接對應下一步，確保了最終的菜肴能夠成功完成。

還有一種是多路徑推理，這就像我們在做決定時，腦海中可能會同時出現好幾個選項。例如，ToT（Tree of Thoughts）模型，它將推理步驟組織成一個樹狀結構，每個中間步驟都可能有多個子步驟，模擬了人類在每個決策點上的多種可能性。

Agent planning終篇：打造更聰明的智能體！-AI.x社區

單路徑和多路徑推理策略的比較

但是，現實世界是復雜的，有時候我們的計劃需要根據外界的反饋來調整。這就是有外部反饋的規劃。想象一下，你在建造一個模型飛機，每次試飛后你都會根據飛行情況來調整設計。智能體也是這樣，它會根據環境的反饋來調整自己的行動計劃。例如，Voyager模型在Minecraft游戲中通過環境反饋來改進其建筑技能的執行代碼，或者SayPlan模型使用場景圖模擬器來驗證和完善其戰略規劃。

環境反饋是智能體從客觀世界或虛擬環境中獲得的信號，比如游戲任務的完成信號或者智能體行動后的環境變化。人類反饋則更主觀，它可以幫助智能體更好地符合人類的價值觀和偏好。例如，Inner Monologue模型通過積極地從人類那里獲取關于場景描述的反饋，并將這些反饋整合到自己的行動中。

還有模型反饋，這是基于預訓練模型生成的內部反饋，可以幫助智能體自我檢查和改進。例如，SelfCheck模型允許智能體檢查和評估自己在各個階段生成的推理步驟，并通過比較結果來糾正錯誤。

Agent planning終篇：打造更聰明的智能體！-AI.x社區