精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

DeepDiver-V2來了,華為最新開源原生多智能體系統(tǒng),“團戰(zhàn)”深度研究效果驚人

人工智能 新聞
華為最新發(fā)布DeepDiver-V2原生多智能體系統(tǒng)。采用了“團隊作戰(zhàn)”模式:一個Planner負責任務分解,任務分發(fā),進度審視和成果驗收,多個專業(yè)Executor并行處理子任務,通過共享文件系統(tǒng)高效交換信息。

讓智能體組團搞深度研究,效果爆表!

華為最新發(fā)布DeepDiver-V2原生多智能體系統(tǒng)

采用了“團隊作戰(zhàn)”模式:一個Planner負責任務分解,任務分發(fā),進度審視和成果驗收,多個專業(yè)Executor并行處理子任務,通過共享文件系統(tǒng)高效交換信息。

與僅通過推理框架實現(xiàn)的多智能體系統(tǒng)不同,DeepDiver-V2以多智能體形態(tài)進行訓練,模型天然具備更強的角色扮演和協(xié)同推理能力。這套系統(tǒng)不僅在復雜知識問答任務上取得突破,更是能夠生成數(shù)萬字的高質(zhì)量深度研究報告,在多個榜單中表現(xiàn)亮眼。

它基于華為openPangu Agent推出的DeepDiver-V2,這是一個專攻AI深度搜索和長文調(diào)研報告生成的模型。目前已開源。

  • 開源模型地址:https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver
  • 技術(shù)報告地址:https://ai.gitcode.com/ascend-tribe/openPangu-Embedded-7B-DeepDiver/blob/main/docs/openpangu-deepdiver-v2-tech-report.pdf

性能爆表:優(yōu)于同規(guī)格競品

數(shù)字最有說服力。DeepDiver-V2-7B和DeepDiver-V2-38B和在多個權(quán)威基準測試中表現(xiàn)亮眼:

  • BrowseComp-zh:DeepDiver-V2-38B達到34.6分,超越WebSailor-72B(30.1分)和WebSailor-32B(25.5分);DeepDiver-V2-7B同樣超過了WebSailor和MiroThinker同規(guī)格模型。
  • BrowseComp-en:DeepDiver-V2-38B達到13.4分,同規(guī)模開源模型中最高, 也超過了WebSailor-72B。

在長文報告生成方面,DeepDiver-V2提出了一個全新的面向深度調(diào)研報告生成的基準測試WebPuzzle-Writing,該基準給每個調(diào)研query設置了詳細的調(diào)研范圍而非開放生成,可以更加方便多個模型之間的橫評。

在該測試中,DeepDiver-V2生成的報告平均長度達24.6K tokens,是OpenAI o3 DeepResearch(10.6K)的兩倍多。自動評測結(jié)果也顯示DeepDiverV2效果與主流agent產(chǎn)品相當, 在信息度上格外亮眼,Content Diversity指標優(yōu)于其他模型。

架構(gòu)創(chuàng)新:從單兵作戰(zhàn)到團隊協(xié)作

團隊之前的研究成果DeepDiver-V1就像一個全能選手,需要在一個超長的上下文窗口中處理所有任務,結(jié)果往往因為負擔過重而表現(xiàn)不佳。DeepDiver-V2改變了這一模式。它采用以Planner(規(guī)劃器)為中心, 協(xié)調(diào)多個Executor(執(zhí)行器)的MAS(Multi-Agent System,多智能體系統(tǒng))架構(gòu)。

智能任務分解

Planner接到復雜查詢后,會進行自適應復雜度評估。簡單問題直接處理,復雜問題則構(gòu)建一個”任務樹”,將大任務層層分解為可并行/串行/嵌套執(zhí)行的子任務。

Planner甚至會采用”競爭賽馬”機制——讓多個 Executor同時處理相似任務,通過交叉驗證提高結(jié)果可靠性。

文件系統(tǒng)通信

不同于DeepDiver-V1使用單個上下文窗口處理多個任務,智能體之間各自執(zhí)行任務, 并通過共享文件系統(tǒng)交換信息:

交換的信息 = {當前任務摘要, 任務執(zhí)行過程產(chǎn)生的中間物料的元數(shù)據(jù)}

每個智能體只需傳遞精煉的任務摘要和文件元數(shù)據(jù),而非完整上下文。詳細內(nèi)容存儲在共享文件中,其他智能體按需讀取。這種設計帶來三大優(yōu)勢:

1、可擴展通信:消息大小保持可控,不受任務復雜度影響。2、持久化狀態(tài):歷史信息得以完整保存,LLM Agents無需維護完整對話歷史。3、并行執(zhí)行:獨立子任務可同時處理,避免上下文沖突。

專業(yè)化分工

系統(tǒng)包含兩類核心Executor:

1、Information Seeker(信息搜集助手):負責證據(jù)收集, 驗證, 去噪等。Information Seeker可以網(wǎng)羅相關(guān)信息, 篩選特定信息源, 深度分析并提取關(guān)鍵事實和數(shù)據(jù), 迭代式的完善收集到的信息以解決Planner分發(fā)的任務。

2、Writer(寫作助手):負責長文本生成, writer可以構(gòu)建章節(jié)大綱, 并分配資料到各個章節(jié). Writer使用逐章節(jié)寫作的方式, 并能夠迭代式的完善行文, 能夠保持全局的連貫性。

MAS(多智能體系統(tǒng))訓練

訓練多智能體系統(tǒng)面臨獨特挑戰(zhàn):當最終任務失敗時,如何判斷是哪個智能體的責任?當最終任務成功時, 如何判斷是哪個智能體做出了貢獻? DeepDiver-V2提出了Planner-centric(以規(guī)劃器為中心的)的分配機制。

訓練流程采用多階段優(yōu)化:

1、冷啟動監(jiān)督微調(diào)首先讓模型學會基本的多角色協(xié)作、工具調(diào)用和文件系統(tǒng)操作,奠定多智能體能力基礎(chǔ)。

2、拒絕采樣微調(diào)(RFT)

  • Trajectory-wise(按軌跡粒度的)過濾:從planner的視角出發(fā), 保留得出正確答案的執(zhí)行路徑。
  • Step-wise(按步驟粒度的)評分:使用LLM評判每個planner中間步驟的質(zhì)量(1-10分)。
  • Credit Broadcasting(信用傳播):planner的評分通過任務分配和協(xié)調(diào)關(guān)系傳播到executor軌跡上,這種從粗到細的過濾確保只有高質(zhì)量的推理步驟用于訓練。

3、在線RFT

在離線RFT的基礎(chǔ)上, DeepDiver使用相同的credit assignment策略,進一步進行在線RFT訓練, 結(jié)合partial rollout(部分軌跡采樣) 和dynamic rollout-buffered batching(動態(tài)軌跡緩存批處理)策略, DeepDiver-V2的在線訓練得以高效且穩(wěn)定的進行。

訓練數(shù)據(jù)上, DeepDiver-V2繼續(xù)沿用了DeepDiver-V1的訓練數(shù)據(jù)WebPuzzle, 然而在WebPuzzle的基礎(chǔ)上, DeepDiver-V2進一步增加了更多有挑戰(zhàn)性, 驗證性更強的數(shù)據(jù), 同時加入了原本W(wǎng)ebPuzzle沒有的長文寫作數(shù)據(jù). 經(jīng)過了這些數(shù)據(jù)的訓練, DeepDiver-V2表現(xiàn)出了更強大的性能。

技術(shù)支撐:純血昇騰NPU集群加速

DeepDiver-V2的訓練完全使用Atlas 800I A2集群進行, 依托于1000+ NPU組成的大規(guī)模計算集群。每個節(jié)點包含8個 NPU,這些NPU通過華為高速緩存一致性系統(tǒng)(HCCS)以全互聯(lián)拓撲相連,每個NPU配備64GB內(nèi)存。用于跨節(jié)點通信時,集群采用基于以太網(wǎng)的RDMA,通過200 Gbps鏈路為跨節(jié)點的NPU提供高帶寬連接。團隊開發(fā)了專門的強化學習框架,包括:

  • Agent Factory:算法優(yōu)先的代碼庫,簡化多智能體開發(fā)。
  • StaleSync:staleness-aware的梯度的同步調(diào)度機制,提升30%設備利用率。
  • 分布式訓練:支持在線和離線的SFT、RFT和RL訓練。

實驗分析

研究團隊進行了系統(tǒng)性的消融實驗和深度分析,揭示了多智能體協(xié)作背后的幾個關(guān)鍵機制和意外發(fā)現(xiàn)。

Executor能力是性能瓶頸,Planner”夠用就好”團隊通過”角色互換”實驗發(fā)現(xiàn)了一個有趣現(xiàn)象:系統(tǒng)性能對Executor能力極其敏感,但對Planner要求相對寬松。

具體數(shù)據(jù)顯示:

  • 將7B Executor升級為38B,BrowseComp-zh分數(shù)猛增9分(18.3→27.3)。
  • 將7B Planner升級為38B,僅提升6.3分(18.3→24.6)。
  • 在長文本寫作任務中,升級Writer涉及的模塊帶來的提升(5.51→5.80)遠超升級Planner(5.51→5.56)

這個發(fā)現(xiàn)顛覆了以往的認知——一般大家會以為”大腦”(Planner)最重要,但實際上”手腳”(Executor)的能力才是關(guān)鍵。研究團隊分析,這是因為Planner的任務相對標準化(分解問題、分配任務),而 Executor需要處理各種復雜的實際場景。一個中等能力的7B Planner已經(jīng)能勝任大部分協(xié)調(diào)工作。

單體能力的意外涌現(xiàn):團隊訓練造就全能選手

最令人驚訝的發(fā)現(xiàn)是:為團隊協(xié)作訓練的, 服務于Planner的子智能體,單獨使用時竟然也是高手。

當研究團隊將Information Seeker從系統(tǒng)中剝離出來單獨測試時:

  • 38B Information Seeker在BrowseComp-zh上得分26.3,Single Agent(ReACT)模式同樣超越了WebSailor-32B(25.5分)。
  • 7B Information Seeker得分15.9,超過完整的WebSailor-7B系統(tǒng)(14.2分)。
  • 在相對簡單的Xbench-DeepSearch上,38B Information Seeker單槍匹馬就達到52.0分,幾乎等同于完整系統(tǒng)(53.0分)。

這種現(xiàn)象說明,多智能體訓練不僅提升了協(xié)作能力,還讓每個子智能體在處理擴展任務集時變得更加魯棒。就像優(yōu)秀的團隊成員,既能配合默契,又能獨當一面。

展望:AI搜索的新范式

DeepDiver-V2相對DeepDiver-V1, 從單一模型的”獨角戲”到多智能體的”交響樂”,這種轉(zhuǎn)變?yōu)榻鉀Q更復雜的現(xiàn)實問題開辟了道路。未來, DeepDiver將在企業(yè)調(diào)研、科學文獻綜述、專業(yè)數(shù)據(jù)分析等專業(yè)領(lǐng)域發(fā)揮巨大作用。

責任編輯:張燕妮 來源: 量子位
相關(guān)推薦

2025-08-26 03:15:00

MASLLM映射

2025-08-27 01:45:00

多智能LLM系統(tǒng)

2025-07-16 09:48:23

2024-02-22 09:30:15

Gemma開源模型谷歌

2023-09-21 10:31:06

人工智能模型

2024-04-19 07:55:57

Llama 3模型人工智能開源

2022-02-13 00:03:06

AndroidAndroid 13安卓

2023-01-09 12:41:55

模型

2024-12-17 10:40:26

2023-06-06 07:50:50

Symbol類型ECMAScript

2020-05-06 22:23:37

網(wǎng)絡卡Wi-Fi 6CPU

2025-06-03 08:26:00

智能體LLM開發(fā)

2019-12-26 15:31:17

騰訊框架開源

2019-10-25 10:54:38

人工智能機器學習技術(shù)

2025-03-31 00:00:00

DeepSeekAI人工智能

2024-04-07 11:44:53

MagistralaIoT物聯(lián)網(wǎng)平臺

2021-08-13 14:08:24

Windows 11Windows微軟

2025-09-01 14:22:03

AI開源模型

2025-07-10 08:05:56

2009-10-15 08:52:42

Windows 7銷售市場
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 云和县| 元江| 英山县| 师宗县| 施甸县| 墨江| 德惠市| 桦川县| 临安市| 新民市| 张家口市| 屏东县| 雅江县| 买车| 三穗县| 时尚| 扶沟县| 宝应县| 环江| 新邵县| 潞西市| 武乡县| 宁乡县| 阿拉善右旗| 达州市| 平陆县| 武功县| 都兰县| 梓潼县| 县级市| 涞源县| 曲松县| 丰城市| 禄劝| 兖州市| 溧阳市| 德州市| 荣昌县| 拜泉县| 旌德县| 英德市|