精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

多模態RAG哪家強?9 個 Embedding、4 類 MLLMs、4 大框架實景比拼

發布于 2025-9-11 06:57
瀏覽
0收藏

現有文檔 RAG 評測都在不足:數據太小、查詢太假、證據太單一。

多模態RAG哪家強?9 個 Embedding、4 類 MLLMs、4 大框架實景比拼-AI.x社區

華南理工&華科推出 DOUBLE-BENCH——迄今最大規模、多語言、多模態、多跳查詢的文檔 RAG 實戰考場,用 5 168 條人工校驗 query 把 9 個 embedding、4 個 MLLM、4 個端到端框架統統拉到現實場景下評測,結果:檢索仍是最大瓶頸,模型普遍“過度自信”地胡說八道。

說到多模態大模型,國內快手也開源了Keye-VL-1.5-8B(國產大模型越來越好,就在昨天Claude點名全面封禁中國公司,離大譜),可本地部署,大家可以試試!????

多模態RAG哪家強?9 個 Embedding、4 類 MLLMs、4 大框架實景比拼-AI.x社區

不管RAG到Multi-RAG未來的趨勢還是Agentic RAG,PaperAgent也準備了實操指南:??從Agent到Flow Agent,動手搭建自己的AI助理智能體???

1.現有評測的不足

多模態RAG哪家強?9 個 Embedding、4 類 MLLMs、4 大框架實景比拼-AI.x社區

圖 2:主流 benchmark 查詢示例,信息不足或已提前泄露答案。

問題

典型案例

后果

① 評測面過窄

只測 embedding 或只測 VQA

看不到系統級瓶頸

② 假設用戶開卷

直接給出目標頁、文件名

與現實檢索場景脫節

③ 證據唯一幻覺

單頁 synthetic query

忽略多頁均可回答

④ 多跳造假

把單跳硬拼成“偽多跳”

高估模型推理能力

多模態RAG哪家強?9 個 Embedding、4 類 MLLMs、4 大框架實景比拼-AI.x社區

2.DOUBLE-BENCH 長啥樣?

多模態RAG哪家強?9 個 Embedding、4 類 MLLMs、4 大框架實景比拼-AI.x社區

維度

規模

備注

文檔

3 276 份

72 880 頁

語言

6 種

中/英/西/法/日/阿

類型

4 類

PDF、掃描件、幻燈、HTML

查詢

5 168 條

2 500 單跳 + 2 668 多跳(2-3 跳)

證據

100 % 人工復核

單跳 set-of-evidence,多跳 chain-of-evidence

多模態RAG哪家強?9 個 Embedding、4 類 MLLMs、4 大框架實景比拼-AI.x社區

圖 4:語料與語言分布,外圈為語言占比。

3.三步打造“真”考題

多模態RAG哪家強?9 個 Embedding、4 類 MLLMs、4 大框架實景比拼-AI.x社區

圖 3:DOUBLE-BENCH 構建流水線,紅框為人工介入環節。

1?? 元數據收集與清洗

  • 10–50 頁文檔,GPT-4o 判語言,Docling & MinerU 做模態拆分(正文/表格/圖)

2??單跳查詢合成

  • 四原則:自包含、禁止泄露源、聚焦顯著模態、多樣自然。
  • 迭代 refine:若檢索返回 >5 候選頁,則自動加入區分細節再生成,直到 ≤5。

3??多跳查詢合成

  • LightRAG 建知識圖譜 → 按“意圖游走”選路徑 → 逐跳替換實體并鏈式拼接。
  • 人工審核邏輯嚴密性、答案唯一性、語法自然度。

4.實驗結果

4.1 檢索榜

多模態RAG哪家強?9 個 Embedding、4 類 MLLMs、4 大框架實景比拼-AI.x社區

表 3:主流 embedding 在 DOUBLE-BENCH 上的細粒度結果。

  • 文本與視覺 embedding 差距已縮小到 2% 以內;多跳仍集體掉 20+ 點。

4.2 端到端 RAG 框架榜

多模態RAG哪家強?9 個 Embedding、4 類 MLLMs、4 大框架實景比拼-AI.x社區

表 4:RAG 框架檢索與回答準確率對比。

  • 檢索決定上限:colqwen-gen 靠檢索優勢,在多跳上反超 MDocAgent。
  • 過度自信現象:MDocAgent/ViDoRAG 即使沒召回證據也強行回答,幻覺率 30–40 %。

4.3 MLLM 裸跑 vs 給證據

  • 充分說明 DOUBLE-BENCH未被數據污染,模型靠“背題庫”寸步難行。

多模態RAG哪家強?9 個 Embedding、4 類 MLLMs、4 大框架實景比拼-AI.x社區

表 5:MLLM 在“裸跑”與“開卷”下的準確率。

https://arxiv.org/pdf/2508.03644
Are We on the Right Way for Assessing Document Retrieval-Augmented Generation?

本文轉載自????PaperAgent??

收藏
回復
舉報
回復
相關推薦
主站蜘蛛池模板: 肥西县| 太仆寺旗| 正定县| 德庆县| 兴安县| 阆中市| 新巴尔虎右旗| 乳山市| 卢龙县| 安达市| 阿瓦提县| 青浦区| 周宁县| 汶上县| 潍坊市| 溧水县| 沁源县| 噶尔县| 伊通| 上栗县| 安国市| 增城市| 兴仁县| 海宁市| 富蕴县| 金堂县| 大余县| 隆安县| 吉木乃县| 曲沃县| 宁德市| 古丈县| 静乐县| 本溪市| 崇明县| 楚雄市| 岑巩县| 江口县| 内江市| 崇义县| 沾益县|