從第一性原理出發(fā)的RAG推理新范式來了,螞蟻DIVER登頂權威基準
在當前由大語言模型(LLM)驅(qū)動的技術范式中,檢索增強生成(RAG)已成為提升模型知識能力與緩解「幻覺」的核心技術。然而,現(xiàn)有 RAG 系統(tǒng)在面對需多步邏輯推理任務時仍存在顯著局限,具體挑戰(zhàn)如下:
- 表面相關性 (Surface Relevance):基于 TF-IDF/BM25 等傳統(tǒng)方法過度依賴詞匯重疊度,傾向于召回與查詢共享關鍵詞的文檔,導致檢索結果停留于淺層文本匹配。
- 深度相關性 (Deep Relevance):真實場景中的復雜查詢(如醫(yī)學診斷推導、數(shù)學定理證明)其相關性往往是隱性的,隱藏在概念類比、邏輯推演或因果鏈條之中,需要模型具備超越字面含義的理解能力。
為建立嚴格的評估體系,學術界提出了 BRIGHT—— 首個面向推理密集型檢索的權威測試集。該基準涵蓋了源自經(jīng)濟學、心理學、數(shù)學及編程等多個知識密集型領域的真實查詢。這些查詢的共性在于其答案無法通過傳統(tǒng)的直接檢索顯式獲得,使得很多 RAG 系統(tǒng)失效。而 BRIGHT 必須通過多步推理構建證據(jù)鏈,也就是所謂的「第一性原理」, 從 「根源」 推導,而非 「類比」來解決問題。
針對這一技術挑戰(zhàn),螞蟻集團 AQ-MedAI 團隊提出了 DIVER(Deep reasonIng retrieVal and rERanking) 框架,旨在解決「推理密集型」(Reasoning-Intensive)場景下的信息檢索難題。
- 論文標題:DIVER: A Multi-Stage Approach for Reasoning-intensive Information Retrieval
- arXiv 地址:https://arxiv.org/pdf/2508.07995
- 代碼與模型開源地址:
- https://github.com/AQ-MedAI/DIVER
- https://huggingface.co/AQ-MedAI/DIVER-Retriever-4B
- https://huggingface.co/AQ-MedAI/Diver-Retriever-0.6B
目前,DIVER 框架在 BRIGHT 公開排行榜上測評得分 45.8,排名第一,充分驗證了其技術的領先性。
DIVER:推理驅(qū)動式檢索系統(tǒng)
DIVER 是一套推理驅(qū)動式的檢索框架,其將復雜的檢索任務分解為四個階段,主要為 DIVER-DChunk、DIVER-QExpand、DIVER-Retriever 和 DIVER-RERANK。
DIVER:技術架構深度拆解
第一階段:文檔預處理(DIVER-DChunk)—— 奠定堅實基礎
高質(zhì)量的知識庫是有效檢索的前提。DIVER 首先對原始文檔進行「凈化」和「重組」。它會自動清除文本中的噪聲(如無關的 HTML 標簽、格式錯誤),并利用語義理解技術將過長的文檔智能切分為邏輯連貫、大小適中的「知識塊」。
這一步確保了后續(xù)模型讀取的是清晰、有序、高質(zhì)量的信息,為后續(xù)的推理環(huán)節(jié)打下了堅實的基礎。
第二階段:查詢擴展(DIVER-QExpand)—— 讓模型學會「追問」和「聯(lián)想」
用戶的原始問題可能不夠精確,DIVER 采用了一種與文檔「互動」的迭代式查詢擴展策略。當接收到用戶的初始查詢后,系統(tǒng)并非立即進行檢索,而是利用一個強大的語言模型對查詢進行迭代式的「精煉」和「擴展」。模型會分析初始查詢,并結合初步檢索到的少量文檔,生成更明確的推理路徑和所需證據(jù)的描述,然后將這些信息補充回原始查詢中。
這個過程會重復進行,形成一個反饋循環(huán),使查詢的意圖越來越清晰、精準,引導系統(tǒng)走向正確的答案方向。
第三階段:專為推理定制的檢索(DIVER-Retriever)—— 從第一性出發(fā),訓練一位「偵探」,而非「圖書管理員」
有了經(jīng)過「思考」的查詢,DIVER 會啟用一個經(jīng)過特殊訓練的檢索模型。這個模型的獨特之處在于其訓練數(shù)據(jù):
1. 合成的推理數(shù)據(jù):在醫(yī)療診斷推導和數(shù)學定理證明等復雜推理領域,該技術團隊構建了帶有邏輯鏈標注的合成數(shù)據(jù)集。這些數(shù)據(jù)要求模型不僅要匹配關鍵詞,更要學習隱含的邏輯關聯(lián)性,如癥狀 - 病理的因果推斷或數(shù)學命題的蘊涵關系。
2.「困難負樣本」(Hard Negatives):訓練中包含了大量與正確答案表面相似但實際錯誤的「陷阱」樣本。這迫使模型不僅要看「像不像」,更要理解「是不是」,從而具備了極強的辨別能力。該技術團隊設計了三級負樣本篩選策略:
- 表層相似:保持詞項重疊但邏輯矛盾的樣本(如「糖尿病胰島素抵抗」vs「糖尿病胰島素分泌過?!梗?/span>
- 結構仿造:模仿正確推理路徑但包含隱性謬誤的樣本
- 語義對抗:通過語言模型生成的強干擾項
3. 基于難負樣本采樣的對比學習:通過引入對比學習框架,模型將正確答案與這些高難負樣本同時進行對比訓練。模型被迫聚焦于兩者間微妙差異,從而提升了對復雜推理過程中的關鍵信息識別能力和魯棒性。
通過這種方式訓練出的檢索器,能夠精準地從海量信息中捕獲到那些真正支撐推理鏈條的關鍵證據(jù)。
第四階段:混合式重排序(Reranking)—— 確保最終答案的質(zhì)量與連貫性
最后,初步檢索出的文檔列表會進入重排序階段。DIVER 巧妙地結合了兩種策略:逐點排序(Pointwise)策略和列表排序(Listwise)策略。這種「局部精調(diào)」與「全局統(tǒng)籌」相結合的混合模式,確保了呈現(xiàn)給用戶的文檔列表既有高質(zhì)量的個體,又有最優(yōu)的整體順序。
技術突破驗證
基準測評、行業(yè)對比、產(chǎn)業(yè)落地全面領先
BRIGHT 榜單達到 SOTA
DIVER 在權威的推理密集型檢索基準 BRIGHT 上,其整體 nDCG@10(衡量前 10 個結果排序質(zhì)量的指標)達到了 45.8,全面超越了現(xiàn)有的其他具備推理能力的模型,達到了業(yè)界頂尖(SOTA)水平。
行業(yè)模型對比
在跨領域任務及不同查詢難度的評測中,DIVER-Retriever 展現(xiàn)了顯著的性能優(yōu)勢與強勁的泛化能力:在數(shù)學推理、通用科學和代碼檢索三大場景下,其 nDCG@10 與閉源模型 Seed1.5 Embedding 相比,平均提升 2 個百分點;相較于參數(shù)規(guī)模為其兩倍的開源模型 ReasonIR-8B,平均提升了 4 個百分點,充分驗證了 DIVER-Retriever 在不同領域與難度條件下均能保持穩(wěn)健而有效的檢索性能。
AQ 落地應用
醫(yī)療領域?qū)χR的準確性和推理的嚴謹性有著極高的要求,尤其是在精準醫(yī)療的發(fā)展趨勢下,必須根據(jù)患者的具體情況和醫(yī)學原理制定治療方案,而不能簡單地照搬經(jīng)驗。
自 6 月在 AQ 醫(yī)療應用上線以來,DIVER 驅(qū)動的檢索增強系統(tǒng)實現(xiàn)了臨床級檢索和循證精準突破:在診療證據(jù)召回場景中,相比 BGE-M3 模型,英文文獻召回的 Hit@1 提升 11 個百分點;中文召回的 Hit@1 從 0.824 提升至 0.922,提升 9.8 個百分點;混合檢索(中文召回英文)的 Hit@1 提升 8.6 個百分點。
同時 DIVER-Dchunk 應用在離線指南與論文的 chunking 環(huán)節(jié),大幅提升了指南與論文檢索信息的有效性。
展望
螞蟻 MedAI 將持續(xù)深耕復雜推理型的檢索技術以及重排序技術,持續(xù)提升在醫(yī)療復雜推理、泛健康場景的檢索循證能力。該技術團隊將持續(xù)優(yōu)化 DIVER 框架,為臨床決策提供了可驗證、可追溯、可更新的知識基礎設施,重新定義醫(yī)療級 RAG 的技術標準。
接下來,該技術團隊會陸續(xù)開源其他 size 的檢索模型以及重排序模型,歡迎研究者與開發(fā)者關注并使用他們的模型,期待與更多科研機構及產(chǎn)業(yè)伙伴合作,共建開放繁榮的開源生態(tài),共同推動人工智能與醫(yī)療 AI 的發(fā)展。