萬字長文詳解騰訊優(yōu)圖RAG技術(shù)的架構(gòu)設計與創(chuàng)新實踐
導語
在信息爆炸的時代,如何從海量數(shù)據(jù)中精準獲取知識并生成智能回答,已成為AI落地的核心挑戰(zhàn)。騰訊優(yōu)圖實驗室憑借前沿的RAG體系,突破傳統(tǒng)檢索與生成的局限,打造了一套覆蓋語義檢索、結(jié)構(gòu)化表檢索、圖檢索的全棧解決方案。
本文將為你深度解析優(yōu)圖實驗室RAG技術(shù)的架構(gòu)設計與創(chuàng)新實踐:從多階段訓練的2B級Embedding模型、Reranker分層蒸餾,到結(jié)構(gòu)化表的智能解析與查詢,再到自研GraphRAG框架在構(gòu)圖效率與復雜推理上的突破。目前,優(yōu)圖實驗室自研的RAG技術(shù)已應用在多個領(lǐng)域和產(chǎn)品,未來,我們更將著力于邁向Agentic RAG與低成本精細化方向,推動產(chǎn)業(yè)智能化升級。
RAG技術(shù)架構(gòu)
語義檢索
1.1、Embedding模型
1.1.1、多階段訓練管線
為了提升基于大語言模型(LLM)的向量模型的檢索能力,采用多階段訓練策略,逐步增強向量模型的泛化能力和檢索效果。
圖1.1. 訓練管線概覽圖
- 弱監(jiān)督對比學習訓練。通過批次內(nèi)負樣本共享和跨設備負樣本共享技術(shù),每個查詢文本對應多達6萬個負樣本,來極大增強向量模型的判別能力。
- 有監(jiān)督對比學習訓練。通過優(yōu)化數(shù)據(jù)采樣方法,使跨設備共享的負樣本來源于同一個子數(shù)據(jù)集,來保證難負樣本的質(zhì)量和難度一致性,提升對比學習的有效性。在輸入文本中加入特定任務的指令詞,進行指令感知的對比學習,使模型能夠根據(jù)不同任務調(diào)整語義匹配策略,來提升向量模型指令遵循的動態(tài)檢索能力。
1.1.2、精細化數(shù)據(jù)工程
1.1.2.1、 數(shù)據(jù)構(gòu)造流程
訓練數(shù)據(jù)的規(guī)模和質(zhì)量對向量模型的效果至關(guān)重要,一般地,構(gòu)建對比學習訓練數(shù)據(jù)的流程如下:
- 構(gòu)建(問題,相關(guān)文檔)的文本對。通常有兩種方式,一是在網(wǎng)絡上收集已經(jīng)構(gòu)建好的開源的問答對數(shù)據(jù);二是利用大語言模型杰出的文本生成能力,為文檔生成高質(zhì)量的問題數(shù)據(jù)。通過收集開源數(shù)據(jù)和利用大語言模型合成數(shù)據(jù),擴充了訓練數(shù)據(jù)的規(guī)模,增加訓練數(shù)據(jù)的多樣性和豐富性,有助于提高向量模型的泛化能力。
- 挖掘難負樣本,構(gòu)建(問題,正樣本,負樣本)三元組。構(gòu)建兩千萬規(guī)模的文本語料庫用于難負樣本挖掘,通過擴大語料庫規(guī)模、構(gòu)建特定行業(yè)語料庫、利用大語言模型識別過濾假負樣本的方法,優(yōu)化了挖掘負樣本的質(zhì)量和效果。
1.1.2.2、 數(shù)據(jù)質(zhì)量控制
圖1.2. 質(zhì)量控制邏輯示意圖
在上述內(nèi)容基礎上,借助 Reranker 模型對訓練語料進行篩選及重組,以進一步提升數(shù)據(jù)質(zhì)量。大致的處理邏輯包含以下三項:
- 剔除相關(guān)性分數(shù)極低的偽正例
- 基于相關(guān)性分布,過濾簡單負樣本
- 識別強負例挖掘過程中的潛在正樣本,并進行替換
Reranker 模型的評分在通過驗證后,會應用于編碼器的更新過程,實現(xiàn)label層面的知識蒸餾。
1.1.3、多任務均衡配置
圖3. 多任務跨GPU聯(lián)合訓練示意圖
為充分發(fā)揮 Embedding 模型的潛力,解決不同任務屬性、不同領(lǐng)域數(shù)據(jù)之間的沖突問題,我們設計了一套精密的聯(lián)合訓練方案:
- 數(shù)據(jù)統(tǒng)一化:依據(jù)數(shù)據(jù)在組織形式等方面的差異,將整體語料劃分為 IR 和 STS 兩大類,并采用統(tǒng)一的聯(lián)調(diào)格式同時囊括二者,從而實現(xiàn)混合加載。
- 動態(tài)采樣器:跨設備負采樣是編碼器微調(diào)過程中的常用技巧,但在多任務、多領(lǐng)域、多節(jié)點混合訓練時,跨域數(shù)據(jù)的引入會為對比學習帶來噪音,影響模型表現(xiàn)。對此,通過重構(gòu)采樣器和加載器,保證一次 iteration 中,多個 GPU 獲取的樣本嚴格出自同一數(shù)據(jù)集,并支持為它們設置差異化的 batch size 以充分平衡更新次數(shù)。
- 任務特定指令及損失:不同的檢索及匹配任務擁有不同的領(lǐng)域特點及評價標準。相較于不加區(qū)分地對待全體數(shù)據(jù),差異性的設置可以在最大程度上為參數(shù)更新過程注入先驗知識。經(jīng)過分析,我們針對 STS 和 IR 這兩大類任務設計了不同的損失函數(shù),同時支持配置個性化指令以靈活應對下游任務。在這種方式下,通過與采樣器的聯(lián)合作用,每個批次將提供純粹的任務梯度,從而極大地避免強制適配時的潛在性能損失。
- 模型融合策略:以ModelSoups為代表的權(quán)重融合技術(shù)此前已被證實可以為CLIP等多模態(tài)模型帶來提升,而這一方案同樣適用于文本嵌入領(lǐng)域。在精調(diào)階段結(jié)束后,通過選取不同訓練軌跡得到的模型,并精心設置它們的融合方式及權(quán)重,進一步增強了網(wǎng)絡在各項任務的表現(xiàn)。
1.1.4、任務定制損失
損失函數(shù)是模型優(yōu)化過程的目標及主要參照,對于神經(jīng)網(wǎng)絡的性能具有重要影響。良好的損失函數(shù)應充分貼近任務的評價指標,從而為模型提供有效指導。
具體到編碼模型最主要的兩類應用場景——文本語義相似性(STS)及信息檢索(IR)。STS任務采用Spearman相關(guān)系數(shù)作為根本指標,該指標通過計算樣本的預測排位與真實排位之差來衡量順序一致性。IR任務的核心指標nDCG同樣是list-wise式的,但它更強調(diào)高位優(yōu)先性。鑒于在大部分IR任務中,與給定query相關(guān)的文檔其實非常稀少,因此將這些正樣本有效突出出來是提升模型表現(xiàn)的關(guān)鍵。
基于這兩類任務的差異性和共通性,我們?yōu)镾TS任務引入了多種順序性損失,希望模型從逆序?qū)Α⒎謹?shù)差異性等角度對Embedding分布進行調(diào)整,以捕獲細粒度的語義區(qū)別。對于IR任務,則會在采集充分多的負樣本同時盡可能地擴大query和所有正樣本之間的相似度分數(shù),從而增強模型的判別能力。
1.1.5、模型效果
目前很多開源的Embedding模型在開源榜單測試集和業(yè)務側(cè)測試集上的效果沒法很好的平衡,往往顧此失彼。我們的apd-embedding-2b模型能夠在這兩種測試集上都達到比較好的效果。
我們驗證了apd-embedding-2b模型在C-MTEB基準測試中的表現(xiàn),在中文IR任務和中文STS任務上均取得了SOTA的結(jié)果。
- 中文IR任務
- 中文STS任務
同時我們也在業(yè)務集上進行了實際測試,apd-embedding-2b以2B的參數(shù)量超越競品4B、8B模型的效果,具體結(jié)果見下表:
1.2、Reranker模型
盡管向量模型的雙編碼器架構(gòu)在實際的檢索場景中計算效率高,耗時短,但它卻無法直接捕捉查詢文本和文檔文本之間的微妙關(guān)聯(lián)。為了提升檢索環(huán)節(jié)召回文檔的準確性,需要采用基于LLM的Reranker模型對向量模型的檢索結(jié)果進行重排序。這種方式可以有效捕捉到查詢文本和文檔文本之間深層次的語義關(guān)聯(lián),從而給出更準確的檢索結(jié)果。
1.2.1、Reranker模型升級為LLM模型
傳統(tǒng)的Reranker模型通常基于BERT、RoBERTa等模型進行訓練,包括BGE-Reranker-large、Jina-Reranker等,其模型參數(shù)量相對較小(110M~400M),輸入長度有限(512個token),對自然語言的理解能力遠不及LLM。
為了提升Reranker模型在實際復雜場景中的表現(xiàn),使用LLM訓練Reranker模型成為必要方案。該方案能夠有效發(fā)揮LLM對復雜問題和文檔的理解能力,從而提供更高質(zhì)量的文檔檢索結(jié)果,并且其所能支持的文本長度更長(達到8k甚至更長)。同時,通過對特殊任務添加指令,模型也能夠適應不同場景的重排序需求。下表是在某業(yè)務數(shù)據(jù)上進行的評測:
1.2.2、分層知識蒸餾損失
對比學習損失是的Reranker模型訓練時常用的損失函數(shù),它的核心作用是幫助模型學習到區(qū)分相關(guān)和不相關(guān)查詢-文檔對的能力,從而有效地提升文檔的排序質(zhì)量。除此之外,知識蒸餾也是一種可用的訓練策略。使用更強大的LLM作為教師模型,為查詢-文檔對給出更精確的相似度分數(shù),然后約束Reranker模型輸出和教師模型盡可能保持一致。這兩種損失均有助于模型提升文檔檢索能力,通常可以兩者搭配一起使用。
為了進一步發(fā)揮知識蒸餾的優(yōu)勢,我們對Reranker模型多個層級的Transformer的輸出添加約束,構(gòu)建分層(Layerwise)知識蒸餾損失。這種策略能夠強化模型在不同深度層給出較一致的查詢-文檔相似度分數(shù)的能力,也稱層級輸出能力。如果訓練數(shù)據(jù)中未提供教師模型給出的相似度分數(shù),則可以用模型最后一層的輸出狀態(tài)作為知識蒸餾的監(jiān)督信號,來約束之前的部分層輸出和最后一層一致的狀態(tài),同樣可以實現(xiàn)分層知識蒸餾。
圖1.4. 分層知識蒸餾損失策略
使用該策略訓練的Reranker模型具備層級輸出能力,允許用戶選擇模型不同層的輸出來計算最終的相關(guān)性分數(shù)。這意味著用戶可以選擇使用模型較淺層或較深層的輸出來進行重排序,這為檢索效率和性能提供了更大的靈活性。通過選擇合適的層,可以在性能和推理速度之間進行權(quán)衡。
1.2.3、高質(zhì)量業(yè)務訓練數(shù)據(jù)構(gòu)造
對于特定業(yè)務場景,通常缺乏領(lǐng)域適應的高質(zhì)量訓練數(shù)據(jù)用于Reranker模型的精調(diào)。對此,我們構(gòu)建了一套高效的數(shù)據(jù)自動化構(gòu)造流程,能夠批量的清洗和構(gòu)造高質(zhì)量的訓練數(shù)據(jù)。具體步驟如下:
- Query預處理(可選):對于復雜問題,可以優(yōu)先對問題進行拆解,用子問題(或原問題)借助向量模型進行第一階段文檔檢索,同時檢查Query的明確性和拆解的合理性,去除無效的Query
- Query實體識別:對Query或子問題進行分析,識別其中所包含的有效實體,包括客觀實體和時間實體,以此作為文檔初篩的參考依據(jù)。
- 文檔實體召回:對于步驟1中檢索到的文檔,使用LLM判斷其中是否包含Query中存在的實體,并給出實體召回打分;客觀實體和時間實體需要分別打分,0為無召回,1為全部召回。
- 文檔初篩:根據(jù)實體召回結(jié)果,篩除實體召回打分均為0的文檔,不參與下一階段處理(這些文檔可視為簡單負例)
- 文檔精評分:使用LLM對初篩后的文檔結(jié)合Query一起給出相關(guān)性打分(這一步的文檔數(shù)量將大幅度減少,提升精評分速度)
- 分數(shù)校準:對于打分后的文檔,根據(jù)實體召回的評分重新校準分數(shù);這一步能有效緩解模型在評分時產(chǎn)生的幻覺,糾正一些LLM的不合理判斷。校準后的分數(shù)僅是針對單個Query的相對評分,只用于文檔排序
- 自適應正負例篩選:
a.按照單個Query的分數(shù)分布選取正例,遵循“高分突出的情況下固定正例數(shù)量 <=10”和“高分均衡的情況下保持最大分均為正例”兩個原則;
- 根據(jù)正例數(shù)量按固定比例確定負例數(shù)量,按分數(shù)從高到低依次補齊負例,盡可能保留難負例。
圖1.5. 高相關(guān)性數(shù)據(jù)篩選流程
這套數(shù)據(jù)構(gòu)造流程的優(yōu)點在于:
- 通過實體召回對文檔進行粗篩,能夠有效降低精評分步驟需要處理的文檔數(shù)量
- 通過實體召回打分對精評分進行矯正,能夠有效避免LLM因為幻覺打出錯誤的高分或低分
- 自適應正負例采樣策略保證了每個Query所構(gòu)造的正負例文檔都是高質(zhì)量且分布比例均衡
借助該數(shù)據(jù)構(gòu)造流程,目前已針對業(yè)務場景進行了精調(diào)驗證。根據(jù)業(yè)務評測報告,精調(diào)后的版本顯著優(yōu)于線上版本:
2.結(jié)構(gòu)化信息檢索
2.1、技術(shù)簡介
在數(shù)據(jù)呈指數(shù)級增長的今天,企業(yè)內(nèi)部積累了海量的信息數(shù)據(jù),其中,結(jié)構(gòu)化數(shù)據(jù)因其格式規(guī)整、語義明確,蘊含著巨大的商業(yè)價值。然而,如何讓非技術(shù)人員也能輕松訪問和分析這些數(shù)據(jù),一直是業(yè)界的難題。
- 結(jié)構(gòu)化數(shù)據(jù):具有固定格式和明確語義,如數(shù)據(jù)庫表格,便于計算機快速查詢和處理。
- 非結(jié)構(gòu)化數(shù)據(jù):如文本文檔、圖片,無固定格式,語義理解難度大。
為應對結(jié)構(gòu)化數(shù)據(jù)查詢的挑戰(zhàn),我們基于經(jīng)典RAG框架融合Text2SQL技術(shù),通過“理解-檢索-生成”的模式,將用戶的自然語言問題高效轉(zhuǎn)化為精準的數(shù)據(jù)結(jié)果。
2.2、方案總覽
2.2.1、多源數(shù)據(jù)檢索
結(jié)構(gòu)化數(shù)據(jù)常見數(shù)據(jù)源形態(tài)包括DB數(shù)據(jù)庫表、表格文件等,業(yè)務上通過支持不同數(shù)據(jù)源的載入,設計了基于文本切片檢索的RAG與Text2SQL融合的方案,將文本切片與text2sql查詢結(jié)果送給下游閱讀理解模型。閱讀理解模型會綜合兩類信息,生成更準確、更全面的回答——既包含基于統(tǒng)計或字段的精確數(shù)據(jù),也包含相關(guān)文本切片提供的上下文解釋或補充信息。 整體檢索問答方案如下:
圖2.1. 不同數(shù)據(jù)源載入問答系統(tǒng)
2.2.2、Text2SQL核心技術(shù)
(1)自動化數(shù)據(jù)合成和增強
數(shù)據(jù)合成對Text2SQL任務具有重要價值,主要體現(xiàn)在快速適配新場景和提升模型泛化能力兩方面。通過自動化生成多語言的數(shù)據(jù)庫表結(jié)構(gòu)、自然語言問題及帶推理過程的SQL答案對,系統(tǒng)能快速構(gòu)建適配不同數(shù)據(jù)庫方言(如SQLite、MySQL等)的訓練數(shù)據(jù)。這種能力不僅顯著降低人工標注成本,更重要的是使模型能預先學習到多樣化的schema結(jié)構(gòu)和查詢邏輯,當面對真實業(yè)務中新出現(xiàn)的數(shù)據(jù)庫范式或查詢需求時,模型憑借合成數(shù)據(jù)訓練獲得的"經(jīng)驗"能更快實現(xiàn)性能收斂。特別是合成的"帶思考過程的SQL答案"通過顯式展現(xiàn)查詢邏輯的構(gòu)建路徑,有效增強了模型對復雜查詢的語義解析能力。
圖2.2. 數(shù)據(jù)合成方法
通過數(shù)據(jù)合成加訓,對新場景提升效果如下:
(2)基于Agent的Text2SQL框架
Text2SQL 是一項將自然語言轉(zhuǎn)換為SQL的技術(shù),它允許用戶通過日常語言與數(shù)據(jù)庫交互,而不需要掌握專業(yè)的SQL語法。在實際業(yè)務中落地應用仍面臨諸多挑戰(zhàn)。例如領(lǐng)域知識的泛化能力,自然語言表達的多樣性與復雜性,語義不明確、不完整等。
我們提出基于大語言模型的多智能體(Multi-Agent)協(xié)作框架,該框架由三個Agent組成:
- 篩選器(Selector):從眾多表中選擇相關(guān)表和列,減輕不相關(guān)信息的干擾;
- 分解器(Decomposer):將復雜的問題分解為子問題并逐步解決它們;
- 優(yōu)化器(Refiner):使用外部工具執(zhí)行SQL并獲取反饋,根據(jù)反饋信息優(yōu)化錯誤的SQL。
圖2.3. MAC-SQL技術(shù)架構(gòu)概覽(中稿COLING 2025 [1])
基于開源 BIRD 和 Spider 數(shù)據(jù)集,本框架配合自研的7B模型,執(zhí)行準確率超過ChatGPT-3.5等。本框架的方法配合 GPT-4 使用,能夠達到SOTA的水平,遠超單獨直接使用GPT-4的效果。
圖2.4. 效果對比
2.3、技術(shù)實踐與優(yōu)勢
2.3.1、表格文件場景
(1)高精度結(jié)構(gòu)化解析
由于Text2SQL僅支持標準結(jié)構(gòu)化表格,現(xiàn)實場景的表格文件會有許多非標準表格被排除在外。針對嵌套、合并等非標準情況,我們設計解析引擎-智能結(jié)構(gòu)化識別方案,將原本非結(jié)構(gòu)化表格自動轉(zhuǎn)化為結(jié)構(gòu)化表格。調(diào)用智能結(jié)構(gòu)化解析,精度超過90%。主要階段包括:
- 階段①是否結(jié)構(gòu)化知識表格判斷
- 階段②表頭識別
- 階段③將原表格元素識別結(jié)果提取整合為可被Text2SQL查詢的結(jié)構(gòu)化表
圖2.5. 智能結(jié)構(gòu)化解析流程示意
圖2.6. 非結(jié)構(gòu)化表格解析為結(jié)構(gòu)化表格效果
(2)靈活語義窗口切分
對于表格文件場景下的語義切片,支持可選窗口大小的切分策略,通過表頭屬性與表內(nèi)容的組合,在保留語義的同時,允許靈活配置多粒度切分方法:
(3)雙引擎SQL查詢
將解析后的結(jié)構(gòu)化表格數(shù)據(jù)存入Elasticsearch(ES)和MySQL,組成雙引擎檢索器。
圖2.7. SQL到ES/MySQL雙執(zhí)行引擎的路由
在雙引擎檢索架構(gòu)中,ES彌補了MySQL在模糊查詢和語義泛化上的局限性:
- 通過抽象語法樹解析SQL語句可以實現(xiàn)語法校驗與自動校正
抽象語法樹(AST)是源代碼語法結(jié)構(gòu)的一種抽象表示。它以樹狀的形式表現(xiàn)編程語言的語法結(jié)構(gòu),樹上的每個節(jié)點都表示源代碼中的一種結(jié)構(gòu)。
圖2.8. SQL語句的AST及其動作序列 (相關(guān)技術(shù)中稿ACL findings 2023[4])
- 利用ES強大的全文檢索能力處理模糊查詢,提升檢索召回
以某售賣場景為例,若按照問題中表述的售賣模式為'一次性售賣與租賃模式',MySQL直接查詢執(zhí)行結(jié)果為空;若使用ES泛化查詢,則售賣模式模糊匹配可以找到'一次性售賣模式'和'租賃模式',該策略有效提升了SQL值匹配不準時查詢的召回率。
- 性能提升驗證
基于SQL的ES查詢,首先將SQL語言通過AST解析,檢查SQL語法的正確性,對語法錯誤的情況進行校正,然后可以通過方言轉(zhuǎn)化將SQL AST轉(zhuǎn)化為ES的DSL語法進行查詢召回。雙引擎表格查詢的評估結(jié)果如下:
2.3.2、通用DB場景
(1)表拼接與鏈接
針對Text2SQL的不同場景需要,提供DDL / SimpleDDL兩種數(shù)據(jù)schema的提示詞范式。
- “DDL”(數(shù)據(jù)定義語言)包含標準化語言,其中包括定義數(shù)據(jù)庫結(jié)構(gòu)和屬性的命令,提供創(chuàng)建數(shù)據(jù)庫所需的詳細信息,包括列類型和主鍵/外鍵。 相關(guān)信息輸入健全,輸入長,查詢慢。
- 簡化的 “SimpleDDL ”只提供表名和列名。相關(guān)信息輸入簡潔,輸入短,查詢快。
表鏈接引入語義向量,為大模型SQL生成提供可靠的依據(jù):
- Schema: 數(shù)據(jù)庫的邏輯結(jié)構(gòu),描述數(shù)據(jù)的組織形式,包括表、字段、關(guān)系、約束等。定義數(shù)據(jù)如何存儲、關(guān)聯(lián)和驗證。
a.例如:學生數(shù)據(jù)庫 Schema 可能包含 學生表(學號、姓名、年齡)和 課程表(課程ID、課程名),并通過外鍵關(guān)聯(lián)選課記錄。
- Schema Linking(模式鏈接): 指將Query與數(shù)據(jù)庫模式(Schema)中的元素進行關(guān)聯(lián)的過程。關(guān)注表和字段的映射(如 "學生" → student 表)
- Value Linking(值鏈接): 指將Query中的具體值(如數(shù)字、日期等)與數(shù)據(jù)庫中的實際存儲值進行匹配和關(guān)聯(lián)的過程。確保查詢條件(where)中的值能正確映射到數(shù)據(jù)庫中的對應字段值。關(guān)注查詢條件值的映射,如:
a.識別查詢中的條件值(如 "年齡大于20" → age > 20)
b.處理模糊或非標準表達(如 "上個月" → date >= '2023-09-01')
c.匹配數(shù)據(jù)庫存儲的格式(如 "張偉" → 數(shù)據(jù)庫可能存儲為 '張偉' 或 'Zhang Wei')
d.處理同義詞或縮寫(如 "CS" → "Computer Science")
利用語義向量拼接提示語生成SQL,執(zhí)行準確率結(jié)果如下:
(2)改寫信號拆解與融合
為了將上下文改寫信號更好的融入Text2SQL模型中,我們對復雜查詢場景采用拆解策略,將復雜查詢拆分為多個簡單查詢;對多輪交互場景采用基于編輯矩陣 (包含插入和替換操作)的改寫信號表示方法,該編輯矩陣與表格-文本鏈接關(guān)系矩陣融合,一并融入到self-attention中。通過改寫信號的拆解與融合,可以顯著提升模型在SQL解析過程中對上下文語義的理解能力。
圖2.9. 改寫技術(shù)示意圖(中稿EMNLP 2022 [2]、PRICAI 2023[3])
(3)SQL查詢與計算
Text2SQL技術(shù)作為連接自然語言與數(shù)據(jù)庫查詢的智能橋梁,能夠準確捕捉用戶查詢意圖,并將其映射為結(jié)構(gòu)化的數(shù)據(jù)庫操作指令,在保持語義完整性的同時嚴格遵循SQL語法規(guī)范。應用Text2SQL技術(shù)具有以下優(yōu)勢:①多維度查詢支持 ②智能條件處理 ③語義理解與擴展
- 常見能力覆蓋如下:
- 騰訊云智能體開發(fā)平臺實踐效果示例:
2.4、問答推理與潤色
問答系統(tǒng)中通過閱讀理解模型進行答案推理與潤色,能夠顯著提升Text2SQL直接查詢結(jié)果的可讀性,同時實現(xiàn)以下優(yōu)勢:
(1)精準性與語義理解的統(tǒng)一
- Text2SQL可直接獲取結(jié)構(gòu)化數(shù)據(jù)中的關(guān)鍵字段或計算結(jié)果,確保查詢的精確性。
- 文本切片檢索提供語義層面的靈活匹配,豐富回答依據(jù)的信息量。
(2)復雜問題的高效處理
對于需要結(jié)合結(jié)構(gòu)化查詢與文本推理的復雜問題(如推理分析、趨勢解讀等),模型可同時利用:
- 數(shù)據(jù)庫字段的精確查詢結(jié)果。
- 關(guān)聯(lián)問題的描述性內(nèi)容。
生成兼具數(shù)據(jù)支撐與語義連貫的綜合回答。
3.GraphRAG
3.1、自研GraphRAG-Benchmark
當前GraphRAG技術(shù)發(fā)展還處于初期階段,業(yè)界缺少專門針對GraphRAG評測的規(guī)范數(shù)據(jù)集,同時缺少不同GraphRAG方法在相同benchmark下統(tǒng)一的效果評價方式,因此今年6月份優(yōu)圖發(fā)布了自研的GraphRAG benchmark[5][6]。
優(yōu)圖實驗室GraphRAG-Bench在多個領(lǐng)域構(gòu)建了不同類型的問題,構(gòu)建了適合衡量GraphRAG效果的復雜推理數(shù)據(jù),并提出了一套完備的效果評估流程。
圖3.1. GraphRAG-Bench構(gòu)建邏輯及評測設計
在優(yōu)圖實驗室的GraphRAG-Bench中,我們設計了四個維度來評價GraphRAG框架的質(zhì)量,并對當前主流的GrphRAG框架進行了評測分析。四個維度分別是:
- 構(gòu)圖成本:構(gòu)圖成本主要評估從原始文本數(shù)據(jù)離線構(gòu)建圖譜過程中的時間和token消耗。在我們的測評中,HippoRAG、DALK,ToG,GFM-RAG四種方法在構(gòu)建圖譜的時間消耗相當,RAPTOR方法在圖譜構(gòu)建過程中token的消耗量具有顯著優(yōu)勢。
- 檢索效率:檢索效率主要評估每次查詢對圖譜檢索的平均時長,在9種方法中,RAPTOR因為主要依賴向量檢索,速度最快;依賴GNN為代表的GFM-RAG框架速度達到秒級,以LightRAG為代表的圖檢索方法平均時長在十幾秒級。
- 回復準確率:用于評估各個框架在不同類別的任務下,回答問題的準確性。經(jīng)評測,GFM-RAG、GraphRAG、HippoRAG和Raptor方法平均準確率效果領(lǐng)先。
- 推理能力:所有GraphRAG方法顯著提高了LLM的推理能力,增加了生成正確理由的概率。HippoRAG和RAPTOR在推理能力上表現(xiàn)最佳,這與它們檢索有用信息的能力密切相關(guān)。
3.2、自研GraphRAG框架
當前以知識圖譜為主要知識組織形式的第一大類框架有 GraphRAG和LightRAG等,這類方法將知識粒度細化,但是缺點在于構(gòu)圖和檢索的質(zhì)量和效率偏低,難以在生產(chǎn)環(huán)境使用;
第二大類是樹結(jié)構(gòu)方案,代表框架有RAPTOR和E2GraphRAG等,這類方法通過層次化迭代對文本切片進行知識總結(jié),但是構(gòu)圖和總結(jié)高度依賴大模型且無法挖掘細粒度知識之間的關(guān)系。
3.2.1、領(lǐng)域圖譜構(gòu)建的質(zhì)量和效率提升
我們通過融入兩類方法的優(yōu)點,每個節(jié)點類型都有特定的功能和角色:實體和關(guān)系節(jié)點用于連接語義單元;屬性節(jié)點用于表示實體的特征;社區(qū)節(jié)點用于總結(jié)社區(qū)的核心信息。這種異構(gòu)圖結(jié)構(gòu)使得優(yōu)圖GraphRAG能夠?qū)崿F(xiàn)更細粒度的檢索和理解,從而提高整體性能,形成效果和效率均更貼近落地可用的創(chuàng)新GraphRAG方案。
圖3.2. Knowledge Tree與當前基于圖/樹的GraphRAG 方法對比及優(yōu)勢
(1)通過知識樹對知識進行有效組織
- 構(gòu)建屬性、知識圖(三元組)、關(guān)鍵詞、社區(qū)四級知識粒度的樹型圖譜結(jié)構(gòu),實現(xiàn)了對文本知識的精確多級整合,從效果和效率上超越現(xiàn)有圖和樹的兩類方案;
- 同時保留了 圖的細粒度知識推理 和 樹的層次化匯總摘要。
(2)對GraphRAG社區(qū)檢測進行創(chuàng)新 S2Dual-perception
圖3.3. 通過稀疏鄰接矩陣的結(jié)構(gòu)感知以及子圖語義相似度的語義感知提出的社區(qū)檢測算法
現(xiàn)有的圖社區(qū)檢測SOTA算法Leiden存在如下問題:
- 強制按照連接性劃分社區(qū),過分依賴圖構(gòu)建質(zhì)量,限制了推理發(fā)現(xiàn)和補全能力;
- 效率低下,全圖遍歷單個節(jié)點不斷計算與當前社區(qū)合并后的質(zhì)量函數(shù)后更新社區(qū),不適用于大規(guī)模圖數(shù)據(jù)。
- 為了解決這些缺陷,我們同時利用拓撲結(jié)構(gòu)Structure和子圖語義信息Semantics,生成更高質(zhì)量的社區(qū)總結(jié)和發(fā)現(xiàn),實現(xiàn)對結(jié)構(gòu)化知識的高效組織,克服傳統(tǒng)社區(qū)檢測算法的局限性。
- 通過稀疏鄰接矩陣計算Jaccard相似度量化錨節(jié)點與社區(qū)子圖間的拓撲重合度,反映錨節(jié)點與候選社區(qū)中鄰居間的連接強度;
- 編碼錨節(jié)點的特征與候選社區(qū)的子圖特征捕捉語義重合度,反映錨節(jié)點與候選社區(qū)子圖的文本相似度。
(3)支持不同領(lǐng)域的圖Schema結(jié)構(gòu)自適應優(yōu)化
通過預置三大類的中英文領(lǐng)域圖Schema包括人物、事件和概念中的實體類型、關(guān)系類型和屬性類型+ 在構(gòu)圖時大模型的Schema信息補充,來自適應調(diào)整最合適特定領(lǐng)域的構(gòu)圖Schema,在保證特定領(lǐng)域抽取質(zhì)量的同時減少人工干預。
3.2.2、優(yōu)化復雜query的理解和推理
領(lǐng)域內(nèi)對復雜Query理解缺乏關(guān)注,現(xiàn)有baseline在Query查詢過程中主要以文本切片和摘要的語義向量相似度進行直接檢索,但復雜長難句Query的向量直接匹配效果較差,導致難以真正理解復雜多跳Query。
圖3.4. Agentic GraphQ,基于圖譜Schema進行復雜問題的針對性解耦
(1)復雜Query理解
圖Schema當前在AutoSchemaKG及優(yōu)圖GraphRAG的兩個方法中被用于提升構(gòu)圖質(zhì)量。針對復雜長難Query理解,我們首次提出將圖Schema應用到Query理解和子任務解耦上,幫助模型對復雜多跳Query中的關(guān)鍵實體、關(guān)系和屬性精準定位。
- 首次提出圖譜Schema感知的復雜Query理解模塊AgenticGraphQ。通過Agent對Schema的理解,挖掘Query中{Entity} / {Relation}/ {Attribute}之間的隱式關(guān)系和依存句法,實現(xiàn)多跳向單跳簡化的子任務解耦;
- 基于Schema,結(jié)合Query理解和圖譜推理,大幅度提升復雜Query的理解能力及關(guān)鍵實體、關(guān)系等重要信息的定位能力;
- 通過將Query簡化,輕量推理即可完成解耦后的子任務,極大降低下游對推理模型的依賴,模型減重。
(2)高效多路檢索
- 主題詞匹配或關(guān)鍵詞檢索;
- 采用Query-Triple的三元組向量匹配并對結(jié)果進行相關(guān)性剪枝,融入更多結(jié)構(gòu)和語義信息,取代傳統(tǒng)Query-Node的單一向量匹配方案;
- 基于路徑的DFS鄰居檢索
3.2.3、框架效果
經(jīng)實驗對比,相比當前主流開源GraphRAG框架(如微軟GraphRAG、LightRAG等),優(yōu)圖GraphRAG框架在構(gòu)圖成本和回答準確率上有大幅度的優(yōu)化。
(1)構(gòu)圖成本
在hotpotQA、2wiki和musique三個開源數(shù)據(jù)集上對比評測,優(yōu)圖GraphRAG的構(gòu)圖效率大幅提升。在社區(qū)檢測上首次提出創(chuàng)新,相比當前社區(qū)檢測的SOTA算法Leiden,效率提升近100%。
優(yōu)圖實驗室GraphRAG的大模型調(diào)用成本顯著降低。在hotpotQA數(shù)據(jù)集構(gòu)圖階段,微軟GraphRAG(Global)消耗token量為億級,LightRAG構(gòu)圖token消耗量在千萬級,優(yōu)圖GraphRAG在相同的數(shù)據(jù)上構(gòu)圖的大模型調(diào)用成本降低到百萬級。
(2)檢索效果提升
效果方面,優(yōu)圖實驗室GraphRAG對比微軟GraphRAG(Global) 提升200%+、對比LightRAG提升20%-100%,在GraphRAG專注的復雜數(shù)據(jù)集上效果提升顯著。
未來展望
目前,我們的RAG技術(shù)已在汽車、文旅、泛政、金融等多個行業(yè)成功落地,深度助力騰訊云智能客服、QQ瀏覽器、IMA等騰訊內(nèi)部產(chǎn)品。隨著大語言模型和RAG技術(shù)的快速發(fā)展,我們也將持續(xù)打磨技術(shù)架構(gòu),提升原子能力效果,也將圍繞Agentic RAG、精細化、低成本的趨勢進一步實踐:
(1) Agentic RAG:通過引入智能體技術(shù),實現(xiàn)復雜問題的自動化分解和多步驟推理。結(jié)合動態(tài)規(guī)劃、實時反饋和工具調(diào)用能力,提升系統(tǒng)在復雜場景下的推理準確性和解釋性。
(2) 精細化與低成本:以GraphRAG作為新興技術(shù)的代表,在保障精細化知識管理優(yōu)勢的同時,重點優(yōu)化構(gòu)圖成本和計算效率。通過動態(tài)增量式更新、輕量化建模等技術(shù)手段,降低部署門檻,使技術(shù)更普惠。
未來的RAG技術(shù)將不再局限于簡單的“檢索-生成”的線性流程,而是發(fā)展為“規(guī)劃-決策-檢索-驗證-推理”一體化閉環(huán)智能系統(tǒng)。也期待更多業(yè)界伙伴與我們攜手,共同探索RAG技術(shù)在更廣泛場景的創(chuàng)新應用,推動產(chǎn)業(yè)智能化升級!
參考文獻
[1]MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL,COLING,2025.
[2]Cqr-sql: Conversational question reformulation enhanced context-dependent text-to-sql parsers,EMNLP,2022.
[3]QURG: Question rewriting guided context-dependent text-to-SQL semantic parsing,PRICAI,2023.
[4]G3R: A Graph-Guided Generate-and-Rerank Framework for Complex and Cross-domain Text-to-SQL Generation,ACL,2023.
[5]GraphRAG-Bench: Challenging Domain-Specific Reasoning for Evaluating Graph Retrieval-Augmented Generation, arxiv,2025.
[6]首個!騰訊優(yōu)圖聯(lián)合香港理工大學發(fā)布為GraphRAG設計的評測基準+數(shù)據(jù)集