精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

RAG(四)Adaptive Retrieval --語(yǔ)言模型的信任邊界,參數(shù)與非參數(shù)記憶的有效性研究

人工智能
這篇論文深入探討了在什么情況下為大型語(yǔ)言模型(LLM)應(yīng)用檢索增強(qiáng)生成技術(shù)會(huì)更有效果。并提供了一種有效的解決方案,幫助我們更合理地應(yīng)用檢索增強(qiáng)技術(shù),讓語(yǔ)言模型在更多場(chǎng)景下發(fā)揮出更好的性能。

大語(yǔ)言模型(LMs)在許多自然語(yǔ)言處理任務(wù)上表現(xiàn)優(yōu)異,但它們?cè)谟洃浐突貞洸惶R?jiàn)或不流行的事實(shí)知識(shí)方面存在明顯的局限性。并且,當(dāng)涉及到長(zhǎng)尾實(shí)體(即那些在網(wǎng)絡(luò)上討論較少、出現(xiàn)頻率較低的實(shí)體)的問(wèn)題時(shí),LMs 的性能顯著下降,并且增加模型規(guī)模并不能有效地解決這一問(wèn)題。

此外,LMs 對(duì)于自身知識(shí)邊界的認(rèn)識(shí)有限,有時(shí)會(huì)產(chǎn)生幻覺(jué),即生成看似合理但實(shí)際上錯(cuò)誤的信息。這種不確定性以及對(duì)模型輸出的信任問(wèn)題,在實(shí)際應(yīng)用中部署 LMs 時(shí)顯得尤為重要。

因此,何時(shí)應(yīng)該依賴LMs的參數(shù)知識(shí)(即存儲(chǔ)在其參數(shù)中的知識(shí))?何時(shí)不應(yīng)該信任其輸出?以及如何通過(guò)非參數(shù)記憶(例如檢索增強(qiáng)技術(shù))來(lái)彌補(bǔ)參數(shù)記憶的不足?來(lái)自艾倫人工智能研究院發(fā)表在2023年ACL的一篇論文《When Not to Trust Language Models: Investigating Effectiveness of Parametric and Non-Parametric Memories》深入探究了這些問(wèn)題,并提出了極具啟發(fā)性的解決方案。

圖片


1、大模型的“記憶困境”:何時(shí)不該信任它們?

為了評(píng)估LMs在記憶事實(shí)知識(shí)的能力,通過(guò)閉卷問(wèn)答(QA)任務(wù)來(lái)評(píng)估,并使用少量樣本進(jìn)行測(cè)試。簡(jiǎn)單來(lái)看下作者的評(píng)估思路:

研究重點(diǎn)和任務(wù)

研究重點(diǎn):事實(shí)知識(shí)。這項(xiàng)工作關(guān)注于實(shí)體的具體細(xì)節(jié)知識(shí),將事實(shí)知識(shí)定義為一個(gè)三元組(主體、關(guān)系、對(duì)象)。如圖2左圖

任務(wù)格式開(kāi)放域問(wèn)答(QA)。將任務(wù)構(gòu)建為開(kāi)放域QA,即給定一個(gè)問(wèn)題,模型需要在沒(méi)有任何預(yù)給定段落的情況下預(yù)測(cè)答案。

評(píng)估指標(biāo)準(zhǔn)確率。如果預(yù)測(cè)的任何子串與任何金標(biāo)準(zhǔn)答案完全匹配,則將預(yù)測(cè)標(biāo)記為正確。

分析維度

作者們假設(shè)在Web上討論較少的事實(shí)知識(shí)可能不會(huì)被LMs很好地記憶。先前的研究通常使用預(yù)訓(xùn)練語(yǔ)料庫(kù)中對(duì)象實(shí)體的詞頻來(lái)理解記憶能力。相反,本文通過(guò)研究是否可以根據(jù)輸入問(wèn)題中的信息預(yù)測(cè)記憶,并據(jù)此改進(jìn)模型。因此,本文工作集中在事實(shí)知識(shí)三元組中的另外兩個(gè)變量:主體實(shí)體和關(guān)系類(lèi)型。

主體實(shí)體流行度:使用Wikipedia月度頁(yè)面瀏覽量作為實(shí)體流行度的衡量標(biāo)準(zhǔn),以此來(lái)代理實(shí)體在網(wǎng)絡(luò)上被討論的頻率。

關(guān)系類(lèi)型:也考慮了關(guān)系類(lèi)型作為事實(shí)知識(shí)記憶的關(guān)鍵因素。

基準(zhǔn)數(shù)據(jù)集

PopQA:現(xiàn)有的常見(jiàn)開(kāi)放領(lǐng)域 QA 數(shù)據(jù)集(如Natural Questions,NQ)通常由高流行度的主體實(shí)體主導(dǎo),并且由于問(wèn)題表面形式的多樣性,通常很難識(shí)別關(guān)系類(lèi)型。為了能夠基于上述分析維度對(duì)記憶能力進(jìn)行細(xì)粒度分析,構(gòu)建了一個(gè)新的大規(guī)模實(shí)體中心開(kāi)放域QA數(shù)據(jù)集,包含14k個(gè)問(wèn)題,覆蓋了可能在流行QA數(shù)據(jù)集中被遺漏的長(zhǎng)尾實(shí)體的事實(shí)信息。

PopQA構(gòu)建流程如下:使用了維基百科頁(yè)面的瀏覽量作為衡量實(shí)體受歡迎程度的標(biāo)準(zhǔn),從 Wikidata 中隨機(jī)抽取了 16 種不同關(guān)系類(lèi)型的知識(shí)三元組,并使用自然語(yǔ)言模板將其轉(zhuǎn)換為自然語(yǔ)言問(wèn)題。

問(wèn)題的可接受答案集是滿足知識(shí)圖譜中存在(S,R,E) 的實(shí)體集E。

圖片

EntityQuestions:這是另一個(gè)廣泛使用的開(kāi)放領(lǐng)域問(wèn)答數(shù)據(jù)集,它也具有長(zhǎng)尾分布的特點(diǎn),即大部分問(wèn)題是關(guān)于不太流行的實(shí)體。

圖片

EntityQuestions:另一個(gè)流行的開(kāi)放域QA數(shù)據(jù)集,也涵蓋了長(zhǎng)尾實(shí)體分布。

結(jié)果

整體模型性能:圖 4 的左上角展示了模型在 PopQA 上的整體表現(xiàn),結(jié)果顯示,即使沒(méi)有使用上下文示例,較大的LMs也能展現(xiàn)出合理的性能

主體實(shí)體流行度預(yù)測(cè)記憶:圖 4(底部)顯示,幾乎所有關(guān)系類(lèi)型的主體實(shí)體流行度與模型準(zhǔn)確率之間都存在正相關(guān)關(guān)系。總體而言,主體實(shí)體流行度與準(zhǔn)確率之間的相關(guān)性在較大的 LMs 中更強(qiáng);GPT-3 003 顯示出最高的正相關(guān)性(約為 0.4),而 GPT-Neo-1.3B 的相關(guān)性相對(duì)較弱(約為 0.1)。

關(guān)系類(lèi)型影響記憶:在圖 4 中可以看到,模型對(duì)某些關(guān)系類(lèi)型的平均性能高于其他類(lèi)型。這表明某些關(guān)系類(lèi)型的事實(shí)知識(shí)比其他類(lèi)型更容易記憶。同時(shí),對(duì)于某些關(guān)系類(lèi)型的問(wèn)題,模型可能不需要記憶知識(shí)三元組就能通過(guò)利用表面線索來(lái)猜測(cè)答案。例如,某些關(guān)系類(lèi)型(如國(guó)籍)允許模型利用主體實(shí)體名稱(chēng)中的表面線索。此外,模型通常對(duì)答案實(shí)體數(shù)量較少的問(wèn)題輸出最主導(dǎo)的答案實(shí)體(例如,對(duì)于顏色關(guān)系類(lèi)型的問(wèn)題,答案是“紅色”)。

擴(kuò)展可能不會(huì)幫助尾部知識(shí):如圖 4 左側(cè)所示,隨著模型規(guī)模的擴(kuò)大,PopQA 數(shù)據(jù)集上的整體表現(xiàn)有所提升。然而,圖 5 顯示,在 PopQA 和 EntityQuestions 上,模型規(guī)模的增加對(duì)于流行度較低的問(wèn)題的性能改善相對(duì)較小。

圖片

圖片

關(guān)系類(lèi)型結(jié)果分解:圖 6 更詳細(xì)地展示了流行度、準(zhǔn)確率和關(guān)系類(lèi)型之間的關(guān)系,顯示了不同模型在導(dǎo)演和國(guó)家關(guān)系類(lèi)型上的準(zhǔn)確性與流行度分布。對(duì)于前兩種類(lèi)型,可以看到流行度與準(zhǔn)確性之間存在明顯的正趨勢(shì),并且隨著模型規(guī)模的增大,LMs記憶的知識(shí)也更多。另一方面,在“國(guó)家”關(guān)系類(lèi)型中,沒(méi)有模型顯示出趨勢(shì),而整體準(zhǔn)確性較高,表明LMs經(jīng)常利用線索來(lái)回答不太流行的問(wèn)題。

圖片


2、檢索增強(qiáng):為大模型“補(bǔ)課”

前面分析表明,即使是當(dāng)前最先進(jìn)的 LMs 在處理不太受歡迎的主體或某些關(guān)系類(lèi)型時(shí)也存在困難,并且增加模型規(guī)模并不會(huì)帶來(lái)進(jìn)一步的性能提升。因此下面探索研究了檢索增強(qiáng) LMs的有效性,這些模型利用非參數(shù)記憶(即檢索到的文本)來(lái)提高性能。

實(shí)驗(yàn)設(shè)置:采用了簡(jiǎn)單直接的方式將檢索到的上下文與原始問(wèn)題連接起來(lái)。從維基百科中獲取相關(guān)段落來(lái)作為附加的上下文信息,使用BM25和神經(jīng)密集檢索器作為檢索模型。BM25是一種基于統(tǒng)計(jì)信息檢索的算法,而神經(jīng)密集檢索器則利用深度學(xué)習(xí)技術(shù)來(lái)計(jì)算文檔與查詢之間的相似度。

結(jié)果

圖7顯示,檢索顯著提升了性能,一個(gè)較小的 LM(例如,GPT-Neo 2.7B)通過(guò) Contriever 檢索增強(qiáng)后,表現(xiàn)優(yōu)于普通的 GPT-3。

圖片

對(duì)不流行實(shí)體的幫助

對(duì)于主體實(shí)體不太受歡迎的問(wèn)題,非參數(shù)記憶顯著提升了所有測(cè)試模型的表現(xiàn)。例如,在PopQA數(shù)據(jù)集中最不受歡迎的4000個(gè)問(wèn)題上,基于神經(jīng)密集檢索器增強(qiáng)的GPT-neo 2.7B模型甚至超過(guò)了強(qiáng)大的GPT-3 davinci-003模型。

圖片

對(duì)流行實(shí)體可能造成的誤導(dǎo)

然而,對(duì)于關(guān)于流行實(shí)體的問(wèn)題,檢索增強(qiáng)可能會(huì)導(dǎo)致大型LMs表現(xiàn)下降。這是因?yàn)闄z索到的上下文有時(shí)會(huì)誤導(dǎo)這些已經(jīng)能夠很好地記住相關(guān)信息的模型。對(duì)于 10% 的問(wèn)題,檢索增強(qiáng)導(dǎo)致 LM 錯(cuò)誤地回答了它本可以正確回答的問(wèn)題。

圖片


3、Adaptive Retrieval:自適應(yīng)檢索

雖然引入非參數(shù)記憶有助于處理長(zhǎng)尾分布,但強(qiáng)大的 LMs 已經(jīng)記憶了流行實(shí)體的事實(shí)知識(shí),檢索增強(qiáng)可能會(huì)帶來(lái)負(fù)面影響。于是本文探索了一種兩全其美的方法,即自適應(yīng)檢索(Adaptive Retrieval),該方法僅根據(jù)輸入查詢信息決定何時(shí)檢索段落,并在必要時(shí)使用檢索到的非參數(shù)記憶增強(qiáng)輸入

自適應(yīng)檢索基于這樣的發(fā)現(xiàn):當(dāng)前最佳的LMs已經(jīng)記憶了更受歡迎的知識(shí),因此只有在它們沒(méi)有記憶事實(shí)知識(shí)并且需要找到外部非參數(shù)知識(shí)時(shí)才使用檢索。

使用PopQA 數(shù)據(jù)集來(lái)選擇一個(gè)基于輸入查詢信息的流行度閾值,并且僅在低于該閾值的情況下才進(jìn)行檢索。對(duì)于更受歡迎的實(shí)體,則不使用檢索。閾值是獨(dú)立為每種關(guān)系類(lèi)型確定的。

流行度閾值確定

采用暴力搜索(Brute Force Search)的方法來(lái)選擇閾值。具體步驟如下:

1. 定義自適應(yīng)準(zhǔn)確率:自適應(yīng)準(zhǔn)確率是指在給定的流行度閾值下,模型的綜合表現(xiàn)。具體來(lái)說(shuō):

  • 對(duì)于流行度低于閾值的問(wèn)題,模型使用檢索增強(qiáng)(非參數(shù)記憶)的結(jié)果。
  • 對(duì)于流行度高于或等于閾值的問(wèn)題,模型使用自身的參數(shù)記憶(即不進(jìn)行檢索)的結(jié)果。

2. 搜索最優(yōu)閾值:通過(guò)暴力搜索的方式,嘗試不同的流行度閾值,并計(jì)算每個(gè)閾值下的自適應(yīng)準(zhǔn)確率。最終選擇使自適應(yīng)準(zhǔn)確率達(dá)到最高的那個(gè)閾值。

性能提升結(jié)果

圖9顯示了基于每種關(guān)系類(lèi)型的閾值自適應(yīng)檢索非參數(shù)記憶的結(jié)果。可以看出,對(duì)于較大的模型,自適應(yīng)檢索非參數(shù)記憶是有效的。在POPQA上的最佳性能是使用GPT-3 davinci-003自適應(yīng)地與GenRead和Contriever結(jié)合,準(zhǔn)確率達(dá)到了46.5%,比任何非自適應(yīng)方法高出5.3%。

圖片

閾值隨模型規(guī)模變化

盡管自適應(yīng)檢索對(duì)較大模型顯示出性能提升,但較小模型并沒(méi)有實(shí)現(xiàn)相同的性能提升。圖10顯示,較小的LMs幾乎總是需要檢索,表明對(duì)于小LMs,參數(shù)記憶并不比非參數(shù)記憶更可靠。相比之下,大型模型通常檢索得少得多。例如,GPT-3 davinci-003僅對(duì)40%的問(wèn)題進(jìn)行檢索,而較小的GPT-NeoX 20B也不在超過(guò)20%的問(wèn)題上檢索文檔。

圖片

推理成本降低

自適應(yīng)檢索還提高了效率;如果我們知道不需要檢索文檔,我們可以跳過(guò)檢索組件,并且輸入長(zhǎng)度變得更短,這在檢索和語(yǔ)言模型組件中都提高了延遲。圖11顯示了GPT-J 6B和GPT-NeoX 20B的推理延遲,以及GPT-3的API成本。特別是對(duì)于較大的LMs,連接檢索上下文會(huì)導(dǎo)致顯著增加的延遲(例如,對(duì)于GPT-J 6B,推理時(shí)間延遲幾乎翻倍)。自適應(yīng)檢索能夠?qū)⑼评頃r(shí)間降低高達(dá)9%,從標(biāo)準(zhǔn)檢索中節(jié)省成本。圖12顯示了EntityQuestions的準(zhǔn)確率和成本節(jié)省。盡管EntityQuestions缺乏流行實(shí)體,但自適應(yīng)檢索能夠減少API成本15%,同時(shí)保持與僅檢索相當(dāng)?shù)男阅堋?/span>

圖片


4、總結(jié)

這篇論文深入探討了在什么情況下為大型語(yǔ)言模型(LLM)應(yīng)用檢索增強(qiáng)生成技術(shù)會(huì)更有效果。并提供了一種有效的解決方案,幫助我們更合理地應(yīng)用檢索增強(qiáng)技術(shù),讓語(yǔ)言模型在更多場(chǎng)景下發(fā)揮出更好的性能。

但是對(duì)于自適應(yīng)的方式,采用暴力搜索的方式選取自適應(yīng)閾值,尤其是在效率和可擴(kuò)展性方面存在明顯的局限性。這種基于暴力搜索的策略需要對(duì)大量可能的閾值進(jìn)行遍歷,計(jì)算成本較高,且難以適應(yīng)動(dòng)態(tài)變化的數(shù)據(jù)分布或大規(guī)模應(yīng)用場(chǎng)景。因此,探索更高效、更智能的閾值選擇方法值得研究。

責(zé)任編輯:龐桂玉 來(lái)源: 小白學(xué)AI算法
相關(guān)推薦

2025-07-03 02:12:00

RAG檢索系統(tǒng)

2021-10-04 14:56:09

機(jī)器學(xué)習(xí)函數(shù)參數(shù)

2021-03-08 10:48:04

AI

2023-12-08 16:32:35

GenAI人工智能AI

2023-09-05 07:17:23

2022-09-28 08:18:01

I/ONIO2API

2024-10-23 08:16:58

RAG智能進(jìn)化

2015-03-24 11:04:58

2010-07-19 15:07:23

SQL Server評(píng)

2016-07-26 11:21:53

2023-07-03 09:49:49

2024-07-09 07:54:26

2024-06-19 08:14:51

大型語(yǔ)言模型LLMRAG

2022-12-27 13:36:09

2009-07-14 15:53:21

光纖參數(shù)測(cè)試

2010-07-28 16:40:38

2024-01-22 15:36:54

大語(yǔ)言模型人工智能

2021-09-07 06:40:26

狀態(tài)機(jī)識(shí)別地址

2024-07-09 00:00:06

RAG參數(shù)模型

2024-07-09 18:36:12

點(diǎn)贊
收藏

51CTO技術(shù)棧公眾號(hào)

主站蜘蛛池模板: 霸州市| 西吉县| 紫阳县| 哈尔滨市| 横山县| 响水县| 绥宁县| 瑞丽市| 黄骅市| 南城县| 隆回县| 台山市| 黎川县| 普兰店市| 汝阳县| 涡阳县| 鄂伦春自治旗| 威宁| 富宁县| 雷州市| 墨江| 会泽县| 兰考县| 西藏| 临沂市| 安新县| 巴南区| 金门县| 玉门市| 桐庐县| 华亭县| 安仁县| 恩平市| 长白| 龙岩市| 泰安市| 五莲县| 南漳县| 枞阳县| 东平县| 通河县|