基于預(yù)訓(xùn)練模型的知識(shí)圖譜嵌入編輯
一、引言
知識(shí)圖譜和大型語(yǔ)言模型都是用來(lái)表示和處理知識(shí)的手段。不同于大型語(yǔ)言模型,知識(shí)圖譜中的知識(shí)通常是結(jié)構(gòu)化的,這樣的結(jié)構(gòu)讓其具有更強(qiáng)的準(zhǔn)確性和可解釋性。知識(shí)圖譜嵌入(Knowledge Graph Embedding,KGE)是一種將知識(shí)圖譜中的實(shí)體和關(guān)系轉(zhuǎn)化為低維度、連續(xù)的向量空間表示的技術(shù)。這種轉(zhuǎn)化使得復(fù)雜的關(guān)系和屬性能夠以向量形式表達(dá),從而便于機(jī)器學(xué)習(xí)算法進(jìn)行處理。這些技術(shù)為各種知識(shí)密集型任務(wù)(例如信息檢索、問(wèn)答和推薦系統(tǒng))提供了寶貴的后端支持。最近的一些工作表明,基于預(yù)訓(xùn)練語(yǔ)言模型的知識(shí)圖譜嵌入可以充分利用文本信息進(jìn)而取得較好的知識(shí)圖譜表示性能。
然而,現(xiàn)有的知識(shí)圖譜嵌入模型一般是作為一個(gè)靜態(tài)工件被部署在服務(wù)中,一經(jīng)訓(xùn)練好知識(shí)圖譜表示模型就很難適應(yīng)新出現(xiàn)的實(shí)體以及處理事實(shí)知識(shí)發(fā)生修改的情況,比如,如果讓一個(gè)在2021年以前訓(xùn)練的知識(shí)圖譜表示模型去預(yù)測(cè)<美國(guó)、現(xiàn)任總統(tǒng)、?>,那么它最有可能給出的答案是唐納德·特朗普。但是隨著美國(guó)總統(tǒng)大選舉行,總統(tǒng)換屆,到2021年總統(tǒng)就變成了喬·拜登。因此,如何高效地修改其中過(guò)時(shí)或錯(cuò)誤的知識(shí)成為了一個(gè)挑戰(zhàn)。為解決這一問(wèn)題,本文提出了一種基于預(yù)訓(xùn)練語(yǔ)言模型的知識(shí)圖譜嵌入編輯方法——KGEditor。不同于直接編輯大型語(yǔ)言模型內(nèi)部的知識(shí),知識(shí)圖譜嵌入編輯是針對(duì)知識(shí)圖譜中的事實(shí)性知識(shí)進(jìn)行操作。并且編輯知識(shí)圖譜嵌入需要考慮知識(shí)的復(fù)雜結(jié)構(gòu),比如一對(duì)多,多對(duì)多等知識(shí)結(jié)構(gòu)。
二、方法
(1)任務(wù)定義
隨著外部世界的變化,需要將新的事實(shí)加入到現(xiàn)有KG中去。因此有必要將這些新的三元組知識(shí)靈活地插入到KGE中。所以引出了第二個(gè)子任務(wù)ADD,其目的是將前一階段訓(xùn)練中沒(méi)有的全新知識(shí)植入到模型中去,這類似于KG中的歸納推理設(shè)置,但是整個(gè)模型是不需要重新訓(xùn)練的。這兩種任務(wù)示意如圖所示:
本文將編輯KGE模型的任務(wù)整體定義如下:
(2)Metrics
Success@1 metric (Succ@k): KGE編輯的可靠性是通過(guò)鏈接預(yù)測(cè)來(lái)判斷是否將原有錯(cuò)誤的知識(shí)成果修改回來(lái)。為了驗(yàn)證編輯效果的有效性,本文采用了知識(shí)圖譜補(bǔ)全的設(shè)定,即通過(guò)對(duì)候選實(shí)體分?jǐn)?shù)進(jìn)行排名,生成一個(gè)實(shí)體列表。通過(guò)計(jì)算正確實(shí)體出現(xiàn)在位置K來(lái)定義修改后的模型的可靠性,定義為Success@1 metric (Succ@k),其公式如下:
Retaining Knowledge Rate of Change: 知識(shí)穩(wěn)定性是試圖去評(píng)估編輯方法在成功更新特定三元組知識(shí)時(shí),是否對(duì)知識(shí)圖譜表示模型獲取的其余知識(shí)Ox帶來(lái)了影響。本文這里主要采用兩種評(píng)估方式來(lái)探究編輯方法對(duì)于知識(shí)圖譜表示模型的影響大小,分別是知識(shí)保持率和知識(shí)的變化率。知識(shí)保持率Retain Knowledge (RK@k)代表的是原始模型預(yù)測(cè)的實(shí)體,在編輯完成后仍然能夠正確推斷出來(lái)的概率。首先本文設(shè)定了一個(gè)專門用于穩(wěn)定性測(cè)試的數(shù)據(jù)集:L-test。L-test數(shù)據(jù)集收集了原始模型預(yù)測(cè)出來(lái)的Top 1的三元組數(shù)據(jù),作為觀測(cè)數(shù)據(jù)集。如果編輯前后的KGE模型預(yù)測(cè)相對(duì)應(yīng)的三元組預(yù)測(cè)保持不變,則認(rèn)為編輯遵循知識(shí)局部性,即不會(huì)影響其余事實(shí)。通過(guò)計(jì)算保留知識(shí)局部性的比例作為知識(shí)編輯穩(wěn)定性的衡量標(biāo)準(zhǔn),其定義如下所示:
Edited Knowledge Rate of Change: 為了更好觀察編輯對(duì)穩(wěn)定性影響的大小,本文引入了兩個(gè)額外的指標(biāo)來(lái)衡量編輯帶來(lái)的影響大小。即編輯知識(shí)的變化率(Edited Knowledge Rate of Change)和保留知識(shí)的變化率(Retaining Knowledge Rate of Change),兩個(gè)公式定義如下:
(3)模型選擇
本文采用的知識(shí)圖譜嵌入模型都是基于預(yù)訓(xùn)練的知識(shí)圖譜嵌入模型。文中將這類模型進(jìn)一步細(xì)分為兩種形式:其一是以KG-BERT為代表的FT-KGE(Finetuning Knowledge Graph Embedding)模型,其二是以NN-KG代表的PT-KGE(Prompt Tuning Knowledge Graph Embedding)模型。
FT-KGE,如KG-BERT,KG-BERT將KG中的三元組視為文本序列。這類方法通過(guò)對(duì)由[SEP]和[CLS]等特殊token連接的關(guān)系和實(shí)體的三元組的描述進(jìn)行訓(xùn)練,然后將描述序列作為微調(diào)的輸入。通常使用[CLS]來(lái)進(jìn)行二元分類來(lái)判斷三元組的合法性,注釋如下:
(4)Datasets
為了構(gòu)建知識(shí)圖譜編輯數(shù)據(jù)集,本文借助了目前知識(shí)圖譜中常見(jiàn)的兩個(gè)基準(zhǔn)數(shù)據(jù)集:FB15k237和WN18RR。
EDIT Task:未來(lái)確定編輯對(duì)象,本文收集了在KGE模型鏈接預(yù)測(cè)任務(wù)上具有挑戰(zhàn)性的數(shù)據(jù)。即本文采樣了鏈接預(yù)測(cè)中,實(shí)體排序在2,500以上的數(shù)據(jù)(模型難以預(yù)測(cè)正確的三元組補(bǔ)全數(shù)據(jù))。對(duì)于穩(wěn)定性測(cè)試集,本文將模型原本能夠預(yù)測(cè)保持在top k的數(shù)據(jù)保留下來(lái),做為L(zhǎng)-test數(shù)據(jù)集。其構(gòu)建的具體流程如圖所示:
ADD Task:對(duì)于ADD任務(wù)數(shù)據(jù)集構(gòu)建,本文采用了知識(shí)圖譜補(bǔ)全任務(wù)中的歸納推理任務(wù)設(shè)定(利用已有的知識(shí)圖譜中的信息來(lái)預(yù)測(cè)或推斷缺失的關(guān)系和實(shí)體),測(cè)試數(shù)據(jù)集中的實(shí)體知識(shí)都是在訓(xùn)練中沒(méi)有見(jiàn)過(guò)的,所以可以看作為新增的知識(shí)。
在FB15k-237和WN18RR上本文都采用相同的數(shù)據(jù)集設(shè)定,處理方式也保持一致。通過(guò)以上操作,本文最終可以得到以下四個(gè)數(shù)據(jù)集:E-FB15k237,A-FB15k237,E-WN18RR,和A-WN18RR。其中具體的統(tǒng)計(jì)如表所示:
(5)KGEditor
本文首先在一些通用的知識(shí)編輯方法上進(jìn)行初步的實(shí)驗(yàn)測(cè)定,發(fā)現(xiàn)現(xiàn)有的知識(shí)編輯方法存在以下問(wèn)題。首先基于額外參數(shù)的編輯方法CaliNet不管是在Edit還是ADD任務(wù)上,表現(xiàn)都比較一般,其效果不如給予額外模型的編輯方法,如MEND和KE等。但是MEND和KE的編輯效率是低的,其額外模型的參數(shù)需要去生成網(wǎng)絡(luò)參數(shù),所以其編輯所需要訓(xùn)練的參數(shù)也會(huì)隨著隱藏層緯度的增大而增加,不會(huì)比微調(diào)的方式更節(jié)約資源。所以本文總結(jié)兩種方法的優(yōu)缺點(diǎn),通過(guò)綜合兩者的優(yōu)勢(shì),提出了一個(gè)新的編輯方法:Knowledge Graph Embeddings Editor(KGEditor),其具體示意如圖所示:
KGEditor可以在不丟失編輯性能的前提下,盡可能節(jié)約編輯的資源開(kāi)銷。這樣可以節(jié)約更多的資源實(shí)現(xiàn)更加高效的編輯。直觀上來(lái)講,本文構(gòu)建了一個(gè)與FFN架構(gòu)相同的附加層,并利用其參數(shù)進(jìn)行知識(shí)編輯。但是額外FFN層的參數(shù)不是依靠微調(diào)訓(xùn)練,而是利用額外的超網(wǎng)絡(luò)來(lái)生成附加層的額外調(diào)整參數(shù)。其公式如下:
三、實(shí)驗(yàn)
(1)實(shí)驗(yàn)結(jié)果
本文利用現(xiàn)有的一些主流知識(shí)編輯范式與KGEditor進(jìn)行比較,其中具體包括CALINET、MEND和Knowledge Editor。為了對(duì)照,本文對(duì)一些其他基礎(chǔ)范式基線也進(jìn)行了對(duì)比,首先是直接在少量更新知識(shí)上進(jìn)行微調(diào)的范式和Zero-Shot的方法。其次對(duì)于K-Adapter這種使用額外參數(shù)的方法與CALINET進(jìn)行比較,其中具體的實(shí)驗(yàn)結(jié)果如下所示。
此外,本文還研究了在知識(shí)圖譜表示編輯過(guò)程中,不同數(shù)量的編輯事實(shí)對(duì)模型性能的影響。通過(guò)在E-FB15k237數(shù)據(jù)集上進(jìn)行不同數(shù)量編輯的實(shí)驗(yàn),本文分析了編輯數(shù)量對(duì)知識(shí)可靠性和局部性的影響。其中主要關(guān)注三種模型:KE、MEND以及KGEditor在不同編輯數(shù)量下的表現(xiàn),結(jié)果如下所示。
本文還探討和評(píng)估不同基于預(yù)訓(xùn)練的知識(shí)圖譜表示初始化方法在編輯范式上的應(yīng)用效果。通過(guò)在EDIT任務(wù)上對(duì)FT-KGE和PT-KGE的方法進(jìn)行實(shí)驗(yàn),本文分析了它們?cè)谥R(shí)可靠性和局部性方面的性能表現(xiàn),結(jié)果如圖所示。
(2)Case分析
我們隨機(jī)挑選了一個(gè)編輯的Case,并通過(guò)可視化展示了編輯前后的實(shí)體變化來(lái)更清晰地觀察KGEditor的性能表現(xiàn)。下圖展示了知識(shí)編輯應(yīng)用前后,預(yù)測(cè)實(shí)體位置的顯著變化。即在對(duì)模型進(jìn)行編輯后,正確的實(shí)體明顯靠近圓心,展示了編輯KGE模型的有效性。
四、Demo
為了方便讀者更直觀了解我們的工作,我們?cè)趆uggingface的Space平臺(tái),利用Gradio去搭建了一個(gè)簡(jiǎn)易Demo。我們會(huì)在結(jié)果處展示編輯前后預(yù)測(cè)實(shí)體的變化,具體如下圖所示。
五、總結(jié)
本文主要介紹了知識(shí)圖譜嵌入模型的編輯工作。區(qū)別于傳統(tǒng)的編輯預(yù)訓(xùn)練語(yǔ)言模型的任務(wù),KGE編輯是基于知識(shí)圖譜中的事實(shí)性知識(shí)進(jìn)行操作。此外,本文提出了一個(gè)新的編輯方法——KGEditor。KGEditor是一種高效修改模型中知識(shí)的一種方法,能夠有效地節(jié)約計(jì)算資源的開(kāi)銷。此外,我們的工作還有一些不足之處,比如如何去編輯知識(shí)圖譜中的一對(duì)多以及多對(duì)多知識(shí)?如何在KGE模型中做到持續(xù)更新?這都是一些未來(lái)的工作。
本文轉(zhuǎn)載自:??ZJUKG??
作者:程思源
