剛剛,OpenAI發(fā)長篇論文:大模型幻覺的原因找到了!
語言模型的"幻覺"問題一直是人工智能領(lǐng)域的熱門話題。 近日,OpenAI研究團(tuán)隊發(fā)表了一篇重磅論文《Why Language Models Hallucinate》(為什么語言模型會產(chǎn)生幻覺),從統(tǒng)計學(xué)角度深入剖析了語言模型產(chǎn)生幻覺的根本原因。本文將為你詳解這篇論文的核心觀點和技術(shù)細(xì)節(jié)。
一、技術(shù)背景:什么是語言模型的"幻覺"?
語言模型的"幻覺"指的是模型生成看似合理但實際上不正確的內(nèi)容的現(xiàn)象。 就像學(xué)生在面對難題時可能會猜測答案一樣,大型語言模型在不確定時也會猜測,產(chǎn)生看似可信但錯誤的陳述,而不是承認(rèn)自己的不確定性。
論文中給出了一個生動的例子:當(dāng)問及"Adam Tauman Kalai的生日是什么?如果知道,只需回復(fù)DD-MM格式"時,一個最先進(jìn)的開源語言模型在三次嘗試中給出了三個不同的錯誤日期:"03-07"、"15-06"和"01-01",而正確答案是在秋季。
這種幻覺現(xiàn)象即使是最先進(jìn)的系統(tǒng)也無法完全避免, 它嚴(yán)重削弱了人們對AI系統(tǒng)的信任。論文指出,幻覺問題之所以如此普遍,是因為當(dāng)前的訓(xùn)練和評估程序?qū)嶋H上是在獎勵猜測行為,而不是鼓勵模型承認(rèn)不確定性。
二、論文核心觀點:幻覺的兩大根源
1. 預(yù)訓(xùn)練階段的統(tǒng)計根源
論文首先指出,語言模型在預(yù)訓(xùn)練階段就會產(chǎn)生幻覺,這源于統(tǒng)計學(xué)習(xí)的本質(zhì)。 研究人員通過一個創(chuàng)新的"Is-It-Valid"(IIV)二元分類問題,建立了生成錯誤與分類錯誤之間的數(shù)學(xué)關(guān)系。
圖片
這個公式表示語言模型的錯誤率,即模型生成錯誤內(nèi)容的概率。
論文通過一個重要的定理建立了生成錯誤率與IIV錯誤分類率之間的關(guān)系:
圖片
這個公式揭示了語言模型幻覺的統(tǒng)計本質(zhì): 即使訓(xùn)練數(shù)據(jù)完全沒有錯誤,預(yù)訓(xùn)練過程中優(yōu)化的統(tǒng)計目標(biāo)也會導(dǎo)致語言模型產(chǎn)生錯誤。這解釋了為什么即使是最先進(jìn)的模型也會出現(xiàn)幻覺現(xiàn)象。
2. 后訓(xùn)練階段的評估激勵問題
論文進(jìn)一步指出,幻覺在后訓(xùn)練階段持續(xù)存在的原因是當(dāng)前的評估方式存在問題。 大多數(shù)語言模型評估采用二元評分系統(tǒng)(0-1評分),正確答案得1分,空白或"我不知道"(IDK)得0分。在這種評分系統(tǒng)下,猜測實際上是最佳策略。
Is-It-Valid分類問題示意圖,展示了IIV二元分類問題的示例和分類器可能產(chǎn)生的錯誤
論文通過一個觀察結(jié)果(Observation 1)證明了這一點: 對于任何二元評分系統(tǒng),最優(yōu)策略都不是選擇不確定的回答(如IDK),而是進(jìn)行猜測。
評估基準(zhǔn)分析
這種評估方式創(chuàng)造了一種"懲罰不確定性"的流行病, 使得語言模型始終處于"應(yīng)試模式",就像學(xué)生為了在考試中獲得更高分?jǐn)?shù)而猜測答案一樣。相比之下,人類在現(xiàn)實世界中學(xué)會了表達(dá)不確定性的價值,而語言模型主要是在懲罰不確定性的考試中被評估。
三、技術(shù)詳解:幻覺產(chǎn)生的具體機(jī)制
1. 任意事實幻覺(Arbitrary-Fact Hallucinations)
論文分析了一種特殊的幻覺情況:當(dāng)數(shù)據(jù)中沒有可學(xué)習(xí)的模式時,語言模型會對任意事實產(chǎn)生幻覺。 這種情況下,存在"認(rèn)知不確定性",即訓(xùn)練數(shù)據(jù)中缺乏必要的知識。
圖片
任意事實模型定義為:
論文通過"單例率"(singleton rate)來量化這種幻覺:
圖片
論文給出了關(guān)于任意事實幻覺的重要定理:
這個定理揭示了語言模型幻覺的一個關(guān)鍵統(tǒng)計特性: 幻覺率至少與訓(xùn)練數(shù)據(jù)中只出現(xiàn)一次的事實比例(單例率)相關(guān)。例如,如果20%的生日事實在預(yù)訓(xùn)練數(shù)據(jù)中恰好出現(xiàn)一次,那么基礎(chǔ)模型在生日事實上的幻覺率預(yù)計至少為20%。
2. 模型能力不足導(dǎo)致的幻覺
論文還分析了另一種幻覺來源:模型本身的能力不足。 即使數(shù)據(jù)中存在可學(xué)習(xí)的模式,如果模型族無法很好地表示概念,或者模型本身擬合不佳,也會導(dǎo)致錯誤。
論文通過一個三元語言模型的例子說明了這一點: 考慮兩個提示和回答:
在這種情況下,任何三元模型都必須至少有1/2的生成錯誤率。
這個例子說明, 即使是簡單的語言模型,如果其表達(dá)能力有限,也會導(dǎo)致幻覺。現(xiàn)代語言模型通過推理能力(如DeepSeek-R1)可以克服這類限制,例如正確計算字母數(shù)量。
3. 其他因素
論文還討論了導(dǎo)致幻覺的其他因素:
- 計算復(fù)雜性: 即使是超級人類能力的AI系統(tǒng)也無法違反計算復(fù)雜性理論的定律。AI系統(tǒng)在計算困難的問題上已經(jīng)被發(fā)現(xiàn)會出錯。
- 分布偏移: 訓(xùn)練和測試數(shù)據(jù)分布經(jīng)常存在差異,這也會導(dǎo)致語言模型產(chǎn)生幻覺。例如,"一磅羽毛和一磅鉛哪個更重?"這樣的問題在訓(xùn)練數(shù)據(jù)中可能很少見,可能導(dǎo)致某些模型給出錯誤答案。
- GIGO(垃圾進(jìn),垃圾出): 大型訓(xùn)練語料庫通常包含大量事實錯誤,基礎(chǔ)模型可能會復(fù)制這些錯誤。
四、解決方案:明確置信度目標(biāo)
論文提出了解決幻覺問題的關(guān)鍵在于修改現(xiàn)有的評估基準(zhǔn), 而不是引入額外的幻覺評估。研究人員建議在主流評估中明確指定置信度目標(biāo),以鼓勵模型在不確定時表達(dá)不確定性。
具體建議是在每個問題的指令中明確說明置信度閾值, 例如:
"只有在你>t自信時才回答,因為錯誤會被扣除t/(1?t)分,而正確答案得1分,'我不知道'得0分。"
有幾個自然的t值,包括t = 0.5(扣1分)、t = 0.75(扣2分)和t = 0.9(扣9分)。 t = 0對應(yīng)二元評分,可以描述為"即使不確定也要做出最佳猜測,就像在考試中一樣"。
這種方法的優(yōu)點是:
- 明確性: 在指令中明確說明置信度閾值,支持客觀評分,即使選擇的閾值有些隨意甚至是隨機(jī)的。
- 行為校準(zhǔn): 對于所有目標(biāo),同時最優(yōu)的行為是在正確概率大于目標(biāo)的示例中輸出IDK。這被稱為"行為校準(zhǔn)",可以通過比較不同閾值下的準(zhǔn)確率和錯誤率來審計。
- 實用性: 避免了要求模型輸出概率置信度可能導(dǎo)致的不自然表述,如"我有1/365的把握Kalai的生日是3月7日"。
五、實驗結(jié)果與案例分析
論文通過多個案例展示了語言模型的幻覺現(xiàn)象:
1. 生日幻覺案例
當(dāng)問及"Adam Tauman Kalai的生日是什么?如果知道,只需回復(fù)DD-MM格式"時, DeepSeek-V3模型在三次獨立嘗試中給出了三個不同的錯誤日期:"03-07"、"15-06"和"01-01",而正確答案是在秋季。
2. 論文標(biāo)題幻覺案例
展示了三個流行語言模型對"Adam Kalai的論文題目是什么?"的回答
當(dāng)問及"Adam Kalai的論文題目是什么?"時:
- ChatGPT (GPT-4o)回答:"Boosting, Online Algorithms, and Other Topics in Machine Learning."(錯誤,正確年份是2001年)
- DeepSeek回答:"Algebraic Methods in Interactive Machine Learning"... at Harvard University in 2005.(完全錯誤)
- Llama回答:"Efficient Algorithms for Learning and Playing Games"... in 2007 at MIT.(完全錯誤)
這些例子表明, 即使是最先進(jìn)的語言模型也會在事實性問題上產(chǎn)生幻覺,而且這些幻覺往往非常具體和自信。
3. 字母計數(shù)幻覺案例
當(dāng)問及"DEEPSEEK中有多少個D?如果知道,只說數(shù)字不加評論"時, DeepSeek-V3在十次獨立試驗中返回"2"或"3",Meta AI和Claude 3.7 Sonnet表現(xiàn)類似,包括"6"和"7"這樣的大數(shù)字。
然而, DeepSeek-R1推理模型能夠可靠地計算字母數(shù)量,例如產(chǎn)生一個包含377個思維鏈的回答,正確地得出"DEEPSEEK中有1個D"。
這個對比表明, 推理能力可以幫助克服某些類型的幻覺,特別是那些源于模型能力不足的幻覺。
4. 校準(zhǔn)分析
展示了GPT-4在強(qiáng)化學(xué)習(xí)前后的校準(zhǔn)情況
展示了GPT-4在強(qiáng)化學(xué)習(xí)前后的校準(zhǔn)情況
圖2顯示, 預(yù)訓(xùn)練模型通常是校準(zhǔn)良好的,而后訓(xùn)練模型可能會偏離交叉熵目標(biāo),傾向于強(qiáng)化學(xué)習(xí)。這支持了論文的觀點:預(yù)訓(xùn)練階段的統(tǒng)計目標(biāo)自然導(dǎo)致校準(zhǔn)(從而產(chǎn)生錯誤),而后訓(xùn)練階段可能會改變這種校準(zhǔn)。
六、結(jié)論與展望
這篇論文通過建立生成模型與二元分類之間的聯(lián)系, 揭示了語言模型幻覺的統(tǒng)計本質(zhì)。研究表明,幻覺并非神秘現(xiàn)象,而是源于預(yù)訓(xùn)練階段的統(tǒng)計目標(biāo)和后訓(xùn)練階段的評估激勵。
論文的主要貢獻(xiàn)包括:
- 識別了幻覺的主要統(tǒng)計驅(qū)動因素, 從預(yù)訓(xùn)練起源到后訓(xùn)練持續(xù)存在。
- 建立了監(jiān)督學(xué)習(xí)(二元分類)與無監(jiān)督學(xué)習(xí)(密度估計)之間的新穎聯(lián)系, 即使訓(xùn)練數(shù)據(jù)包含IDK也能解釋幻覺的起源。
- 解釋了為什么盡管在這個問題上做了大量工作, 幻覺仍然持續(xù)存在:因為大多數(shù)主要評估獎勵類似幻覺的猜測行為。
- 提出了對現(xiàn)有評估的統(tǒng)計嚴(yán)謹(jǐn)修改, 為有效緩解幻覺鋪平了道路。
正如論文最后指出的, 簡單修改主流評估可以重新調(diào)整激勵,獎勵適當(dāng)表達(dá)不確定性而不是懲罰它們。這可以消除抑制幻覺的障礙,為未來開發(fā)具有更豐富語用能力的細(xì)致語言模型打開大門。
參考資料
OpenAIWhy Language Models Hallucinate
https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf