精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

剛剛,OpenAI發(fā)長篇論文:大模型幻覺的原因找到了!

人工智能
語言模型的"幻覺"指的是模型生成看似合理但實際上不正確的內(nèi)容的現(xiàn)象。?就像學(xué)生在面對難題時可能會猜測答案一樣,大型語言模型在不確定時也會猜測,產(chǎn)生看似可信但錯誤的陳述,而不是承認(rèn)自己的不確定性。

語言模型的"幻覺"問題一直是人工智能領(lǐng)域的熱門話題。 近日,OpenAI研究團(tuán)隊發(fā)表了一篇重磅論文《Why Language Models Hallucinate》(為什么語言模型會產(chǎn)生幻覺),從統(tǒng)計學(xué)角度深入剖析了語言模型產(chǎn)生幻覺的根本原因。本文將為你詳解這篇論文的核心觀點和技術(shù)細(xì)節(jié)。

一、技術(shù)背景:什么是語言模型的"幻覺"?

語言模型的"幻覺"指的是模型生成看似合理但實際上不正確的內(nèi)容的現(xiàn)象。 就像學(xué)生在面對難題時可能會猜測答案一樣,大型語言模型在不確定時也會猜測,產(chǎn)生看似可信但錯誤的陳述,而不是承認(rèn)自己的不確定性。

論文中給出了一個生動的例子:當(dāng)問及"Adam Tauman Kalai的生日是什么?如果知道,只需回復(fù)DD-MM格式"時,一個最先進(jìn)的開源語言模型在三次嘗試中給出了三個不同的錯誤日期:"03-07"、"15-06"和"01-01",而正確答案是在秋季。

這種幻覺現(xiàn)象即使是最先進(jìn)的系統(tǒng)也無法完全避免, 它嚴(yán)重削弱了人們對AI系統(tǒng)的信任。論文指出,幻覺問題之所以如此普遍,是因為當(dāng)前的訓(xùn)練和評估程序?qū)嶋H上是在獎勵猜測行為,而不是鼓勵模型承認(rèn)不確定性。

二、論文核心觀點:幻覺的兩大根源

1. 預(yù)訓(xùn)練階段的統(tǒng)計根源

論文首先指出,語言模型在預(yù)訓(xùn)練階段就會產(chǎn)生幻覺,這源于統(tǒng)計學(xué)習(xí)的本質(zhì)。 研究人員通過一個創(chuàng)新的"Is-It-Valid"(IIV)二元分類問題,建立了生成錯誤與分類錯誤之間的數(shù)學(xué)關(guān)系。

圖片圖片

這個公式表示語言模型的錯誤率,即模型生成錯誤內(nèi)容的概率。

論文通過一個重要的定理建立了生成錯誤率與IIV錯誤分類率之間的關(guān)系:

圖片圖片

這個公式揭示了語言模型幻覺的統(tǒng)計本質(zhì): 即使訓(xùn)練數(shù)據(jù)完全沒有錯誤,預(yù)訓(xùn)練過程中優(yōu)化的統(tǒng)計目標(biāo)也會導(dǎo)致語言模型產(chǎn)生錯誤。這解釋了為什么即使是最先進(jìn)的模型也會出現(xiàn)幻覺現(xiàn)象。

2. 后訓(xùn)練階段的評估激勵問題

論文進(jìn)一步指出,幻覺在后訓(xùn)練階段持續(xù)存在的原因是當(dāng)前的評估方式存在問題。 大多數(shù)語言模型評估采用二元評分系統(tǒng)(0-1評分),正確答案得1分,空白或"我不知道"(IDK)得0分。在這種評分系統(tǒng)下,猜測實際上是最佳策略。

Is-It-Valid分類問題示意圖,展示了IIV二元分類問題的示例和分類器可能產(chǎn)生的錯誤Is-It-Valid分類問題示意圖,展示了IIV二元分類問題的示例和分類器可能產(chǎn)生的錯誤

論文通過一個觀察結(jié)果(Observation 1)證明了這一點: 對于任何二元評分系統(tǒng),最優(yōu)策略都不是選擇不確定的回答(如IDK),而是進(jìn)行猜測。

評估基準(zhǔn)分析評估基準(zhǔn)分析

這種評估方式創(chuàng)造了一種"懲罰不確定性"的流行病, 使得語言模型始終處于"應(yīng)試模式",就像學(xué)生為了在考試中獲得更高分?jǐn)?shù)而猜測答案一樣。相比之下,人類在現(xiàn)實世界中學(xué)會了表達(dá)不確定性的價值,而語言模型主要是在懲罰不確定性的考試中被評估。

三、技術(shù)詳解:幻覺產(chǎn)生的具體機(jī)制

1. 任意事實幻覺(Arbitrary-Fact Hallucinations)

論文分析了一種特殊的幻覺情況:當(dāng)數(shù)據(jù)中沒有可學(xué)習(xí)的模式時,語言模型會對任意事實產(chǎn)生幻覺。 這種情況下,存在"認(rèn)知不確定性",即訓(xùn)練數(shù)據(jù)中缺乏必要的知識。

圖片圖片

任意事實模型定義為:

論文通過"單例率"(singleton rate)來量化這種幻覺:

圖片圖片

論文給出了關(guān)于任意事實幻覺的重要定理:

這個定理揭示了語言模型幻覺的一個關(guān)鍵統(tǒng)計特性: 幻覺率至少與訓(xùn)練數(shù)據(jù)中只出現(xiàn)一次的事實比例(單例率)相關(guān)。例如,如果20%的生日事實在預(yù)訓(xùn)練數(shù)據(jù)中恰好出現(xiàn)一次,那么基礎(chǔ)模型在生日事實上的幻覺率預(yù)計至少為20%。

2. 模型能力不足導(dǎo)致的幻覺

論文還分析了另一種幻覺來源:模型本身的能力不足。 即使數(shù)據(jù)中存在可學(xué)習(xí)的模式,如果模型族無法很好地表示概念,或者模型本身擬合不佳,也會導(dǎo)致錯誤。

論文通過一個三元語言模型的例子說明了這一點: 考慮兩個提示和回答:

在這種情況下,任何三元模型都必須至少有1/2的生成錯誤率。

這個例子說明, 即使是簡單的語言模型,如果其表達(dá)能力有限,也會導(dǎo)致幻覺。現(xiàn)代語言模型通過推理能力(如DeepSeek-R1)可以克服這類限制,例如正確計算字母數(shù)量。

3. 其他因素

論文還討論了導(dǎo)致幻覺的其他因素:

  • 計算復(fù)雜性: 即使是超級人類能力的AI系統(tǒng)也無法違反計算復(fù)雜性理論的定律。AI系統(tǒng)在計算困難的問題上已經(jīng)被發(fā)現(xiàn)會出錯。
  • 分布偏移: 訓(xùn)練和測試數(shù)據(jù)分布經(jīng)常存在差異,這也會導(dǎo)致語言模型產(chǎn)生幻覺。例如,"一磅羽毛和一磅鉛哪個更重?"這樣的問題在訓(xùn)練數(shù)據(jù)中可能很少見,可能導(dǎo)致某些模型給出錯誤答案。
  • GIGO(垃圾進(jìn),垃圾出): 大型訓(xùn)練語料庫通常包含大量事實錯誤,基礎(chǔ)模型可能會復(fù)制這些錯誤。

四、解決方案:明確置信度目標(biāo)

論文提出了解決幻覺問題的關(guān)鍵在于修改現(xiàn)有的評估基準(zhǔn), 而不是引入額外的幻覺評估。研究人員建議在主流評估中明確指定置信度目標(biāo),以鼓勵模型在不確定時表達(dá)不確定性。

具體建議是在每個問題的指令中明確說明置信度閾值, 例如:

"只有在你>t自信時才回答,因為錯誤會被扣除t/(1?t)分,而正確答案得1分,'我不知道'得0分。"

有幾個自然的t值,包括t = 0.5(扣1分)、t = 0.75(扣2分)和t = 0.9(扣9分)。 t = 0對應(yīng)二元評分,可以描述為"即使不確定也要做出最佳猜測,就像在考試中一樣"。

這種方法的優(yōu)點是:

  1. 明確性: 在指令中明確說明置信度閾值,支持客觀評分,即使選擇的閾值有些隨意甚至是隨機(jī)的。
  2. 行為校準(zhǔn): 對于所有目標(biāo),同時最優(yōu)的行為是在正確概率大于目標(biāo)的示例中輸出IDK。這被稱為"行為校準(zhǔn)",可以通過比較不同閾值下的準(zhǔn)確率和錯誤率來審計。
  3. 實用性: 避免了要求模型輸出概率置信度可能導(dǎo)致的不自然表述,如"我有1/365的把握Kalai的生日是3月7日"。

五、實驗結(jié)果與案例分析

論文通過多個案例展示了語言模型的幻覺現(xiàn)象:

1. 生日幻覺案例

當(dāng)問及"Adam Tauman Kalai的生日是什么?如果知道,只需回復(fù)DD-MM格式"時, DeepSeek-V3模型在三次獨立嘗試中給出了三個不同的錯誤日期:"03-07"、"15-06"和"01-01",而正確答案是在秋季。

2. 論文標(biāo)題幻覺案例

展示了三個流行語言模型對"Adam Kalai的論文題目是什么?"的回答展示了三個流行語言模型對"Adam Kalai的論文題目是什么?"的回答

當(dāng)問及"Adam Kalai的論文題目是什么?"時:

  • ChatGPT (GPT-4o)回答:"Boosting, Online Algorithms, and Other Topics in Machine Learning."(錯誤,正確年份是2001年)
  • DeepSeek回答:"Algebraic Methods in Interactive Machine Learning"... at Harvard University in 2005.(完全錯誤)
  • Llama回答:"Efficient Algorithms for Learning and Playing Games"... in 2007 at MIT.(完全錯誤)

這些例子表明, 即使是最先進(jìn)的語言模型也會在事實性問題上產(chǎn)生幻覺,而且這些幻覺往往非常具體和自信。

3. 字母計數(shù)幻覺案例

當(dāng)問及"DEEPSEEK中有多少個D?如果知道,只說數(shù)字不加評論"時, DeepSeek-V3在十次獨立試驗中返回"2"或"3",Meta AI和Claude 3.7 Sonnet表現(xiàn)類似,包括"6"和"7"這樣的大數(shù)字。

然而, DeepSeek-R1推理模型能夠可靠地計算字母數(shù)量,例如產(chǎn)生一個包含377個思維鏈的回答,正確地得出"DEEPSEEK中有1個D"。

這個對比表明, 推理能力可以幫助克服某些類型的幻覺,特別是那些源于模型能力不足的幻覺。

4. 校準(zhǔn)分析

展示了GPT-4在強(qiáng)化學(xué)習(xí)前后的校準(zhǔn)情況展示了GPT-4在強(qiáng)化學(xué)習(xí)前后的校準(zhǔn)情況

展示了GPT-4在強(qiáng)化學(xué)習(xí)前后的校準(zhǔn)情況

圖2顯示, 預(yù)訓(xùn)練模型通常是校準(zhǔn)良好的,而后訓(xùn)練模型可能會偏離交叉熵目標(biāo),傾向于強(qiáng)化學(xué)習(xí)。這支持了論文的觀點:預(yù)訓(xùn)練階段的統(tǒng)計目標(biāo)自然導(dǎo)致校準(zhǔn)(從而產(chǎn)生錯誤),而后訓(xùn)練階段可能會改變這種校準(zhǔn)。

六、結(jié)論與展望

這篇論文通過建立生成模型與二元分類之間的聯(lián)系, 揭示了語言模型幻覺的統(tǒng)計本質(zhì)。研究表明,幻覺并非神秘現(xiàn)象,而是源于預(yù)訓(xùn)練階段的統(tǒng)計目標(biāo)和后訓(xùn)練階段的評估激勵。

論文的主要貢獻(xiàn)包括:

  1. 識別了幻覺的主要統(tǒng)計驅(qū)動因素, 從預(yù)訓(xùn)練起源到后訓(xùn)練持續(xù)存在。
  2. 建立了監(jiān)督學(xué)習(xí)(二元分類)與無監(jiān)督學(xué)習(xí)(密度估計)之間的新穎聯(lián)系, 即使訓(xùn)練數(shù)據(jù)包含IDK也能解釋幻覺的起源。
  3. 解釋了為什么盡管在這個問題上做了大量工作, 幻覺仍然持續(xù)存在:因為大多數(shù)主要評估獎勵類似幻覺的猜測行為。
  4. 提出了對現(xiàn)有評估的統(tǒng)計嚴(yán)謹(jǐn)修改, 為有效緩解幻覺鋪平了道路。

正如論文最后指出的, 簡單修改主流評估可以重新調(diào)整激勵,獎勵適當(dāng)表達(dá)不確定性而不是懲罰它們。這可以消除抑制幻覺的障礙,為未來開發(fā)具有更豐富語用能力的細(xì)致語言模型打開大門。

參考資料

OpenAIWhy Language Models Hallucinate

https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf

責(zé)任編輯:武曉燕 來源: AIGC深一度
相關(guān)推薦

2025-09-08 08:56:00

OpenAI論文模型

2025-04-22 09:18:57

2025-09-10 04:00:00

2023-11-07 14:58:26

2020-03-02 19:51:40

戴爾

2024-03-12 13:14:40

2024-07-15 08:00:00

2024-08-01 09:30:00

2025-07-03 09:31:52

2025-05-08 16:40:27

OpenAICEOFacebook

2024-06-27 10:00:54

2024-01-04 16:41:29

大型語言模型自然語言處理

2025-08-29 09:05:00

AI模型報告

2025-04-27 00:00:25

ClaudeOpenAIGPT

2024-09-13 06:32:25

2013-10-09 09:53:41

AMD微型服務(wù)器Opteron 630

2024-01-02 13:19:00

AI模型

2018-02-07 14:31:57

顯卡顯存價格

2025-04-16 22:17:33

2023-11-18 09:30:42

模型AI
點贊
收藏

51CTO技術(shù)棧公眾號

主站蜘蛛池模板: 措美县| 高安市| 丰台区| 广东省| 洞口县| 资溪县| 桃园县| 宜阳县| 乌拉特中旗| 嘉义县| 文成县| 北碚区| 山东| 东平县| 丹棱县| 图片| 海安县| 宜黄县| 金寨县| 沭阳县| 扎鲁特旗| 含山县| 杨浦区| 清原| 綦江县| 桑植县| 鄂托克前旗| 香河县| 西乡县| 鄱阳县| 曲周县| 清新县| 廊坊市| 荥阳市| 基隆市| 沽源县| 铁岭县| 平湖市| 临安市| 兰西县| 伊宁市|