OpenAI最新研究揭秘大模型為什么會有幻覺!
引言:語言模型的“幻覺”難題
在人工智能飛速發展的今天,大語言模型(LLMs)如ChatGPT、DeepSeek等已經成為我們日常生活與工作的得力助手。然而,這些模型有時會“信口開河”,生成看似合理卻完全錯誤的回答,這種現象被學界稱為“幻覺”(hallucination)。例如,當被問及“亞當·卡萊的生日是哪天?”時,某開源模型接連給出了“03-07”、“15-06”和“01-01”三個錯誤答案,而正確答案應為秋季某天。這種“言之鑿鑿”的錯誤輸出不僅讓人啼笑皆非,還嚴重影響了模型的可信度。
近日,來自OpenAI與佐治亞理工學院的頂尖研究團隊發表了一篇題為《Why Language Models Hallucinate》的論文,深入剖析了語言模型產生幻覺的根本原因。論文由Adam Tauman Kalai、Ofir Nachum、Santosh S. Vempala和Edwin Zhang聯合撰寫,提出了一種全新的理論框架,揭示了幻覺在模型預訓練與后訓練階段的統計學根源,并呼吁調整當前評估體系以打造更可信的AI系統。這篇研究不僅為理解語言模型的行為提供了新視角,還為未來AI的發展指明了方向。
論文鏈接:https://huggingface.co/papers/2509.04664
幻覺的本質:從錯誤到“言之成理”的謊言
什么是幻覺?
語言模型的幻覺指的是模型生成看似合理但實際上錯誤的輸出。與人類感知中的“幻覺”不同,AI的幻覺并非感官錯覺,而是一種統計學上的錯誤行為。例如,當被要求回答“DEEPSEEK中有幾個D?”時,某模型在多次試驗中給出了“2”或“3”的錯誤答案,甚至有模型回答“6”或“7”,完全偏離了正確答案“1”。這些錯誤并非簡單的拼寫或語法問題,而是模型在面對不確定性時,傾向于生成“言之成理”卻錯誤的回答,而不是坦誠表示“我不知道”(IDK)。
論文指出,幻覺可以分為兩類:內在幻覺(intrinsic hallucination),即模型輸出與用戶輸入的提示相矛盾;外在幻覺(extrinsic hallucination),即輸出與訓練數據或外部事實不符。例如,下表1展示了三款主流模型在回答“亞當·卡萊的博士論文標題是什么?”時,均給出了錯誤的標題和年份,凸顯了幻覺問題的普遍性。
幻覺為何產生?
研究團隊通過計算學習理論的視角,將幻覺問題簡化為一個二分類問題:模型需要在“有效輸出”(valid outputs)與“錯誤輸出”(error outputs)之間做出區分。他們提出了“Is-It-Valid”(IIV,是否有效)分類任務,假設訓練數據中包含一半有效樣本(標記為“+”)和一半隨機錯誤樣本(標記為“-”)。通過分析,研究發現,語言模型的生成錯誤率與IIV分類的錯誤率之間存在數學關系:
生成錯誤率 ≥ 2 × IIV誤分類率
這意味著,幻覺的產生源于模型在預訓練階段試圖擬合語言分布時,受到統計壓力的影響。即使訓練數據完全無誤,模型仍會因優化目標的特性而生成錯誤。這種統計學上的“必然性”解釋了為何即使是最先進的模型也無法完全避免幻覺。
圖1:Is-It-Valid分類任務示例。圖示展示了如何通過標記為“+”的正確樣本和“-”的錯誤樣本訓練模型區分有效輸出。分類器(虛線)在拼寫等簡單任務上表現良好,但在復雜或無模式的事實上易出錯,導致幻覺。
預訓練中的幻覺根源:統計學與模型局限
預訓練如何引發幻覺?
在語言模型的預訓練階段,模型通過學習大規模文本語料庫來估計語言分布。
然而,研究指出,即使訓練數據完美無瑕,模型在優化交叉熵損失時,也會因統計復雜性而產生錯誤。論文通過一個簡化的例子說明了這一點:假設模型需要回答某人的生日,但訓練數據中某些事實(如某人的生日)只出現了一次(稱為“單例”),模型很難準確學習這些事實。研究團隊引入了“單例率”(singleton rate),即訓練數據中只出現一次的提示比例,并證明幻覺率至少與單例率相當。例如,如果20%的生日事實在訓練數據中只出現一次,那么模型在這些事實上的幻覺率至少為20%。
此外,研究還分析了其他導致幻覺的因素:
- 統計復雜性:對于沒有明確模式的事實(如隨機生日),模型因缺乏足夠數據而產生“認知不確定性”(epistemic uncertainty)。
- 模型局限性:如三元模型(trigram models,即 AI 發展早期上下文窗口僅有三個詞元的模型)無法捕捉長距離依賴,導致生成不合語法的內容。
- 計算難度:某些問題(如解密任務)在計算上不可行,模型只能隨機猜測。
- 數據質量問題(GIGO):訓練數據中的錯誤或半真半假內容會被模型復現。
理論突破:從分類到生成
論文的一個重要貢獻是將生成任務與二分類任務聯系起來。通過IIV分類問題,研究團隊證明了生成有效輸出的難度高于分類任務的難度。這種“降維”分析不僅適用于傳統的下一詞預測模型,還適用于基于搜索和檢索的模型,展現了其普適性。
后訓練中的幻覺頑疾:評估體系的“誤導”
后訓練為何未能根除幻覺?
預訓練后的后訓練階段(如通過人類反饋強化學習RLHF或直接偏好優化DPO)旨在優化模型,使其更準確并減少幻覺。然而,研究發現,當前的評估體系卻在無意中“鼓勵”模型生成幻覺。論文以一個生動的類比解釋了這一現象:就像學生在考試中因不確定而胡亂猜測,語言模型在面對二元評分(0-1評分)時,也傾向于生成“看似正確”的答案,而不是表示不確定性。
在二元評分體系下,正確答案得1分,錯誤答案或“我不知道”得0分。這種評分機制使得模型在不確定時選擇“冒險猜測”,因為猜測至少有一定概率得分,而表示不確定性則完全不得分。研究團隊通過數學分析證明,對于任何提示,模型的最佳策略永遠不是棄權(IDK),而是選擇一個可能的答案。這種“考試心態”使得模型在后訓練中傾向于生成過自信的幻覺,而不是誠實表達不確定性。
當前評估體系的問題
論文進一步分析了多個主流評估基準(如表2所示),發現絕大多數評估采用二元評分,忽視了對不確定性表達的獎勵。例如:
- MMLU-Pro和GPQA:以多選題準確率為主要指標,IDK無得分。
- IFEval:基于指令遵循的準確性評分,棄權無明確獎勵。
- WildBench:雖采用1-10分評分,但IDK可能被評為“無意義”,得分低于包含幻覺的“一般”回答。
這些評估體系的共同問題是,它們更看重答案的“正確率”而非“誠實度”,從而導致模型在優化過程中更傾向于生成幻覺。
圖2:GPT-4在預訓練與后訓練后的校準對比。左圖顯示預訓練模型的校準較好,右圖顯示后訓練后校準下降,表明后訓練可能加劇幻覺問題。
解決之道:重新設計評估體系
引入明確置信度目標
為了應對幻覺問題,研究團隊提出了一個簡單而有效的解決方案:調整評估體系,明確鼓勵模型表達不確定性。他們建議在評估提示中加入明確的置信度要求,例如:
僅在置信度高于t時回答,錯誤答案將被扣除t/(1-t)分,正確答案得1分,“我不知道”得0分。
這種評分機制通過對錯誤答案施加懲罰,激勵模型在不確定時選擇棄權。例如,當置信度閾值t=0.75時,錯誤答案將扣除3分,這使得模型只有在置信度高于75%時才會選擇回答。研究指出,這種方法已在一些人類標準化考試(如印度JEE、美國SAT早期版本)中得到應用,證明了其可行性。
前段時間 Meta 等團隊提出的“DeepConf”也用置信度的概念,在不微調的情況下大幅提升了模型在AIME 2025上的準確率,有異曲同工之妙。但 OpenAI 所提出的方法似乎更徹底、更根本,歡迎大家在評論區留言討論。
社會技術挑戰
論文強調,僅僅引入新的幻覺評估基準是不夠的,因為當前的主流評估體系在行業內占據主導地位。研究團隊呼吁對現有基準(如MMLU-Pro、GPQA等)進行改造,納入對不確定性的獎勵機制,并推動這些改進在影響廣泛的排行榜(如HELM、Open LLM Leaderboard)中被采納。這種“社會技術”方法需要學術界與工業界的共同努力,以確保評估體系與可信AI的目標對齊。
研究的意義與未來展望
理論與實踐的橋梁
這項由OpenAI與佐治亞理工學院聯合完成的研究,不僅從理論上揭示了語言模型幻覺的統計學根源,還通過分析當前評估體系的局限性,為解決幻覺問題提供了切實可行的方案。其核心貢獻包括:
- 理論創新:通過將生成任務降維為二分類問題,揭示了幻覺的統計本質。
- 實踐指導:指出評估體系的缺陷,并提出明確的改進建議。
- 廣泛適用性:分析適用于多種模型架構和訓練范式,具有普適性。
通向可信AI的下一步
幻覺問題是限制語言模型在高風險領域(如醫療、法律)應用的關鍵障礙。這項研究為構建更可信的AI系統鋪平了道路。未來,研究人員需要進一步探索如何在模型訓練中融入不確定性表達的獎勵機制,并推動行業采用更科學的評估標準。此外,隨著模型規模的增長和訓練數據的復雜化,如何平衡模型的廣度與準確性,仍是值得深入研究的課題。
結語
《Why Language Models Hallucinate》這篇論文為我們理解語言模型的“胡說八道”提供了一把鑰匙。從預訓練中的統計壓力到后訓練中的評估誤導,研究團隊揭示了幻覺問題的深層原因,并提出了切實可行的解決方案。這不僅是一項學術突破,更是對AI社區的一次深刻反思:我們是否在用錯誤的“考試”方式培養AI?通過調整評估體系,鼓勵模型誠實表達不確定性,我們或許能迎來一個更可信、更可靠的AI時代。