AI胡說八道這事，終于有人管了？

2025-09-10 15:27:12

來自蘇黎世聯(lián)邦理工學院（ETH）和 MATS 的一項新研究提出了一種低成本、可擴展的檢測方法，能夠實時識別長篇內(nèi)容中的「幻覺 token」，并成功應用于高達 700 億（70B）參數(shù)的大型模型。

想象一下，如果 ChatGPT 等 AI 大模型在生成的時候，能把自己不確定的地方都標記出來，你會不會對它們生成的答案放心很多？

上周末，OpenAI 發(fā)的一篇論文引爆了社區(qū)。這篇論文系統(tǒng)性地揭示了幻覺的根源，指出問題出在獎勵上 —— 標準的訓練和評估程序更傾向于對猜測進行獎勵，而不是在模型勇于承認不確定時給予獎勵。可能就是因為意識到了這個問題，并找出了針對性的解法，GPT-5 的幻覺率大幅降低。

隨著 AI 大模型在醫(yī)療咨詢、法律建議等高風險領域的應用不斷深入，幻覺問題會變得越來越棘手，因此不少研究者都在往這一方向發(fā)力。除了像 OpenAI 那樣尋找幻覺原因，還有不少人在研究幻覺檢測技術。然而，現(xiàn)有的幻覺檢測技術在實際應用中面臨瓶頸，通常僅適用于簡短的事實性查詢，或需要借助昂貴的外部資源進行驗證。

針對這一挑戰(zhàn)，來自蘇黎世聯(lián)邦理工學院（ETH）和 MATS 的一項新研究提出了一種低成本、可擴展的檢測方法，能夠實時識別長篇內(nèi)容中的「幻覺 token」，并成功應用于高達 700 億（70B）參數(shù)的大型模型。

論文標題：Real-Time Detection of Hallucinated Entities in Long-Form Generation
論文地址：https://arxiv.org/abs/2509.03531
代碼地址：https://github.com/obalcells/hallucination_probes
項目地址：https://www.hallucination-probes.com/
代碼和數(shù)據(jù)集：https://github.com/obalcells/hallucination_probes

該方法的核心是精準識別實體級幻覺，例如捏造的人名、日期或引文，而非判斷整個陳述的真?zhèn)巍＿@種策略使其能夠自然地映射到 token 級別的標簽，從而實現(xiàn)實時流式檢測。

通過 token 級探針檢測幻覺實體。在長文本生成場景（Long Fact、HealthBench）中，線性探針的性能遠超基于不確定性的基線方法，而 LoRA 探針則進一步提升了性能。該探針同樣在短文本場景（TriviaQA）以及分布外推理領域（MATH）中表現(xiàn)出色。圖中展示的是 Llama-3.3-70B 模型的結果。

為實現(xiàn)這一目標，研究人員開發(fā)了一種高效的標注流程。他們利用網(wǎng)絡搜索來驗證模型生成內(nèi)容中的實體，并為每一個 token 標注是否有事實依據(jù)。基于這個專門構建的數(shù)據(jù)集，研究人員通過線性探針（linear probes）等簡潔高效的技術，成功訓練出精準的幻覺分類器。

在對四種主流模型家族的評估中，該分類器的表現(xiàn)全面超越了現(xiàn)有基準方法。尤其是在處理長篇回復時，其效果遠勝于語義熵（semantic entropy）等計算成本更高的方法。例如，在 Llama-3.3-70B 模型上，該方法的 AUC（分類器性能指標）達到了 0.90，而基準方法僅為 0.71。此外，它在短式問答場景中也展現(xiàn)出優(yōu)越的性能。

值得注意的是，盡管該分類器僅使用實體級標簽進行訓練，它卻能有效識別數(shù)學推理任務中的錯誤答案。這一發(fā)現(xiàn)表明，該方法具備了超越實體檢測的泛化能力，能夠識別更廣泛的邏輯錯誤。

雖然原始數(shù)據(jù)集的標注成本高昂，但研究發(fā)現(xiàn)，基于一個模型標注的數(shù)據(jù)可被復用于訓練針對其他模型的有效分類器。因此，研究團隊已公開發(fā)布此數(shù)據(jù)集，以推動社區(qū)的后續(xù)研究。

方法概覽

用于 token 級幻覺檢測的數(shù)據(jù)集構建

為了訓練能夠在 token 級別檢測幻覺的分類器，研究者需要一個對長文本中的幻覺內(nèi)容有精確標注的數(shù)據(jù)集。這個過程分為兩步：(1) 生成包含事實與幻覺內(nèi)容的混合文本；(2) 對這些文本進行準確的 token 級標注，以識別哪些 token 屬于被捏造的實體。下圖展示了該標注流程。

token 級標注流水線。

數(shù)據(jù)生成

研究者在 LongFact 數(shù)據(jù)集的基礎上，創(chuàng)建了一個規(guī)模擴大 10 倍、領域更多樣化的提示集 LongFact++。

LongFact++ 包含主題查詢、名人傳記、引文生成和法律案件等四類提示，旨在誘導大語言模型生成富含實體的長文本，作為后續(xù)標注的原材料。

token 級標注

與傳統(tǒng)方法將文本分解為 atomic claims 不同，該研究專注于標注實體（如人名、日期、引文等），因為實體有明確的 token 邊界，易于進行流式檢測。他們使用帶有網(wǎng)絡搜索功能的 Claude 4 Sonnet 模型來自動完成標注流程。

該系統(tǒng)會識別文本中的實體，通過網(wǎng)絡搜索驗證其真實性，并將其標記為「Supported」（有證據(jù)支持）、「Not Supported」（被證實是捏造的）或「Insufficient Information」（信息不足）。

標簽質(zhì)量

為驗證標注質(zhì)量，研究者進行了兩項檢查。首先，人類標注員的標注結果與大模型自動標注結果的一致性為 84%。其次，在一個包含已知錯誤（人工注入）的受控數(shù)據(jù)集中，該標注流程的召回率為 80.6%，假陽性率為 15.8% 。

訓練 token 級探針

探針是一個附加在語言模型上的幻覺檢測器，它由一個線性的「價值頭」和可選的 LoRA 適配器組成。價值頭讀取模型中間層 ? 的隱藏狀態(tài) ，并輸出一個 token 級的幻覺概率：

訓練的總損失函數(shù)是一個組合，它既包括用于訓練幻覺分類器的探針損失，也包括一個用于約束模型行為變化的正則化項。

為了解決幻覺信號通常集中在少數(shù)幾個關鍵 token 上的問題，研究者設計了一種結合了逐詞損失和跨度最大值損失的混合損失函數(shù) 。其公式如下：

這個設計的巧妙之處在于：對于一個被標記為幻覺的文本片段，只要其中至少有一個 token 的幻覺分數(shù)很高，損失函數(shù)就會給予獎勵，從而讓探針學會更精確地聚焦于關鍵錯誤信號。

實驗結果

在長文本設置中（LongFact 和 HealthBench），token 級探針在兩個主要模型上的表現(xiàn)都顯著優(yōu)于基線方法（表 1）。簡單的線性探針始終實現(xiàn)了 0.85 以上的 AUC 值，而 LoRA 探針進一步提升了性能，將 AUC 推高到 0.89 以上。

相比之下，基于不確定性的基線方法表現(xiàn)均不佳，AUC 值均未超過 0.76。在短文本設置中（TriviaQA），基線方法比長文本設置中表現(xiàn)更強，但探針仍然領先。LoRA 探針始終實現(xiàn)了超過 0.96 的 AUC 值，線性探針也表現(xiàn)良好。值得注意的是，本文提出的探針在 MATH 數(shù)據(jù)集上也取得了強勁的結果。這種分布外的性能表明，本文提出的方法捕獲了正確性的信號，這些信號的泛化性超出了其最初針對的虛構實體。

作者在三個次要模型上復制了長文本結果，每個模型僅使用 2000 個其自身長文本生成的注釋樣本進行訓練。結果是相似的：LoRA 探針再次優(yōu)于線性探針，在 LongFact 生成上的 AUC 值在 0.87-0.90 之間。次要模型的完整結果顯示在表 5 中。

雖然 LoRA 探針的 AUC 值在多個設置中接近或超過 0.9，但長文本上的 R@0.1 最高約為 0.7，即在 10% 假陽性率下，檢測器能夠識別出大約三分之二的幻覺實體。這些結果既突出了相對于標準基于不確定性基線方法的實際收益，也表明在這類方法能夠廣泛應用于高風險場景之前，仍有進一步改進的空間。

更多細節(jié)請參見原論文。

責任編輯：張燕妮來源：機器之心

AI 模型訓練

精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

AI胡說八道這事，終于有人管了？

方法概覽

實驗結果