o1模型醫學推理驚人,超過人類醫生
在醫療領域,大模型的應用和影響力正在不斷擴大。但當前對于大模型在醫療任務中的評估主要依賴于選擇題基準測試,這種方式存在很多局限性,例如,高度受限、無法真實反映臨床決策復雜性以及模型可能通過語義結構答題等問題。
為了更全面真實地評估大模型在醫學推理任務中的實際能力,哈佛醫學院、馬里蘭大學醫學院、劍橋健康聯盟、斯坦福大學等通過OpenAI的o1-preview模型,設計了一系列嚴謹的實驗,包括鑒別診斷生成、推理展示、概率推理和管理推理等多個關鍵測試,并由經驗豐富的專家醫師用經過嚴格驗證的測量方法,對模型輸出的質量進行全面且細致的評估
結果顯示,o1-preview在差異診斷生成、展示推理和管理推理等方面展現了超越人類水平的表現,尤其是在需要批判性思維的任務如診斷和管理上表現非常出色。
在數據收集方面,研究團隊采用了多種評分系統和統計方法來評估o1-preview的表現。例如,對于鑒別診斷的質量,兩位主治內科醫師獨立使用Bond Score進行評分,該評分系統的范圍是0到5,其中5分代表包含確切目標診斷的鑒別診斷列表,0分代表與目標診斷無關的鑒別診斷列表。
對于測試計劃的質量,評分使用了從0到2的Likert量表,通過將建議的測試計劃與案例中實際進行的診斷進行比較。此外,研究團隊還使用了線性加權Cohen's kappa來評估評分者之間的一致性,并通過討論解決不一致的評分。
在統計分析方面,研究團隊使用了R語言進行數據分析。他們比較了o1-preview與歷史上的GPT-4、主治醫師和住院醫師的表現,并使用了McNemar's test、t-test和混合效應模型等統計方法來評估模型之間的差異。
研究人員首先評估的是NEJM CPCs案例,是鑒別診斷生成器的傳統標準。o1-preview在這些案例中的表現令人印象深刻。
在143個案例中,o1-preview在78.3%的情況下將正確診斷包含在其鑒別診斷中,而在70個與GPT-4相同的案例中,o1-preview在88.6%的情況下提供了確切或非常接近的診斷,相較于GPT-4的72.9%有顯著提升。
在評估o1-preview選擇下一步診斷測試的能力時,兩位醫師對o1-preview生成的測試計劃進行了評分。
在132個案例中,o1-preview在87.5%的情況下選擇了正確的測試,11%的情況下選擇的測試計劃被認為有幫助,僅有1.5%的情況下會被認為無幫助。這些數據進一步證實了o1-preview在臨床決策支持中的潛力。
在NEJM Healer診斷案例中,o1-preview的表現同樣出色。這些案例是為評估臨床推理而設計的虛擬患者接觸,o1-preview在80個案例中的78個達到了完美的R-IDEA評分,遠高于GPT-4的47個、主治醫師的28個和住院醫師的16個。
R-IDEA評分是一個驗證過的10點評分系統,用于評估記錄臨床推理的四個核心領域。這一結果表明o1-preview在展示臨床推理方面的能力遠超人類醫師和其他同類大模型。
在基于真實案例的Grey Matters管理案例中,o1-preview的表現同樣出色。在五個臨床小節中,o1-preview的得分中位數為86%,高于GPT-4的42%、使用GPT-4的醫師的41%和使用傳統資源的醫師的34%。
在與50位普通醫師比較的六個Landmark診斷案例中,o1-preview的表現與GPT-4相當,中位數得分為97%,而GPT-4為92%,使用GPT-4的醫師為76%,使用傳統資源的醫師為74%。這些數據表明o1-preview在診斷推理方面的能力與GPT-4相當,且優于人類醫師。
在診斷概率推理案例中,o1-preview的表現與GPT-4相似,在估計測試前和測試后概率方面與GPT-4表現相近。然而,在冠狀動脈疾病的壓力測試中,o1-preview的密度更接近參考范圍。這一結果表明o1-preview在概率推理方面的能力與GPT-4相當,但在某些特定情況下可能更接近科學參考概率。
本文轉自 AIGC開放社區 ,作者:AIGC開放社區
