精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

鴻蒙開發者社區

公眾號矩陣

移動端

視頻課免費課排行榜短視頻直播課軟考學堂

全部課程軟考信創認證華為認證廠商認證 IT技術 PMP項目管理免費題庫

文章資源問答課堂專欄直播

51CTO

鴻蒙開發者社區

51CTO技術棧

51CTO官微

51CTO學堂

51CTO博客

CTO訓練營

鴻蒙開發者社區訂閱號

51CTO軟考

51CTO學堂APP

51CTO學堂企業版APP

鴻蒙開發者社區視頻號

51CTO軟考題庫

AI.x社區

登錄/注冊
51CTO

中國優質的IT技術網站

51CTO博客

專業IT技術創作平臺

51CTO學堂

IT職業在線教育平臺

o1模型醫學推理驚人，超過人類醫生

發布于 2025-2-24 09:51

瀏覽

0收藏

在醫療領域，大模型的應用和影響力正在不斷擴大。但當前對于大模型在醫療任務中的評估主要依賴于選擇題基準測試，這種方式存在很多局限性，例如，高度受限、無法真實反映臨床決策復雜性以及模型可能通過語義結構答題等問題。

為了更全面真實地評估大模型在醫學推理任務中的實際能力，哈佛醫學院、馬里蘭大學醫學院、劍橋健康聯盟、斯坦福大學等通過OpenAI的o1-preview模型，設計了一系列嚴謹的實驗，包括鑒別診斷生成、推理展示、概率推理和管理推理等多個關鍵測試，并由經驗豐富的專家醫師用經過嚴格驗證的測量方法，對模型輸出的質量進行全面且細致的評估

結果顯示，o1-preview在差異診斷生成、展示推理和管理推理等方面展現了超越人類水平的表現，尤其是在需要批判性思維的任務如診斷和管理上表現非常出色。

o1模型醫學推理驚人，超過人類醫生-AI.x社區

在數據收集方面，研究團隊采用了多種評分系統和統計方法來評估o1-preview的表現。例如，對于鑒別診斷的質量，兩位主治內科醫師獨立使用Bond Score進行評分，該評分系統的范圍是0到5，其中5分代表包含確切目標診斷的鑒別診斷列表，0分代表與目標診斷無關的鑒別診斷列表。

對于測試計劃的質量，評分使用了從0到2的Likert量表，通過將建議的測試計劃與案例中實際進行的診斷進行比較。此外，研究團隊還使用了線性加權Cohen's kappa來評估評分者之間的一致性，并通過討論解決不一致的評分。

在統計分析方面，研究團隊使用了R語言進行數據分析。他們比較了o1-preview與歷史上的GPT-4、主治醫師和住院醫師的表現，并使用了McNemar's test、t-test和混合效應模型等統計方法來評估模型之間的差異。

研究人員首先評估的是NEJM CPCs案例，是鑒別診斷生成器的傳統標準。o1-preview在這些案例中的表現令人印象深刻。

在143個案例中，o1-preview在78.3%的情況下將正確診斷包含在其鑒別診斷中，而在70個與GPT-4相同的案例中，o1-preview在88.6%的情況下提供了確切或非常接近的診斷，相較于GPT-4的72.9%有顯著提升。

o1模型醫學推理驚人，超過人類醫生-AI.x社區

在評估o1-preview選擇下一步診斷測試的能力時，兩位醫師對o1-preview生成的測試計劃進行了評分。

在132個案例中，o1-preview在87.5%的情況下選擇了正確的測試，11%的情況下選擇的測試計劃被認為有幫助，僅有1.5%的情況下會被認為無幫助。這些數據進一步證實了o1-preview在臨床決策支持中的潛力。

在NEJM Healer診斷案例中，o1-preview的表現同樣出色。這些案例是為評估臨床推理而設計的虛擬患者接觸，o1-preview在80個案例中的78個達到了完美的R-IDEA評分，遠高于GPT-4的47個、主治醫師的28個和住院醫師的16個。

o1模型醫學推理驚人，超過人類醫生-AI.x社區

R-IDEA評分是一個驗證過的10點評分系統，用于評估記錄臨床推理的四個核心領域。這一結果表明o1-preview在展示臨床推理方面的能力遠超人類醫師和其他同類大模型。

在基于真實案例的Grey Matters管理案例中，o1-preview的表現同樣出色。在五個臨床小節中，o1-preview的得分中位數為86%，高于GPT-4的42%、使用GPT-4的醫師的41%和使用傳統資源的醫師的34%。

o1模型醫學推理驚人，超過人類醫生-AI.x社區

在與50位普通醫師比較的六個Landmark診斷案例中，o1-preview的表現與GPT-4相當，中位數得分為97%，而GPT-4為92%，使用GPT-4的醫師為76%，使用傳統資源的醫師為74%。這些數據表明o1-preview在診斷推理方面的能力與GPT-4相當，且優于人類醫師。

在診斷概率推理案例中，o1-preview的表現與GPT-4相似，在估計測試前和測試后概率方面與GPT-4表現相近。然而，在冠狀動脈疾病的壓力測試中，o1-preview的密度更接近參考范圍。這一結果表明o1-preview在概率推理方面的能力與GPT-4相當，但在某些特定情況下可能更接近科學參考概率。

本文轉自 AIGC開放社區，作者：AIGC開放社區

原文鏈接:??https://mp.weixin.qq.com/s/p6D5YozZcmX14OFA8pdDgg??

標簽

贊

收藏

回復

舉報

回復

相關推薦

剛剛，OpenAI發布史上最強模型-o1，推理能力超人類博士！

Aceryt ? 3538瀏覽 ? 0回復
OpenAI發布突破性AI模型o1系列，推理能力大幅躍升重塑行業格局

芝士AI吃魚 ? 3403瀏覽 ? 0回復
OpenAI o1模型推理能力大幅提升的背后：重復采樣如何提升AI推理能力

Syrupup ? 4641瀏覽 ? 0回復
OpenAI o1引發的思維鏈思考：思維鏈提示啟發大模型推理

angel ? 4988瀏覽 ? 0回復
OpenAI o1推理模型基礎入門

51CTO內容精選 ? 3056瀏覽 ? 0回復
o1推理擴展的風吹到了RAG，性能飆升58.9%！

PaperAgent ? 3348瀏覽 ? 0回復
OpenAI o1：用內部思維鏈進行復雜推理

shizhi02 ? 3479瀏覽 ? 0回復
向o1看齊，Google開源RAG推理擴展，提升近60%

NLP前沿1 ? 2862瀏覽 ? 0回復
VLM版o1超越一眾開源和閉源模型！LLaVA-o1：多階段自主推理（北大&清華&阿里等）

angel ? 3582瀏覽 ? 0回復
DeepSeek首發國產類o1模型！人人可以免費使用！

51CTO技術棧 ? 4840瀏覽 ? 0回復
解密o1推理過程！DeepSeek-R1-Lite預覽版上線

kede96 ? 3868瀏覽 ? 0回復
解讀 Marco - o1：邁向開放式推理模型的探索與實踐

AI論文解讀 ? 3565瀏覽 ? 0回復
阿里發布類o1模型QWQ，可自我反思糾錯，實測數學推理遠超o1、DS-R1，人人免費

51CTO技術棧 ? 3826瀏覽 ? 0回復
o3模型智商157，比肩愛因斯坦！AI只用7個月，超過人類100年

Aceryt ? 2976瀏覽 ? 0回復
FineMedLM-o1: 基于監督微調與測試時訓練的醫學推理增強型大語言模型

頓數AI ? 4192瀏覽 ? 0回復
Kimi深夜炸場：滿血版多模態o1級推理模型！OpenAI外全球首次！Jim Fan：同天兩款國產o1絕對不是巧合！

51CTO技術棧 ? 3292瀏覽 ? 0回復
最簡單的推理擴展方案，效果媲美o1！

NLP前沿1 ? 2368瀏覽 ? 0回復
DeepSeek R1 Vs OpenAI o1！全球頂級推理模型訓練技術對比大解密！

51CTO技術棧 ? 7256瀏覽 ? 0回復
阿里推出 LingShu AI醫生：統一多模態醫學理解與推理的通用基礎模型

知識圖譜科技 ? 2833瀏覽 ? 0回復

這個用戶很懶，還沒有個人簡介

帖子

聲望

粉絲

關注

最近發布

剛剛，OpenAI發布GPT-image-1模型，更強吉卜力版本來啦 2025-04-24 09:57:36發布
字節跳動開源多模態AI Agent—UI-TARS-1.5 2025-04-23 11:55:00發布

熱門推薦

智能體主流框架深度研究報告：功能特性、用戶群體、技術架構與商業化路徑分析 0回復

一鍵搞定補幀+上色！神器ToonComposer讓動畫“動”起來、“靚”起來！效率飆升！ 1回復

2025年AI Builder 工具箱：20個開源神器讓你效率飆升 0回復

邁向 Agent 時代的第一步！DeepSeek-V3.1 重磅發布，多維度升級超驚艷，開啟智能推理新體驗 0回復

刷爆AI圈！字節Waver 1.0，統一視頻生成新里程碑！ 0回復

上一篇：微軟發布創新大模型：一張圖片就能生成游戲，游戲界ChatGPT來了

下一篇：谷歌提出Titans：突破算力限制，擴展上下文

社區精華內容

目錄

主站蜘蛛池模板：英超| 苍梧县| 桃江县| 玛沁县| 察隅县| 昌江| 沅江市| 清原| 桐庐县| 高州市| 平凉市| 大丰市| 墨竹工卡县| 原平市| 普洱| 当雄县| 禹城市| 江门市| 通海县| 浦北县| 吉首市| 永春县| 若尔盖县| 义马市| 鄂伦春自治旗| 东山县| 兴业县| 礼泉县| 连江县| 蒙山县| 罗江县| 高雄市| 渑池县| 汉川市| 桂平市| 定襄县| 鄄城县| 沿河| 错那县| 广丰县| 宝坻区|