精品一区二区三区在线成人,欧美精产国品一二三区,Ji大巴进入女人66h,亚洲春色在线视频

新加坡國立大學基于多維度EHR數(shù)據(jù)實現(xiàn)細粒度患者隊列建模,住院時間預(yù)測準確率提升16.3% 原創(chuàng)

發(fā)布于 2025-7-9 13:30
瀏覽
0收藏

在當今醫(yī)療信息化飛速發(fā)展的時代,電子健康記錄(EHR)已然成為醫(yī)療體系中舉足輕重的核心組成部分。 EHR 憑借其系統(tǒng)化的架構(gòu),將患者的病歷信息以電子形式精準存儲,涵蓋從基本的人口統(tǒng)計學資料到動態(tài)的、隨時間變化的醫(yī)療特征等多元內(nèi)容,為醫(yī)療實踐的各個環(huán)節(jié)提供了堅實的數(shù)據(jù)支撐,其在輔助臨床決策、優(yōu)化患者管理等關(guān)鍵領(lǐng)域發(fā)揮著不可替代的作用。

回顧 2020 年新冠疫情高峰期的臨床實踐,醫(yī)生通過構(gòu)建不同年齡層的患者隊列發(fā)現(xiàn)關(guān)鍵規(guī)律:50-70 歲患者群體更易出現(xiàn)呼吸困難、認知衰退等重癥表現(xiàn),而 20-40 歲群體多為輕癥或無癥狀感染。這種基于隊列的對比分析,不僅為診療方案制定提供了直接依據(jù),更揭示了 EHR 表征學習中被長期忽視的核心要素 —— 患者隊列。

作為醫(yī)療研究的基本單元,隊列通過共享特征識別具有相似臨床特征的患者群體,其價值遠超出個體數(shù)據(jù)的簡單累加:既能夠發(fā)現(xiàn)特定人群的疾病規(guī)律,如發(fā)熱癥狀與新冠感染的關(guān)聯(lián)性,更能為精準醫(yī)療干預(yù)提供靶向依據(jù)。但傳統(tǒng)的隊列劃分方法存在諸多局限性,難以滿足 EHR 數(shù)據(jù)處理的精細化要求,如無法實現(xiàn)細粒度隊列劃分,易引入噪聲,且不能充分利用隊列內(nèi)與隊列間的寶貴信息。

在此背景下,新加坡國立大學聯(lián)合浙江大學提出了創(chuàng)新性方法 NeuralCohort,為 EHR 表征學習開辟了新的路徑。這一方法通過獨特的雙模塊架構(gòu),有望突破現(xiàn)有難題,充分釋放 EHR 數(shù)據(jù)的潛能,為醫(yī)療分析注入強大動力,其在醫(yī)療領(lǐng)域的應(yīng)用前景備受矚目,有望深刻變革醫(yī)療數(shù)據(jù)分析與臨床決策模式,推動醫(yī)療行業(yè)邁向更高層次的智能化、精準化發(fā)展。

相關(guān)研究成果以「NeuralCohort: Cohort-aware Neural Representation Learning for Healthcare Analytics」為題,入選 ICML 2025 。

研究亮點:

* 該研究提出的 NeuralCohort 是一種具有隊列意識的神經(jīng)表征學習方法,專注于支持細粒度隊列生成

* NeuralCohort 創(chuàng)新性地同時利用了局部隊列內(nèi)和全局隊列間信息,這些關(guān)鍵要素在之前的電子健康記錄分析研究中未得到充分關(guān)注

* NeuralCohort 的優(yōu)勢在于其出色的兼容性,能夠無縫集成到各種骨干模型中,作為多功能插件將隊列信息納入醫(yī)療分析,進而提高整體性能

新加坡國立大學基于多維度EHR數(shù)據(jù)實現(xiàn)細粒度患者隊列建模,住院時間預(yù)測準確率提升16.3%-AI.x社區(qū)

論文地址: 

??https://openreview.net/forum?id=bqQVa6VRvm??

更多 AI 前沿論文:
???https://go.hyper.ai/owxf6??

EHR 數(shù)據(jù)體系:多維度醫(yī)療信息整合與臨床研究數(shù)據(jù)集支撐

該研究涉及的核心數(shù)據(jù)體系以電子健康記錄(EHR)為基礎(chǔ),其數(shù)據(jù)結(jié)構(gòu)整合了患者全周期醫(yī)療信息,包括住院、門診、急診的詳細記錄,以及臨床診斷、治療方案、用藥歷史、檢驗結(jié)果、影像報告和臨床筆記等多維度信息,形成縱向追蹤患者健康狀態(tài)的結(jié)構(gòu)化數(shù)據(jù)庫,為臨床決策、個性化醫(yī)療和人群健康研究提供全鏈條數(shù)據(jù)支持。如下表所示,該研究具體使用的數(shù)據(jù)集包括:

MIMIC-III 數(shù)據(jù)集作為公開可獲取的重要醫(yī)療資源,涵蓋了 53,423 次獨特的住院記錄,涉及在 2001 年至 2012 年間入住貝斯以色列迪卡尼醫(yī)療中心重癥監(jiān)護病房的 16 歲及以上成年患者,此外還包含 2,083,180 份已脫敏的臨床筆記,為研究患者病情發(fā)展、治療過程及臨床決策提供了深度洞察。

MIMIC-IV 數(shù)據(jù)集則聚焦于 2008 年至 2022 年間收集的患者入院信息,其采用模塊化數(shù)據(jù)組織結(jié)構(gòu),強調(diào)數(shù)據(jù)來源的可追溯性與獨立性,便于研究者根據(jù)需求靈活調(diào)用不同數(shù)據(jù)源及其聯(lián)合數(shù)據(jù)。

Diabetes130 數(shù)據(jù)集匯集了來自 130 家美國醫(yī)院和綜合醫(yī)療網(wǎng)絡(luò)在 1999 – 2008 年間積累的臨床護理數(shù)據(jù),專注于糖尿病治療領(lǐng)域的模式分析,其獨特的數(shù)據(jù)主題與長期的數(shù)據(jù)積累,為深入研究糖尿病歷史護理模式、優(yōu)化糖尿病患者治療方案以及實現(xiàn)安全個性化醫(yī)療服務(wù)提供了精準的數(shù)據(jù)支撐。

新加坡國立大學基于多維度EHR數(shù)據(jù)實現(xiàn)細粒度患者隊列建模,住院時間預(yù)測準確率提升16.3%-AI.x社區(qū)

研究所用數(shù)據(jù)集的數(shù)據(jù)統(tǒng)計

NeuralCohort 模型:雙模塊驅(qū)動的隊列意識 EHR 表征學習框架

為了有效整合患者隊列以強化電子健康記錄(EHR)數(shù)據(jù)的表征學習效果,NeuralCohort 由兩大核心模塊構(gòu)成:預(yù)上下文隊列合成模塊(Pre-context Cohort Synthesis Module)與雙尺度隊列學習模塊(Biscale Cohort Learning Module)。

新加坡國立大學基于多維度EHR數(shù)據(jù)實現(xiàn)細粒度患者隊列建模,住院時間預(yù)測準確率提升16.3%-AI.x社區(qū)

NeuralCohort 概述

在預(yù)上下文隊列合成模塊中,NeuralCohort 模型首先引入了分層就診引擎(Hierarchical Visit Engine),能夠處理復雜的診斷代碼本體結(jié)構(gòu),例如 ICD-9 的樹狀體系。通過結(jié)合路徑表征與語義相似性度量,該模塊能夠有效區(qū)分具有層級關(guān)聯(lián)的醫(yī)學術(shù)語,如糖尿病及其并發(fā)癥的不同編碼。同時,模型可將診斷、藥物、檢驗代碼的分層特征整合,并運用反向時間注意力機制(Reverse Time Attention),以當前就診為錨點動態(tài)聚合歷史就診信息,從而捕捉就診序列的時間依賴性。

為應(yīng)對傳統(tǒng)患者相似性手動標注的低效問題,模塊創(chuàng)新性地引入了偽相似性訓練(PseudoSim Training)任務(wù),利用診斷代碼生成偽標簽,并通過互信息神經(jīng)估計優(yōu)化患者表征。最終,借助 Jensen-Shannon 散度和學生 t 分布實現(xiàn)隊列推導,為后續(xù)分析提供了結(jié)構(gòu)化的患者分組方案。

雙尺度隊列學習模塊則致力于挖掘隊列內(nèi)部的共性特征以及不同隊列間的差異特征。在局部隊列建模(Local Cohort Modeling)中,模型通過將每個隊列視為圖結(jié)構(gòu),并利用患者表征的余弦相似性構(gòu)建鄰接矩陣,圖神經(jīng)網(wǎng)絡(luò)逐層聚合節(jié)點信息,從而捕捉同一隊列內(nèi)患者的交互模式。

全局隊列建模(Global Cohort Modeling)采用編碼器-解碼器架構(gòu),通過重構(gòu)損失保持隊列語義完整性,同時結(jié)合對比損失強化不同隊列的特征分離,確保跨隊列的可區(qū)分性。

最終,通過跨域注意力機制融合骨干網(wǎng)絡(luò)初始表征、隊列內(nèi)局部表征和隊列間全局表征,形成包含多層級隊列信息的最終表征。在模型訓練過程中,損失函數(shù)集成了偽相似性訓練損失、隊列推導損失、隊列對比損失及下游任務(wù)損失,通過權(quán)重參數(shù)調(diào)節(jié)實現(xiàn)多目標優(yōu)化。這使得 NeuralCohort 不僅能夠?qū)W習到細粒度的患者個體特征,還能捕獲具有臨床解釋性的隊列群體模式,為醫(yī)療數(shù)據(jù)分析任務(wù)提供了兼具精度與可解釋性的解決方案,有望推動醫(yī)療決策的科學化與精準化。

多維實驗驗證:NeuralCohort 模型準確率提升 16.3%,顯著增強患者管理的決策制定

為了評估 NeuralCohort 對電子健康記錄(EHR)表征學習的優(yōu)化效果,研究團隊構(gòu)建了一個全面的實驗框架。

研究人員選擇了 Med2Vec 、 MiME 和 ClinicalBERT 這 3 個在醫(yī)療數(shù)據(jù)分析領(lǐng)域具有代表性的模型作為基準框架。同時,為了進行有效的對比,實驗中納入了 KNN 、 K-Means 等 7 種傳統(tǒng)隊列整合算法作為對比方法。

實驗設(shè)計聚焦于兩個關(guān)鍵的醫(yī)療預(yù)測任務(wù):醫(yī)院再入院預(yù)測和長期住院時間(LOS)預(yù)測,這兩個任務(wù)對于醫(yī)療資源管理和患者護理質(zhì)量提升具有重要意義。為了全面評估模型的性能,研究人員采用了 AUPRC 、 AUROC 和準確率這 3 個廣泛認可的評估指標,并通過五輪重復實驗來獲取穩(wěn)定且可靠的統(tǒng)計結(jié)果,從而系統(tǒng)性地評估模型的泛化能力。

總體實驗結(jié)果如下表所示,NeuralCohort 在 MIMIC-III 數(shù)據(jù)集的兩個預(yù)測任務(wù)中表現(xiàn)出色,相較于傳統(tǒng)基線模型,在 AUPRC 指標上最高提升了 8.0%,在 AUROC 指標上提升了 8.1%,而在準確率方面更是顯著高出 16.3% 。

進一步的分析揭示,基線模型未能實現(xiàn)一致的性能提升,主要原因在于其在細粒度隊列信息建模方面存在不足。例如,KNN 和 K-Means 算法不在相似性感知的特征空間內(nèi)運行,DGLoS 構(gòu)建的全局圖較為粗粒度,GRASP 僅專注于隊列間建模,而 DEC 、 DEKM 和 IDC 則無法有效對醫(yī)學語義進行建模。這些缺陷導致基線模型在模擬患者相似性時表現(xiàn)不佳,甚至可能向骨干模型引入噪聲,從而降低整體性能。

新加坡國立大學基于多維度EHR數(shù)據(jù)實現(xiàn)細粒度患者隊列建模,住院時間預(yù)測準確率提升16.3%-AI.x社區(qū)

新加坡國立大學基于多維度EHR數(shù)據(jù)實現(xiàn)細粒度患者隊列建模,住院時間預(yù)測準確率提升16.3%-AI.x社區(qū)

NeuralCohort 在 MIMIC-III 數(shù)據(jù)集的兩個預(yù)測任務(wù)的表現(xiàn)

在與傳統(tǒng)醫(yī)學隊列構(gòu)建方法的對比中,NeuralCohort 同樣展現(xiàn)出了顯著的優(yōu)勢。傳統(tǒng)方法通常依據(jù)性別、年齡、糖尿病診斷和高血壓診斷等有限的特征進行隊列劃分,這種方法生成的隊列較為粗粒度,難以滿足隊列模式挖掘的需求,并且容易將不相似的患者分到同一隊列中,引入噪聲。相比之下,NeuralCohort 利用患者從隊列內(nèi)和隊列間的序貫就診層面表征,在細粒度層面上進行操作,使得在 MIMIC-III 數(shù)據(jù)集中隊列內(nèi)患者的臨床相似度提升了 23.5% 。

新加坡國立大學基于多維度EHR數(shù)據(jù)實現(xiàn)細粒度患者隊列建模,住院時間預(yù)測準確率提升16.3%-AI.x社區(qū)


在 MIMIC-III 數(shù)據(jù)集上對傳統(tǒng)隊列和 NeuralCohort 進行比較

可解釋性分析進一步揭示了 NeuralCohort 的優(yōu)勢。 Calinski-Harabasz 評分顯示,NeuralCohort 生成的隊列在長期 LOS 任務(wù)中,較 K-Means 等方法提升了 18.7%-25.4% 的 C-H 評分。基于 t-SNE 的可視化分析也表明,基線模型直接輸出的表征存在顯著的聚類重疊,而 NeuralCohort 如下圖所示,通過隊列信息注入,使得 8 個目標隊列的區(qū)分度提升了 41.2%,其中心血管疾病隊列、慢性代謝疾病隊列等臨床典型群體的特征邊界尤為清晰。

新加坡國立大學基于多維度EHR數(shù)據(jù)實現(xiàn)細粒度患者隊列建模,住院時間預(yù)測準確率提升16.3%-AI.x社區(qū)

對選定的 8 個隊列點預(yù)測前的 t-SNE 可視化

在臨床意義上,NeuralCohort 能夠識別與臨床結(jié)果直接相關(guān)的隊列特定特征,從而顯著增強患者管理。例如,通過 t 檢驗識別出的四個隊列的獨特特征,涵蓋了心血管疾病、慢性代謝和血液疾病、腎臟和泌尿問題以及復雜的慢性病和急性病等不同類型的患者群體。

這些特征的識別使得醫(yī)院能夠更加針對性地分配資源,如遙測病床、心臟科會診、糖尿病教育者、腎臟小組等,并制定相應(yīng)的干預(yù)措施,如及時使用利尿劑、胰島素滴定、安排影像學檢查等,從而顯著提高醫(yī)院效率和患者護理質(zhì)量。

產(chǎn)研協(xié)同,雙向驅(qū)動的 EHR 創(chuàng)新生態(tài)

在電子健康記錄(EHR)表征學習與隊列分析領(lǐng)域,全球?qū)W術(shù)界與企業(yè)界正通過前沿技術(shù)突破與臨床實踐創(chuàng)新,推動醫(yī)療數(shù)據(jù)價值的深度釋放,為精準醫(yī)療的發(fā)展注入新動力。

廈門大學王曉黎教授團隊提出的 MHGRL 模型,通過構(gòu)建多模態(tài)異構(gòu)圖整合 EHR 內(nèi)部結(jié)構(gòu)與外部醫(yī)學知識,在 MIMIC-III 等數(shù)據(jù)集上顯著提升了疾病預(yù)測精度。該模型采用的逆時間注意力機制,強化了當前就診與歷史記錄的關(guān)聯(lián)性,與 NeuralCohort 的預(yù)上下文隊列合成模塊在技術(shù)邏輯上形成呼應(yīng),均體現(xiàn)了對時間序列信息建模的重視。

康奈爾大學團隊基于 800 萬真實 EHR 數(shù)據(jù)構(gòu)建的 GEMS 模型,展示了隊列分析在臨床決策中的直接應(yīng)用。該研究通過圖神經(jīng)網(wǎng)絡(luò)編碼器捕捉晚期肺癌患者的 104 維特征向量,結(jié)合聚類模塊識別出三類具有顯著生存差異的亞表型,其預(yù)測總生存期的 c-index 達 0.665,遠超傳統(tǒng)基線模型,其技術(shù)路徑與 NeuralCohort 的雙尺度隊列學習模塊在方法論上高度契合,均聚焦于從復雜數(shù)據(jù)中挖掘具有臨床意義的隊列特征。

企業(yè)界同樣成果斐然,正將學術(shù)界的前沿技術(shù)轉(zhuǎn)化為實際的臨床應(yīng)用工具。例如,英國 NHS 與 Hippocratic AI 合作的 PATH 計劃,通過對話智能體自動化病史采集與轉(zhuǎn)診驗證,使專科候診周期縮短 35% 。這種基于 EHR 的智能分診系統(tǒng),其內(nèi)置的隊列分析模塊可實時識別高風險患者群體,例如通過自然語言處理從臨床筆記中提取「慢性阻塞性肺疾病合并急性加重」等復合特征,動態(tài)調(diào)整患者優(yōu)先級。

總結(jié)來看,學術(shù)界通過算法創(chuàng)新構(gòu)建更精準的隊列模型,不斷拓展醫(yī)療數(shù)據(jù)挖掘的深度與廣度;企業(yè)界則憑借其技術(shù)轉(zhuǎn)化能力,將這些前沿技術(shù)轉(zhuǎn)化為可落地的臨床工具,提升醫(yī)療服務(wù)效率與質(zhì)量。這種雙向驅(qū)動的創(chuàng)新生態(tài),不僅有望幫助醫(yī)生獲得更精準的診斷支持,更能從群體特征中發(fā)現(xiàn)個體風險的早期預(yù)警信號,推動醫(yī)療服務(wù)模式從疾病治療向健康管理轉(zhuǎn)變,為全球醫(yī)療體系的優(yōu)化升級提供了有力支撐。

參考文章:
1.??https://cdmc.xmu.edu.cn/info/1002/3683.htm???
2.??https://mp.weixin.qq.com/s/Z1Wl0FIPHpwrvnNDCE5KwA???
3.??https://mp.weixin.qq.com/s/neCUoGm75mTPwjvlND5_sg??

?著作權(quán)歸作者所有,如需轉(zhuǎn)載,請注明出處,否則將追究法律責任
收藏
回復
舉報
回復
相關(guān)推薦
主站蜘蛛池模板: 克拉玛依市| 江油市| 武山县| 龙山县| 金秀| 都匀市| 荣昌县| 南汇区| 红河县| 新河县| 靖西县| 石景山区| 榕江县| 进贤县| 平南县| 巩义市| 普格县| 鱼台县| 平顺县| 连云港市| 蒲江县| 古蔺县| 汽车| 辽宁省| 罗田县| 湘潭市| 上虞市| 和静县| 类乌齐县| 泸州市| 庄河市| 富宁县| 胶州市| 昌图县| 屏山县| 江源县| 信丰县| 万盛区| 阳泉市| 乐陵市| 辽源市|