哈佛新研究：AI 模型“急診科”場景診斷能力有望超越人類醫(yī)生

2026/5/2 22:16:25 來源：IT之家作者：清源責(zé)編：清源

評論：

IT之家 5 月 2 日消息，當(dāng)?shù)貢r間 5 月 1 日，據(jù)外媒 TechSpot 報道，AI 正開始進(jìn)入醫(yī)學(xué)中最難的一類場景：信息不完整時如何作出正確的判斷。《科學(xué)》期刊一項新研究顯示，OpenAI 的一款推理模型在真實臨床病例中接受測試后，在診斷患者和制定治療方案方面達(dá)到人類醫(yī)生水平，很多情況下甚至表現(xiàn)更好。

這項研究由哈佛醫(yī)學(xué)院和貝斯以色列女執(zhí)事醫(yī)療中心研究人員完成。與傳統(tǒng)受控基準(zhǔn)測試不同，研究重點放在真實臨床環(huán)境下的表現(xiàn)，也就是模型面對不完整、不規(guī)整、不斷變化的醫(yī)療信息時能否作出有效判斷。

其中一個病例中，一名患者因肺栓塞進(jìn)入急診科。治療后一度好轉(zhuǎn)，隨后病情再次惡化。醫(yī)生最初懷疑藥物沒有發(fā)揮作用。AI 模型則基于當(dāng)時同樣可獲得的電子健康記錄，提示患者可能有狼瘡病史。

哈佛新研究：AI 模型“急診科”場景診斷能力有望超越人類醫(yī)生

據(jù)悉，狼瘡是一種自身免疫性疾病，可能導(dǎo)致心臟炎癥。后續(xù)結(jié)果證明，模型給出的方向是正確的。

研究團(tuán)隊在多個診療環(huán)節(jié)測試了這個模型，從急診分診到住院階段都有覆蓋。每一步中，模型都只能使用當(dāng)時已經(jīng)掌握的信息?？傮w結(jié)果顯示，在相同限制條件下，模型表現(xiàn)超過了兩名經(jīng)驗豐富的醫(yī)生。

貝斯以色列女執(zhí)事醫(yī)療中心臨床研究人員、研究作者之一亞當(dāng) · 羅德曼表示：“對我來說，最大的結(jié)論是，它能處理急診科那些混亂的真實世界數(shù)據(jù)。它能在真實世界中用于診斷?！?/p>

研究人員還使用《新英格蘭醫(yī)學(xué)雜志》臨床病例報告，以及其他標(biāo)準(zhǔn)化診斷挑戰(zhàn)來測試模型。這類病例主要考察復(fù)雜診斷推理能力。結(jié)果顯示，模型再次超過了作為對照的一大組醫(yī)生。

參與研究的哈佛醫(yī)學(xué)院生物醫(yī)學(xué)信息學(xué)助理教授拉杰 · 曼賴表示：“模型表現(xiàn)超過了我們規(guī)模很大的醫(yī)生基準(zhǔn)組?！?/p>

不過，這項研究也有重要限制。模型完全依賴文本病歷，沒有處理影像、聲音和非語言線索，而這些信息在真實臨床工作中非常關(guān)鍵。即便如此，它在不確定條件下的表現(xiàn)仍比早期系統(tǒng)更強(qiáng)，尤其是在鑒別診斷中更突出。鑒別診斷要求醫(yī)生同時考慮多種可能疾病，再逐步排除和收窄范圍。

作為對比，過去的大模型在病例信息模糊或不完整時，經(jīng)常難以穩(wěn)定推理。

外部專家認(rèn)為，這項進(jìn)展確實重要，但真正落地仍有很多問題。

研究作者同樣強(qiáng)調(diào)，這項研究并沒有證明 AI 應(yīng)該取代醫(yī)生，僅僅說明 AI 有機(jī)會成為臨床決策支持工具，尤其適用于急診這類節(jié)奏快、時間緊、信息不完整的場景。曼賴說：“我認(rèn)為，這確實意味著我們正在見證一場非常深刻的技術(shù)變化，它將重塑醫(yī)學(xué)?！?/p>

真正困難的下一步，是把這類系統(tǒng)放進(jìn)真實臨床環(huán)境中接受測試。研究人員需要設(shè)計嚴(yán)謹(jǐn)試驗，不只看模型答得準(zhǔn)不準(zhǔn)，還要看它是否真正改善患者結(jié)局。賴希表示：“設(shè)計這類試驗是一個非常有挑戰(zhàn)性的過程，但這項研究正是一個非常合適的行動號召。”

廣告聲明：文內(nèi)含有的對外跳轉(zhuǎn)鏈接（包括不限于超鏈接、二維碼、口令等形式），用于傳遞更多信息，節(jié)省甄選時間，結(jié)果僅供參考，IT之家所有文章均包含本聲明。

下載IT之家APP，簽到賺金幣兌豪禮

哈佛新研究：AI 模型“急診科”場景診斷能力有望超越人類醫(yī)生

相關(guān)文章