IT之家 5 月 2 日消息,當(dāng)?shù)貢r間 5 月 1 日,據(jù)外媒 TechSpot 報道,AI 正開始進(jìn)入醫(yī)學(xué)中最難的一類場景:信息不完整時如何作出正確的判斷。《科學(xué)》期刊一項新研究顯示,OpenAI 的一款推理模型在真實臨床病例中接受測試后,在診斷患者和制定治療方案方面達(dá)到人類醫(yī)生水平,很多情況下甚至表現(xiàn)更好。
這項研究由哈佛醫(yī)學(xué)院和貝斯以色列女執(zhí)事醫(yī)療中心研究人員完成。與傳統(tǒng)受控基準(zhǔn)測試不同,研究重點放在真實臨床環(huán)境下的表現(xiàn),也就是模型面對不完整、不規(guī)整、不斷變化的醫(yī)療信息時能否作出有效判斷。
其中一個病例中,一名患者因肺栓塞進(jìn)入急診科。治療后一度好轉(zhuǎn),隨后病情再次惡化。醫(yī)生最初懷疑藥物沒有發(fā)揮作用。AI 模型則基于當(dāng)時同樣可獲得的電子健康記錄,提示患者可能有狼瘡病史。

據(jù)悉,狼瘡是一種自身免疫性疾病,可能導(dǎo)致心臟炎癥。后續(xù)結(jié)果證明,模型給出的方向是正確的。
研究團(tuán)隊在多個診療環(huán)節(jié)測試了這個模型,從急診分診到住院階段都有覆蓋。每一步中,模型都只能使用當(dāng)時已經(jīng)掌握的信息??傮w結(jié)果顯示,在相同限制條件下,模型表現(xiàn)超過了兩名經(jīng)驗豐富的醫(yī)生。
貝斯以色列女執(zhí)事醫(yī)療中心臨床研究人員、研究作者之一亞當(dāng) · 羅德曼表示:“對我來說,最大的結(jié)論是,它能處理急診科那些混亂的真實世界數(shù)據(jù)。它能在真實世界中用于診斷?!?/p>
研究人員還使用《新英格蘭醫(yī)學(xué)雜志》臨床病例報告,以及其他標(biāo)準(zhǔn)化診斷挑戰(zhàn)來測試模型。這類病例主要考察復(fù)雜診斷推理能力。結(jié)果顯示,模型再次超過了作為對照的一大組醫(yī)生。
參與研究的哈佛醫(yī)學(xué)院生物醫(yī)學(xué)信息學(xué)助理教授拉杰 · 曼賴表示:“模型表現(xiàn)超過了我們規(guī)模很大的醫(yī)生基準(zhǔn)組?!?/p>
不過,這項研究也有重要限制。模型完全依賴文本病歷,沒有處理影像、聲音和非語言線索,而這些信息在真實臨床工作中非常關(guān)鍵。即便如此,它在不確定條件下的表現(xiàn)仍比早期系統(tǒng)更強(qiáng),尤其是在鑒別診斷中更突出。鑒別診斷要求醫(yī)生同時考慮多種可能疾病,再逐步排除和收窄范圍。
作為對比,過去的大模型在病例信息模糊或不完整時,經(jīng)常難以穩(wěn)定推理。
外部專家認(rèn)為,這項進(jìn)展確實重要,但真正落地仍有很多問題。
研究作者同樣強(qiáng)調(diào),這項研究并沒有證明 AI 應(yīng)該取代醫(yī)生,僅僅說明 AI 有機(jī)會成為臨床決策支持工具,尤其適用于急診這類節(jié)奏快、時間緊、信息不完整的場景。曼賴說:“我認(rèn)為,這確實意味著我們正在見證一場非常深刻的技術(shù)變化,它將重塑醫(yī)學(xué)?!?/p>
真正困難的下一步,是把這類系統(tǒng)放進(jìn)真實臨床環(huán)境中接受測試。研究人員需要設(shè)計嚴(yán)謹(jǐn)試驗,不只看模型答得準(zhǔn)不準(zhǔn),還要看它是否真正改善患者結(jié)局。賴希表示:“設(shè)計這類試驗是一個非常有挑戰(zhàn)性的過程,但這項研究正是一個非常合適的行動號召。”
廣告聲明:文內(nèi)含有的對外跳轉(zhuǎn)鏈接(包括不限于超鏈接、二維碼、口令等形式),用于傳遞更多信息,節(jié)省甄選時間,結(jié)果僅供參考,IT之家所有文章均包含本聲明。