10 月 24 日,《Nature》發(fā)布了一篇題為《An AI revolution is brewing in medicine. What will it look like?》的新聞專稿。
文章指出 AI 模型應(yīng)用于醫(yī)療的當前局限性,新興的通才模型可以克服第一代機器學習工具在臨床使用中的一些局限性。為了解決醫(yī)學人工智能工具的一些局限性,研究人員一直在探索具有更廣泛功能的醫(yī)學人工智能。并介紹了一些大型科技公司在醫(yī)療成像的基礎(chǔ)模型。
Jordan Perchik 在美國阿拉巴馬大學伯明翰分校(The University of Alabama at Birmingham,UAB )開始了他的放射學住院醫(yī)師實習生涯,當時正值他所說的該領(lǐng)域的「人工智能恐慌」高峰期。
那時,計算機科學家 Geoffrey Hinton 宣稱,人們應(yīng)該停止放射科醫(yī)生培訓,因為機器學習工具很快就會取代他們。被稱為 AI 教父的 Hinton 預(yù)測,這些系統(tǒng)很快將能夠比人類更好地讀取和解釋醫(yī)學掃描和 X 射線。隨后放射學項目的申請量大幅下降。Perchik 說:「人們擔心,他們即將完成住院醫(yī)師實習卻找不到工作?!?/span>
Hinton 說得有道理?;谌斯ぶ悄艿墓ぞ咴絹碓蕉嗟爻蔀獒t(yī)療保健的一部分;超過 500 種已獲得 FDA 授權(quán)用于醫(yī)藥。大多數(shù)與醫(yī)學成像有關(guān)——用于增強圖像、測量異?;驑擞洔y試結(jié)果以進行后續(xù)檢查。
但即使在 Hinton 的預(yù)測七年后,放射科醫(yī)生的需求仍然非常旺盛。大多數(shù)臨床醫(yī)生似乎對這些技術(shù)的性能并不感興趣。
調(diào)查顯示,盡管許多醫(yī)生都知道臨床人工智能工具,但只有一小部分(10% 到 30% 之間)真正使用過它們。人們的態(tài)度從謹慎樂觀到完全缺乏信任不等?!敢恍┓派淇漆t(yī)生懷疑人工智能應(yīng)用的質(zhì)量和安全性,」荷蘭烏得勒支大學醫(yī)學中心醫(yī)療創(chuàng)新實施專家 Charisma Hehakaya 說。2019 年,她所在的團隊采訪了荷蘭的二十多位臨床醫(yī)生和醫(yī)院管理人員,詢問他們對人工智能工具的看法。她說,由于這種懷疑,最新的方法有時會被放棄。
即使人工智能工具實現(xiàn)了其設(shè)計目的,仍不清楚這是否會轉(zhuǎn)化為對患者更好的護理?!高@需要更強有力的分析,」Perchik 說。
但人們對一種有時被稱為「通用醫(yī)療人工智能」的方法確實越來越興奮。這些是在海量數(shù)據(jù)集上訓練的模型,很像為 ChatGPT 和其他人工智能聊天機器人提供支持的模型。在攝取大量醫(yī)學圖像和文本后,這些模型可以適應(yīng)許多任務(wù)。雖然目前批準的工具具有特定功能,例如在計算機斷層掃描 (CT) 胸部掃描中檢測肺結(jié)節(jié),但這些通才模型的作用更像是醫(yī)生,評估掃描中的每個異常并將其同化為類似診斷的東西。
通才醫(yī)療人工智能(GMAI)模型管道概述。(來源:Nature)
盡管人工智能愛好者現(xiàn)在傾向于回避有關(guān)機器取代醫(yī)生的大膽主張,但許多人表示,這些模型可以克服醫(yī)療人工智能當前的一些局限性,并且有一天它們可能在某些情況下超越醫(yī)生。「對我來說,真正的目標是讓人工智能幫助我們做人類不太擅長的事情,」位于阿拉巴馬州伯明翰的美國放射學數(shù)據(jù)科學研究所首席醫(yī)療官、放射科醫(yī)生 Bibb Allen 說道 。
但在這些最新工具用于現(xiàn)實世界的臨床護理之前,還有很長的路要走。
目前的限制
醫(yī)學人工智能工具可以為從業(yè)者提供支持,例如快速進行掃描并標記醫(yī)生可能想要立即查看的潛在問題。此類工具有時效果很好。Perchik 記得有一次,人工智能分診為出現(xiàn)呼吸急促的人標記了胸部 CT 掃描。當時是凌晨 3 點,正值夜班。他優(yōu)先考慮了掃描,并同意人工智能的評估,即掃描結(jié)果顯示肺栓塞,這是一種可能致命的疾病,需要立即治療。如果沒有標記,掃描可能要到當天晚些時候才會被評估。
但如果人工智能犯了錯誤,可能會產(chǎn)生相反的效果。Perchik 說,他最近發(fā)現(xiàn)了一例人工智能未能標記的肺栓塞病例。他決定采取額外的審查步驟,這證實了他的評估,但減慢了他的工作速度?!溉绻覜Q定相信人工智能并繼續(xù)前進,那可能就不會被診斷出來?!?/span>
斯坦福大學醫(yī)學和影像人工智能中心主任、放射科醫(yī)生 Curtis Langlotz 表示,許多已獲得批準的設(shè)備不一定符合醫(yī)生的需求。早期的人工智能醫(yī)療工具是根據(jù)影像數(shù)據(jù)的可用性而開發(fā)的,因此一些應(yīng)用程序是針對常見且容易發(fā)現(xiàn)的事物構(gòu)建的。Langlotz 說,「我不需要幫助檢測肺炎」或骨折。即便如此,仍有多種工具可以幫助醫(yī)生進行這些診斷。
另一個問題是,這些工具往往專注于特定任務(wù),而不是全面解釋醫(yī)學檢查——觀察圖像中可能相關(guān)的所有內(nèi)容,考慮到以前的結(jié)果和人的臨床病史。哈佛醫(yī)學院從事生物醫(yī)學人工智能研究的計算機科學家 Pranav Rajpurkar 表示:「雖然專注于檢測幾種疾病有一定價值,但它并不能反映放射科醫(yī)生的真實認知工作?!?/span>
倫敦 Google Health 的臨床研究科學家 Alan Karthikesalingam 表示,解決方案通常是添加更多人工智能驅(qū)動的工具,但這也給醫(yī)療保健帶來了挑戰(zhàn)。考慮一個人進行常規(guī)乳房 X 光檢查。技術(shù)人員可能會得到人工智能工具的幫助來進行乳腺癌篩查。如果發(fā)現(xiàn)異常,同一個人可能需要進行磁共振成像(MRI)掃描來確認診斷,為此可能需要一個單獨的人工智能設(shè)備。如果診斷得到證實,病變將通過手術(shù)切除,并且可能還有另一個人工智能系統(tǒng)來協(xié)助病理學。
「如果你將其擴展到衛(wèi)生系統(tǒng)的水平,你可以開始看到如何對設(shè)備本身做出大量選擇,以及如何集成它們、購買它們、監(jiān)控它們、部署它們,」他說?!杆芸炀蜁蔀橐环N IT soup?!?/span>
英國伯明翰大學研究健康人工智能負責任創(chuàng)新的臨床研究員 Xiaoxuan Liu 表示,許多醫(yī)院沒有意識到監(jiān)控人工智能性能和安全性所面臨的挑戰(zhàn)。她和她的同事發(fā)現(xiàn)了數(shù)千項醫(yī)學影像研究,將深度學習模型的診斷性能與醫(yī)療保健專業(yè)人員的診斷性能進行了比較。對于該團隊評估診斷準確性的 69 項研究,主要發(fā)現(xiàn)是大多數(shù)模型并未使用真正獨立于用于訓練模型的信息的數(shù)據(jù)集進行測試。這意味著這些研究可能高估了模型的性能。
納入 meta 分析的所有研究的分層 ROC 曲線(25 項研究)。(來源:Lancet Digit Health)
「現(xiàn)在,在該領(lǐng)域,人們都知道必須進行外部驗證,」Liu 說。但是,她補充道,「世界上只有少數(shù)機構(gòu)非常清楚這一點」。如果不測試模型的性能,特別是在使用模型的環(huán)境中,就不可能知道這些工具是否真正有幫助。
堅實的基礎(chǔ)
為了解決醫(yī)學人工智能工具的一些局限性,研究人員一直在探索具有更廣泛功能的醫(yī)學人工智能。他們受到革命性大型語言模型的啟發(fā),例如 ChatGPT 背后的模型。
這些是一些科學家所謂的基礎(chǔ)模型的例子。該術(shù)語由斯坦福大學的科學家于 2021 年創(chuàng)造,描述了使用一種稱為自監(jiān)督學習的方法在廣泛的數(shù)據(jù)集(包括圖像、文本和其他數(shù)據(jù))上訓練的模型。它們也稱為基礎(chǔ)模型或預(yù)訓練模型,它們構(gòu)成了以后可以適應(yīng)執(zhí)行不同任務(wù)的基礎(chǔ)。
醫(yī)院已經(jīng)使用的大多數(shù)醫(yī)療人工智能設(shè)備都是使用監(jiān)督學習開發(fā)的。例如,用這種方法訓練模型來識別肺炎,需要專家分析大量胸部 X 光片并將其標記為「肺炎」或「非肺炎」,以教會系統(tǒng)識別與疾病相關(guān)的模式。
基礎(chǔ)模型不需要對大量圖像進行注釋,這是一個昂貴且耗時的過程。例如,對于 ChatGPT,使用大量文本來訓練語言模型,該模型通過預(yù)測句子中的下一個單詞來進行學習。同樣,倫敦 Moorfields 眼科醫(yī)院的眼科醫(yī)生 Pearse Keane 和他的同事開發(fā)了一個醫(yī)學基礎(chǔ)模型,使用 160 萬張視網(wǎng)膜照片和掃描來學習如何預(yù)測圖像中缺失的部分應(yīng)該是什么樣子。在模型在預(yù)訓練過程中了解了視網(wǎng)膜的所有特征后,研究人員引入了數(shù)百張標記圖像,使其能夠了解與視力相關(guān)的特定情況,例如糖尿病視網(wǎng)膜病變和青光眼。該系統(tǒng)在檢測這些眼部疾病以及預(yù)測可通過眼睛血管微小變化檢測到的全身性疾?。ɡ缧呐K病和帕金森?。┓矫姹纫郧暗哪P透谩T撃P蜕形丛谂R床環(huán)境中進行測試。
眼部診斷。
Keane 說,基礎(chǔ)模型特別適合眼科,因為幾乎眼睛的每個部分都可以高分辨率成像。這些圖像的巨大數(shù)據(jù)集可用于訓練此類模型?!溉斯ぶ悄軐⒏淖冡t(yī)療保健,」他說?!秆劭瓶梢猿蔀槠渌t(yī)學專業(yè)的榜樣?!?/span>
Karthikesalingam 表示,基礎(chǔ)模型是「一個非常靈活的框架」,并補充說,它們的特性似乎非常適合解決第一代醫(yī)療人工智能工具的一些局限性。
大型科技公司已經(jīng)在投資醫(yī)療成像基礎(chǔ)模型,這些模型使用多種圖像類型(包括皮膚照片、視網(wǎng)膜掃描、X 射線和病理切片),并納入電子健康記錄和基因組數(shù)據(jù)。
6 月,谷歌研究院的科學家發(fā)表了一篇論文,描述了一種他們稱之為 REMEDIS(「具有自監(jiān)督功能的穩(wěn)健高效的醫(yī)學成像」)的方法,與傳統(tǒng)方法相比,該方法能夠?qū)⒃\斷準確率提高高達 11.5% 使用監(jiān)督學習訓練的人工智能工具。研究發(fā)現(xiàn),在未標記圖像的大數(shù)據(jù)集上預(yù)訓練模型后,只需要少量標記圖像即可實現(xiàn)這些結(jié)果?!肝覀兊闹饕娊馐牵琑EMEDIS 能夠以非常有效的方式,通過很少的示例,學習如何對許多不同的醫(yī)學圖像中的許多不同的事物進行分類,」包括胸部 X 光、數(shù)字病理掃描和乳房 X 光檢查,該論文的合著者 Karthikesalingam 說道。
REMEDIS 方法概述,用于開發(fā)強大而高效的醫(yī)學成像 ML。(來源:Nature Biomedical Engineering)
接下來的一個月,谷歌研究人員在預(yù)印本中描述了他們?nèi)绾螌⒃摲椒ㄅc該公司的醫(yī)學大型語言模型 Med-PaLM 結(jié)合起來,該模型幾乎可以像醫(yī)生一樣回答一些開放式的醫(yī)學問題。其成果是 Med-PaLM Multimodal,這是一個單一的人工智能系統(tǒng),它不僅可以解釋胸部 X 射線圖像,還可以用自然語言起草一份醫(yī)療報告。
Med-PaLM M 概述。(來源:arxiv.org)
微軟還致力于將語言和視覺集成到單一的醫(yī)療人工智能工具中。6 月,該公司的科學家推出了 LLaVA-Med(生物醫(yī)學大型語言和視覺助手),它通過從 PubMed Central(一個可公開訪問的生物醫(yī)學文章數(shù)據(jù)庫)中提取的圖像和文本進行訓練。「一旦你做到了這一點,那么你基本上就可以開始與圖像進行對話,就像與 ChatGPT 對話一樣,」Microsoft Health Futures 生物醫(yī)學人工智能研究負責人、計算機科學家 Hoifung Poon 說道。這種方法的挑戰(zhàn)之一是它需要大量的文本-圖像對。Poon 說,他和他的同事現(xiàn)在已經(jīng)從 PubMed Central 收集了超過 4600 萬對。
LLaVA-Med。(來源:arxiv.org)
隨著這些模型接受越來越多的數(shù)據(jù)訓練,一些科學家樂觀地認為,他們可能能夠識別人類無法識別的模式。Keane 提到了 Google 研究人員 2018 年的一項研究,該研究描述了能夠從視網(wǎng)膜圖像中識別人的特征(例如年齡和性別)的 AI 模型。Keane 說,即使是經(jīng)驗豐富的眼科醫(yī)生也無法做到這一點?!敢虼耍覀兇_實希望這些高維圖像中嵌入了大量科學信息?!?/span>
Poon 表示,人工智能工具可以超越人類能力的一個例子是使用數(shù)字病理學來預(yù)測腫瘤對免疫療法的反應(yīng)。人們認為,腫瘤微環(huán)境——可以通過活檢取樣的癌性、非癌性和免疫細胞的環(huán)境——影響個體是否會對各種抗癌藥物產(chǎn)生良好反應(yīng)。「如果你能看到數(shù)以百萬計已經(jīng)接受過檢查點抑制劑或其他免疫療法的患者,你可以觀察那些有特殊反應(yīng)和無反應(yīng)的患者,你就可以開始發(fā)現(xiàn)許多專家可能無法看到的模式?!筆oon 說。
他警告說,盡管人工智能設(shè)備的診斷潛力令人興奮,但這些工具的成功門檻也很高。人工智能的其他醫(yī)療用途,例如將參與者與臨床試驗相匹配,可能會產(chǎn)生更直接的影響。
Karthikesalingam 還指出,即使谷歌的醫(yī)學成像人工智能取得了最好的結(jié)果,仍然無法與人類相媲美。「人類放射科醫(yī)生的 X 射線報告仍然被認為明顯優(yōu)于最先進的多模式全科醫(yī)療系統(tǒng),」他說。Karthikesalingam 補充道,盡管基礎(chǔ)模型似乎特別適合擴大醫(yī)療人工智能工具的應(yīng)用,但要證明它們可以安全地用于臨床護理,還有很長的路要走?!鸽m然我們想要大膽,但我們也認為負責任也非常重要?!?/span>
Perchik 堅信人工智能在放射學領(lǐng)域的作用將繼續(xù)增強,但他認為人們需要接
受培訓來使用人工智能,而不是取代放射科醫(yī)生。2020 年,他為放射科醫(yī)生組織了免費的人工智能掃盲課程,該課程已在美國各地擴大到 25 個項目。「我們所做的很多工作都是揭開人工智能的神秘面紗,并管理炒作與人工智能的現(xiàn)實情況,」他說。
智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有 ICP備案號:滬ICP備17004559號-5