久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網 | 網站首頁
 
當前位置:首頁 > 資訊 > 市場

前沿:利用AI大模型,破解醫(yī)療數(shù)據(jù)困境

發(fā)布時間:2024-04-30 來源:醫(yī)學AI在線AIMonline 瀏覽量: 字號:【加大】【減小】 手機上觀看

打開手機掃描二維碼
即可在手機端查看

隨著AI技術飛躍,醫(yī)療基礎模型在2023年逐漸涌現(xiàn)。它們不僅能深刻理解臨床數(shù)據(jù),還能生成富有洞見的醫(yī)療知識。從影像診斷到藥物研發(fā),這些模型正逐步改寫醫(yī)療服務的未來。然而,數(shù)據(jù)量有限、標注成本高、多模態(tài)數(shù)據(jù)融合困難等挑戰(zhàn)仍舊存在。


如何在確保隱私的前提下,高效利用有限的醫(yī)療數(shù)據(jù)?以下分享上海交通大學、上海人工智能實驗室張少霆團隊解析基礎模型(foundation model)在破解醫(yī)療數(shù)據(jù)困境方面的研究進展。


醫(yī)療診斷對減少疾病發(fā)生、降低死亡率、提高民眾健康水平具有重要意義。高質量的醫(yī)療數(shù)據(jù)在其中扮演了不可或缺的角色,包括影像、基因組學、實驗室測試等臨床數(shù)據(jù)。無論是對醫(yī)療專家,還是對醫(yī)療AI而言,臨床數(shù)據(jù)都有助于充分了解患者體征情況、提出合理決策。然而多年來,在醫(yī)療信息化領域,臨床數(shù)據(jù)的收集、處理和使用卻面臨著種種挑戰(zhàn),包括數(shù)據(jù)量有限[1]、數(shù)據(jù)標注成本高[2]、數(shù)據(jù)模態(tài)多[3]、患者隱私保護難[4] 等。這些問題猶如醫(yī)療AI發(fā)展路上的絆腳石,阻礙了醫(yī)療AI的進步。

隨著通用領域AI的快速發(fā)展,我們看到了新的曙光。近年來,基礎模型(foundation model)在視覺識別、語言理解、知識發(fā)現(xiàn)等傳統(tǒng)AI領域取得了突破性的進展。這些基礎模型在醫(yī)療AI領域也開始嶄露頭角:強大的邏輯推理、語義理解、內容生成能力,已經在醫(yī)療對話[5]、患者健康分析[6]、治療規(guī)劃[7]等方面展現(xiàn)出巨大的潛力。不僅如此,人們也在基于通用基礎模型和醫(yī)療數(shù)據(jù),構建醫(yī)療領域的基礎模型,以應對更需要醫(yī)療專業(yè)知識的場景。僅在2023年,醫(yī)療領域就涌現(xiàn)了一大批強大的基礎模型,例如病理圖像模型PathoDuet [8]、眼底圖像模型RETFound [9]、內窺鏡檢查視頻分析模型Endo-FM [10]、醫(yī)學綜合問答模型Med-Flamingo [11]和Med-PaLM 2 [12]等。這些模型逐步在臨床診斷、醫(yī)療對話、藥物研發(fā)等方方面面投入了實際應用,為醫(yī)療工作者和患者們帶來了福祉。

然而,由于數(shù)據(jù)是基礎模型的根基,醫(yī)療領域長久存在的數(shù)據(jù)問題必然會對醫(yī)療基礎模型的發(fā)展產生負面影響。因此,在強大的AI系統(tǒng)真正大規(guī)模應用之前,這些數(shù)據(jù)問題亟待解決。

通用領域的基礎模型為解決醫(yī)療數(shù)據(jù)困境提供了新的可能。OpenAI團隊通過大量涵蓋各種醫(yī)療場景的實驗,驗證了GPT-4模型在醫(yī)學文本理解和生成方面的卓越能力[7]。來自斯坦福大學的一項工作利用stable diffusion模型根據(jù)文字生成X光圖片,證明了用基礎模型生成高質量醫(yī)療數(shù)據(jù),以解決數(shù)據(jù)稀缺問題的可行性[13]。這些成果無疑為醫(yī)療AI的發(fā)展注入了新的活力。

微信圖片_20240430174429.png

圖1. 患者、醫(yī)療數(shù)據(jù)、基礎模型三者的關系。三者共同構建以數(shù)據(jù)為中心的醫(yī)療AI研發(fā)路線。

在基礎模型的新時代,解決醫(yī)療數(shù)據(jù)問題成為了醫(yī)療AI研究的重中之重。通用領域的研究已經為醫(yī)療領域打好了基礎,然而目前通用領域的基礎模型在醫(yī)療領域究竟能有多大程度的應用,醫(yī)療領域基礎模型的發(fā)展現(xiàn)狀和前景又如何?我們用本文簡介基礎模型的工作原理,列舉基礎模型為醫(yī)療領域數(shù)據(jù)問題帶來的新解決方案,并討論其可能涉及的隱私保護和道德風險。


數(shù)據(jù)量


在醫(yī)療場景中,既有常見病,又有許多影響人群比例很低的罕見病、某些遺傳疾病等。前者有著大量數(shù)據(jù)的支持,能夠作為醫(yī)療AI訓練的燃料。而后者的數(shù)據(jù)量則極為有限,數(shù)據(jù)提供的有限信息無法滿足在特定醫(yī)療任務上訓練一個魯棒模型所需的信息量,這可能導致模型訓練不足,產生不準確、不可靠的模型結果。同時,由于患者隱私保護等規(guī)范,即使是常見病,公開的醫(yī)療數(shù)據(jù)記錄也很有限。此外,包括數(shù)據(jù)收集、清理和標注等多個環(huán)節(jié)的現(xiàn)實世界數(shù)據(jù)集構建通常較為昂貴。

通用領域的基礎模型有望緩解醫(yī)療應用中數(shù)據(jù)量不足的問題。一方面,基礎模型能夠輔助醫(yī)療數(shù)據(jù)增強。許多工作利用基礎模型生成訓練數(shù)據(jù),相較于傳統(tǒng)數(shù)據(jù)增強方法,這種新型訓練方法引入了模型中包含的大量信息,提升了信息熵。大語言模型和擴散模型這類生成式大模型在醫(yī)療數(shù)據(jù)增強上效果良好。例如哈佛大學的研究者利用DALL-E生成皮膚病圖片來訓練分類模型[14],浙江大學的研究者開發(fā)的PathAsst基礎模型能夠生成病理學子領域的指令樣本來訓練其他模型[15]等。

另一方面,基礎模型能夠更為高效地利用現(xiàn)有數(shù)據(jù)?;A模型可以成為連接有限的下游數(shù)據(jù)與大量上游數(shù)據(jù)的橋梁。例如,上海交通大學的研究者利用醫(yī)學語言基礎模型所包含的對醫(yī)學圖像和概念的理解,引導通過自然圖像訓練的視覺模型遷移至病理圖像,從而完成病理圖像少樣本分類任務[16]。又如,哈佛大學的研究者們實驗驗證了醫(yī)療領域的基礎語言模型能在罕見病的診斷中發(fā)揮作用[17]。在2023年NeurIPS會議上,OpenMEDLab發(fā)起了MedFMC基礎模型醫(yī)學圖像分類挑戰(zhàn),吸引世界各地600多個團隊參加,推動了對通用基礎模型在醫(yī)學圖像分類任務上高效應用的研究[18]。

最后,在互聯(lián)網信息愈發(fā)豐富的今天,通過互聯(lián)網獲取基礎模型的訓練數(shù)據(jù)也成為了解決數(shù)據(jù)量問題有效且常用的方法之一。我們需要從高質量的醫(yī)學數(shù)據(jù)平臺,例如PubMed,爬取數(shù)據(jù)。同時,可以用合適的采樣、過濾、清洗方法,包括使用基礎模型或訓練一個專用的小模型來判斷數(shù)據(jù)是否為我們所需[19,20]。


數(shù)據(jù)標注


除了解決數(shù)據(jù)量的問題,對已經收集到的數(shù)據(jù)進行標注也是一個關鍵步驟。在利用基礎模型診斷疾病、制定治療計劃,并最終為更明智、高效的醫(yī)療系統(tǒng)鋪平道路的持續(xù)努力中,數(shù)據(jù)標注發(fā)揮著關鍵作用。通過分配信息豐富的元數(shù)據(jù)或類別標簽,數(shù)據(jù)標注為原始數(shù)據(jù)集添加了人類專業(yè)知識和背景理解,為醫(yī)療教育、診斷和人工智能應用提供了有價值的見解。然而,數(shù)據(jù)標注仍然面臨諸如專業(yè)標注人員短缺、標注過程復雜等挑戰(zhàn)。幸運的是,基礎模型的可擴展性使我們能夠緩解大規(guī)模醫(yī)療數(shù)據(jù)標注的成本問題。

文本標注的過程需要從各類醫(yī)學報告中提取關鍵信息,有助于醫(yī)生快速了解患者的狀況,做出更為準確的診斷。同時,這也有利于建立完整準確的患者檔案,為長期跟蹤、理解疾病發(fā)展規(guī)律等提供便利。人類專家對醫(yī)療信息的提取有較高的準確率,但比較耗時耗力。而如今的基礎模型,尤其是大語言模型,已經可以達到和人類專家近似水平的信息提取效果,為醫(yī)療工作者節(jié)省成本。例如,在醫(yī)療數(shù)據(jù)上微調的大語言模型Med-PaLM 2 [12]能夠進行高質量的醫(yī)學問答,其回答堪比甚至超過專業(yè)臨床醫(yī)生,可以用于醫(yī)療文本數(shù)據(jù)的標注。

另一方面,醫(yī)學影像標注對于病理學、放射學圖像等醫(yī)療數(shù)據(jù)的理解和分析也十分重要。其中,對圖像分割掩碼的標注對醫(yī)生診斷病情、定位病灶起著關鍵作用。2023年4月,通用領域視覺分割基礎模型SAM問世,此后許多工作嘗試使用SAM對醫(yī)學圖像進行分割,并實驗驗證了SAM能夠在醫(yī)學圖像上有較好的分割表現(xiàn),因而能夠作為圖像數(shù)據(jù)標注的工具[21]。然而,直接使用SAM也可能導致結果缺乏足夠的一致性和可靠性,需將其在醫(yī)學圖像上進行微調再進行標注更為合理[22]。OpenMEDLab和上海交通大學的研究者們基于SAM,開發(fā)了名為MedLSAM的3D CT圖像定位+分割基礎模型,能夠保證不受數(shù)據(jù)集大小影響的、常數(shù)時間的3D醫(yī)學圖像標注,大大降低了標注成本[23]。


多模態(tài)數(shù)據(jù)融合


醫(yī)療數(shù)據(jù)的多模態(tài)特性,如影像、診斷報告、生物信號等,為醫(yī)療工作者提供了多角度的患者信息。如何融合多模態(tài)數(shù)據(jù)成為了提升診斷準確性和治療效果的關鍵。如今,基礎模型為醫(yī)療數(shù)據(jù)模態(tài)融合提供了新視角。在模型預訓練階段,可以通過大規(guī)模配對的多模態(tài)數(shù)據(jù)進行多模態(tài)聯(lián)合預訓練,使模型能夠接受并理解多模態(tài)輸入;在下游應用階段,可以通過大語言模型等基礎模型的transformer結構,在隱空間進行模態(tài)融合。

多模態(tài)聯(lián)合預訓練利用配對的數(shù)據(jù)樣本(如圖片和對應的文本)使得各模態(tài)數(shù)據(jù)在表征空間具有相似的特征,實現(xiàn)模態(tài)融合。這類方法在醫(yī)療領域也很常用,尤其是在放射學、病理學等子領域,數(shù)據(jù)通常以圖像和文字報告配對形式存在。例如,來自微軟的Benedikt Boecking等人在大量胸片和其對應的放射報告上訓練BioViL模型,以獲得相匹配的圖像和語言特征[24]。又如,斯坦福大學的研究者們大量收集了Twitter上包含特定關鍵詞的內容和對應的病理圖像,構建了病理圖像文本對的公開數(shù)據(jù)集OpenPath,并在此數(shù)據(jù)集上訓練了PLIP模型,在下游的圖像分類等零樣本任務上獲得很好的結果[25]。

另一方面,大語言模型憑借其注意力機制具有強大的語義理解能力,而這種能力并不局限于語言,也可以遷移到多模態(tài)場景。來自不同模態(tài)的數(shù)據(jù)可以作為大語言模型的提示詞輸入進行聚合,組合而成的多模態(tài)輸入通過模型中的transformer層進行融合,通過注意力機制彼此交換信息,達成模態(tài)融合的結果。由于如GPT-4等強大的語言模型本身在醫(yī)學領域已被驗證有足夠強的能力[7],這種模態(tài)融合方法在醫(yī)療領域同樣適用。例如,斯坦福大學的研究人員將圖片和文字輸入拼接成一個序列,經過大語言模型得到輸出,并對融合模塊進行訓練,開發(fā)了Med-Flamingo模型。Med-Flamingo在涉及醫(yī)療圖片的問答任務上展現(xiàn)出了很強的少樣本學習能力[11]。


數(shù)據(jù)隱私


醫(yī)療數(shù)據(jù)的隱私性保護一直是一個重要議題。為此,各國紛紛出臺法律法規(guī),嚴格規(guī)范私有數(shù)據(jù)的共享和使用[26]。而隨著AI技術的發(fā)展,尤其是基礎模型的興起,我們看到了解決這一難題的新希望?;A模型依靠其強大的數(shù)據(jù)生成能力,可以生成足以用于模型訓練但不包含任何患者隱私信息的數(shù)據(jù)。有研究基于擴散模型訓練了能夠生成高分辨率3D醫(yī)學圖像的模型,其生成的圖像在去除了關鍵隱私信息的同時,保留了足以用于模型訓練的特征[27]。

然而,基礎模型規(guī)模大的特性使得其具有對預訓練數(shù)據(jù)的記憶能力,并且在輸出時傾向于模仿訓練所見數(shù)據(jù),因此使用基礎模型也可能產生隱私保護問題[28,29]。這就要求我們在利用基礎模型的同時,也要做好其預訓練數(shù)據(jù)的去隱私化處理,確?;颊咝畔⒌陌踩嬲踩貙⑵鋺迷卺t(yī)療領域數(shù)據(jù)生成上,還需要進一步研究。目前已經有許多工作討論基礎模型的隱私問題。


模型評估


在訓練階段后,準確地度量模型的性能和安全性等指標是將模型真正投入使用的前提。由于基礎模型的規(guī)模和復雜性,對其進行評估是一項很大的挑戰(zhàn)。下面我們介紹三類基礎模型的評估策略,這些策略各有優(yōu)劣。

固定的數(shù)據(jù)集和指標是常用的評估方式之一。目前在醫(yī)療領域,研究人員已經構建了大量用于評估的數(shù)據(jù)集和指標,包括MIMIC-III [30]、BLURB [31]等。其好處是評估結果的可重復性,以及模型之間比較的公平性。然而,在真實世界使用基礎模型時往往會遇到許多需要靈活應變的情況,而靜態(tài)數(shù)據(jù)集不能很好體現(xiàn)基礎模型在這些罕見的、多變的、與人類交互等情況下的真實表現(xiàn)。同時,在評估基礎模型與人類價值觀一致性方面,目前相關的數(shù)據(jù)集和指標仍然較少。并且,在模型規(guī)模越來越大的今天,指標的更新速度難以跟上基礎模型的發(fā)展。

在研究中同樣常用于基礎模型評估的,還有人類專家的評估,例如斯坦福大學的研究者們邀請放射學家對ChatGPT翻譯放射報告的正確性進行評估[13]。人類專家的優(yōu)勢是對模型的評估更為準確,具備靈活性,以及和人類價值觀吻合。然而,邀請人類專家的成本較為高昂,且人類專家的評估可能由于其背景等因素的不同產生過多主觀性[32]。

如果有一個足夠強大且與人類價值觀對齊的基礎模型,它能否成為評估其他模型的標桿?這種方法通常不需要一個固定的數(shù)據(jù)集以及標注,僅需要標桿模型的推理,是一種比較高效的方法。例如,來自中國臺灣的研究團隊驗證了ChatGPT在故事生成和對抗攻擊兩個自然語言任務上能達到人類專家的評估水平,并且在不同提示詞下能產生穩(wěn)定的結果[33]。盡管在醫(yī)療領域要找到這樣一個標桿模型通常并不容易——自然領域的基礎模型在醫(yī)療領域仍然會遇到領域偏移較大的問題,且很可能缺乏足夠的領域專業(yè)知識評估其他模型——利用基礎模型的自動化評估仍是一個非常值得研究的方向。結合人類專家與自動評估來獲得更高質量的評估結果,取長補短,可能是一個很有潛力的方法。


基礎模型的缺陷


在解決醫(yī)療數(shù)據(jù)有限方面,基礎模型已經展現(xiàn)出了巨大的潛力。但正如任何技術一樣,它們也并非完美無缺?;A模型還存在著一些亟待解決的缺陷,包括幻覺、偏見、缺乏規(guī)范等。

基礎模型可能生成看似合理但實際不準確的內容,這就是基礎模型的幻覺。這種現(xiàn)象可能由多種數(shù)據(jù)因素引起,包括訓練數(shù)據(jù)的質量、規(guī)模和內在偏見。在與醫(yī)療相關的基礎模型應用中,錯誤信息可能對所有醫(yī)療利益相關者造成嚴重后果,因而解決幻覺問題至關重要。在幻覺影響下,基礎模型可能生成影響醫(yī)療診斷、決策和患者護理的內容。

為了解決這一問題,關鍵的一步是正確識別和評估幻覺的嚴重程度。檢測幻覺的評估指標和任務應考慮事實準確性、連貫性和一致性等因素。例如,Med-HALT(醫(yī)學領域幻覺測試)的基準能夠用于評估大語言模型中的幻覺[34]。Med-HALT包括基于推理和記憶的幻覺測試,可用于評估大語言模型在醫(yī)學背景下的問題解決和信息檢索能力。另一個方向是AI與人類的合作。引入人類的知識和判斷可以幫助檢測模型產生的幻覺。眾包平臺也可以用于收集人類對模型生成內容的評估,以開發(fā)可靠的醫(yī)療基礎模型。最后,應開發(fā)與醫(yī)療基礎模型對抗性測試,以識別可能觸發(fā)幻覺的輸入提示詞等,從而提高模型生成內容的可信度[35]。

基礎模型也可能帶有對某些群體、地域、性別等的偏見。這種偏見可能源于訓練數(shù)據(jù)中的文化、語言、人口統(tǒng)計和政治等因素。例如,來自美國的AnsibleHealth機構和來自中國的研究團隊分別評估了ChatGPT在中美醫(yī)學執(zhí)業(yè)許可考試上的表現(xiàn),其結果表明ChatGPT在英文考試中準確率更高,其原因在于大語言模型在訓練過程中存在語言偏見[36,37]。目前基礎模型的訓練數(shù)據(jù)通常從互聯(lián)網收集,很可能沒有受到人類專家的監(jiān)督,導致在醫(yī)療領域中人類與模型結果之間的潛在認知差距。

為了減輕這種偏見,需要在數(shù)據(jù)集構建和模型評估等過程中引入人類專家的指導,以開發(fā)可信的基礎模型[38]。同時,醫(yī)療利益相關者和基礎模型的開發(fā)者應該認識到,目前基礎模型的架構和訓練模式缺乏對有害信息和對抗性操縱的防御和檢測能力。為了改善這一點,我們可以考慮在醫(yī)療基礎模型的開發(fā)中引入對抗性攻擊訓練,以增強有害信息的防御和檢測能力[38]。

隨著醫(yī)療AI應用的日益增多,基礎模型的規(guī)范化也成為一個重要議題。各國政府(如美國食品藥品管理局)開始將執(zhí)行醫(yī)療功能的程序視為醫(yī)療設備進行監(jiān)管。未來,基礎模型將被視為新型的醫(yī)療設備,接受更為嚴格的監(jiān)管,包括明確基礎模型的實際應用目的和范圍,在權威數(shù)據(jù)上進行性能基準測試,制定用戶使用指南,并通過臨床試驗驗證有效性等。在模型部署后,也需持續(xù)監(jiān)管以適應不斷變化的任務和環(huán)境[39]。


總結與展望


基礎模型的發(fā)展和應用在醫(yī)療領域掀起了一陣浪潮,為高效診療等提供了新機會。在這一浪潮中,大規(guī)模醫(yī)療數(shù)據(jù)的收集、處理、分析等成為了至關重要的研究課題。為了解決醫(yī)療數(shù)據(jù)中長久存在的問題,包括數(shù)據(jù)量的缺乏、數(shù)據(jù)標注的高成本、多模態(tài)數(shù)據(jù)融合、數(shù)據(jù)隱私問題等,研究者們探索了基礎模型帶來的新解決方案。同時,在醫(yī)療領域應用基礎模型的安全問題同樣不容忽視。從基礎模型的訓練數(shù)據(jù)所導致的幻覺、偏見,到基礎模型的監(jiān)督管理,都是我們必須重視并解決的問題。

我們相信,基礎模型在醫(yī)療領域仍有巨大的發(fā)展空間。未來,在研究人員和醫(yī)療工作者的共同努力下,基礎模型的力量在醫(yī)療場景下將得到更加安全有效的發(fā)揮,為人們的健康生活帶來更多福祉。

醫(yī)療數(shù)據(jù)困境新解:基礎模型

王德泉,張昀焜,張少霆*

上海交通大學,上海人工智能實驗室

*通訊作者


智慧醫(yī)療網 ? 2022 版權所有   ICP備案號:滬ICP備17004559號-5