一方面,大模型在醫(yī)療場景應用需兼顧安全性與專業(yè)性,可通過數(shù)據(jù)清洗、標注和驗證等控制數(shù)據(jù)質量;另一方面,大模型的計算需要大量的算力作為支撐,輕量化、本地化部署的大模型將成為重要發(fā)展方向。
2023年被很多人稱為“醫(yī)療大模型的元年”,國內外均有大量廠家將大語言模型應用于醫(yī)療健康領域。據(jù)統(tǒng)計,截至2023年10月,我國累計公開的大模型數(shù)量已經達到238個,垂直類大模型達到103個。而2-9月,我國發(fā)布的醫(yī)療大模型近50個,涉及智慧診療、醫(yī)療文本處理、藥物研發(fā)和學術科研等多個方面。醫(yī)療大模型是否能夠幫助臨床醫(yī)生和醫(yī)療機構提升醫(yī)療質量?2024年醫(yī)療大模型又將面對哪些困難?為探尋答案,CDSreport整理了相關資料。醫(yī)療大模型效果將逐步得到驗證
2023年6月,四川大學華西醫(yī)院信息中心劉加林教授團隊在醫(yī)學權威期刊Journal of Medical Internet Research上發(fā)表了研究文章“Utility of ChatGPT in Clinical Practice”,證明了ChatGPT在臨床多個環(huán)節(jié)為醫(yī)務人員提供了有效的診療決策支持。

研究顯示,基于大語言模型的人工智能ChatGPT在臨床實踐中展現(xiàn)出巨大的潛力,或將徹底改變現(xiàn)有的醫(yī)療模式。例如,在診斷方面,ChatGPT在常見病的正確診斷率高達93.3%。在臨床決策方面,再根據(jù)多個維度比較了36個病例的鑒別診斷、診斷測試、最終診斷和處理的準確性后,ChatGPT的總體準確率達到了71.7%(95% CI,69.3%~74.1%)。此外,ChatGPT還可用于癌癥篩查和優(yōu)化臨床決策支持系統(tǒng),為醫(yī)生提供重要的輔助信息。在回答醫(yī)學問題方面,ChatGPT也展現(xiàn)出了強大的能力。例如,在視網膜疾病、產科和婦科、肝臟疾病以及癌癥等領域提供準確和有用的信息;可用于生成醫(yī)學文件,如患者醫(yī)療報告、放射學報告和醫(yī)療記錄等。這些文件在準確性、人性化和可讀性方面得到了良好的評價,為醫(yī)療實踐提供了重要的支持。對于大模型在醫(yī)療健康領域的應用,此前中國信通院云大所副所長閔棟提出了9個應用場景,包括輔助決策、治療方案生成和質量控制等。劉加林團隊的研究已經證明了大模型在輔助決策方面發(fā)揮了作用,還有許多大模型在問診、影像鑒別等方面取得了不錯的準確度,但在其他多個應用場景中,醫(yī)療大模型的應用效果仍需進一步研究。閔棟近日發(fā)文表示,目前我國醫(yī)療大模型產業(yè)仍在發(fā)展早期,且大多廠商對標ChatGPT同步發(fā)展,處于跟進復刻的階段,創(chuàng)新性總體偏弱。當國內大模型技術積累達到一定階段,不同應用定位的模型優(yōu)勢將會在產業(yè)中顯現(xiàn)出來,呈現(xiàn)出差異化,這也是大模型商業(yè)落地的主要途徑。隨著各廠商大模型產品的研發(fā)和應用,2024年醫(yī)療健康領域也將出現(xiàn)覆蓋不同應用場景的醫(yī)療大模型,更多相關研究工作也將逐步展開和驗證。
大模型“通病”在醫(yī)療領域要零容忍
CDSreport發(fā)現(xiàn),盡管大模型在醫(yī)療健康領域應用效果的研究成果目前仍在少數(shù),但對其存在的隱患已逐漸形成共識。上海市數(shù)據(jù)科學重點實驗室主任、復旦大學附屬眼耳鼻喉科醫(yī)院等多家機構特聘教授肖仰華發(fā)表的論文闡述了大模型在醫(yī)療應用中的局限性。醫(yī)療是一類典型的嚴肅、復雜應用場景,對大模型的準確性、精確性、安全性、可靠性、認知能力均提出更高要求。例如醫(yī)生在對患者進行診斷時,不僅要考慮過往病史,還要通過場景判斷患者所述是否屬實,多憑借自身豐富經驗解決問題。大模型難以僅從文字記載的數(shù)據(jù)中習得,與資深醫(yī)療專家水平仍有差距。目前,以大模型為核心的人工智能技術在醫(yī)學中的應用定位仍是輔助決策。ChatGPT類大模型本質上是在開放環(huán)境中實現(xiàn)人機對話,但是開放聊天無法輔助解決真實工作場景中的復雜決策任務。例如在疾病診斷方面,醫(yī)生會根據(jù)患者的收入和醫(yī)保情況制定個性化診療方案。要勝任此類工作,大模型需要豐富的專業(yè)知識、合理的角色定位、病情病勢研判能力、復雜約束取舍能力、不完全信息下的推斷能力等,大模型要從聊天能手變成醫(yī)學專業(yè)助手仍需經歷漫長的優(yōu)化過程。醫(yī)療關系到公眾的生命健康,對錯誤需要零容忍,應用任何人工智能技術都要有系統(tǒng)性的解決方案才能達到醫(yī)學嚴苛的準確性與精度要求。而生成式大模型本質上是概率模型,仍有產生錯誤的可能。例如,胃復安的主要成分是甲氧氯普胺,但ChatGPT回答的是天然氣孔草酮。這看似嚴謹?shù)幕卮鸫嬖诨臼聦嶅e誤,在應用時需要付諸極大的代價判斷信息真?zhèn)危黾恿藨贸杀?。幻覺問題是大模型落地垂域應用不可避免的問題。對于以上醫(yī)療大模型目前存在的普遍問題,肖仰華認為原因有3點:首先,大模型先天能力不足,訓練語料、輪次有限都會導致學習不充分、知識有限、推理受限等問題;其次實際任務往往太復雜,大模型對復雜指令理解能力有限,進而產生幻覺;最后,由于專業(yè)領域知識相對薄弱、難獲取,大模型對于某些專業(yè)知識的掌握能力有限,因此生成錯誤答案。
本地化部署或成2024年發(fā)展方向
如何才能解決大模型在醫(yī)療健康領域現(xiàn)存的問題?劉加林提出,應對數(shù)據(jù)進行審查和清洗,為大模型提供更加廣泛和多樣化的訓練數(shù)據(jù),涵蓋不同人口群體和疾病情況,以減少偏見的影響,確保大模型的輸出結果是公正和準確的。此外,為了保護患者的隱私和數(shù)據(jù)安全,需要采取嚴格的數(shù)據(jù)安全措施,如數(shù)據(jù)加密、訪問控制和匿名化等。同時,為了提高其可信度和可接受性,需要研究算法的透明性和可解釋性,包括開發(fā)解釋性的模型架構、提供決策依據(jù)的解釋,以及記錄和審查大模型與患者之間的交互過程。為了克服上述問題和風險,政府部門、學協(xié)會、研究機構和醫(yī)療機構等需要針對實際問題制定相關政策和監(jiān)管措施,確保大模型在臨床實踐中的合理和安全應用。同時,還需要加強研究,提高大模型的性能和可靠性,以確保其在醫(yī)療領域的廣泛應用能夠帶來真正的益處,并最大限度地減少風險。為此,由中國信息通信研究院牽頭,國家衛(wèi)生健康委醫(yī)療服務指導管理中心以及多家醫(yī)院、技術公司共同研究起草的《醫(yī)療健康行業(yè)大模型應用技術要求 第1部分:醫(yī)院側醫(yī)療服務》《醫(yī)療健康行業(yè)大模型應用技術要求 第2部分:患者側醫(yī)療服務》《醫(yī)療健康行業(yè)大模型合成服務治理規(guī)范 第1部分:數(shù)據(jù)處理》《醫(yī)療健康行業(yè)大模型安全管理能力要求 第1部分:應用安全》四項標準于2023年9月發(fā)布。旨在對醫(yī)療健康行業(yè)大模型應用服務能力進行全方位、多角度的綜合評定,通過構建全面多層的測試問題集,探查醫(yī)療健康行業(yè)大模型的知識豐富度和臨床溝通能力等。

根據(jù)中國信息通信研究院制定的“醫(yī)療健康行業(yè)大模型系列標準框架”,下一步還將陸續(xù)發(fā)布多項標準,以促進大模型在醫(yī)療健康行業(yè)的技術標準、能力建設、涵蓋范圍和安全要求等。對于2024年的發(fā)展方向,中國信通院云大所數(shù)字健康部副主任馮天宜表示,一方面,大模型在醫(yī)療場景應用,還需兼顧安全性與專業(yè)性,可以通過數(shù)據(jù)清洗、標注和驗證等對規(guī)范數(shù)據(jù)質量提出量化要求以控制數(shù)據(jù)質量,及時開展算法檢測和修正確保模型決策透明、可解釋、可追溯等手段應對內容虛假和錯誤的問題;另一方面,大模型的計算需要大量的算力作為支撐,但醫(yī)院在算力部署等方面仍存在短板,因此輕量化、本地化部署的大模型將成為重要發(fā)展方向。1. 四川大學華西醫(yī)院信息中心劉加林教授團隊:ChatGPT在臨床實踐中的應用.劉加林等.華西醫(yī)學時間.2023.07.042. 是時候,給醫(yī)療大模型來一套標準試題.閔棟. 財經大健康.2023.12.113. 大規(guī)模生成式語言模型在醫(yī)療領域的應用:機遇與挑戰(zhàn).肖仰華,徐一丹.醫(yī)學信息學雜志.2023,44(9):1-114. AI大模型競相入局醫(yī)療賽道,如何應對各類落地挑戰(zhàn)?.鄒臻杰.第一財經.2024.01.08