久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 
當前位置:首頁 > 資訊 > 市場

《醫(yī)療場景下大模型應用效果回顧性評測專家共識(2025版)》正式發(fā)布

發(fā)布時間:2025-12-17 來源:數(shù)字醫(yī)學與健康 瀏覽量: 字號:【加大】【減小】 手機上觀看

打開手機掃描二維碼
即可在手機端查看

系統(tǒng)構建了我國醫(yī)療大模型回顧性評測技術框架,明確評測流程、指標體系與倫理要求,為模型研發(fā)、評測與臨床應用提供統(tǒng)一、規(guī)范、可復用的技術指引


近日,《醫(yī)療場景下大模型應用效果回顧性評測專家共識2025版)》(以下簡稱“《共識》”)中、英文版本在《數(shù)字醫(yī)學與健康》與《智慧醫(yī)學(英文)》發(fā)布。《共識》匯聚了醫(yī)學、人工智能、倫理、法學、統(tǒng)計學等多領域專家力量,全面構建了我國醫(yī)療大模型回顧性評測的系統(tǒng)化技術框架《共識》面向大語言模型在醫(yī)療場景實際落地前的評估需求,旨在為模型評測機構、研發(fā)機構和臨床應用方提供統(tǒng)一、規(guī)范、可復用的技術指南,推動人工智能在醫(yī)療行業(yè)的高質量發(fā)展。

《共識》制訂過程嚴格遵循《世界衛(wèi)生組織指南制訂手冊》《中國制訂/修訂臨床診療指南的指導原則(2022版)》等標準方法學要求,并在國際實踐指南注冊平臺PREPARE完成注冊(編號 PREPARE-2025CN503),實現(xiàn)了制訂流程的科學化、透明化與規(guī)范化。來自全國三甲醫(yī)院、科研機構與人工智能企業(yè)的數(shù)十位專家參與了問題遴選、證據(jù)評估、推薦意見制訂和Delphi共識投票,全程經(jīng)由專家委員會與指導委員會多輪論證,最終形成6條核心推薦意見,均獲得超過80%的專家同意并達成共識。

《共識》圍繞醫(yī)療場景下大模型的“回顧性評測”開展系統(tǒng)闡述,即在模型訓練完成、參數(shù)固定后,基于真實或模擬真實的臨床數(shù)據(jù)對模型的醫(yī)學適配性與安全性進行驗證。《共識》從評測流程、指標體系、團隊建設、數(shù)據(jù)集設計、反饋更新機制和報告規(guī)范等方面構建了完整評測框架。其中,評測流程強調科學客觀、真實全面與倫理合規(guī);指標體系涵蓋結構化與生成式任務的定量與定性評估;團隊建設強調醫(yī)學專家、工程技術人員、倫理與法律專家的協(xié)同;數(shù)據(jù)集構建突出臨床真實性、全面代表性、公正性及動態(tài)擴展能力;反饋與更新機制確保評測體系的長期迭代;報告模板則規(guī)范評測結果披露與版本管理。

值得關注的是,基于國家衛(wèi)生健康委辦公廳、國家中醫(yī)藥局綜合司、國家疾控局綜合司聯(lián)合發(fā)布的《衛(wèi)生健康行業(yè)人工智能應用場景參考指引》,《共識》明確提出醫(yī)療大模型評測的六大核心能力維度,包括醫(yī)療知識問答、醫(yī)療復雜語言理解、醫(yī)療診斷與治療推薦、醫(yī)療專業(yè)文書生成、醫(yī)療多輪對話以及醫(yī)療多模態(tài)交互,從而為不同類型模型的評測提供了清晰的應用場景定位和指標選擇依據(jù)。同時,《共識》圍繞患者隱私保護、數(shù)據(jù)脫敏、算法公平性、輸出安全性等關鍵問題提出嚴格要求,有助于推動醫(yī)療人工智能安全、可控、可解釋的發(fā)展路徑。

《共識》由國家新聞出版署醫(yī)學期刊知識挖掘與服務重點實驗室牽頭,聯(lián)合《數(shù)字醫(yī)學與健康》編輯委員會、《智慧醫(yī)學(英文)》編輯委員會、中華醫(yī)學會雜志社指南與標準研究中心、醫(yī)療人工智能研究及應用安徽省重點實驗室共同制定。隨著大語言模型在診斷輔助、病歷生成、醫(yī)患溝通、慢病管理等環(huán)節(jié)的加速應用,行業(yè)迫切需要一套科學、透明、權威的評測體系。《共識》將為模型準入、行業(yè)監(jiān)管、產(chǎn)品優(yōu)化以及臨床安全應用提供重要技術支撐。未來,該項工作將繼續(xù)推動前瞻性研究、真實世界驗證與動態(tài)評測機制的深化,持續(xù)完善評測標準體系,共同促進人工智能在醫(yī)療健康領域的安全應用和高質量發(fā)展。

以下為全文                            

>>>>

引用本文

國家新聞出版署醫(yī)學期刊知識挖掘與服務重點實驗室. 醫(yī)療場景下大語言模型應用效果回顧性評測專家共識(2025版)[J]. 數(shù)字醫(yī)學與健康,2025, 網(wǎng)絡預發(fā)表.DOI:10.3760/cma.j.cn101909-20250924-00177


>>>>

通信作者

  • 王振常,首都醫(yī)科大學附屬北京友誼醫(yī)院,北京100050

    Email:cjrwzhch@vip.163.com;

  • 董家鴻,清華大學附屬北京清華長庚醫(yī)院,北京102218

    Email:dongjiahong@mail.tsinghua.edu.cn;

  • 葛均波,復旦大學附屬中山醫(yī)院,上海 200032

    Email:ge.junbo@zshospital.sh.cn;

  • 魏均民,中華醫(yī)學會雜志社 醫(yī)學期刊知識挖掘與知識服務重點實驗室,北京100052

    Email:weijunmin@cmaph.org


  ◆  ◆

摘  要

大語言模型(large language model,LLMs)基于海量文本數(shù)據(jù)訓練,已在自然語言理解與生成方面展現(xiàn)出強大能力,其在醫(yī)療場景中的應用涵蓋疾病篩查、輔助診斷、健康管理等多個環(huán)節(jié),成為推動智能醫(yī)療發(fā)展的重要力量。近年來,我國積極推動人工智能(artificial intelligence,AI)與醫(yī)療健康的融合,政策端鼓勵企業(yè)突破醫(yī)療大模型、多模態(tài)數(shù)據(jù)融合等關鍵技術,應用端加速向健康管理、精準醫(yī)療等場景延伸,逐步構建起覆蓋預防、診斷、治療、康復的全周期智能醫(yī)療服務體系。然而,隨著LLMs在醫(yī)療領域的廣泛應用,相關評測標準缺失、方法不統(tǒng)一的問題日益突出。為此,《醫(yī)療場景下大語言模型應用效果回顧性評測專家共識(2025版)》圍繞醫(yī)療場景下LLMs的回顧性評測構建了系統(tǒng)化評測框架,提出了科學的評測指標體系、標準與流程,旨在為模型評測機構、提供方與應用方提供清晰、可操作的指導規(guī)范。該共識有助于統(tǒng)一評測方法,提升評測的科學性,推動LLMs在醫(yī)療場景中的安全、有效應用,助力AI賦能醫(yī)療,實現(xiàn)高質量發(fā)展。

  ◆  ◆

前  言

大語言模型指使用大量文本數(shù)據(jù)訓練的深度學習模型,可以生成自然語言文本或理解語言文本的含義,通過在龐大的數(shù)據(jù)集上進行訓練來提供有關各種主題的深厚知識和語言生產(chǎn)。其核心思想是通過大規(guī)模的無監(jiān)督訓練學習自然語言的模式和結構,在一定程度上模擬人類的語言認知和生成過程。醫(yī)療場景下的LLMs應用是指將LLMs應用于醫(yī)療領域,在疾病篩查、輔助診斷、健康管理等醫(yī)療環(huán)節(jié)中發(fā)揮輔助決策作用。

在醫(yī)療場景中,LLMs的技術研發(fā)和實際應用均已步入加速發(fā)展階段?!夺t(yī)療場景下大語言模型應用效果回顧性評測專家共識(2025版)》(簡稱本共識)在遵循標準化文件的結構和起草規(guī)則下,通過科學構建評測指標體系、評測標準、評測流程等,為LLMs在醫(yī)療場景下的應用效果評測提供科學化、具體化、系統(tǒng)化的指導,規(guī)范LLMs評測方法和標準,促進人工智能產(chǎn)業(yè)高質量發(fā)展的標準體系加快形成。本共識由國家新聞出版署醫(yī)學期刊知識挖掘與服務重點實驗室、《數(shù)字醫(yī)學與健康》編輯委員會、《智慧醫(yī)學(英文)》編輯委員會、中華醫(yī)學會雜志社指南與標準研究中心、醫(yī)療人工智能研究及應用安徽省重點實驗室聯(lián)合發(fā)起,蘭州大學健康數(shù)據(jù)科學研究院、世界衛(wèi)生組織指南實施與知識轉化合作中心提供方法學支持。


編寫目的及適用人群
(一)編寫目的

本共識定位于LLMs應用前的評測指導工具,強調在LLMs研發(fā)階段末期以及落地前,組織醫(yī)學、計算機學、倫理學、法學等相關專業(yè)人員開展多維度、回顧性的效果評測,以實現(xiàn)LLMs落地前的全面把關與科學指導,旨在為LLMs在醫(yī)療場景中的應用效果開展系統(tǒng)性、回顧性評測提供科學、客觀且可操作的指導依據(jù)。本共識的“回顧性評測”指在LLMs已經(jīng)完成訓練并固定參數(shù)的基礎上,將其部署到本地環(huán)境中,通過實際應用場景的測試數(shù)據(jù),系統(tǒng)性地評估模型的性能。這種評測不涉及對模型本身的修改,而是聚焦驗證其現(xiàn)有能力在目標場景中的適用性。

本共識編寫目的具體包括:(1)科學評測。構建標準化、結構化的評測指標體系,確保LLMs評測的準確性、可重復性與橫向可比性。(2)安全保障。識別LLMs在醫(yī)療場景中的潛在風險與使用邊界,預防落地后可能帶來的誤診、誤治或信息誤導。(3)有效篩選與推廣。支持高性能、可信賴的LLMs在進入實際應用前得到充分驗證,提升技術成熟度與適配性。(4)質量引導。為LLMs研發(fā)提供優(yōu)化方向,推動其在醫(yī)學知識整合、任務適配與臨床驗證等方面持續(xù)提升。(5)政策支撐。為LLMs監(jiān)管和政策制訂提供評測框架與技術依據(jù),助力制訂統(tǒng)一、規(guī)范的行業(yè)標準與準入門檻。

(二)適用對象

本共識適用于開展LLMs醫(yī)療應用效果回顧性評測的相關機構和人員,涵蓋模型評測方、模型提供方以及醫(yī)療場景中負責模型部署與集成的應用方。

1.模型評測方:如第三方醫(yī)學AI評測中心、科研院所、行業(yè)標準制訂組織等,可依據(jù)本共識建立規(guī)范化的評測流程、數(shù)據(jù)體系與評價模型,確保評測結果具備科學性與權威性。

2.模型提供方:包括AI企業(yè)、醫(yī)療科技公司、科研單位等模型研發(fā)主體,可依據(jù)本共識指導優(yōu)化訓練策略、完善內測評測流程,提升模型的醫(yī)學適配性與臨床應用潛力。

3.模型應用方:如醫(yī)院信息中心、醫(yī)療信息化公司、智能醫(yī)療平臺開發(fā)商等,在模型部署前可依據(jù)本共識開展適配性評測與風險預判,確保模型在不同醫(yī)療場景下的穩(wěn)定性與安全性。


制定過程
(一) 制訂方法

本共識的制訂嚴格遵循《世界衛(wèi)生組織指南制訂手冊》、《中國制訂/修訂臨床診療指南的指導原則(2022版)》,并參考衛(wèi)生保健實踐指南的報告規(guī)范(Reporting Items for Practice Guidelines in Healthcare)進行撰寫,重點關注醫(yī)療場景下LLMs應用效果的回顧性評測指標體系、評測標準、評測流程,并在國際實踐指南注冊平臺(practice guideline registration for transparency,PREPARE)進行注冊,注冊號為PREPARE-2025CN503。

(二)共識形成過程

本共識依據(jù)循證醫(yī)學原則制訂,采用系統(tǒng)化、標準化的流程形成共識建議,以確保內容的科學性與權威性。臨床問題的遴選和確定,是以問卷調查和文獻檢索等形式收集問題和專家意見,按照S(sample)、PI(phenomenon of interest)、D(design)、E(evaluation)、R(research type)原則構建問題和指標總條目。由共識制訂專家組指導委員會擬定初步的問題和指標,邀請共識制訂專家組召開問題構建和指標遴選專項會議,對所有問題的重要程度進行評價。通過兩輪調查問卷以及對相關共識的調查,收集并確定需要在本共識中解決的問題。采用Likert 5級評分法進行重要性評分(5分制:5分為必須納入的強烈推薦項,1分為不納入的強烈不推薦項)。平均分≥4分的為關鍵問題,必須在共識中產(chǎn)生推薦意見;平均分介于3~4分的為一般重要問題,是否形成推薦意見由共識會議討論決定;平均分≤3分的為非關鍵問題,在共識中不產(chǎn)生推薦意見。本共識最終納入的問題將基于問卷調查及專家評分結果。對于每個關鍵問題,秘書組的兩名研究人員獨立地從納入的文獻中提取信息,形成證據(jù)摘要,并將其提交指導委員會審查。指導委員會和秘書組根據(jù)現(xiàn)有證據(jù)為每個問題起草初步建議和理由。采用改良的德爾菲(Delphi)方法,通過問卷調查就推薦意見達成共識。

本共識所采用的文獻檢索數(shù)據(jù)庫包括PubMed、Embase、Cochrane Library、Scopus、中國知網(wǎng)(CNKI)、萬方全文數(shù)據(jù)庫、中華醫(yī)學期刊全文數(shù)據(jù)庫,以及與醫(yī)療場景下LLMs相關的學會/協(xié)會網(wǎng)站文件,檢索時間范圍為各數(shù)據(jù)庫/網(wǎng)站建立起至2025年5月,發(fā)表語言限定為中英文。最后采用相應的工具評價納入研究的質量并確定文獻證據(jù)。共識制訂專家組成員基于指南、共識、系統(tǒng)評價、Meta分析、隨機對照研究的證據(jù)以及相關的指引、規(guī)范和通知,初擬了共識意見和證據(jù)與解釋。執(zhí)筆專家整合共識制訂專家組文件,撰寫共識全文。秘書組整合不同問題的共識意見,通過線上會議與共識制訂專家組成員開展共12次討論與修改。2025年8月通過郵件形式在共識制訂專家組中進行1輪Delphi調查,調查人數(shù)為35人,問卷有效回收率為100%。調查問卷的內容設計由秘書組成員完成,經(jīng)共識制訂專家組成員審核通過后發(fā)放。問卷內容主要包括對每條推薦意見的評分以及可自由填寫的意見和建議區(qū)域。針對每一條推薦意見,專家采用同意、不同意、不確定來進行評定。本共識設定:針對單條推薦意見,勾選同意的專家超過80%,則為該條推薦意見達成共識。本共識共凝練出6條推薦意見,均達成共識。專家推薦程度以“共識度”標注,共識度=(勾選同意的專家人數(shù)/總參評專家人數(shù))×100%。


問題、推薦意見及支持證據(jù)

(一)問題1:如何構建科學、客觀、全面且符合倫理的醫(yī)療場景下LLMs應用效果回顧性評測流程?

薦意見1:評測流程應堅持科學性、客觀性、全面性、倫理合規(guī)性。(1)科學性方面,評測指標應基于循證醫(yī)學證據(jù)評價方式,效果評價采用符合循證醫(yī)學要求的設計方法以保障結果的可重復性和獨立性,并建立動態(tài)證據(jù)更新機制以適應醫(yī)學和技術的發(fā)展。(2)客觀性方面,需構建具有代表性的多病種、多機構、多場景數(shù)據(jù)集,采用定量與定性相結合的方法進行雙盲評測,確保評價結果公正、透明。(3)全面性方面,評測內容應覆蓋多類醫(yī)療應用場景與多學科臨床專業(yè),提升評測結果的泛化性與指導價值。(4)倫理合規(guī)性方面,需嚴格遵循醫(yī)學倫理準則,充分保護患者隱私與數(shù)據(jù)安全,確保所有評測數(shù)據(jù)的收集、使用均獲得知情同意。同時,要規(guī)避潛在的倫理風險,如算法偏見可能導致的不公平醫(yī)療資源分配等,建立倫理審查機制,對評測全過程進行監(jiān)督與評估,保障評測活動符合法律法規(guī)和社會倫理規(guī)范。推薦評測流程見圖1。[共識度:100%(35/35)]

微信圖片_20251216222314.png

圖1  醫(yī)療場景下大語言模型應用效果回顧性評測流程

在醫(yī)療LLMs評測指標體系的構建過程中,遵循科學、客觀、全面、倫理合規(guī)的原則至關重要,有助于確保評測結果的準確性、可靠性與實用性,為醫(yī)療決策、質量提升及技術創(chuàng)新提供堅實支撐。

1.科學性:科學性是醫(yī)療LLMs評測指標體系構建的基石。基于臨床循證證據(jù)、權威醫(yī)學指南與真實世界數(shù)據(jù)確定評測指標,能使評測內容緊密貼合醫(yī)療實踐。醫(yī)學指南融合眾多研究成果與專家共識,真實世界數(shù)據(jù)反映實際醫(yī)療復雜情況,二者結合可避免評測脫離實際,為醫(yī)療LLMs評測與改進提供科學指引。重要決策證據(jù)需遵循雙盲、隨機等科學方法,避免主觀因素干擾,確保評測結果公正客觀。第三方機構獨立驗證可增強評測結果的可信度與權威性。隨著醫(yī)學與LLMs技術快速發(fā)展,建立動態(tài)迭代機制,依據(jù)新發(fā)現(xiàn)、新療法及新進展定期修訂評測標準,能確保其先進性與適用性,緊跟時代步伐,支持醫(yī)療行業(yè)創(chuàng)新發(fā)展。

2.客觀性:客觀性原則要求評測過程與結果不受主觀因素影響,確保評測結果真實反映實際情況。測試數(shù)據(jù)應全面覆蓋多樣化的醫(yī)療場景,涵蓋不同疾病類型、不同層級醫(yī)療機構以及多樣化的應用場景。合理使用多種抽樣方法,廣泛收集數(shù)據(jù)樣本使其滿足統(tǒng)計學意義規(guī)模,避免因數(shù)據(jù)樣本偏差導致評測結果失真,確保評測結果能夠真實反映不同醫(yī)療場景下的實際情況,為全面性的醫(yī)療LLMs評測提供可靠依據(jù)。評測結果采用定量與定性相結合的方式,核心指標應進行量化處理,如診斷結果準確率、F1值等,其能夠直觀、準確地反映評測對象的性能;同時由臨床專家進行主觀定性評測,如準確性、完整性、實用性等方面。評測過程需采用雙盲標注評測,以最大程度避免主觀傾向對評測結果的影響,確保評測結果的客觀性與公正性。參與評測的機構或人員需如實聲明利益關系,并接受第三方機構的嚴格監(jiān)督。通過這一機制,能夠有效防止因利益沖突導致評測結果出現(xiàn)偏差,保障評測工作的獨立性與公正性,維護評測結果的公信力。

3.全面性:全面性原則要求評測指標體系能夠涵蓋醫(yī)療領域的各個方面,確保評測工作的完整性與系統(tǒng)性。《衛(wèi)生健康行業(yè)人工智能應用場景參考指引》指出,醫(yī)學AI應區(qū)分不同應用場景,全面覆蓋醫(yī)療服務管理、基層公共衛(wèi)生服務、健康產(chǎn)業(yè)發(fā)展、醫(yī)學教學科研等多個領域。不同場景具有不同的特點與需求,通過全面覆蓋,確保評測工作能夠準確反映各領域的實際情況,為各領域的改進與發(fā)展提供針對性建議。不同科室在疾病診斷、治療及管理方面具有獨特性,針對不同學科領域或專科疾病進行評測,如兒科、呼吸內科、心血管內科等,有助于發(fā)現(xiàn)各科室存在的問題,推動科室專業(yè)化發(fā)展。此外,評測流程還需覆蓋可能涉及的其他維度,確保評測工作的全面性,為醫(yī)療LLMs行業(yè)的整體發(fā)展提供全方位的評測服務與支持。

4.倫理合規(guī)性:倫理合規(guī)性原則要求評測指標體系將醫(yī)學倫理規(guī)范與法律法規(guī)置于核心地位,確保AI在醫(yī)療領域的應用始終遵循正確的價值導向。首先,要關注患者隱私與數(shù)據(jù)安全問題。評測需詳盡考察數(shù)據(jù)全生命周期的合規(guī)性,包括收集環(huán)節(jié)是否獲得充分、有效的知情同意,存儲與傳輸環(huán)節(jié)是否采用強加密、匿名化等先進技術手段,以及使用環(huán)節(jié)是否有嚴格的權限管理和訪問審計機制,嚴防數(shù)據(jù)泄露與濫用。其次,要關注算法偏見帶來的倫理風險。評測應包含對算法公平性的深度檢驗,識別其是否存在因訓練數(shù)據(jù)偏差、模型設計缺陷等導致對特定人群(如特定性別、民族、種族、年齡、地域或社會經(jīng)濟地位患者)的診斷、治療建議或資源分配產(chǎn)生系統(tǒng)性歧視問題。因此,評測應建立貫穿始終的倫理審查與監(jiān)督機制,對評測方案設計、數(shù)據(jù)獲取方式、算法評估過程及結果應用等關鍵環(huán)節(jié)進行獨立、嚴格的倫理評估與持續(xù)監(jiān)督,確保評測符合法律法規(guī)和行業(yè)規(guī)范的要求。

5.評測流程:為確保醫(yī)療LLMs評測工作的科學、規(guī)范與有效,特明確評測流程如下。(1)評測申請。在評審前由具有明確評測意向的機構或個人提出書面申請。評審申請中必須寫明的內容包括:申請單位主體信息、模型名稱及版本號、模型應用類型、模型開發(fā)時間、核心技術架構、模型部署形式、預期應用場景、合規(guī)和倫理審查材料、評測需求與范圍。(2)需求分析。全面剖析待評測模型的應用場景,深入了解其在不同醫(yī)療環(huán)境、患者群體及業(yè)務流程中的潛在運用情況。明確評測重點與方向,為后續(xù)評測工作奠定堅實基礎,確保評測能夠精準反映待評測模型在真實醫(yī)療場景中的表現(xiàn)。(3)方案設計。針對待評測模型及評測場景精心設計評測方案。具體涵蓋:①組建權威評測專家組,需具備專業(yè)背景與豐富經(jīng)驗;②明確評測指標,使其緊密貼合評測目標與應用場景;③制訂科學的評測標準,保障評測工作的公正性與客觀性;④構建全面且具代表性的評測數(shù)據(jù)集;⑤搭建適配的測試環(huán)境及測試工具,為評測提供可靠軟硬件支持。(4)組織評測。依據(jù)評測方案,組織評測專家對評測數(shù)據(jù)進行雙盲標注,避免主觀因素干擾,確保標注結果的準確性與可靠性。(5)結果分析。匯總測試集標注結果,統(tǒng)計相關評測指標結果,從不同維度深入對比,在完成評測匯總和結果分析后,組織專家進行復審,最終出具專業(yè)評測報告。

(二)問題2:醫(yī)療場景下LLMs應用效果回顧性評測的指標有哪些?

推薦意見2:建議將模型評測指標根據(jù)不同場景適配性地劃分為定量指標與定性指標兩類。定量指標主要用于量化模型在自然語言處理任務中的表現(xiàn),推薦優(yōu)先采用準確率、召回率和F1值評測結構化任務(如文本分類、信息抽?。⒉捎肂LEU與ROUGE分數(shù)衡量文本生成任務中的語言質量與信息覆蓋度。定性指標則用于評測模型輸出的醫(yī)學適應性與安全性,建議采用MOS機制,由評測專家從準確性、完整性、安全性、實用性和專業(yè)性五個維度進行5分制評分,并計算均值作為評測依據(jù)。同時,可引入優(yōu)秀率(MOS≥4)、不良回復率(MOS=1或含風險內容)及勝率等指標,進一步量化模型在高質量輸出和風險控制方面的綜合表現(xiàn)。此外,建議納入資源消耗、并發(fā)能力等性能指標以評估模型在醫(yī)療場景下的運行效率,確保其在實際應用中的響應速度與資源適配性。[共識度:100%(35/35)]

2024年11月14日,國家衛(wèi)生健康委員會、國家中醫(yī)藥管理局、國家疾病預防控制局三部門聯(lián)合印發(fā)《衛(wèi)生健康行業(yè)人工智能應用場景參考指引》。該指引從“人工智能+醫(yī)療服務管理”“人工智能+基層公共衛(wèi)生服務”“人工智能+健康產(chǎn)業(yè)發(fā)展”和“人工智能+醫(yī)學教學科研”四大領域,給出了84個應用場景,希望以此推進衛(wèi)生健康行業(yè)“人工智能+”應用創(chuàng)新發(fā)展。具體應用場景見圖2。

微信圖片_20251216222318.png

圖2  衛(wèi)生健康行業(yè)人工智能應用場景參考指引 

本共識面向LLMs在醫(yī)療場景中的應用進行評測,故選擇《衛(wèi)生健康行業(yè)人工智能應用場景參考指引》中與共識制訂目的強相關的“醫(yī)療服務”“醫(yī)藥服務”“中醫(yī)藥管理服務”等8個模塊51個應用場景,并將其聚焦為6個核心評測點:

1.醫(yī)療知識問答:能夠提供醫(yī)療領域的知識查詢與解釋,包括疾病診療、用藥指導、醫(yī)保政策、健康科普、醫(yī)學教育題庫及文獻問答,滿足從患者到專業(yè)人員的多層次知識需求。覆蓋藥品問答、健康教育等場景。

2.醫(yī)療復雜語言理解:能夠深度解析醫(yī)療文本語義與規(guī)則,實現(xiàn)對醫(yī)學術語、專業(yè)文書、政策法規(guī)的精準理解與結構化提取,滿足醫(yī)療行業(yè)在問題解決方面的嚴格要求。覆蓋病歷質控、醫(yī)保核算/風控、科研文獻分析、處方審核等場景。

3.醫(yī)療診斷治療推薦:能夠模擬臨床決策全流程,支持影像/病理/檢驗輔助診斷、手術規(guī)劃導航、用藥推薦、慢病管理及中醫(yī)辨證等,輔助醫(yī)生臨床決策,提高整體醫(yī)療服務能力,覆蓋專病決策、分診導診、多學科會診等場景。

4.醫(yī)療專業(yè)文書生成:能夠自動化生成醫(yī)療全場景文檔,包括門診病歷、入院記錄、出院小結等,提高醫(yī)療工作效率,減輕醫(yī)生工作負擔。覆蓋病歷生成、健康檔案、科研文書等場景。

5.醫(yī)療多輪對話交互:聚焦自然語言單模態(tài),核心在通過多輪問答實現(xiàn)信息獲取,強調上下文理解與個性化,場景偏向客服、管理等對話場景。覆蓋醫(yī)??头⒔】倒芾斫换?、醫(yī)院客服、醫(yī)學培訓等場景。

6.醫(yī)療多模態(tài)對話交互:能夠對文本、語音、圖像等多類型輸入進行識別與理解,并生成符合醫(yī)療規(guī)范的多模態(tài)輸出,滿足醫(yī)療行業(yè)多模態(tài)交互需求及技術輔助。覆蓋影像質控、手術輔助、中藥鑒別等場景。

為保障評測結果科學嚴謹且貼合醫(yī)療場景實際表現(xiàn),依據(jù)GB/T 45288.2—2025《人工智能 大模型 第2部分 評測指標與方法》要求,在設計評測指標時,緊密結合醫(yī)療場景的實際問題,同時兼顧不同任務類型的核心要求、相關數(shù)據(jù)集的固有特性,并重點針對不同場景下模型輸出的回復形式進行設計。LLMs在醫(yī)療場景下推薦的評測指標見表1。

微信圖片_20251216222321.png

具體到不同應用場景中,從核心評測點對應的評測指標設定,到評測實施的全流程細節(jié),在表2中提供了詳細的示例,可作為實操參考。

微信圖片_20251216222324.png

以上提供了醫(yī)療場景下LLMs應用效果的評測指標。然而,模型的綜合價值不僅在于其能力的強弱,還在于將這些能力轉化為實際服務的效率與成本。因此,在關注其“效果”的同時,我們必須也關注決定其落地可行性的“性能”維度。LLMs的性能評測包含但不限于以下維度:資源消耗(包括算力要求、顯存占用、功耗),吞吐量及延遲(包括吐字速率、請求吞吐量、響應延遲),并發(fā)能力和可擴展性(包括最大并發(fā)路數(shù)和增加計算資源時帶來模型性能提升)。

(三)問題3:如何構建符合多領域協(xié)同的醫(yī)療場景下LLMs應用效果評測團隊?

推薦意見3:建議構建具備多學科協(xié)同能力、醫(yī)學專業(yè)背景與評測素養(yǎng)的標準化評測團隊。團隊應由高年資醫(yī)學專家(擔任醫(yī)療LLMs評測培訓導師)、計算機學專家、倫理學專家、統(tǒng)計學專家及法學專家共同組成,以保障評測工作的標準化和專業(yè)性。評測人員應覆蓋多???、多層級的醫(yī)生及醫(yī)院,并通過系統(tǒng)培訓與實操驗證提升評測一致性;培訓導師應具備豐富的臨床經(jīng)驗,負責制訂評測流程與標準;計算機學專家則負責數(shù)據(jù)處理、平臺支持及結果分析,確保評測流程技術可行與臨床契合;倫理學專家負責確保評測遵循現(xiàn)有倫理規(guī)范,避免數(shù)據(jù)偏見、算法偏見及其他倫理風險;法學專家負責保障評測全流程符合國內外相關法律法規(guī),提供合規(guī)支持與風險把控。團隊內部應建立規(guī)范的人崗匹配與動態(tài)管理機制,包括分層培訓、進階考核、任務分配與績效淘汰制度,以實現(xiàn)穩(wěn)定、高效的評測協(xié)作體系,提升評測質量與結果可信度。[共識度:91.4%(32/35)]

跨學科團隊的構建至關重要,專業(yè)醫(yī)生憑借深厚的醫(yī)學知識和臨床經(jīng)驗,能精準把控診療邏輯、判斷醫(yī)療決策的合理性,確保LLMs的應用符合臨床規(guī)范;有經(jīng)驗的工程師則可從技術底層優(yōu)化模型性能,解決數(shù)據(jù)處理、算法適配等問題,為測評流程的穩(wěn)定性和效率提供保障。該團隊模式能夠有效整合不同領域的知識,提高標注質量。團隊應通過標準化培訓與考核機制強化跨學科協(xié)作能力,選拔具備專業(yè)深度與溝通能力的成員,為LLMs的評測提供可靠人才保障。

1.培訓導師的選拔應跨越不同科室、不同場景,以確保其能力全面覆蓋:根據(jù)不同應用場景、??品较蚺c任務難度,選取具備相應背景與職稱的專家醫(yī)生擔任培訓導師,確保醫(yī)學能力與任務類型的高度匹配。培訓導師還應具有地域代表性,避免地域差異對評測結果產(chǎn)生偏倚。培訓導師資質建議為副主任醫(yī)師及以上,具備豐富的臨床與教學經(jīng)驗,能夠深入理解各類醫(yī)療任務并提供準確指導。

2.參評醫(yī)師應從專業(yè)資質及實踐能力多維度出發(fā)綜合考慮,并通過小樣本交叉測評和場景測評進一步提高結果一致性和穩(wěn)定性:根據(jù)醫(yī)學場景任務的不同,需要篩選合適的醫(yī)生參與評測,應根據(jù)不同應用場景、不同???、不同難度等,選拔對應背景、職稱的專科醫(yī)師。(1)參評醫(yī)師的資質。①從專業(yè)資質維度,參評醫(yī)師需涵蓋住院醫(yī)師、主治醫(yī)師、副主任醫(yī)師及主任醫(yī)師,覆蓋臨床診療、醫(yī)學影像、檢驗醫(yī)學等多個科室;②從實踐能力維度,參評醫(yī)師需具備測評相關的實踐經(jīng)驗,掌握基礎醫(yī)學統(tǒng)計學方法,具備醫(yī)療數(shù)據(jù)解析與專業(yè)測評報告撰寫能力。(2)參評醫(yī)師的遴選流程。①采用小樣本交叉測評法,對候選醫(yī)師的醫(yī)學知識儲備及臨床問題理解能力進行量化評測,建立基礎能力篩選標準;②基于多任務場景的大樣本測評數(shù)據(jù)集,開展標準化測評實踐,通過組內一致性檢驗優(yōu)化測評人員對評分細則的認識,確保評測標準的同質化執(zhí)行。

3.計算機學專家(如數(shù)據(jù)工程師和計算機工程師)的資質要求與職能作用:除醫(yī)學專業(yè)人員外,具備數(shù)據(jù)處理分析以及機器學習知識的數(shù)據(jù)工程師和計算機工程師參與評測團隊,可以從多個角度保證所標注的數(shù)據(jù)同時滿足計算機思考決策方式和臨床專業(yè)性及實用性,通過專業(yè)醫(yī)生、數(shù)據(jù)工程師和計算機工程師的協(xié)作,形成評測工作的跨學科框架。

計算機學專家的資質要求:需持有數(shù)據(jù)工程師或計算機工程師職業(yè)資質認證,或擁有5年以上相關領域從業(yè)經(jīng)驗,且須通過專家組組織的專項能力測試,方可獲得參評資格。其職責包括:(1)保障評測平臺的穩(wěn)定性。①在標注平臺中,開發(fā)智能輔助工具能夠有效提升測評效率,這一點已被多方所驗證。這些工具具備自動填充、智能提示以及錯誤預警等多種功能,它們依托于自然語言處理和機器學習技術,可顯著減少人工標注過程中的重復性勞動,降低錯誤發(fā)生率,進而提高整體的數(shù)據(jù)質量。②構建完善的數(shù)據(jù)安全防護體系,對醫(yī)療標注數(shù)據(jù)進行加密存儲與傳輸,同時設置嚴格的權限管理機制,確保不同角色的人員只能訪問和操作其權限范圍內的數(shù)據(jù),以上措施可有效防止數(shù)據(jù)泄露和誤操作。(2)保障評測數(shù)據(jù)的均衡性。數(shù)據(jù)工程師需具備良好的數(shù)據(jù)分析能力,以確保在數(shù)據(jù)標注過程中實現(xiàn)數(shù)據(jù)的均衡分布;同時,要嚴格把控數(shù)據(jù)質量,提供標準化的術語庫,從而有效減少標注過程中的歧義,切實保障標注數(shù)據(jù)的一致性與合理性。(3)保障評測結果分析的專業(yè)性。計算機工程師具備自然語言處理和機器學習專業(yè)知識,能夠評測LLMs的技術性能,如準確率、召回率、效率等。此外,他們還可以分析LLMs存在的潛在偏差和局限性。

4.倫理學專家的資質要求與職能作用:在LLMs測評團隊中,倫理學專家需具有應用倫理學、生命倫理學、醫(yī)學倫理學或科技哲學專業(yè)碩士及以上學歷,具備3年以上AI倫理、數(shù)據(jù)倫理和科研倫理的研究或從業(yè)經(jīng)驗,具備3年以上的科研倫理審查經(jīng)驗,理解LLMs的工作原理,了解訓練數(shù)據(jù)、微調、提示、參數(shù)和輸出,理解訓練數(shù)據(jù)如何被獲取、清理及可能的數(shù)據(jù)偏見。其核心作用體現(xiàn)在4個方面:(1)結合現(xiàn)有AI原則和治理框架,明確適合目標場景的倫理評測規(guī)則,使評測遵循現(xiàn)有倫理規(guī)范;(2)數(shù)據(jù)倫理評價,對訓練所用數(shù)據(jù)的獲取、清洗進行評估,并評估數(shù)據(jù)偏見風險;(3)對算法模型進行倫理評估,識別算法中存在的倫理問題,包括算法的魯棒性、可解釋性、透明性、公平性等,并評估價值鏈上主體對算法的影響;(4)與LLMs評測團隊中成員協(xié)作,針對LLMs中存在的倫理問題和相關風險提出完善建議。

5.法學專家的資質要求與職能作用:在LLMs測評團隊中,法學專家需擁有法學專業(yè)碩士及以上學歷,具備3年以上數(shù)據(jù)安全、個人信息保護或AI合規(guī)領域的從業(yè)經(jīng)驗,熟悉國內外相關法規(guī),具備醫(yī)療或AI領域交叉學科知識儲備,能較為準確地理解LLMs測評中的臨床數(shù)據(jù)特性與技術邏輯。其核心作用體現(xiàn)在3個方面:(1)構建合規(guī)框架,結合LLMs測評場景(如醫(yī)療數(shù)據(jù)處理、多模態(tài)信息交互等),制訂涵蓋數(shù)據(jù)采集、脫敏、存儲、模型輸出驗證全流程的合規(guī)標準,確保測評活動符合法律法規(guī)要求;(2)動態(tài)風險管控,針對測評中可能出現(xiàn)的敏感信息泄露、模型輸出合規(guī)性爭議等風險,提供實時法律評估與應對方案,例如審核醫(yī)療數(shù)據(jù)去標識化效果是否滿足“較難識別特定個體”的法定要求;(3)合規(guī)能力建設,通過專項培訓提升團隊成員的法律意識,明確測評各環(huán)節(jié)的法律邊界,同時對測評結果的合法性進行確認,保障LLMs在醫(yī)療領域的應用符合法律規(guī)范。

6.評測團隊需制訂明確的標注規(guī)范,并進行統(tǒng)一培訓:評測團隊在不同醫(yī)療任務場景下需要有明確的評測標注規(guī)范。評測標注規(guī)范由醫(yī)療LLMs評測培訓導師制訂,優(yōu)秀的評測標注規(guī)范應當清晰、詳細、可操作,并明確標注范圍、標準、方法及注意事項等內容。評測標注規(guī)范應包含各種可能遇到的情況和解決方案,確保團隊成員在標注過程中有統(tǒng)一的標準可循。醫(yī)療LLMs評測培訓導師需結合不同任務的評分規(guī)范和實操中的問題,系統(tǒng)梳理培訓材料,包含任務標注案例、注意事項等;醫(yī)學專家負責提供專業(yè)的醫(yī)學知識,協(xié)同篩選,確保標注的準確性;數(shù)據(jù)科學家負責設計標注方案和質控流程;標注工程師則負責具體的數(shù)據(jù)標注工作。這種團隊模式已被證明能夠有效整合不同領域的知識,提高標注質量。

7.設置評測人員準入考核機制,建立數(shù)據(jù)標注質量監(jiān)控制度:(1)評測人員準入考核方法。針對不同醫(yī)療LLMs能力維度與應用場景,均設置標準化試評環(huán)節(jié)。評測人員需完成規(guī)定數(shù)據(jù)量的試評任務,其標注結果與標準答案的誤差率控制在3%以內,且組內一致性系數(shù)達到0.85以上,經(jīng)專家組復核確認后,方可獲得正式參評資格。該機制通過量化考核標準,確保評測人員具備穩(wěn)定且專業(yè)的評測能力。(2)數(shù)據(jù)標注質量監(jiān)控。團隊中需要有專門的醫(yī)療專業(yè)人員作為質控人員進行標注結果的質控,負責檢查標注質量,發(fā)現(xiàn)并糾正錯誤標注。質控人員需要具備專業(yè)的醫(yī)學知識和豐富的標注經(jīng)驗,能夠制訂合理的質控標準和流程。同時需要定期對標注數(shù)據(jù)進行抽查和評測,及時發(fā)現(xiàn)和糾正錯誤標注。定期結合歷史評分準確率和質控反饋設定淘汰門檻,對評測人員進行復訓與考核。利用統(tǒng)計分析方法,如計算標注一致性系數(shù)來評測標注質量,并根據(jù)評測結果改進標注流程和指南。

(四)問題4:如何設計兼顧代表性與可擴展性的醫(yī)療場景下LLMs應用效果評測數(shù)據(jù)集?

推薦意見4:評測數(shù)據(jù)集的設計需注重科學性、動態(tài)性、合規(guī)性,需制訂標準化的數(shù)據(jù)構建流程,并建立可擴展與可持續(xù)更新的機制,以確保醫(yī)療LLMs應用效果評測具有臨床真實性、全面代表性、公正性。(1)評測數(shù)據(jù)集的科學性設計需遵循三個原則:①臨床真實性,基于真實診療數(shù)據(jù),覆蓋醫(yī)療全流程及決策沖突情境;②全面代表性,從疾病、人群、醫(yī)療機構等多維度廣泛覆蓋,動態(tài)引入關鍵維度;③公正性,納入弱勢群體、特殊人群及特定領域數(shù)據(jù)。(2)評測數(shù)據(jù)集需建立動態(tài)擴展機制:采用模塊化設計,按場景、疾病、任務等劃分獨立單元,確保結構、格式、存儲規(guī)范;建立標準化版本控制體系,根據(jù)模型迭代、政策更新等情形,及時更新數(shù)據(jù)并保留歷史版本,增強評測連續(xù)性與可解釋性。(3)數(shù)據(jù)合規(guī)要求:評測數(shù)據(jù)集若使用真實醫(yī)療數(shù)據(jù),須嚴格遵守法律法規(guī),對姓名、住址等敏感信息徹底脫敏匿名,確保無識別性、不屬于個人信息。建議引入脫敏規(guī)范與審計機制,保障評測全流程合法、合規(guī)、可追溯。[共識度:100%(35/35)]

1.評測數(shù)據(jù)集的設計原則:評測數(shù)據(jù)集在設計時應保證臨床真實性、全面代表性和公正性三個設計原則。

(1)臨床真實性。評測數(shù)據(jù)集采用真實世界醫(yī)療場景數(shù)據(jù),覆蓋診前-診中-診后就醫(yī)全流程數(shù)據(jù),且包含典型臨床決策沖突場景。同時數(shù)據(jù)要求來自臨床真實情況,如住院電子病歷、門診病歷、體檢報告單等。評測數(shù)據(jù)集的正確性將由專家組進行復核確認。

(2)全面代表性。①數(shù)據(jù)類型:根據(jù)醫(yī)療場景的不同,測試集需對應覆蓋測試場景下所涉及的數(shù)據(jù)類型。普遍的醫(yī)療場景下應考慮的臨床數(shù)據(jù)類型包括導醫(yī)導診對話數(shù)據(jù)、門診病歷數(shù)據(jù)、檢查檢驗報告單、復雜住院病歷、醫(yī)療對話、診療計劃文檔、影像數(shù)據(jù)及醫(yī)學指南文獻類文章等。以上數(shù)據(jù)需滿足對LLMs應用場景的覆蓋,包括醫(yī)療海量知識問答、醫(yī)療復雜語言理解、醫(yī)療診斷治療推薦、醫(yī)療專業(yè)文書生成、醫(yī)療多輪對話交互、醫(yī)療多模對話交互。其中,醫(yī)學指南文獻類文章作為權威醫(yī)學知識的載體,可有效支撐模型對臨床指南的深度解析與循證決策能力,進一步強化數(shù)據(jù)類型的專業(yè)性和全面性。②疾病維度:確保數(shù)據(jù)集覆蓋盡可能多的疾病類型和臨床表現(xiàn),從而驗證LLMs在不同醫(yī)學領域的泛化能力。例如,包括腫瘤、心血管疾病、傳染病等不同科室/不同類別的病例,可從國際疾病分類(ICD)中按不同層級分層抽樣,根據(jù)疾病的不同程度,作出符合患者病情的診斷;同時需要根據(jù)國家發(fā)布的兩批罕見病列表,納入部分罕見病,保證模型復雜病案診斷鑒別能力。此外,還需納入一定比例的陰性樣本(如無明確器質性病變的功能性癥狀病例、非目標疾病的相似癥狀病例等),以此驗證模型在區(qū)分疾病與非疾病狀態(tài)、鑒別相似癥狀下不同病因的能力,減少假陽性診斷,進一步提升模型對復雜臨床場景的適配性。③人群維度:醫(yī)學數(shù)據(jù)往往存在偏差,如某些疾病可能在特定人群中更為普遍。如果評測數(shù)據(jù)集未能反映真實世界的人群分布,LLMs可能會學習并放大這些偏差,導致對某些群體做出不準確或不公平的診斷。因此,選擇評測數(shù)據(jù)時應注意平衡患者人群特征,包括平衡不同年齡段、不同性別、不同地域等。④醫(yī)療機構維度:覆蓋基層醫(yī)院、二級醫(yī)院、三級醫(yī)院等不同層級,根據(jù)實際情況按照比例進行模擬,避免模型在基層醫(yī)療機構(如社區(qū)醫(yī)院、鄉(xiāng)鎮(zhèn)衛(wèi)生院等)應用中的準確性和有效性受到影響,使基層患者不能獲得合適的醫(yī)療AI決策。結合實際評測對象、評測場景的差異性,還應考慮從其他特性維度進行數(shù)據(jù)集覆蓋。

(3)公正性。評測數(shù)據(jù)應該保持公正,在保障覆蓋絕大部分真實世界數(shù)據(jù)的同時,適當設計弱勢群體、特殊人群、特殊領域的數(shù)據(jù)集。

2.測試集的形式:應支持動態(tài)擴展,便于數(shù)據(jù)持續(xù)更新。

(1)模塊化數(shù)據(jù)結構。將數(shù)據(jù)集拆分為獨立模塊,支持按模塊添加,通過采用統(tǒng)一的數(shù)據(jù)格式和存儲規(guī)范,確保新數(shù)據(jù)模塊與現(xiàn)有模塊無縫集成,而無需重構整個數(shù)據(jù)集。這對于不斷發(fā)展的領域(如醫(yī)療健康)至關重要,因為新的數(shù)據(jù)類型、特征或患者群體可能需要定期添加到評測數(shù)據(jù)集中。

(2)版本控制。評測數(shù)據(jù)集需要明確版本,并制訂對應的更新策略,如當模型技術迭代明顯、醫(yī)療政策調整、醫(yī)療技術更新等重大變化時,適時對測試集進行更新;此外,還應支持歷史版本回溯功能,這有益于問題排查、長期分析及版本合規(guī)性檢驗。

3.測試集的倫理與安全:需對敏感信息進行脫敏處理、滿足數(shù)據(jù)安全并遵循倫理原則。評測數(shù)據(jù)集采用真實世界診療數(shù)據(jù)時,需對數(shù)據(jù)中的姓名、住址、身份標識、就診號等敏感信息進行脫敏處理,通過完整的匿名化與去標識化操作,確保數(shù)據(jù)不再構成個人信息。嚴格遵守《中華人民共和國個人信息保護法》《中華人民共和國數(shù)據(jù)安全法》等國內法規(guī),同時參考歐盟的《通用數(shù)據(jù)保護條例》、AI法案和美國的健康保險流通與責任法案等國外法規(guī),全面保障數(shù)據(jù)安全。在健康醫(yī)療大數(shù)據(jù)應用場景下,健康醫(yī)療個人信息控制者開展個人信息處理活動,應遵循合法、正當、必要與誠信原則,目的原則,公開透明原則,質量原則,以及責任原則。在實際操作中應注意以下幾點:

(1)數(shù)據(jù)隱私性。在獲取數(shù)據(jù)內容上,因為醫(yī)療數(shù)據(jù)包含大量敏感信息,如患者的姓名、身份證號、聯(lián)系方式、健康狀況、疾病史、詳細出生日期等,所以必須采取嚴格的隱私保護措施。在不影響數(shù)據(jù)使用價值的前提下,對數(shù)據(jù)進行匿名化和去標識化處理,可降低數(shù)據(jù)被識別和泄露的風險。在測評數(shù)據(jù)應用中,針對患者姓名、身份證號、聯(lián)系方式等與診斷診療無關的個人敏感信息,需通過規(guī)范化脫敏處理以平衡數(shù)據(jù)利用與隱私保護,具體采用以下三種核心方式:①以偽數(shù)據(jù)或標準化占位符替換此類信息,以阻斷真實身份關聯(lián);②將精準個人信息(如具體年齡、居住地址)泛化為年齡區(qū)間、城市級別等寬泛類別,弱化個體識別度;③對數(shù)字類個人信息(如醫(yī)保賬號、病案號)采用加密技術處理,在保證信息安全的情況下保留唯一標識。數(shù)據(jù)脫敏后,還需通過檢測流程確認其是否可以識別個體或是否可以關聯(lián)回溯,避免存在脫敏不徹底導致隱私泄露的風險。

(2)數(shù)據(jù)安全性。在數(shù)據(jù)獲取途徑上,基于數(shù)據(jù)安全性要求,需明確誰可以使用以及可以披露哪些受保護的健康信息?;颊哂袡嗖榭?、獲取其醫(yī)療記錄的副本,并要求更正不準確的信息。醫(yī)療機構必須告知患者其隱私權,并獲得患者的書面授權才能披露某些信息。比如,醫(yī)療科技公司應建立訪問控制機制,限制只有經(jīng)過授權的工作人員和醫(yī)生才能訪問相關的患者數(shù)據(jù)。此外,保證原始醫(yī)療數(shù)據(jù)備份也很重要,在評測的標注階段,相關工作人員應使用脫敏后的數(shù)據(jù),但仍需對原始數(shù)據(jù)進行備份,確保數(shù)據(jù)可以安全地備份和恢復,以應對數(shù)據(jù)處理過程中導致的信息缺失等問題。

(3)倫理合規(guī)性。在醫(yī)療數(shù)據(jù)的處理過程中,需要遵循倫理原則,確保數(shù)據(jù)的使用符合道德和倫理標準。例如,在進行醫(yī)療研究時,使用患者數(shù)據(jù)必須經(jīng)過倫理委員會的審查和批準,要充分考慮研究目的是否正當,是否會對患者造成潛在的傷害或不利影響;數(shù)據(jù)采集需避免偏見,例如納入不同種族、不同社會經(jīng)濟地位的人群數(shù)據(jù),防止算法歧視導致醫(yī)療資源分配不公。

(五)問題5:如何建立評測數(shù)據(jù)集與評測效果的反饋及更新機制?

推薦意見5:為保障醫(yī)療LLMs評測體系的高標準執(zhí)行與持續(xù)優(yōu)化,建議完善并落實嚴謹、透明且高效的反饋與更新機制。評測機構應構建多渠道、分層次的反饋體系,包括定期專家評審、在線反饋平臺和臨床驗證模塊,以確保收集到廣泛且專業(yè)的意見。同時,應設立反饋管理團隊與獨立仲裁委員會,規(guī)范爭議處理流程,保障問題得到公正、透明的解決。更新機制應基于法規(guī)變更、技術進步、應用擴展及安全事件等觸發(fā)條件,實施季度或年度常規(guī)迭代,并設立多層分級的緊急響應流程以應對重大風險。同時,配合統(tǒng)一的版本管理與可追溯的歷史庫,可進一步保障評測體系的科學性、前瞻性和持續(xù)改進能力。[共識度:97.1%(34/35)]

由于醫(yī)療LLMs在臨床應用中呈現(xiàn)復雜性、高風險性與快速演進性的特征,其評測體系必須動態(tài)且公平。有效的反饋與更新機制是保障評測體系科學性、時效性、公平性與可信性的根本,更是評測機構展現(xiàn)其專業(yè)性的關鍵。

1.反饋機制是提升評測體系精準性與公平性的核心:應設置多途徑的反饋渠道,如定期召開專家評審會,能有效整合臨床醫(yī)生對于LLMs診斷支持、治療決策等方面的專業(yè)判斷與經(jīng)驗,這可以作為醫(yī)療AI評測的重要參考基準。同時,構建反饋平臺和臨床集成反饋模塊可以直接獲取一線醫(yī)護人員在真實世界應用中的細微偏差與性能問題,從而彌補評測的不足。為應對醫(yī)療AI的潛在偏見風險,應建立反饋循環(huán)框架,可增設匿名反饋通道,將其貫穿于開發(fā)與部署的各個階段,以同時保證公平性與持續(xù)質量改進。

標準化爭議處理機制是保障AI評測體系公正性與客觀性的關鍵環(huán)節(jié)。該機制的核心作用在于為涉及復雜倫理(如算法歧視導致的醫(yī)療不公平)或技術爭議(如模型解釋性不足)的問題提供制度化、權威性的解決路徑,例如通過經(jīng)嚴格程序遴選、力求獨立公正的專家仲裁。同時,評測流程的透明和規(guī)范至關重要,在研究設計階段就應明確數(shù)據(jù)處理標準、指標選擇依據(jù)及模型評測方法。在計算模型性能指標時,需詳盡公開數(shù)據(jù)來源、計算方法和關鍵假設條件,以體現(xiàn)評測機構的專業(yè)性、科學性與責任擔當。透明度雖無法徹底消除所有質疑(如價值觀沖突或理解差異),卻能顯著降低信息不對稱帶來的不信任,為結果可信度奠定基礎,并使評測過程具備可審查性。爭議處理機制與透明度建設相輔相成,共同成為可信賴AI評測體系的核心支柱。

2.動態(tài)更新機制是保障評測體系先進性、適應性與可持續(xù)性的必要條件:更新觸發(fā)條件應確保評測體系能及時響應行業(yè)變化。醫(yī)療AI技術發(fā)展迅速,LLMs架構與能力迭代是常態(tài),臨床相關應用也會隨之更新。及時更新的評測體系能夠推動AI技術在不同領域不斷適應新場景,實現(xiàn)技術革新,為AI新技術的發(fā)展提供活力。

科學的迭代周期與緊急響應機制保障了評測體系的時效性。常規(guī)的季度或年度迭代允許納入新應用場景和數(shù)據(jù),保持評測體系的活力。而多層分級的響應與修訂流程則能妥善應對不同的突發(fā)性重大安全事件或政策調整。其在醫(yī)療這種高風險領域至關重要,能有效降低患者風險并保障對AI的監(jiān)管合規(guī)性。

嚴謹?shù)陌姹咀匪輽C制是評測體系透明度與可信賴性的體現(xiàn)。統(tǒng)一的語義化版本標識和完善的歷史版本庫不僅便于用戶追溯評測標準的變化,進行跨周期分析,也為監(jiān)管機構進行審查提供了可靠依據(jù)。這種透明化管理證明了評測流程的可審查性與決策可解釋性,極大提升了評測機構的專業(yè)性與公正性。同時,它也展示了評測流程的嚴謹性與責任感,進而在醫(yī)療AI生態(tài)系統(tǒng)中建立長期信任。

(六) 問題6:醫(yī)療場景下LLMs應用效果回顧性評測報告的標準化模板應包含哪些必備要素與披露要求?

推薦意見6:建議建立統(tǒng)一規(guī)范的評測報告結構與發(fā)布機制,確保評測結果的透明性、權威性和可復用性。評測報告應完整記錄模型基本信息、評測背景與目標、評測范圍及應用場景,詳述評測數(shù)據(jù)來源與合規(guī)流程,明確采用的定量與定性評測指標及其計算方法。報告還應介紹評測專家的專業(yè)構成與地域分布,系統(tǒng)展示量化結果并結合專家定性評價,從準確性、安全性、實用性等多維度給出綜合結論。最后,應規(guī)范報告的發(fā)布平臺、獲取方式及有效期管理,確保評測成果公開透明并便于持續(xù)更新。[共識度:100%(35/35)]

醫(yī)療場景下LLMs應用效果回顧性評測報告的標準化模板應包含以下關鍵要素,以保證評測結果的透明性、權威性和可復用性。

1.模型基本信息與評測背景:報告應清晰呈現(xiàn)被評測模型的名稱、版本、開發(fā)者、主要功能,以及評測的目的、范圍和具體應用場景,確保讀者對評測對象有全面了解。例如,明確模型是用于輔助診斷、病歷摘要,還是藥物相互作用預測等特定任務。

2.評測數(shù)據(jù)來源與合規(guī):詳細描述評測所用數(shù)據(jù)集的構成,包括數(shù)據(jù)量、數(shù)據(jù)類型、版本號、來源,以及數(shù)據(jù)收集和處理過程中的倫理考量與合規(guī)性聲明。特別需要明確數(shù)據(jù)集是否經(jīng)過充分的脫敏處理,是否獲得了患者的知情同意,以及是否符合相關數(shù)據(jù)安全法規(guī)。

3.評測指標與方法:清晰闡述所采用的定量指標(如準確率、召回率、F1值)和定性指標(如MOS評分、模型與真人醫(yī)生一致性),并詳細說明其計算方法。對于定性指標,需要說明調查問卷的設計、樣本選擇及統(tǒng)計分析方法。定量指標可以參考“問題2”中的指標進行選擇。

4.評測團隊信息:介紹評測團隊組成的專業(yè)背景、職稱和經(jīng)驗,確保評測團隊具有充分的代表性和專業(yè)性。例如評測團隊應包括高年資醫(yī)學專家、計算機學專家、倫理學專家、統(tǒng)計學專家、法學專家等。

5.評測結果與綜合評價:系統(tǒng)展示量化評測結果,并結合專家定性評價,從準確性、安全性、實用性、倫理合規(guī)性等多維度給出綜合結論。報告應明確指出模型的優(yōu)勢與不足,以及潛在的應用風險與改進建議。報告應明確說明評測數(shù)據(jù)集、評測代碼是否開放,以及在何種條件下可以被第三方訪問以進行結果復現(xiàn)。

6.報告發(fā)布與更新:規(guī)范報告的發(fā)布平臺、獲取方式及有效期管理,確保評測成果公開透明并便于持續(xù)更新。建立統(tǒng)一的報告版本管理機制,便于用戶追溯和比較不同版本模型的評測結果。評測報告應在權威平臺發(fā)布,并明確報告有效期,以便用戶獲取最新的評測信息。

本共識作為指導性、非強制性的技術文件,聚焦醫(yī)療場景下LLMs應用效果的回顧性評測,旨在構建規(guī)范、科學的評測框架。我們倡導臨床、科研、產(chǎn)業(yè)及監(jiān)管多方主體協(xié)同參與,共同推進評測體系的持續(xù)完善與優(yōu)化,確保評測方法與指標的科學性、權威性及實用性。展望未來,回顧性評測將在前瞻性研究及真實世界數(shù)據(jù)的支撐下不斷深化,并逐步探索與前瞻性評估的融合機制,通過雙重路徑共同提升模型評估的廣度與深度。評測內容與方法也將持續(xù)拓展,覆蓋智能機器人、全病程數(shù)字健康管理等新興應用領域,以期促進AI技術在醫(yī)療健康體系中的安全、有效及高質量應用。

本共識制訂專家組成員名單:

指導委員會(按姓名拼音排序):陳耀龍(蘭州大學基礎醫(yī)學院);董家鴻(北京清華長庚醫(yī)院);葛均波(復旦大學醫(yī)學院附屬中山醫(yī)院);魏均民(中華醫(yī)學會雜志社 醫(yī)學期刊知識挖掘與知識服務重點實驗室)

主任委員:王振常(首都醫(yī)科大學附屬北京友誼醫(yī)院)

專家委員會(按姓氏漢語拼音排序):常慶(上海交通大學瑞金醫(yī)院);陳飛(華為云計算技術有限公司);程龍龍(中電云腦(天津)科技有限公司);董迪(中國科學院自動化研究所分子影像重點實驗室);馮曉彬(清華大學長庚醫(yī)院);何晶晶(中國社會科學院國際法學研究所);何怡華(首都醫(yī)科大學附屬北京安貞醫(yī)院);賀志陽(訊飛醫(yī)療科技股份有限公司);計虹(北京大學第三醫(yī)院信息中心);姜雪(北京大學第三醫(yī)院);李楠(北京大學第三醫(yī)院);李鵬(中華醫(yī)學會雜志社醫(yī)學期刊知識挖掘與知識服務重點實驗室);李亞子(中國醫(yī)學科學院);劉冰(中華醫(yī)學會雜志社 醫(yī)學期刊知識挖掘與知識服務重點實驗室);劉軍偉(螞蟻科技集團股份有限公司);呂晗(首都醫(yī)科大學附屬北京友誼醫(yī)院);閔棟(中國信通院云計算與大數(shù)據(jù)研究所);齊文安(《數(shù)字醫(yī)學與健康》編輯部);沈錫賓(中華醫(yī)學會雜志社 醫(yī)學期刊知識挖掘與知識服務重點實驗室);盛斌(上海交通大學);孫靜(《智慧醫(yī)學》(英文)編輯部);孫育杰(北京大學生命科學學院);王力華(首都醫(yī)科大學附屬北京友誼醫(yī)院);王維民(北京大學醫(yī)學部 北京大學醫(yī)學教育研究所);王育琴(北京宣武醫(yī)院);翁建平(安徽醫(yī)科大學);吳剛(南京柯基數(shù)據(jù)有限公司);吳小劍(中山大學附屬第六醫(yī)院);肖月(國家心理健康和精神衛(wèi)生防治中心);許言午(華南理工大學未來技術學院);閆鵬(深圳市騰訊計算機系統(tǒng)有限公司);葉哲偉(華中科技大學同濟醫(yī)學院附屬協(xié)和醫(yī)院);尹萬紅(四川大學華西醫(yī)院重癥醫(yī)學科);張成文(北京郵電大學計算機學院);張迪(北京協(xié)和醫(yī)學院人文和社會科學學院);張鵬?。ū本┽t(yī)院科研處);張文生(中國科學院自動化研究所);張旭東(國家衛(wèi)生健康委醫(yī)院管理研究所);趙世杰(西北工業(yè)大學);趙邑(北京清華長庚醫(yī)院皮膚科);周少華(中國科學技術大學生物醫(yī)學工程學院);周翔(北京協(xié)和醫(yī)院);朱寶亮(上海小荷醫(yī)學檢驗實驗室有限公司);朱立峰(上海交通大學醫(yī)學院附屬瑞金醫(yī)院);朱祖懿(北京百川智能科技有限公司)。

執(zhí)筆專家:呂晗(首都醫(yī)科大學附屬北京友誼醫(yī)院);盛斌(上海交通大學)

秘書組(按姓名拼音排序):江澤鏵(清華大學臨床醫(yī)學院);田丙磊(中華醫(yī)學會雜志社醫(yī)學期刊知識挖掘與知識服務重點實驗室);王凱磊(中華醫(yī)學會雜志社 醫(yī)學期刊知識挖掘與知識服務重點實驗室);王麗(《數(shù)字醫(yī)學與健康》編輯部);王曄(蘭州大學公共衛(wèi)生學院)


特別聲明:智慧醫(yī)療網(wǎng)轉載其他網(wǎng)站內容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內容僅供參考。版權歸原作者所有,若有侵權,請聯(lián)系我們刪除。

凡來源注明智慧醫(yī)療網(wǎng)的內容為智慧醫(yī)療網(wǎng)原創(chuàng),轉載需獲授權。

Copyright ? 2022 上??评讜狗沼邢薰?旗下「智慧醫(yī)療網(wǎng)」版權所有    ICP備案號:滬ICP備17004559號-5