國家人工智能應用中試基地(醫(yī)療)·浙江(以下簡稱基地)日前組建成立醫(yī)學人工智能臨床專家?guī)臁?/span>這支專家團隊匯集了省內(nèi)外41家醫(yī)院和機構的近300名醫(yī)學專家,覆蓋64個專科領域。他們依托基地與中國醫(yī)學科學院北京協(xié)和醫(yī)學院、中國信息通信研究院共建的“醫(yī)學人工智能測評驗證聯(lián)合實驗室”,參與醫(yī)療大模型能力評測的標準建立、考題制作、結果審核等工作。目前,團隊已完成超過20個醫(yī)療大模型的評測任務。
近年來,各類醫(yī)療大模型紛紛涌現(xiàn),卻缺乏嚴肅、權威、專業(yè)的評價體系。一個核心問題日益凸顯:如何確保這些與百姓健康息息相關的AI產(chǎn)品安全、可靠?
“專家團隊覆蓋了內(nèi)科、外科、婦產(chǎn)科、兒科等核心臨床??疲⒓{入了影像、病理等關鍵醫(yī)技科室的權威專家,”醫(yī)療大模型評測技術負責人康俊暉介紹,“團隊已構建超過6萬道題的測評題庫,建立初審、復審和抽樣校驗的三審機制。這套嚴謹?shù)捏w系,相當于為醫(yī)學人工智能量身定制了一套‘專業(yè)考題’?!?/span>
這些考題圍繞《衛(wèi)生健康行業(yè)人工智能應用場景參考指引》設計,覆蓋患者就醫(yī)、醫(yī)生診療等真實場景,構建了健康科普、分診導診、報告解讀、用藥指導、檢驗檢查推薦、輔助診斷和輔助病歷撰寫等七大應用場景。
在題型設計上,團隊也進行了創(chuàng)新突破?!俺R?guī)的客觀選擇題只能評估模型的知識覆蓋能力,難以衡量其在復雜醫(yī)療場景中的實際表現(xiàn)。”康俊暉告訴記者,“我們大幅增加了主觀簡答題比重,通過對大模型回答的深度分析,更準確地評估其臨床推理能力?!崩?,在輔助診斷場景中,不僅要求模型給出診斷名稱,還要求模型詳細闡述診斷依據(jù)和思路;在用藥指導環(huán)節(jié),則需要說明藥物選擇的理由和注意事項。
“醫(yī)學人工智能是一個非常特殊的領域,倫理、安全、算法黑箱、幻覺等問題倍受關注,稍有不慎,極易導致信任崩塌”?;叵嚓P負責人、浙江省衛(wèi)生健康信息中心主任李春浦指出,“基于網(wǎng)絡公開數(shù)據(jù)或有限臨床數(shù)據(jù)訓練出來的大模型,在一些醫(yī)院的落地應用中,就出現(xiàn)了‘水土不服’”。
李春浦進一步解釋,應用在真實臨床診療場景下的人工智能產(chǎn)品,僅靠掌握公開的醫(yī)學教材、文獻資料和個別醫(yī)院的數(shù)據(jù)是遠遠不夠的。“這就好比一個醫(yī)學生,即便熟讀教科書,經(jīng)歷了臨床實習,仍難以勝任復雜的診療工作。因此,我們必須用大量的‘真案例、真標準’來檢驗,通過不同醫(yī)院、不同領域真實的臨床案例,包括疑難重癥病例,參考國內(nèi)外最新診療指南進行評測,才能科學評估人工智能在嚴肅醫(yī)療場景下的真實水平?!?/span>
評測工作也建立起長效的優(yōu)化機制??悼熃榻B,一個醫(yī)療大模型需要在“發(fā)現(xiàn)問題-反饋優(yōu)化-再次測評”這三個流程中多次循環(huán)。一般情況下,這些模型經(jīng)過3-5輪測評,能力上便會有明顯提升。這也為醫(yī)療大模型的持續(xù)進化提供了明確方向,幫助研發(fā)的企業(yè)精準改進模型性能,加速技術成熟落地。
目前,浙江正在開展醫(yī)療大模型第二輪的測評驗證工作,推動醫(yī)療大模型測評將常態(tài)化,讓真正好用、管用、實用的醫(yī)療AI產(chǎn)品加速推廣應用,推動醫(yī)學人工智能高質(zhì)量發(fā)展。
特別聲明:智慧醫(yī)療網(wǎng)轉載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內(nèi)容僅供參考。版權歸原作者所有,若有侵權,請聯(lián)系我們刪除。
凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉載需獲授權。
Copyright ? 2022 上海科雷會展服務有限公司 旗下「智慧醫(yī)療網(wǎng)」版權所有 ICP備案號:滬ICP備17004559號-5