2024年1月,上海人工智能實驗室正式上線醫(yī)療大模型開放評測平臺MedBench,融合醫(yī)療專家的經(jīng)驗知識與大模型評測技術(shù),為業(yè)界提供科學(xué)的模型“度量衡”與能力提升方向參考。一年多來,MedBench歷經(jīng)多次升級擴容,目前已有20家醫(yī)院、高校及研究機構(gòu)共同開展平臺共建。
近日,上海人工智能實驗室宣布,醫(yī)療大模型開放評測平臺MedBench升級至3.0版本,新增醫(yī)療多模態(tài)評測能力,針對真實應(yīng)用場景,構(gòu)建了文獻(xiàn)問答、復(fù)雜推理、臨床危急情況識別評測數(shù)據(jù)集,并繼續(xù)向業(yè)界開放醫(yī)療大模型能力評測服務(wù)。據(jù)悉,MedBench上線一年多來,已有近80家機構(gòu)加入共建或參與評測,累計開展模型評測4204次。通過評測,MedBench3.0揭示了當(dāng)前醫(yī)療大模型普遍的能力長項與核心短板,并提出了優(yōu)化路徑。為了更全面評估大模型在醫(yī)療領(lǐng)域的能力,MedBench新增了多個數(shù)據(jù)集——
MedBench評測維度及數(shù)據(jù)集分布
既往評測采用“基于要點信息計算(Macro-Recall)”作為評估指標(biāo),在開放域問答任務(wù)中,無法完善考察答案語義與參考答案的契合度,導(dǎo)致模型忽略回答內(nèi)容的語義連貫與準(zhǔn)確性。為此,本次升級中,MedBench團(tuán)隊引入“語義相似度(Bert-Score)”基準(zhǔn),并與Macro-Recall結(jié)合構(gòu)建出全新評估指標(biāo)。通過比較模型生成答案與參考答案的語義表示,精準(zhǔn)評估二者語義相似度,使評估更貼合實際語義理解需求,以適應(yīng)更復(fù)雜的醫(yī)療語義場景需求。為更好針對大模型在真實臨床環(huán)境中的表現(xiàn)“把脈”,進(jìn)而加速多模態(tài)技術(shù)與臨床場景融合,優(yōu)化大模型篩查和精準(zhǔn)診斷能力,優(yōu)化治療流程與安全與倫理的合規(guī)性,針對醫(yī)療影像、檢測報告等復(fù)雜信息處理,MedBench上新了多模態(tài)能力評測。評測聚焦眼科、影像質(zhì)控、影像報告等領(lǐng)域,包含15項細(xì)分維度——為將醫(yī)療大模型與主流領(lǐng)先模型橫向?qū)Ρ龋@取更直觀指標(biāo)參考,MedBench團(tuán)隊此前就推出了“自建榜單”,評測GPT、Claude、Llama等國際主流模型在醫(yī)療場景下的能力水平,為醫(yī)療大模型參評機構(gòu)提供對比依據(jù)和能力參照,加固醫(yī)療模型評測結(jié)果可信度。
通過對MedBench評測榜單(2024.12)TOP10模型數(shù)據(jù)進(jìn)行分析,以每個維度的最高分作為100分?jǐn)M合評估大模型的整體表現(xiàn),發(fā)現(xiàn)受測模型在復(fù)雜醫(yī)學(xué)推理、醫(yī)學(xué)語言生成、醫(yī)學(xué)知識問答維度方面表現(xiàn)優(yōu)異,整體表現(xiàn)能力分別達(dá)到96.96、94.96、91.21;但在醫(yī)學(xué)安全與倫理和醫(yī)學(xué)語言理解維度存在差異性(分別為85.79和78.92),部分模型在這2個維度上尚存提升空間。評測還揭示了當(dāng)前醫(yī)療大模型普遍存在的核心短板,包括信息遺漏率較高、倫理決策不一致?、專業(yè)術(shù)語理解能力待提升、幻覺未能有效避免等。通過對錯誤進(jìn)行歸納,研究人員總結(jié)出遺漏、幻覺、格式不匹配、因果推理不足、上下文缺乏一致性、未作答、輸出錯誤、醫(yī)學(xué)語言表達(dá)能力差等8類模型失誤原因。基于技術(shù)復(fù)雜性和預(yù)期效果,MedBench團(tuán)隊為下階段醫(yī)療大模型能力提升,提出了四階段優(yōu)化策略。階段一:聚焦于數(shù)據(jù)質(zhì)量、提示詞工程和參數(shù)微調(diào)等低成本、高回報的優(yōu)化措施。階段二: 通過知識增強檢索、多任務(wù)聯(lián)合訓(xùn)練和倫理約束集成等方法,增強模型的醫(yī)學(xué)專業(yè)知識。階段三: 引入混合系統(tǒng)開展架構(gòu)升級,結(jié)合符號邏輯與神經(jīng)網(wǎng)絡(luò),并設(shè)計模塊化推理框架。階段四: 專注于長期技術(shù)創(chuàng)新,將醫(yī)療大模型與多模態(tài)預(yù)訓(xùn)練、因果推理模型等前沿研究結(jié)合評測入口:https://medbench.opencompass.org.cn
特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系我們刪除。
凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。