久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 
當(dāng)前位置:首頁 > 資訊 > 市場

上海AI實驗室宣布:醫(yī)療大模型開放評測平臺MedBench升級至3.0版本

發(fā)布時間:2025-03-21 來源:上海人工智能實驗室 瀏覽量: 字號:【加大】【減小】 手機上觀看

打開手機掃描二維碼
即可在手機端查看

2024年1月,上海人工智能實驗室正式上線醫(yī)療大模型開放評測平臺MedBench,融合醫(yī)療專家的經(jīng)驗知識與大模型評測技術(shù),為業(yè)界提供科學(xué)的模型“度量衡”與能力提升方向參考。一年多來,MedBench歷經(jīng)多次升級擴容,目前已有20家醫(yī)院、高校及研究機構(gòu)共同開展平臺共建。

近日,上海人工智能實驗室宣布,醫(yī)療大模型開放評測平臺MedBench升級至3.0版本,新增醫(yī)療多模態(tài)評測能力,針對真實應(yīng)用場景,構(gòu)建了文獻(xiàn)問答、復(fù)雜推理、臨床危急情況識別評測數(shù)據(jù)集,并繼續(xù)向業(yè)界開放醫(yī)療大模型能力評測服務(wù)。

據(jù)悉,MedBench上線一年多來,已有近80家機構(gòu)加入共建或參與評測,累計開展模型評測4204次。通過評測,MedBench3.0揭示了當(dāng)前醫(yī)療大模型普遍的能力長項與核心短板,并提出了優(yōu)化路徑。
為了更全面評估大模型在醫(yī)療領(lǐng)域的能力,MedBench新增了多個數(shù)據(jù)集——


  • 醫(yī)學(xué)知識問答維度數(shù)據(jù)集MedLitQA,用于評估模型對醫(yī)學(xué)文獻(xiàn)理解與推理;
  • 醫(yī)療安全和倫理數(shù)據(jù)集CriID,用于評估模型對臨床危急值的識別能力;
  • 復(fù)雜醫(yī)學(xué)推理維度的CMB-Clin-extended更新為自建數(shù)據(jù)集,可基于復(fù)雜真實病歷,考察模型在真實診斷和治療情境中的知識應(yīng)用水平。



微信圖片_20250321104232.png

MedBench評測維度及數(shù)據(jù)集分布

既往評測采用“基于要點信息計算(Macro-Recall)”作為評估指標(biāo),在開放域問答任務(wù)中,無法完善考察答案語義與參考答案的契合度,導(dǎo)致模型忽略回答內(nèi)容的語義連貫與準(zhǔn)確性。為此,本次升級中,MedBench團(tuán)隊引入“語義相似度(Bert-Score)”基準(zhǔn),并與Macro-Recall結(jié)合構(gòu)建出全新評估指標(biāo)。通過比較模型生成答案與參考答案的語義表示,精準(zhǔn)評估二者語義相似度,使評估更貼合實際語義理解需求,以適應(yīng)更復(fù)雜的醫(yī)療語義場景需求。
為更好針對大模型在真實臨床環(huán)境中的表現(xiàn)“把脈”,進(jìn)而加速多模態(tài)技術(shù)與臨床場景融合,優(yōu)化大模型篩查和精準(zhǔn)診斷能力,優(yōu)化治療流程與安全與倫理的合規(guī)性,針對醫(yī)療影像、檢測報告等復(fù)雜信息處理,MedBench上新了多模態(tài)能力評測。評測聚焦眼科、影像質(zhì)控、影像報告等領(lǐng)域,包含15項細(xì)分維度——


  • 眼科多模態(tài)能力評測涵蓋眼底彩照、OCT圖像診斷、教育培訓(xùn)、分診問診、醫(yī)學(xué)診斷、治療方案設(shè)計、預(yù)后預(yù)測等多方面,全方位評估大模型在眼健康??茟?yīng)用的性能;
  • 醫(yī)學(xué)影像質(zhì)控領(lǐng)域通過深入考察圖像質(zhì)量控制的準(zhǔn)確性、報告規(guī)范性等關(guān)鍵指標(biāo),評估大模型在醫(yī)學(xué)影像學(xué)圖像及其報告質(zhì)量控制方面的性能與效果;
  • 影像報告測評則主要關(guān)注醫(yī)學(xué)信息抽取及病因、治療、健康影響和檢查相關(guān)的復(fù)雜推理。




為將醫(yī)療大模型與主流領(lǐng)先模型橫向?qū)Ρ龋@取更直觀指標(biāo)參考,MedBench團(tuán)隊此前就推出了“自建榜單”,評測GPT、Claude、Llama等國際主流模型在醫(yī)療場景下的能力水平,為醫(yī)療大模型參評機構(gòu)提供對比依據(jù)和能力參照,加固醫(yī)療模型評測結(jié)果可信度。
通過對MedBench評測榜單(2024.12)TOP10模型數(shù)據(jù)進(jìn)行分析,以每個維度的最高分作為100分?jǐn)M合評估大模型的整體表現(xiàn),發(fā)現(xiàn)受測模型在復(fù)雜醫(yī)學(xué)推理、醫(yī)學(xué)語言生成、醫(yī)學(xué)知識問答維度方面表現(xiàn)優(yōu)異,整體表現(xiàn)能力分別達(dá)到96.96、94.96、91.21;但在醫(yī)學(xué)安全與倫理和醫(yī)學(xué)語言理解維度存在差異性(分別為85.79和78.92),部分模型在這2個維度上尚存提升空間。
評測還揭示了當(dāng)前醫(yī)療大模型普遍存在的核心短板,包括信息遺漏率較高、倫理決策不一致?、專業(yè)術(shù)語理解能力待提升、幻覺未能有效避免等。通過對錯誤進(jìn)行歸納,研究人員總結(jié)出遺漏、幻覺、格式不匹配、因果推理不足、上下文缺乏一致性、未作答、輸出錯誤、醫(yī)學(xué)語言表達(dá)能力差等8類模型失誤原因。
基于技術(shù)復(fù)雜性和預(yù)期效果,MedBench團(tuán)隊為下階段醫(yī)療大模型能力提升,提出了四階段優(yōu)化策略。
階段一聚焦于數(shù)據(jù)質(zhì)量、提示詞工程和參數(shù)微調(diào)等低成本、高回報的優(yōu)化措施。
階段二: 通過知識增強檢索、多任務(wù)聯(lián)合訓(xùn)練和倫理約束集成等方法,增強模型的醫(yī)學(xué)專業(yè)知識。
階段三: 引入混合系統(tǒng)開展架構(gòu)升級,結(jié)合符號邏輯與神經(jīng)網(wǎng)絡(luò),并設(shè)計模塊化推理框架。
階段四: 專注于長期技術(shù)創(chuàng)新,將醫(yī)療大模型與多模態(tài)預(yù)訓(xùn)練、因果推理模型等前沿研究結(jié)合
評測入口:https://medbench.opencompass.org.cn

特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系我們刪除。

凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。

智慧醫(yī)療網(wǎng) ? 2022 版權(quán)所有   ICP備案號:滬ICP備17004559號-5