火爆福利r视频在线看,无码国产精品在线观看

當(dāng)前位置：首頁 > 資訊 > 市場

上海AI實驗室宣布：醫(yī)療大模型開放評測平臺MedBench升級至3.0版本

發(fā)布時間：2025-03-21 來源：上海人工智能實驗室瀏覽量：字號：【加大】【減小】手機上觀看

打開手機掃描二維碼
即可在手機端查看

2024年1月，上海人工智能實驗室正式上線醫(yī)療大模型開放評測平臺MedBench，融合醫(yī)療專家的經(jīng)驗知識與大模型評測技術(shù)，為業(yè)界提供科學(xué)的模型“度量衡”與能力提升方向參考。一年多來，MedBench歷經(jīng)多次升級擴容，目前已有20家醫(yī)院、高校及研究機構(gòu)共同開展平臺共建。

近日，上海人工智能實驗室宣布，醫(yī)療大模型開放評測平臺MedBench升級至3.0版本，新增醫(yī)療多模態(tài)評測能力，針對真實應(yīng)用場景，構(gòu)建了文獻(xiàn)問答、復(fù)雜推理、臨床危急情況識別評測數(shù)據(jù)集，并繼續(xù)向業(yè)界開放醫(yī)療大模型能力評測服務(wù)。

據(jù)悉，MedBench上線一年多來，已有近80家機構(gòu)加入共建或參與評測，累計開展模型評測4204次。通過評測，MedBench3.0揭示了當(dāng)前醫(yī)療大模型普遍的能力長項與核心短板，并提出了優(yōu)化路徑。

為了更全面評估大模型在醫(yī)療領(lǐng)域的能力，MedBench新增了多個數(shù)據(jù)集——

醫(yī)學(xué)知識問答維度數(shù)據(jù)集MedLitQA，用于評估模型對醫(yī)學(xué)文獻(xiàn)理解與推理；
醫(yī)療安全和倫理數(shù)據(jù)集CriID，用于評估模型對臨床危急值的識別能力；
復(fù)雜醫(yī)學(xué)推理維度的CMB-Clin-extended更新為自建數(shù)據(jù)集，可基于復(fù)雜真實病歷，考察模型在真實診斷和治療情境中的知識應(yīng)用水平。

微信圖片_20250321104232.png

MedBench評測維度及數(shù)據(jù)集分布

既往評測采用“基于要點信息計算（Macro-Recall）”作為評估指標(biāo)，在開放域問答任務(wù)中，無法完善考察答案語義與參考答案的契合度，導(dǎo)致模型忽略回答內(nèi)容的語義連貫與準(zhǔn)確性。為此，本次升級中，MedBench團(tuán)隊引入“語義相似度（Bert-Score）”基準(zhǔn)，并與Macro-Recall結(jié)合構(gòu)建出全新評估指標(biāo)。通過比較模型生成答案與參考答案的語義表示，精準(zhǔn)評估二者語義相似度，使評估更貼合實際語義理解需求，以適應(yīng)更復(fù)雜的醫(yī)療語義場景需求。

為更好針對大模型在真實臨床環(huán)境中的表現(xiàn)“把脈”，進(jìn)而加速多模態(tài)技術(shù)與臨床場景融合，優(yōu)化大模型篩查和精準(zhǔn)診斷能力，優(yōu)化治療流程與安全與倫理的合規(guī)性，針對醫(yī)療影像、檢測報告等復(fù)雜信息處理，MedBench上新了多模態(tài)能力評測。評測聚焦眼科、影像質(zhì)控、影像報告等領(lǐng)域，包含15項細(xì)分維度——

眼科多模態(tài)能力評測涵蓋眼底彩照、OCT圖像診斷、教育培訓(xùn)、分診問診、醫(yī)學(xué)診斷、治療方案設(shè)計、預(yù)后預(yù)測等多方面，全方位評估大模型在眼健康?？茟?yīng)用的性能；
醫(yī)學(xué)影像質(zhì)控領(lǐng)域通過深入考察圖像質(zhì)量控制的準(zhǔn)確性、報告規(guī)范性等關(guān)鍵指標(biāo)，評估大模型在醫(yī)學(xué)影像學(xué)圖像及其報告質(zhì)量控制方面的性能與效果；
影像報告測評則主要關(guān)注醫(yī)學(xué)信息抽取及病因、治療、健康影響和檢查相關(guān)的復(fù)雜推理。

為將醫(yī)療大模型與主流領(lǐng)先模型橫向?qū)Ρ龋@取更直觀指標(biāo)參考，MedBench團(tuán)隊此前就推出了“自建榜單”，評測GPT、Claude、Llama等國際主流模型在醫(yī)療場景下的能力水平，為醫(yī)療大模型參評機構(gòu)提供對比依據(jù)和能力參照，加固醫(yī)療模型評測結(jié)果可信度。

通過對MedBench評測榜單（2024.12）TOP10模型數(shù)據(jù)進(jìn)行分析，以每個維度的最高分作為100分?jǐn)M合評估大模型的整體表現(xiàn)，發(fā)現(xiàn)受測模型在復(fù)雜醫(yī)學(xué)推理、醫(yī)學(xué)語言生成、醫(yī)學(xué)知識問答維度方面表現(xiàn)優(yōu)異，整體表現(xiàn)能力分別達(dá)到96.96、94.96、91.21；但在醫(yī)學(xué)安全與倫理和醫(yī)學(xué)語言理解維度存在差異性（分別為85.79和78.92），部分模型在這2個維度上尚存提升空間。

評測還揭示了當(dāng)前醫(yī)療大模型普遍存在的核心短板，包括信息遺漏率較高、倫理決策不一致?、專業(yè)術(shù)語理解能力待提升、幻覺未能有效避免等。通過對錯誤進(jìn)行歸納，研究人員總結(jié)出遺漏、幻覺、格式不匹配、因果推理不足、上下文缺乏一致性、未作答、輸出錯誤、醫(yī)學(xué)語言表達(dá)能力差等8類模型失誤原因。

基于技術(shù)復(fù)雜性和預(yù)期效果，MedBench團(tuán)隊為下階段醫(yī)療大模型能力提升，提出了四階段優(yōu)化策略。

階段一：聚焦于數(shù)據(jù)質(zhì)量、提示詞工程和參數(shù)微調(diào)等低成本、高回報的優(yōu)化措施。

階段二： 通過知識增強檢索、多任務(wù)聯(lián)合訓(xùn)練和倫理約束集成等方法，增強模型的醫(yī)學(xué)專業(yè)知識。

階段三： 引入混合系統(tǒng)開展架構(gòu)升級，結(jié)合符號邏輯與神經(jīng)網(wǎng)絡(luò)，并設(shè)計模塊化推理框架。

階段四： 專注于長期技術(shù)創(chuàng)新，將醫(yī)療大模型與多模態(tài)預(yù)訓(xùn)練、因果推理模型等前沿研究結(jié)合

評測入口：https://medbench.opencompass.org.cn

特別聲明：智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容，出于傳遞更多信息而非盈利之目的，同時并不代表贊成其觀點或證實其描述，內(nèi)容僅供參考。版權(quán)歸原作者所有，若有侵權(quán)，請聯(lián)系我們刪除。

凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng)，轉(zhuǎn)載需獲授權(quán)。

上一篇：國家衛(wèi)健委發(fā)布2025年國家醫(yī)療質(zhì)量安全改進(jìn)目標(biāo)，新增數(shù)據(jù)互認(rèn)指標(biāo) 下一篇：2025 必看！縣域醫(yī)共體信息化功能要點提煉

相關(guān)文章

編輯推薦

久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

上海AI實驗室宣布：醫(yī)療大模型開放評測平臺MedBench升級至3.0版本