久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網(wǎng) | 網(wǎng)站首頁
 

醫(yī)生 + AI大模型 = 診斷 “黃金搭檔”?普林斯頓大學(xué)最新研究揭示人機(jī)協(xié)同醫(yī)療臨床決策新范式

發(fā)布時(shí)間:2025-08-19 來源:Wolfgang知識(shí)圖譜科技 瀏覽量: 字號(hào):【加大】【減小】 手機(jī)上觀看

打開手機(jī)掃描二維碼
即可在手機(jī)端查看

醫(yī)生與AI大模型的協(xié)同診療,正從技術(shù)概念走向臨床現(xiàn)實(shí)。普林斯頓大學(xué)團(tuán)隊(duì)基于強(qiáng)化學(xué)習(xí)開發(fā)的ICU決策優(yōu)化模型,結(jié)合近期DeepSeek-R1、GPT-5等大模型在診斷環(huán)節(jié)的突破性表現(xiàn),共同勾勒出“人機(jī)協(xié)同”的新范式——人類醫(yī)生的全局經(jīng)驗(yàn)與AI的高維計(jì)算能力互補(bǔ),形成“1+1>2”的臨床決策升級(jí)。以下從核心技術(shù)、應(yīng)用場景及未來挑戰(zhàn)三方面展開分析!


摘要

在高風(fēng)險(xiǎn)的醫(yī)療診斷領(lǐng)域,單純依賴大型語言模型(LLMs)或人類醫(yī)生都存在局限——LLMs 會(huì)幻覺、缺乏常識(shí)且有偏見;人類則受經(jīng)驗(yàn)局限與知識(shí)覆蓋面的限制。本研究提出一種混合集體智能(Hybrid Collective Intelligence, HCI)方法,將醫(yī)生的臨床推理與 LLM 的信息處理能力結(jié)合,對 2,133 個(gè)真實(shí)感病例(含 40,762 份醫(yī)生診斷與 5 個(gè)最先進(jìn) LLM 的診斷輸出)進(jìn)行加權(quán)融合。結(jié)果顯示,混合集體在所有專業(yè)與經(jīng)驗(yàn)層級(jí)下的診斷準(zhǔn)確率均顯著優(yōu)于人類單獨(dú)、AI 單獨(dú)及各自的集體形式。


微信圖片_2025-08-19_001257_128.png



背景

每年美國約 79.5 萬例死亡或永久傷殘與診斷錯(cuò)誤相關(guān)。盡管 LLM 在自然語言處理與多領(lǐng)域問答中表現(xiàn)出色,包括醫(yī)學(xué)在內(nèi)的眾多場景,但它們的結(jié)構(gòu)性缺陷(如幻覺、偏見、缺乏常識(shí)讓其在臨床高風(fēng)險(xiǎn)應(yīng)用中存在安全隱患
研究表明,“集體智能”能通過不同專家獨(dú)立判斷的組合提升整體準(zhǔn)確性
。本研究創(chuàng)新地將人類專家與多個(gè) LLM 視為“同臺(tái)評審”,利用各自優(yōu)勢與互補(bǔ)性,構(gòu)建混合集體智能體系。


為什么 1+1>2?關(guān)鍵在于錯(cuò)誤類型的差異性:


  • 當(dāng) AI 漏診時(shí),醫(yī)生往往能給出正確答案(尤其在復(fù)雜病例中)
  • 當(dāng)醫(yī)生判斷失誤時(shí),AI 可能捕捉到被忽略的細(xì)節(jié)
  • 混合團(tuán)隊(duì)的診斷 “容錯(cuò)率” 顯著更高


舉個(gè)例子:在一例 “俄亥俄州建筑工人胸痛” 病例中,AI 更易聯(lián)想到真菌感染(當(dāng)?shù)馗甙l(fā)),而醫(yī)生可能優(yōu)先考慮職業(yè)相關(guān)肺部疾病,二者結(jié)合最終鎖定 “組織胞漿菌病”。

研究方法

數(shù)據(jù)來源

  • Human Diagnosis Project (Human Dx)

     平臺(tái)
  • 2,133 個(gè)經(jīng)過執(zhí)業(yè)醫(yī)生審核的文本病例
  • 診斷來源:1,370 名主治醫(yī)師、139 名??婆嘤?xùn)醫(yī)師、2,160 名住院醫(yī)師(再加 1,037 名醫(yī)學(xué)生用于補(bǔ)充分析)

LLM 選擇

  1. Anthropic Claude 3 Opus
  2. Google Gemini Pro 1.0
  3. Meta LLaMA 2 70B
  4. Mistral Large
  5. OpenAI GPT-4
    每個(gè)模型需輸出前五個(gè)最可能的診斷

融合流程

  1. 標(biāo)準(zhǔn)化處理


    將所有人類與 LLM 的原始診斷映射至 SNOMED CT 唯一 ID,統(tǒng)一同義詞、縮寫、英式/美式拼寫等
  2. 加權(quán)多數(shù)投票

    • 根據(jù)訓(xùn)練集表現(xiàn)為各 LLM 賦予不同權(quán)重;所有醫(yī)生共用一個(gè)權(quán)重值
    • 使用 1/r 規(guī)則 按診斷排名賦分
    • 采用加權(quán)多數(shù)投票合成最終列表
  3. 交叉驗(yàn)證


    10 次重復(fù)五折交叉驗(yàn)證,確保模型泛化穩(wěn)定

性能指標(biāo)

  • Top-1 / Top-3 / Top-5 準(zhǔn)確率
  • 平均倒數(shù)排名(MRR

主要研究結(jié)果

1. 多模型集成優(yōu)于單模型

將多個(gè) LLM 輸出組合成 AI 集體,在 Top-5 與 Top-3 準(zhǔn)確率上均優(yōu)于任何單一 LLM,并在多個(gè)??浦斜3址€(wěn)定領(lǐng)先


微信圖片_2025-08-19_001304_104.png微信圖片_2025-08-19_001308_442.png


2. 人機(jī)混合集體全線勝出

  • 向醫(yī)生集體加入一個(gè) LLM,可超越純醫(yī)生組
  • 向 LLM 集體加入一位醫(yī)生,也能提升整體準(zhǔn)確率
    即使加入表現(xiàn)最差的 LLM,也帶來輕微提升。
    微信圖片_2025-08-19_001312_154.png

3. 錯(cuò)誤互補(bǔ)性是關(guān)鍵

  • 在 46%–51% 的病例中,醫(yī)生與 LLM 對正確診斷的排名不同
  • 當(dāng) LLM 完全漏掉正確診斷時(shí),醫(yī)生在 30%–38% 的病例中能補(bǔ)上,大部分排在第一位
  • 這種低相關(guān)錯(cuò)誤模式讓加權(quán)投票更易推高正確診斷排名。

主要?jiǎng)?chuàng)新點(diǎn)

  1. 開放性答案的自動(dòng)標(biāo)準(zhǔn)化

    基于 SNOMED CT 的全文匹配與向量搜索匹配,處理了同義詞、拼寫差異與縮寫等問題,實(shí)現(xiàn)精準(zhǔn)對齊。
  2. 權(quán)重化人機(jī)投票機(jī)制

    通過 WMVE(加權(quán)多數(shù)投票)方式按歷史表現(xiàn)分配權(quán)重,優(yōu)勝者得更多表決力。
  3. 跨模態(tài)可遷移性

    方法依賴結(jié)構(gòu)化知識(shí)體系,可移植至氣候政策等其他開放性、高風(fēng)險(xiǎn)領(lǐng)域。

未來研究方向

  • 臨床實(shí)地驗(yàn)證

    :目前為病例小故事(vignette)測試,需轉(zhuǎn)化到真實(shí)臨床環(huán)境
  • 治療影響評估

    :診斷改善是否帶來治療方案優(yōu)化?
  • 偏見與公平性

    :混合集體是否能減少 AI 及人類共有的偏見?
  • Prompt 工程優(yōu)化

    :Tree-of-Thought、自一致性等方法可望進(jìn)一步提升表現(xiàn)
  • 多模態(tài)融合

    :將影像、聲音等數(shù)據(jù)加入診斷流程
  • 決策支持系統(tǒng)化

    :研究如何在臨床工作流中最佳整合,防止自動(dòng)化偏見與算法厭惡

結(jié)論

混合集體智能不是要取代醫(yī)生,而是利用人類的臨床洞察與 AI 的信息整合能力互補(bǔ),讓醫(yī)療診斷更精準(zhǔn)、更安全、更公平。

特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時(shí)并不代表贊成其觀點(diǎn)或證實(shí)其描述,內(nèi)容僅供參考。版權(quán)歸原作者所有,若有侵權(quán),請聯(lián)系我們刪除。

凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權(quán)。

Copyright ? 2022 上??评讜?huì)展服務(wù)有限公司 旗下「智慧醫(yī)療網(wǎng)」版權(quán)所有    ICP備案號(hào):滬ICP備17004559號(hào)-5