久久最新最好视频|精品福利视频在线|狠狠狠干在线播放|色尼玛亚洲综合网|日韩加勒比无码AV|亚洲AV人人澡人人爽人人爱|国产精品免费怡红院|婷婷一区二区XXX|日韩成人一区二区三|欧美熟妇另类AAAAAA

歡迎訪問智慧醫(yī)療網 | 網站首頁
 
當前位置:首頁 > 信息 > 海外

斯坦福大學推出新工具,為醫(yī)療AI模型的實際應用表現提供評估標準

發(fā)布時間:2025-03-20 來源:醫(yī)健網 瀏覽量: 字號:【加大】【減小】 手機上觀看

打開手機掃描二維碼
即可在手機端查看

在人工智能技術迅速滲透醫(yī)療領域的背景下,如何準確評估AI模型在真實醫(yī)療場景中的表現成為業(yè)內關注的焦點。斯坦福大學近日推出了一款全新的評估工具,旨在為醫(yī)療AI模型提供更貼近實際需求的測試方法。這一工具被稱為MedHelm,其設計目標是幫助醫(yī)療系統(tǒng)和決策者更好地選擇和部署AI技術,確保其在真實環(huán)境中發(fā)揮作用。

醫(yī)療AI的“現實考驗”


斯坦福的這一工具類似于汽車購買時的全面評測,專注于AI模型在實際醫(yī)療任務中的表現,而非僅僅依賴學術測試或理論數據。哈佛醫(yī)學院生物醫(yī)學信息學系主任Isaac Kohane教授回憶起自己作為住院醫(yī)生時的一段經歷:在重癥監(jiān)護室中,他曾為一名低血糖患兒列出詳盡的可能病因清單,但最終發(fā)現問題出在輸液操作的中斷上。“我的導師當時提醒我,要關注現實世界的運作方式,而不是僅僅依賴書本知識,”Kohane說。他認為,當前許多AI模型也面臨類似問題——它們在理論考試中表現優(yōu)異,但在實際醫(yī)療場景中卻可能失靈。


AI模型的局限性


研究人員發(fā)現,盡管一些AI語言模型(如GPT-4)能夠通過美國醫(yī)學執(zhí)照考試等知識性測試,但它們在回答醫(yī)生指令或查詢時仍存在顯著錯誤。例如,在一次測試中,GPT-4的錯誤率高達35%,遠高于人類醫(yī)生的表現。這也引發(fā)了業(yè)內對AI技術過度依賴的擔憂。


MedHelm工具的推出正是為了解決這一問題。它通過模擬真實醫(yī)療場景,對AI模型的表現進行全面評估,從而為醫(yī)療機構提供更具參考價值的數據支持。


推動醫(yī)療AI的規(guī)范化應用


斯坦福的研究團隊表示,MedHelm的目標不僅是評估AI模型的準確性,還包括其在不同醫(yī)療場景中的適用性。例如,該工具會測試AI模型在緊急情況下的反應速度、對患者歷史數據的處理能力,以及在復雜決策中的可靠性。這些指標將為醫(yī)療系統(tǒng)選擇AI技術提供重要依據。


Kohane教授強調:“醫(yī)療行業(yè)需要的不僅是聰明的AI模型,更是能夠理解并適應現實世界復雜性的解決方案。MedHelm為我們提供了一個全新的視角,幫助我們更好地評估和利用這些技術。”


隨著AI技術在醫(yī)療領域的應用日益廣泛,其潛力和局限性也愈發(fā)顯現。MedHelm的推出為行業(yè)提供了一種新的評估方法,有望推動AI技術在醫(yī)療中的規(guī)范化應用。然而,如何平衡技術創(chuàng)新與實際需求之間的關系,仍是行業(yè)需要面對的重要挑戰(zhàn)。

特別聲明:智慧醫(yī)療網轉載其他網站內容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內容僅供參考。版權歸原作者所有,若有侵權,請聯系我們刪除。

凡來源注明智慧醫(yī)療網的內容為智慧醫(yī)療網原創(chuàng),轉載需獲授權。


智慧醫(yī)療網 ? 2022 版權所有   ICP備案號:滬ICP備17004559號-5