近日,上海交通大學計算機學院、人工智能教育部重點實驗室盛斌教授聯(lián)合清華大學醫(yī)學院黃天蔭教授、英國倫敦大學學院(UCL)眼科研究所 Pearse Keane 教授、新加坡國立大學醫(yī)學院覃宇宗教授等多國學者,在Nature Biomedical Engineering期刊發(fā)表題為《合成數(shù)據(jù)助推醫(yī)學基座模型發(fā)展》(Synthetic Data Boosts Medical Foundation Models)的深度述評文章(DOI: https://doi.org/10.1038/s41551-025-01365-0)。
生成式人工智能(如生成對抗網(wǎng)絡、擴散模型等)通過合成高質(zhì)量、多樣化的醫(yī)學數(shù)據(jù),其科學價值體現(xiàn)在突破數(shù)據(jù)瓶頸、推動多模態(tài)融合與因果推理,而實際應用則體現(xiàn)在提升診斷精度、加速個性化診療及優(yōu)化醫(yī)療資源分配等方面,正在推動醫(yī)學領域從數(shù)據(jù)驅(qū)動向知識驅(qū)動的范式轉(zhuǎn)型。這一技術創(chuàng)新不僅突破了醫(yī)學數(shù)據(jù)獲取與利用的核心瓶頸,為提升國家醫(yī)療科技競爭力、服務健康中國建設提供了關鍵支撐。
我國醫(yī)療數(shù)據(jù)體系長期受困于三大核心挑戰(zhàn):嚴格的隱私保護法規(guī)(《數(shù)據(jù)安全法》《個人信息保護法》構(gòu)建的合規(guī)高墻)、高昂的標注成本(單例醫(yī)學影像標注需數(shù)小時專業(yè)人力)、嚴重的數(shù)據(jù)孤島(跨機構(gòu)數(shù)據(jù)共享率不足 30%),這些瓶頸讓 AI 模型訓練陷入 “巧婦難為無米之炊” 的境地。在全球醫(yī)學 AI 競爭轉(zhuǎn)向 “基座模型 + 大模型” 驅(qū)動的算力算法數(shù)據(jù)綜合比拼的當下,生成式 AI 帶來了破局之道 — 通過精準模擬真實數(shù)據(jù)分布特征,將單中心千級病例擴展為百萬級訓練集。這不僅為罕見病診療、兒科等數(shù)據(jù)稀缺領域提供 “數(shù)據(jù)造血” 能力,更在數(shù)據(jù)割裂、技術脫鉤風險加劇的國際環(huán)境下,為我國構(gòu)建自主可控的醫(yī)療數(shù)據(jù)生態(tài)提供了戰(zhàn)略級技術儲備,直接響應 “面向國家重大需求” 的核心訴求。
3月,復旦大學顏波教授團隊在Nature Biomedical Engineering期刊發(fā)表了通過利用生成式AI數(shù)據(jù)構(gòu)建眼科基座模型的有益探索。針對這一突破性工作,盛斌教授聯(lián)合眾多學者發(fā)表題為《合成數(shù)據(jù)助推醫(yī)學基座模型發(fā)展》(Synthetic Data Boosts Medical Foundation Models)的深度述評文章。
述評中盛斌等學者提出,首先,盡管人工智能生成的數(shù)據(jù)可能會降低與真實世界醫(yī)療數(shù)據(jù)相關的隱私風險,但它并不能完全消除這些風險。其次,基礎模型的黑箱性質(zhì)使得當模型主要或僅在合成數(shù)據(jù)上進行訓練時,性能惡化或失敗的原因變得模糊;這個缺點會讓開發(fā)者和用戶不確定人工智能生成數(shù)據(jù)的 “毒性” 程度。第三,用有限的真實世界疾病標簽樣本指導合成數(shù)據(jù)生成可能會無意中強化小真實世界數(shù)據(jù)集中固有的偏差,從而損害模型的公平性、公正性和通用性,特別是對于罕見疾病或少數(shù)民族和其他代表性不足的群體。目前尚不清楚構(gòu)建一個強大的基礎模型需要多少真實世界數(shù)據(jù);實際上,完全在合成數(shù)據(jù)上訓練的模型的性能仍然未知。此外,建立確保醫(yī)療人工智能中真實世界和合成數(shù)據(jù)的可追溯性和來源的指南和標準是當務之急。
述評對復旦大學的研究成果予以高度肯定,同時也指出,該項研究引出了有關人工智能生成數(shù)據(jù)在構(gòu)建基礎模型過程中所起作用的一系列根本性問題。其中最為關鍵的一點在于,人工智能生成的數(shù)據(jù)對醫(yī)療基礎模型性能的影響具有兩面性,它既可能成為提升性能的強力催化劑,大幅優(yōu)化模型表現(xiàn);也可能淪為降低性能的污染物,給模型帶來難以預估的負面效應。因此,必須在合成數(shù)據(jù)提供的機會與嚴格驗證、倫理考慮以及對持續(xù)改進真實世界數(shù)據(jù)收集的承諾之間找到微妙的平衡。
此外,當前的人工智能模型距離能夠精準捕捉人類健康復雜性、堪稱 “通用模型”或“世界模型” 的目標,仍存在著巨大的差距。人類健康所涵蓋的范疇極為廣泛,涉及到生物、心理、環(huán)境等諸多復雜因素,其內(nèi)在機制盤根錯節(jié),絕非現(xiàn)有模型所能輕易駕馭。若要構(gòu)建針對普遍健康問題的基礎模型,絕不能僅僅依賴人工智能生成的數(shù)據(jù),而需采用一種更為全面、綜合的方法。在人類生物學與健康領域,尚有海量的未知等待我們?nèi)ヌ剿?,例如許多罕見病的發(fā)病機制至今成謎,環(huán)境因素與慢性疾病之間的關聯(lián)也有待進一步明確。在這樣的背景下,提升真實世界數(shù)據(jù)收集的效率與通用性,依舊是醫(yī)學研究與人工智能醫(yī)療應用發(fā)展進程中的重中之重。不可否認,合成數(shù)據(jù)在輔助真實世界數(shù)據(jù)方面具備一定的潛力,當它與真實世界數(shù)據(jù)巧妙結(jié)合時,能夠在數(shù)據(jù)擴充、模型訓練等方面發(fā)揮積極作用,助力研究工作的推進。但必須清醒地認識到,合成數(shù)據(jù)存在諸多局限性,它難以獨立成為解決人類健康問題的完整方案,無法完全替代真實世界數(shù)據(jù)所蘊含的豐富信息與真實性價值。唯有將二者合理搭配,以真實世界數(shù)據(jù)為基石,以合成數(shù)據(jù)為補充,才能為構(gòu)建強大且實用的醫(yī)療基礎模型筑牢根基。
述評提出,生成式人工智能于醫(yī)學領域的應用,絕非局限于技術層面的創(chuàng)新,實則掀起一場醫(yī)療服務模式的重大變革。這一前沿技術在醫(yī)學 AI 領域意義非凡,有望推動我國醫(yī)學 AI 實現(xiàn)科技自立自強。當前,醫(yī)學AI領域國際競爭日趨激烈,生成式人工智能則為學術界突破這一技術壟斷提供了有力契機,助力我國在醫(yī)療 AI 底層算法等關鍵領域?qū)崿F(xiàn)自主可控與創(chuàng)新發(fā)展。著眼未來,通過全方位完善制度,推動生成式 AI 順利從技術突破邁向規(guī)?;涞?,為實現(xiàn) “四個面向” 戰(zhàn)略目標源源不斷地貢獻醫(yī)療科技力量,讓先進技術切實惠及廣大民眾,提升我國整體醫(yī)療水平 。
特別聲明:智慧醫(yī)療網(wǎng)轉(zhuǎn)載其他網(wǎng)站內(nèi)容,出于傳遞更多信息而非盈利之目的,同時并不代表贊成其觀點或證實其描述,內(nèi)容僅供參考。版權歸原作者所有,若有侵權,請聯(lián)系我們刪除。
凡來源注明智慧醫(yī)療網(wǎng)的內(nèi)容為智慧醫(yī)療網(wǎng)原創(chuàng),轉(zhuǎn)載需獲授權。
智慧醫(yī)療網(wǎng) ? 2022 版權所有 ICP備案號:滬ICP備17004559號-5