一、醫(yī)療大數(shù)據(jù)挖掘的核心技術
醫(yī)療大數(shù)據(jù)挖掘是伴隨計算機發(fā)展而來的一門新興技術,涉及的學科領域和方法很多,匯集了來自統(tǒng)計學、機器學習、模式識別、數(shù)據(jù)庫技術、信息檢索、網(wǎng)絡科學、人工智能、高性能計算和數(shù)據(jù)可視化等各學科的成果。多學科技術的相互交融和相互促進,相互依賴又互不相同,使得數(shù)據(jù)挖掘這一學科蓬勃發(fā)展。數(shù)據(jù)挖掘核心技術主要包括統(tǒng)計學方法、人工智能方法、數(shù)據(jù)庫方法、信息檢索和可視化方法等。其中,統(tǒng)計學方法有回歸分析、判別分析等;人工智能方法有機器學習方法(常用自然語言處理技術、專家系統(tǒng)、模式識別等)和神經(jīng)網(wǎng)絡方法(常用前向神經(jīng)網(wǎng)絡、自組織神經(jīng)網(wǎng)絡等)等;數(shù)據(jù)庫方法包括基于可視化的多維數(shù)據(jù)分析或OLAP方法等。SAS EM、Modeler、K-Miner、Tempo等數(shù)據(jù)挖掘軟件均提供了各類可視化模塊。醫(yī)療大數(shù)據(jù)挖掘的核心技術如圖所示。
1、醫(yī)學統(tǒng)計學
醫(yī)學統(tǒng)計學是以醫(yī)學理論為指導,運用統(tǒng)計學原理和方法研究醫(yī)學領域的數(shù)據(jù)的收集、分析、解釋和表示。數(shù)據(jù)挖掘與統(tǒng)計學具有天然的聯(lián)系。數(shù)據(jù)挖掘不是為了替代傳統(tǒng)的統(tǒng)計分析方法而出現(xiàn)的。相反,它是統(tǒng)計分析方法的延伸和擴展。數(shù)據(jù)挖掘就其算法本身,很大一部分可以從數(shù)理統(tǒng)計中獲得理論解釋,但作為一個整體的研究方向,應該從計算機的層面進行全局的考慮,即從系統(tǒng)的角度分析,數(shù)據(jù)挖掘是面向應用的。醫(yī)學統(tǒng)計學主要目的是通過對已發(fā)生的事件進行分析,對未來事件發(fā)生的可能性做出統(tǒng)計推斷,也就是預測。大數(shù)據(jù)挖掘的目的亦是從復雜醫(yī)學數(shù)據(jù)池中發(fā)現(xiàn)新的模式和知識,挖掘得到有價值的新信息,并指導實踐。
在數(shù)據(jù)挖掘中使用統(tǒng)計學方法并不簡單。大多數(shù)的統(tǒng)計分析技術都基于完善的數(shù)學理論和很高的計算復雜度,預測的準確度還是令人滿意的,但對使用者的要求很高。一個巨大的挑戰(zhàn)就是將統(tǒng)計學方法應用于大型數(shù)據(jù)集,因為應用于分布在多個邏輯或物理站點上的大型數(shù)據(jù)集時,需要小心地設計和調(diào)整算法,以降低計算開銷。
2、醫(yī)學人工智能
醫(yī)療大數(shù)據(jù)挖掘的核心技術便是融合人工智能與機器學習技術,挖掘人的生命和疾病現(xiàn)象及本質(zhì)規(guī)律,也經(jīng)常被稱為醫(yī)學人工智能。機器學習屬于計算機和統(tǒng)計學交叉學科,核心目標是通過函數(shù)映射、數(shù)據(jù)訓練、最優(yōu)化求解、模型評估等一系列算法實現(xiàn)讓計算機擁有對數(shù)據(jù)進行自動分類和預測的功能。機器學習領域包括很多種類的智能處理算法,分類、聚類、回歸、相關分析等每一類中都有很多算法進行支撐,如支持向量機、神經(jīng)網(wǎng)絡、邏輯回歸、決策樹、貝葉斯網(wǎng)絡、隨機森林、判別分析等。醫(yī)療大數(shù)據(jù)挖掘利用了人工智能領域,尤其是機器學習方面的研究成果,數(shù)據(jù)挖掘的核心技術可以說是機器學習,這兩門學科都致力于模式發(fā)現(xiàn)和預測。數(shù)據(jù)挖掘與機器學習有許多相似之處。對于分類和聚類任務,機器學習研究通常關注模型的準確率。除準確率之外,醫(yī)療大數(shù)據(jù)挖掘研究非常強調(diào)挖掘方法在大數(shù)據(jù)上的有效性和可伸縮性,以及處理復雜醫(yī)學數(shù)據(jù)的方法,以開發(fā)新的、非傳統(tǒng)的方法。
數(shù)據(jù)挖掘強調(diào)算法對大數(shù)據(jù)量的適應性,算法必須對記錄為數(shù)十萬條及以上的數(shù)據(jù)集有很好的性能;周期性更新的數(shù)據(jù)集需要考慮能對這些增量數(shù)據(jù)進行處理而不用從頭計算一次;數(shù)據(jù)挖掘還需考慮如何處理數(shù)據(jù)集體積大于內(nèi)存容量的問題和并行處理問題。
3、數(shù)據(jù)庫技術
很多大中型醫(yī)院相繼建立了自己的HIS,隨著HIS的應用和不斷發(fā)展,數(shù)據(jù)庫中的數(shù)據(jù)量迅速膨脹,數(shù)據(jù)庫規(guī)模逐漸擴大,復雜程度日益增加。盡管積累了大量的業(yè)務數(shù)據(jù),真正能將這些數(shù)據(jù)的價值挖掘出來并運用到醫(yī)院的臨床輔助診斷和日常管理決策中的卻很少。利用前沿的數(shù)據(jù)倉庫技術,根據(jù)實際需求,從醫(yī)院海量信息數(shù)據(jù)庫中分析、提取,進行有效的數(shù)據(jù)組織,來構(gòu)建數(shù)據(jù)倉庫模型,從而開展數(shù)據(jù)挖掘,對全方位醫(yī)療管理決策是必要的。
數(shù)據(jù)庫系統(tǒng)研究關注創(chuàng)建、使用和維護數(shù)據(jù)庫。特別是數(shù)據(jù)庫系統(tǒng)研究者們已經(jīng)建立了數(shù)據(jù)建模、查詢語言、查詢處理與優(yōu)化方法、數(shù)據(jù)存儲以及索引和存取方法的公認原則。數(shù)據(jù)庫系統(tǒng)因其在處理非常大的、相對結(jié)構(gòu)化的數(shù)據(jù)集方面的高度可伸縮性而聞名。數(shù)據(jù)倉庫是為了數(shù)據(jù)挖掘做預準備,數(shù)據(jù)挖掘可建立在數(shù)據(jù)倉庫之上。數(shù)據(jù)挖掘成功的關鍵之一是能夠訪問正確的、完整的和集成的數(shù)據(jù)。這也是對數(shù)據(jù)倉庫的要求。數(shù)據(jù)倉庫不僅是集成數(shù)據(jù)的一種方式和一個焦點,而且所有的數(shù)據(jù)倉庫的解決方案都源自和依賴數(shù)據(jù)源部件的質(zhì)量和效果。
數(shù)據(jù)倉庫集成的、隨時間變化的、穩(wěn)定的、面向主題的特點為數(shù)據(jù)挖掘提供了堅實的數(shù)據(jù)基礎。許多數(shù)據(jù)挖掘任務都需要處理大型數(shù)據(jù)集,甚至是處理實時的快速流數(shù)據(jù)。因此,數(shù)據(jù)挖掘可以很好地利用可伸縮的數(shù)據(jù)庫技術,以便獲得在大型數(shù)據(jù)集上的高效率和可伸縮性。此外,數(shù)據(jù)挖掘任務也可以用來擴充已有數(shù)據(jù)庫系統(tǒng)的能力,以便滿足高度復雜的數(shù)據(jù)分析需求。
4、醫(yī)學信息檢索
醫(yī)學信息檢索主要研究和利用計算機、通信等信息技術處理生物醫(yī)學數(shù)據(jù)、信息、知識的存儲、組織、檢索與優(yōu)化等一系列醫(yī)學信息管理任務,輔助醫(yī)學領域的科研與實踐,提高解決問題和制定決策的科學性、及時性和可靠性。信息檢索是根據(jù)所需的信息需求與存儲在數(shù)據(jù)庫中的信息進行比較和選擇,即匹配的過程。例如,使用醫(yī)學數(shù)據(jù)庫管理系統(tǒng)查找個別記錄,或通過互聯(lián)網(wǎng)的搜索引擎查找特定的互聯(lián)網(wǎng)醫(yī)療頁面并檢索出相關的信息,則是信息檢索領域的任務。但并非所有的信息發(fā)現(xiàn)任務都被視為數(shù)據(jù)挖掘。信息檢索可能涉及使用復雜的算法和數(shù)據(jù)結(jié)構(gòu),但是它們主要依賴傳統(tǒng)的計算機科學技術和數(shù)據(jù)的明顯特征來創(chuàng)建索引結(jié)構(gòu),從而有效地組織和檢索信息。面對醫(yī)療領域復雜和多樣化的信息需求,醫(yī)學信息檢索能夠幫助醫(yī)生與患者獲取所需的知識和信息,在實際應用中發(fā)揮著越來越重要的作用。
近年來,數(shù)據(jù)挖掘技術的發(fā)展推動了面向醫(yī)療大數(shù)據(jù)的知識發(fā)現(xiàn),被用來增強信息檢索系統(tǒng)的能力。但隨著醫(yī)療信息化的發(fā)展,智能醫(yī)療、數(shù)字醫(yī)療、衛(wèi)生保健系統(tǒng)等應用的快速增長,大量文本和醫(yī)學圖像數(shù)據(jù)日益累積并且可以聯(lián)機獲得。它們的有效搜索和分析同樣對數(shù)據(jù)挖掘提出了許多具有挑戰(zhàn)性的問題。因此,文本挖掘和醫(yī)學圖像等數(shù)據(jù)挖掘與信息檢索方法集成已經(jīng)變得日益重要。
二、醫(yī)療大數(shù)據(jù)挖掘的難點
1、快速的、具有健壯性的數(shù)據(jù)挖掘算法
醫(yī)療數(shù)據(jù)庫的數(shù)據(jù)量大、結(jié)構(gòu)多樣,要在海量的數(shù)據(jù)中提取知識,需要花費比其他數(shù)據(jù)庫更多的時間。同時,我們需要從同一醫(yī)療數(shù)據(jù)庫或不同醫(yī)療數(shù)據(jù)庫挖掘不同類型的知識。由于不同的應用需要不同類型的知識,因此數(shù)據(jù)挖掘應該覆蓋廣泛的數(shù)據(jù)分析與知識發(fā)現(xiàn)任務需求。因此必須考慮醫(yī)療大數(shù)據(jù)挖掘的性能問題,其中包括效率、可擴展性和數(shù)據(jù)挖掘算法的并行化等問題。數(shù)據(jù)庫中數(shù)據(jù)的巨大規(guī)模、廣泛分布的數(shù)據(jù)存儲地點,以及一些數(shù)據(jù)挖掘算法的計算復雜性等,都極大地推動了并行分布數(shù)據(jù)挖掘算法的研究與開發(fā)。數(shù)據(jù)挖掘算法的可擴展性表現(xiàn)在數(shù)據(jù)挖掘的運行時間與所處理的數(shù)據(jù)規(guī)模呈線性關系。在假設數(shù)據(jù)挖掘系統(tǒng)可利用的存儲資源不變的情況下,這意味著當被挖掘數(shù)據(jù)的規(guī)模確定后,相應數(shù)據(jù)挖掘算法的運行時間應該是可以預測和接受的,即我們需要使用計算速度快的數(shù)據(jù)挖掘算法。同時,醫(yī)療數(shù)據(jù)庫的類型較多,并且是動態(tài)變化的,要求數(shù)據(jù)挖掘算法具有一定的容錯性和健壯性。
此外,數(shù)據(jù)挖掘算法需要具有可解釋性。目前以深度學習為核心的機器學習方法在疾病的預測、診療方面有比較好的效果,然而,這些機器學習方法的可解釋性比較差,難以被醫(yī)學領域的科研工作者認可。
2、醫(yī)學知識的準確率與可靠性
醫(yī)療大數(shù)據(jù)挖掘過程中需要反復和醫(yī)學、藥學專家,或者已有的知識進行交互。醫(yī)療大數(shù)據(jù)挖掘的主要目的是為醫(yī)療活動和管理提供科學的決策,因此必須保證挖掘出的知識具有較高的準確率和可靠性。首先,根據(jù)自定義的度量標準進行度量,識別真正需要的模式。數(shù)據(jù)挖掘系統(tǒng)具有產(chǎn)生數(shù)以千計甚至數(shù)以萬計的模式或規(guī)則的潛力,這就需要從中篩選出真正感興趣的、真正有用的知識。其次,通過一些機器篩選之后,最后的決策是要由人來提供的。因為對于知識可用性的理解是非常主觀的,且是以生命健康作為代價的,所以在醫(yī)學領域進行知識發(fā)現(xiàn)需要經(jīng)驗豐富的專家來做最后的決策。同時,數(shù)據(jù)挖掘結(jié)果的表達與可視化也是重點。醫(yī)療大數(shù)據(jù)挖掘應該能夠用高水平語言、可視化表示或其他表示方式來描述所挖掘出的知識,以使醫(yī)生以及患者更加容易地理解和應用所挖掘出的知識。數(shù)據(jù)挖掘結(jié)果的可視化表示對交互式數(shù)據(jù)挖掘系統(tǒng)而言是非常重要的,同時要求系統(tǒng)采用多種表示形式,如采用表格、圖、矩陣、曲線等來描述所挖掘的結(jié)果。
3、醫(yī)療數(shù)據(jù)標準化、不同醫(yī)療信息系統(tǒng)數(shù)據(jù)庫的異構(gòu)特征
在醫(yī)學界,很多基本概念都沒有規(guī)范,例如一個簡單的概念“結(jié)腸腺癌轉(zhuǎn)移到肝”都有很多的表達形式,再如有的藥物有很多別名。同時,實驗和診斷皆帶有主觀性,不同醫(yī)生的病歷文書書寫習慣具有較大差異,這些都為醫(yī)學數(shù)據(jù)的整合與知識挖掘帶來了難度。此外,不同的醫(yī)院往往采用不同的廠商、不同類型的醫(yī)療信息系統(tǒng),同時由于每天龐大的醫(yī)療業(yè)務量,從而構(gòu)成了不同的巨大的、分布的、異構(gòu)的數(shù)據(jù)庫。如何從不同數(shù)據(jù)(包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù))中挖掘出所需要的模式知識是醫(yī)療大數(shù)據(jù)挖掘研究所面臨的巨大挑戰(zhàn)之一。尤其是醫(yī)療影像等醫(yī)療數(shù)據(jù)往往是以GB甚至TB為數(shù)量級的。
另外,數(shù)據(jù)庫的關系表中所涉及的屬性或變量也可能達到成百上千的數(shù)量。這種數(shù)據(jù)的海量性和高維性使數(shù)據(jù)挖掘進行中的模式搜索空間異常巨大,同時可能導致搜索出無意義模式的概率增加,因此必須從中篩選出有效和有用的規(guī)則、規(guī)律和特性。不同醫(yī)療信息系統(tǒng)造成的多源異構(gòu)醫(yī)療數(shù)據(jù)交換與融合是實現(xiàn)醫(yī)療大數(shù)據(jù)挖掘的前提。
三、醫(yī)療大數(shù)據(jù)挖掘的模型框架設計與流程
1、醫(yī)療大數(shù)據(jù)挖掘的模型框架設計
醫(yī)療大數(shù)據(jù)挖掘的模型框架由需求層、數(shù)據(jù)層、算法層和部署層構(gòu)成。需求層主要實現(xiàn)需求理解概念化,即臨床醫(yī)生想要通過數(shù)據(jù)挖掘技術解決的臨床問題。數(shù)據(jù)層主要包含數(shù)據(jù)理解和數(shù)據(jù)準備,可歸納為解決數(shù)據(jù)挖掘需求需要收集和準備的數(shù)據(jù)。算法層主要實施建模和評估,指通過數(shù)據(jù)挖掘方法建立模型,按數(shù)據(jù)挖掘需求識別代表知識的真正有價值的模式。部署層與需求層相對應,將數(shù)據(jù)挖掘成果形成研究報告,實際應用或部署、推廣。需求層、數(shù)據(jù)層、算法層和部署層之間的關系如圖所示。
面對龐大的醫(yī)療大數(shù)據(jù),簡單地從數(shù)據(jù)出發(fā)考慮數(shù)據(jù)挖掘問題,往往會導致研究方向的盲目性和研究結(jié)論與現(xiàn)實需求的偏差。需求理解可以幫助數(shù)據(jù)挖掘主體從宏觀上評估數(shù)據(jù)挖掘項目的可行性和必要性,減少盲目選擇,規(guī)避風險,打破數(shù)據(jù)驅(qū)動的機械性思維。需求與數(shù)據(jù)、算法對應關系的梳理和嵌入,可以從文獻經(jīng)驗角度為優(yōu)化醫(yī)療大數(shù)據(jù)挖掘路徑提供依據(jù),降低學習成本。需求驅(qū)動與優(yōu)化的數(shù)據(jù)挖掘路徑結(jié)合,將有效地提升醫(yī)療大數(shù)據(jù)挖掘的質(zhì)量。
以疾病預后需求為例,如肺癌患者生存能力的預測是目前臨床研究的一個難題,建立肺癌患者生存率預測模型并對模型的預測能力進行評估是臨床中亟需解決的需求。面對這一需求,臨床醫(yī)生首先可通過對肺癌患者生存能力預測研究現(xiàn)狀的分析,對數(shù)據(jù)挖掘項目的實施計劃、風險和受益項目進行有效設計,并在模型的需求層匹配“疾病預后需求”;再依據(jù)需求層和數(shù)據(jù)層的對應關系選擇相應的數(shù)據(jù)上傳(如肺癌患者電子病歷數(shù)據(jù)),經(jīng)過數(shù)據(jù)層的數(shù)據(jù)準備和數(shù)據(jù)處理形成初始數(shù)據(jù)集;然后根據(jù)數(shù)據(jù)層和算法層的對應關系選擇相應數(shù)據(jù)挖掘方法(如貝葉斯網(wǎng)絡、決策樹、支持向量機),在算法層實施建模和評估,分析數(shù)據(jù)挖掘結(jié)果的精確性;最后,在部署層形成研究報告,達到預測肺癌患者生存能力的目的。
2、醫(yī)療大數(shù)據(jù)挖掘的流程
第1步,需求理解
充分理解臨床醫(yī)生想要通過數(shù)據(jù)挖掘技術解決的臨床問題。在分析過程中,需要對數(shù)據(jù)挖掘項目的實施計劃、風險和受益項目進行有效設計,充分保證數(shù)據(jù)挖掘項目的穩(wěn)定性和優(yōu)勢,從而為目標優(yōu)化提供穩(wěn)定支持。
第2步,數(shù)據(jù)集成
對來自不同醫(yī)療信息系統(tǒng)的病人數(shù)據(jù)進行數(shù)據(jù)集成,形成醫(yī)療大數(shù)據(jù)中心。數(shù)據(jù)集成是數(shù)據(jù)挖掘中經(jīng)常用到的手段,原因是需要挖掘的原始數(shù)據(jù)可能來自不同的系統(tǒng)和不同的數(shù)據(jù)源,而且數(shù)據(jù)形式、存取接口甚至數(shù)據(jù)詞典都存在差異。因此,數(shù)據(jù)集成的目的就是將各個數(shù)據(jù)源統(tǒng)一成一個準確、有效、可用的數(shù)據(jù)源。數(shù)據(jù)來源包括HIS、臨床信息系統(tǒng)(Clinical Information System,CIS)、LIS、RIS、PACS和病案系統(tǒng)等系統(tǒng)。這些系統(tǒng)涉及的數(shù)據(jù)庫及數(shù)據(jù)形式都不完全相同,有SQL Server、Oracle,有文檔形式的數(shù)據(jù),還有一些半結(jié)構(gòu)化數(shù)據(jù)(如電子病歷內(nèi)容)。存取這些不同形式的數(shù)據(jù),需要利用不同的接口,比如數(shù)據(jù)庫一般采用數(shù)據(jù)庫廠家提供的數(shù)據(jù)庫接口,對文檔的存取可以用操作系統(tǒng)自帶的文件I/O接口;也有一些系統(tǒng)出于數(shù)據(jù)安全考慮,不允許直接對原始數(shù)據(jù)進行存取,而是提供Web Service等接口。
第3步,專病庫抽?。ǘ谓◣欤?/span>
基于醫(yī)療大數(shù)據(jù)中心構(gòu)造面向特殊疾病的專病庫,如大腸癌病例庫、心衰病例庫等。在構(gòu)建臨床專病庫時,要確定符合疾病特征的病例和需要的病例字段,對于結(jié)構(gòu)化字段,需要從原始的電子病歷庫中抽取,例如年齡與性別;對于半結(jié)構(gòu)化或非結(jié)構(gòu)化字段,需要使用文本抽取等技術,結(jié)合知識庫對其進行結(jié)構(gòu)化。在這個過程中,需要建立知識圖譜,以方便自動化的病例數(shù)據(jù)抽取。
第4步,數(shù)據(jù)質(zhì)量(可用性)評估
需要對專病庫進行數(shù)據(jù)質(zhì)量評估,評估其是否適用于挖掘。評估指標包括數(shù)據(jù)完整性、數(shù)據(jù)一致性、醫(yī)療實體及其編碼的一致性、數(shù)據(jù)邏輯性等。若專病庫達到評估要求,即可進行第5步的建模;如果不能,則需要回到前面步驟,重新抽取和整理數(shù)據(jù)。
第5步,建模
選擇合適的模型,設計并實施實驗。在建模過程中要對多種多樣的建模方法進行認真甄選、合理使用,通過構(gòu)建、評估模型并校準參數(shù)使其成為最佳模型。比較典型的做法是運用多種建模方法對同一數(shù)據(jù)挖掘的問題進行分析。如果實驗過程中出現(xiàn)問題,可能需要改進算法;也有可能是數(shù)據(jù)質(zhì)量的緣故,需要回到前面步驟,重新抽取和整理數(shù)據(jù)。
第6步,評估與部署
在評估過程中要充分考慮數(shù)據(jù)的分析角度。此階段已構(gòu)建了一個或多個優(yōu)質(zhì)模型,在應用最終模型前要對模型進行嚴苛的評估,不可忽視模型構(gòu)建過程中的每一步,以保證已構(gòu)建的模型能夠達到預期目的。部署實際上是將建模過程及得到的最終結(jié)果以文字的形式呈現(xiàn)出來。建模不是項目的最終目的。建模的目的是收集更多相關的信息數(shù)據(jù),并以醫(yī)療健康領域相關人員能夠使用的方式組織和呈現(xiàn)這些數(shù)據(jù),保證需求目標的有效實現(xiàn)。
整體來看,數(shù)據(jù)挖掘是從確定臨床需求開始,然后根據(jù)需求集成數(shù)據(jù)或整合專病庫,過濾數(shù)據(jù),選擇合適的數(shù)據(jù)挖掘方法,最終滿足需求,并將模型推廣和應用的過程。醫(yī)療大數(shù)據(jù)挖掘的整體流程如圖所示。
四、醫(yī)療大數(shù)據(jù)挖掘的應用
1、在疾病診療中的應用
醫(yī)療大數(shù)據(jù)挖掘在疾病診療方面的應用主要為疾病早期診斷、臨床決策支持、診療用藥等。在疾病早期診斷方面,例如加拿大安大略理工大學的卡羅琳·麥格雷戈(Carolyn McGregor)博士及其研究隊伍與IBM公司合作,采用軟件來監(jiān)測并處理即時的患者信息,實施對早產(chǎn)嬰兒的病情診斷,在明顯感染癥狀出現(xiàn)的24小時之前,系統(tǒng)就能監(jiān)測到早產(chǎn)嬰兒身體發(fā)出的感染信號。在臨床決策支持方面,通過對患者體征、費用和療效等數(shù)據(jù)進行挖掘,幫助醫(yī)生確定最有效和最具有成本效益的治療方法。基于大數(shù)據(jù)的臨床決策支持系統(tǒng)可有效擴展臨床醫(yī)生的知識、減少人為疏忽,幫助醫(yī)生提高工作效率和診療質(zhì)量。紀念斯隆-凱特琳癌癥中心和沃森超級計算機合作,利用60萬份醫(yī)療數(shù)據(jù)、150萬條患者記錄以及腫瘤研究領域中42種醫(yī)療雜志和臨床試驗的200萬頁文本數(shù)據(jù),研發(fā)出一種治療決策工具。利用大數(shù)據(jù)挖掘,沃森可以現(xiàn)場為醫(yī)療工作者提供治療建議,與沃森一起工作的護士,有約90%的采納了其建議。在診療用藥方面,通過大數(shù)據(jù)的挖掘與分析能夠有效減少藥物的副作用發(fā)生,提高藥物對患者疾病的治療質(zhì)量,減少臨床不合理用藥對患者的傷害,同時降低藥物的費用、節(jié)省藥物資源。
2、在生物信息學中的應用
人類基因組計劃的啟動和實施,使核酸、蛋白質(zhì)數(shù)據(jù)迅速增長,將海量的生物信息數(shù)據(jù)利用起來,探索生物信息中的規(guī)律,對人類基因組進行更深入的研究,為人類戰(zhàn)勝疾病提供參考。區(qū)分DNA序列上的外顯子和內(nèi)含子成為基因工程中對基因進行識別和鑒定的關鍵環(huán)節(jié)之一。目前已有大量研究者努力對DNA數(shù)據(jù)進行定量挖掘,從已經(jīng)存在的基因數(shù)據(jù)庫中得到導致各種疾病的特定基因序列模式。此外,大數(shù)據(jù)挖掘技術還能將系統(tǒng)生物學數(shù)據(jù)(如基因、蛋白質(zhì)、生物小分子的相關數(shù)據(jù))和電子健康病歷數(shù)據(jù)相結(jié)合,使基因測序、個性化藥物及個人健康管理等個性化醫(yī)療變成臨床實踐。例如,韓國生物醫(yī)學中心就計劃運行國家DNA管理系統(tǒng),將DNA數(shù)據(jù)和患者醫(yī)療數(shù)據(jù)結(jié)合,為患者提供個性化的診斷和治療。通過醫(yī)療大數(shù)據(jù)挖掘技術,可以從DNA序列數(shù)據(jù)出發(fā),開展DNA序列間相似的搜索和比較、基因序列相似性和基因序列功能預測性、發(fā)現(xiàn)在疾病不同階段的致病基因、致病基因的表達模式與識別等研究。
3、在流行病學中的預測
在疾病預警方面,醫(yī)療大數(shù)據(jù)挖掘可以連續(xù)整合和分析公共衛(wèi)生數(shù)據(jù),提高疾病預報和預警能力,防止疫情暴發(fā)。在2009年,谷歌公司對甲型H1N1流感暴發(fā)的預測比美國疾病控制與預防中心(Centers for Disease Control and Prevention,CDC)的早1~2周,這在當時震驚了整個醫(yī)學界和IT領域的科學家,相關研究報告發(fā)表在Nature雜志上。醫(yī)療大數(shù)據(jù)挖掘可以為衛(wèi)生政策法規(guī)提供科學依據(jù),輔助衛(wèi)生部門更快地檢測出新的傳染病和疫情。公共衛(wèi)生部門可以通過覆蓋全國的患者電子病歷數(shù)據(jù)庫,快速檢測傳染病,進行全面的疫情監(jiān)測,并結(jié)合醫(yī)療信息系統(tǒng),對流行病的防治以及對疾病危險因素進行篩選,從而減少傳染病感染率。在疾病預防與控制方面,醫(yī)療大數(shù)據(jù)挖掘可以使研究者更加了解疾病的影響因素。據(jù)估計,只有10%~15%的健康影響因素已被醫(yī)療服務提供者所測定,剩下的85%~90%的健康影響因素,包括健康行為因素、遺傳因素、自然和社會經(jīng)濟環(huán)境因素等均未被測定。醫(yī)療大數(shù)據(jù)將傳統(tǒng)的健康數(shù)據(jù)(如醫(yī)療記錄、家族疾病史等)與其他來源的個人數(shù)據(jù)(如收入、教育、飲食習慣、娛樂方式等)聯(lián)系起來,利用挖掘技術對健康危險因素進行對比和關聯(lián)分析。通過對不同區(qū)域、人群進行評估,遴選健康相關危險因素,有助于有針對性的干預計劃的制訂,從而降低重病發(fā)病率,以促進居民健康水平的提高。
智慧醫(yī)療網(wǎng) ? 2022 版權所有 ICP備案號:滬ICP備17004559號-5