大數(shù)據(jù)(bigdata)是指那些超過傳統(tǒng)數(shù)據(jù)庫系統(tǒng)處理能力的數(shù)據(jù)。它的數(shù)據(jù)規(guī)模和傳輸速度要求很高,或者其結(jié)構(gòu)不適合原本的數(shù)據(jù)庫系統(tǒng),為了獲取大數(shù)據(jù)中的價值,必須選擇另一種方式來處理它。大數(shù)據(jù)具有的4V特點:大量(volume)、多樣(variety)、高速(velocity)、 可信( veracity)。大數(shù)據(jù)的計量單位從目前常用的TB (240bytes)擴展到PB (250bytes),甚至ZB (270bytes),增加千倍和十億倍,大數(shù)據(jù)量以每年50%的速度增加。大數(shù)據(jù)呈現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的多樣性以及數(shù)據(jù)流傳輸?shù)母咚傩?。大?shù)據(jù)的分析結(jié)果具有很高的可信度和商業(yè)價值,因此大數(shù)據(jù)主要用于預測、決策和分析等用途。
大數(shù)據(jù)技術
虛擬化、物聯(lián)網(wǎng)、云計算技術應用催生了大數(shù)據(jù)技術,一般能夠使用傳統(tǒng)的數(shù)據(jù)庫、數(shù)據(jù)倉庫和BI工具能夠完成的處理和分析挖掘的數(shù)據(jù),還不能稱為大數(shù)據(jù),這些技術也不能稱為大數(shù)據(jù)技術。面對大數(shù)據(jù)環(huán)境,包括數(shù)據(jù)挖掘在內(nèi)的商業(yè)智能技術正在發(fā)生巨大的變化。
1. 傳統(tǒng)數(shù)據(jù)庫技術 傳統(tǒng)的數(shù)據(jù)庫技術無法滿足大數(shù)據(jù)的處理要求,新的數(shù)據(jù)庫技術包括:①并行數(shù)據(jù)庫:通過多個節(jié)點并行執(zhí)行數(shù)據(jù)庫任務,提高整個數(shù)據(jù)庫系統(tǒng)的性能和可用性;②非關系性數(shù)據(jù)庫(NoSQL):采用更加簡單的數(shù)據(jù)模型,減少關系性數(shù)據(jù)庫的高度數(shù)據(jù)關聯(lián)性,以適應大數(shù)據(jù)的處理;③新型數(shù)據(jù)庫:對傳統(tǒng)數(shù)據(jù)庫技術進行改良和優(yōu)化,去除傳統(tǒng)數(shù)據(jù)庫中制約性能的機制,提高數(shù)據(jù)庫處理大數(shù)據(jù)的能力。2. 大數(shù)據(jù)云計算技術 云計算將計算任務分布在大量計算機構(gòu)成的資源池上,使用戶能夠按需獲取計算力、存儲空間和信息服務。云計算分布式架構(gòu)能夠很好地支持大數(shù)據(jù)存儲和處理需求,并使用戶能低價獲取巨量計算和存儲能力,使得大數(shù)據(jù)處理和利用成為可能。2011年甲骨文公司推出Oracle大數(shù)據(jù)機(oracle big data appliance), Oracle大數(shù)據(jù)機是一款集成設計的系統(tǒng),旨在簡化大數(shù)據(jù)項目的實施與管理。該數(shù)據(jù)機采用18臺Oacle Sun服務器的全機架式配置,總共擁有864GB主內(nèi)存、216核CPU、648 TB原始磁盤存儲空間,采用40Gb/s的網(wǎng)絡連接以及10Gb/s的以太網(wǎng)數(shù)據(jù)中心連接,可連接多個機架進行橫向升級擴展,使其能夠獲取、組織和分析超級海量的數(shù)據(jù)。3. 大數(shù)據(jù)處理 在大數(shù)據(jù)中,結(jié)構(gòu)化數(shù)據(jù)只占15%左右,其余的85%都是非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)需要解決半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的高效處理。大數(shù)據(jù)需要使用非傳統(tǒng)工具來對大量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進行處理,采用適合不同行業(yè)的大數(shù)據(jù)挖掘分析工具和開發(fā)環(huán)境,從而獲得分析和預測結(jié)果的一系列數(shù)據(jù)處理技術。大數(shù)據(jù)的應用
《紐約時報》的一篇專欄文章稱“大數(shù)據(jù)”時代已經(jīng)降臨,在商業(yè)、經(jīng)濟及其他領域中,決策將日益基于數(shù)據(jù)和分析,而不是基于經(jīng)驗和直覺。哈佛大學社會學教授加里?金指出:這是一場革命,龐大的數(shù)據(jù)資源使得各個領域開始了量化進程,無論學術界、商界還是政府,所有領域都將開始這種進程。在醫(yī)學領域,大數(shù)據(jù)應用涉及:①藥品研發(fā):實驗室和臨床數(shù)據(jù)分析有助于加快藥品研發(fā)過程和提高藥品安全性;②臨床決策支持:通過臨床數(shù)據(jù)進行分析,為醫(yī)生的臨床診療方案提供決策支持;③藥物臨床應用分析:通過分析藥物臨床效果、副作用和不良反應等數(shù)據(jù),對藥物進行篩選;④流行病、疫情監(jiān)控:利用搜索引擎等手段預測和監(jiān)控流行病和疫情;⑤人口健康分析和預測:對國家和區(qū)域居民健康檔案、電子病歷等數(shù)據(jù)進行分析,預測人口健康和疾病。免責聲明:轉(zhuǎn)載僅做分享,本文著作權歸原創(chuàng)者所有,如有侵權請聯(lián)系小編進行刪除。