社會新聞
案例分享:NoSQL如何處理生物醫(yī)學大數(shù)據(jù)轉(zhuǎn)載
來源:上海嘉大心肺復蘇模擬人網(wǎng)www.weimengyx.com 作者:嘉大 發(fā)布時間:2012-5-31 13:11:22
王玉峰表示,生物醫(yī)學是融合了醫(yī)學、生物學包括工程學、信息技術(shù)的關(guān)聯(lián)學科,應該說基于信息技術(shù),把研究過程銜接起來,他們想通過基因工程研究怎么樣把基礎(chǔ)醫(yī)學研究成果更好的從藥物研發(fā)、藥物研發(fā)來整合,我們可以通過這個圖表簡單看一下,這個圖表是五年來關(guān)于癌癥研究與藥物靶點基因研究的文獻,在信息技術(shù)推出,生物醫(yī)學逐漸轉(zhuǎn)變成重要的研究領(lǐng)域,并且在經(jīng)歷大數(shù)據(jù)的沖擊。第一個大數(shù)據(jù)來源,是高通量,個性化診療基本通過人與人的基因差異,指導個性化的用藥,進異步增強診療的針對性,這種過程是比較復雜的,花費30億美元。
大數(shù)據(jù)的四個來源
2005年這項技術(shù)高速發(fā)展,它的測序能力每五個月翻一番,藍色的線存儲的變化趨勢,紅色的是測序能力增長。如果一旦按照這個趨勢發(fā)展,有人預測到2015年全世界有100萬人把自己個人的測序能夠問題,現(xiàn)在可以想象,如果隨著生物學技術(shù)研究,如果能更好的指導個性化診療和用藥,對于人的健康和醫(yī)學影響是不可估量的。
我們可以看到計算能力和測序能力逐步增加。
大數(shù)據(jù)另一個來源在藥物研發(fā)領(lǐng)域,也是在生物學的發(fā)展,藥物研發(fā)發(fā)展模式通過尋找癌癥,尋找藥物靶點,在化合物中尋找發(fā)現(xiàn)化合物,從前面基礎(chǔ)研究到后面基礎(chǔ)設(shè)置,相當密集型的過程,對于中小型的企業(yè)也在TB以上的。
第三個數(shù)據(jù)來源是臨床醫(yī)療,實驗室數(shù)據(jù),不這些數(shù)據(jù)整合在一起,使得醫(yī)療機構(gòu)面臨的數(shù)據(jù)增長非??斓?,美國的匹斯堡大學醫(yī)學中心UPMC達到兩個TB。
第四個大數(shù)據(jù)來自于健康管理,移動醫(yī)療是這兩年非常熱的領(lǐng)域,企業(yè)調(diào)查說會達到14億美元,比2010年翻了10倍,便攜化的生理設(shè)備,隨著移動互聯(lián)網(wǎng)的發(fā)展也是大大普及,特別Web2.0的健康服務與健康網(wǎng)絡,關(guān)于自己個體健康信息,如果都能連入互聯(lián)網(wǎng)這個數(shù)量不可估量,移動互聯(lián)網(wǎng)8億,可以想像這是未來的重要的大數(shù)據(jù)來源。
以上我們看到的生物學領(lǐng)域關(guān)于大數(shù)據(jù)四個主要的來源,事實上這四個數(shù)據(jù)來源并不是孤立的,未來生物研究學的人士希望數(shù)據(jù)整合出來,挖掘分析能夠支持臨床的決策,要想實現(xiàn)這樣的目標或者說我們可以看到面臨大數(shù)據(jù)諸多的管理者和分析利用的諸多挑戰(zhàn)。事實上,這些挑戰(zhàn)解決非常難,現(xiàn)在利用云計算技術(shù)有些先行者和創(chuàng)新者公司和企業(yè)也嘗試用云計算解決若干個問題,并且也已經(jīng)有了初步的成果,利用云平臺,云這樣的基礎(chǔ)解決方案以服務的形式發(fā)布出來,可以讓一般的中小規(guī)模的科研機構(gòu),研究所,能夠享用這些開放服務,站在別人的肩膀上繼續(xù)前進。
生物學大數(shù)據(jù)應用的四個方面
下面從四個方面來重點介紹一下在云出現(xiàn)的比較有影響的在云端生物學大數(shù)據(jù)的應用。這四個方面分別是基因測序,臨床藥物研發(fā)管理以及健康管理。第一個案例是Crossbow,這是對全基因分析的流程軟件,它的意義在于原來開發(fā)之前,完成一個人健康分析的在單個服務器,這軟件通過亞馬遜云平臺上的Hodoop把時間縮小了。結(jié)果來看,它現(xiàn)在在32CPU核上任務壓縮3小時不到,整個成本不到100美元,這是眾多工作中的一部分。從Crossbow項目開始,事實上相關(guān)公司投身到怎樣利用云計算加速DNS數(shù)據(jù)的分析,其中有個比較重要的叫DNAnexus,我們可以看到公司提供的服務初衷在實驗室經(jīng)過測序儀,人類基因測一次數(shù)據(jù),原始數(shù)據(jù)在100個G到600個G之間,通過服務導入到云服務平臺,后來提供了非常靈活的多樣化的各類各樣的關(guān)于數(shù)據(jù)的測序分析和比對的工作流程,數(shù)據(jù)可以有效的管理起來,并且測序結(jié)果能夠很好的以用戶很好的形式展現(xiàn)出來,或者把第三方數(shù)據(jù)安全可靠共享出來。
這是它的基本業(yè)務的圖,這個公司比較有名的一點,在去年谷歌投了1500萬美元,和谷歌一起接觸CPI的數(shù)據(jù)庫,它原來是基于亞馬遜的平臺來承載它的測序分析服務,當時號稱用了亞馬遜10個CPU,未來會遷移到谷歌云平臺來。除了DNAnexus美國研發(fā)投入非???,也有些公司做類似的工作,因為這個領(lǐng)域中,基于基因測序的分析,所產(chǎn)生的這種無論是指導對方的診療,數(shù)據(jù)挖掘方面意義都非常之大。
第三是臨床醫(yī)療數(shù)據(jù)管理應用,美國的公司Explorys,它是基于私有云的模式,向第三方機構(gòu)提供服務,第三方機構(gòu)可以把自己臨床數(shù)據(jù)、運維數(shù)據(jù)財務數(shù)據(jù)托管到這個平臺來,這個平臺提供最大的好處能實時提供數(shù)據(jù)分析,這個規(guī)模托管了1300萬人,大概4400億的內(nèi)容,數(shù)據(jù)規(guī)模在60個TB左右,2013年達到70個TB,頂層技術(shù)在Hodoop上走的。
第四個應用是電子病歷,這個公司也是美國的公司,叫Practice Fusion,美國這種是中小之多,降低成本可以使用Saas的方式,他們規(guī)模有10萬個,兩千萬個注冊病人,提供的功能醫(yī)生安排,病人的診療計劃與簽約,甚至面向病人個人的管理,他們也會提供。
第五個應用基于臨床的醫(yī)療方面的應用,這家研究中心是德州大學安德森腫瘤中心,在全美名列前茅,滿足自己醫(yī)院臨床診療服務,民像分析服務他們自建了私有云,提供了資源合理的虛擬化和動態(tài)的處理能力,私有云現(xiàn)在來看,它的能力在八千個處理器并且能夠支撐三個TB以上的數(shù)據(jù),他們承載能力非常多樣,包括腫瘤的病理學的研究、流行病學,對于病因的精準預測和模型研究,他們之所以承建打算用私有云技術(shù)來解決,他們有兩方面考慮,一方面是大型私人醫(yī)療機構(gòu)很關(guān)心病理的問題,他們數(shù)據(jù)規(guī)模相當大,用了10億張的數(shù)據(jù),據(jù)他們CIO說,他們幾家大的提供商來交流,發(fā)現(xiàn)公有云給他們提供的服務平臺的服務質(zhì)量保證, 可能沒有辦辦法接受,所以打算自己投資建立私有云的數(shù)據(jù)中心。
第六個案例是藥物研發(fā)過程管理,藥物研發(fā)管理是耗時非常長,數(shù)據(jù)量非常龐大的過程,日本富士通公司針對研究過程中的數(shù)據(jù)管理提供了Saas服務,這個服務主要面向日本的中小型企業(yè),在美國有一家公司做得比較好,AMAG,這家公司2009年完全把IT業(yè)務,自己不買服務器,并且所有的業(yè)務都是采用SaaS模式的軟件服務,目前他們使用了很多家的SaaS服務,包括存儲,他們現(xiàn)在在Egnyte存儲量達到6TB,他們這個非常鮮明,目前來看,他們數(shù)據(jù)安全得到有效的保證。
最后案例介紹的微軟的HealthVault,很多人應該知道這個平臺,它是2007年發(fā)布的,目標希望來管理個人及家庭的健康儀,現(xiàn)在達到功能比如說手中可以來錄入上傳,可以從便攜設(shè)備,到第三方的機構(gòu)導入病歷記錄,通過提供開放的SDK或者開放的接口支持與第三方應用的集成,提供實現(xiàn)了Store的模式應用。這是微軟自己私有云,現(xiàn)在 號稱這個云往安卓上遷移,前段提供了Web,生理檢測設(shè)備提供了標準接口的模式。對以上的發(fā)言做個小結(jié),可以看到在生物醫(yī)學的大數(shù)據(jù)應用領(lǐng)域,已經(jīng)嘗試大數(shù)據(jù)的來做,他們更多的基于無論公有云還是私有云,最終都是希望能夠提供把大數(shù)據(jù)能力開放出來。現(xiàn)在從大數(shù)據(jù)研究來看,都是在歐美。
可以說從以上應用可以看到,很多廠商他們考慮利用云計算處理大數(shù)據(jù)的時候更多考慮安全和帶寬成本問題,大數(shù)據(jù)集中在本地,極端在云端數(shù)據(jù)交換開銷往往使你的業(yè)務性能非常受拖累,之所以很多應用遷移到云端重要的考慮大數(shù)據(jù)本身也在往云端遷移,特別在生物醫(yī)學領(lǐng)域現(xiàn)象非常明顯,在亞馬遜,現(xiàn)在包括生物醫(yī)學領(lǐng)域這種TB的數(shù)據(jù),在亞馬遜都有很好的做法,你在上面部署數(shù)據(jù)流程的在亞馬遜自然可以使用這些數(shù)據(jù)。云計算在Hadoop起到了非常重要的作用??梢钥吹诫S著測序技術(shù)的普及,臨床病歷,生物學快速運用進入常態(tài)化,我們面對各種應用基本都是大數(shù)據(jù)應用,云計算為大數(shù)據(jù)應用提供了很好的模式,我們應該推動醫(yī)學數(shù)據(jù)的整合與應用,并且借鑒Marketplace的模式來構(gòu)建我們自己的生物醫(yī)學的數(shù)據(jù)集資源。
友情連接:心肺復蘇模擬人 心肺復蘇 AED除顫創(chuàng)傷模擬人 心肺復蘇訓練人 氣管插管訓練模型 http://www.weimengyx.com