在今年一月,美國副總統拜登在瑞士達沃斯世界經濟論壇的科學家小組討論中提出了一系列攻克癌癥的具體要求。其中,怎樣通過大數據的收集、分析與應用來研究、預防與治療癌癥成為了一個格外引人注目的話題。
專家:
Keith Perry:圣裘德兒童研究醫院高級副總裁和首席信息官
Narayan Desai:圣何塞通信公司愛立信計算機科學家
Nevann Krogan:加州大學舊金山分校細胞和分子藥理學教授
Trey Ideker:Ph.D,UCSD計算生物學和生物信息中心創始人和UCSD醫學部醫學遺傳學主任
大數據的“大”意味著研究者所積累數據的巨大體量,以及這些數據的重要性與正確分析之后可能揭示的大量事實。不論哪種情況,大數據研究都能在實踐中通過對大量數據集的分析來確定數據的變化趨勢、找到數據間關聯并發現數據的運作模式。
大數據對于癌癥研究具有不容忽視的積極作用,結合癌癥研究過程中巨大的樣本量,大數據分析可以發現在小樣本量實驗中通常遭到忽視的細節問題。然而除了數據的巨大體量之外,幾位專家提出了大數據研究所具備的其他特點。
當Keith Perry還在休斯頓安德森癌癥中心工作的時候,他便提出了大數據不僅僅在于大,大數據研究還應該包含一下三個特征:數據類型的多樣性,數據產出的速度以及數據集成的程度。“目前,由于具體研究項目與研究部門的不同,我們絕大多數的數據都是相對孤立的。”Perry認為相對孤立數據的集成將在極大程度上發揮這些數據的潛力。
Narayan Desai在2015年的一篇Nature文章中指出基因組學將不得不解決到底需要生產多少數據的基本問題。全球數據的收集與分析能力有限,有限的能力需要以最高的效率加以利用。正因為測序技術的普及,大量的基因組研究機構如雨后春筍般以一種較為分散的方式興起,正因為這些研究機構的分散性,上述問題變得更加難以解決。
隱蔽的缺陷
目前,一些科學家正致力于將分散的測序數據加以整合,創造性地利用已有數據對臨床治療進行指導。
Nevann Krogan教授認為與大部分遺傳學家所認識到的情況相比,基因組學已經在事實上使我們更加接近了癌癥治療的革命。
“測序人員說只要我們投入更多的錢到測序中我們就能得到更加清晰的答案。”Krogan說,“我們對此表示否定,我們已經接近飽和的數據并不能給我們的研究帶來多大進展。”
盡管測序數據猶如潮水般上漲,基因檢測在癌癥治療實踐過程的突破仍然進展緩慢。這一現象存在的一大重要原因就是大量堆積的新數據僅僅能夠證明癌癥驚人的多樣性,甚至僅僅是一種單一的腫瘤就包含著上千種基因突變。這種情況下便更需要研究人員準群分辨促使癌癥發生的突變與那些對癌癥的發生并沒多少影響的突變。
Krogan博士和他的同事們相信除了大量積累數據之外,研究人員需要對數據間既有的潛在聯系投入更多的關注。
與加州大學圣迭戈分校的研究人員一致,Krogan博士也于2015年3月在Molecular Cell上提出了癌細胞地圖倡議(The Cancer Cell Map Initiative,CCMI)。
CCMI致力于揭示癌癥基因間復雜相互關系的系統性證據,闡明癌癥與常規疾病及其他健康狀況本質上的差異并據此繪制癌細胞中正常和突變基因及蛋白間的“線路圖”。參與這一倡議的其他成員還包括舊金山的格萊斯頓研究所、加州大學舊金山、圣地亞哥分校臨床和轉化研究所以及賽默飛世爾科技公司。
樣本關聯性分析
CCMI結合了UCSD專家生物醫學大數據方面的杰出知識與UCSD細胞結構與功能的領先研究方法。UCSD計算生物學和生物信息中心創始人和UCSD醫學部醫學遺傳學主任Trey Ideker博士說“我們已經擁有的足夠的數據,我們現在的項目瓶頸是如何解讀這些癌癥基因組數據。”
在2015年的UCSD基因組學節上,Trey Ideker,博士指出對癌癥基因組的大量測序已經證實了超過2萬個癌癥相關基因,但是由于基因相互作用網絡相關知識的缺乏,這些癌癥基因組信息的有效分析便顯得十分困難。正如Ideker博士所說的“沒有任何兩個癌癥病人的腫瘤在基因水平有著完全相同的組成。”
Ideker博士及其同事認為生物信息學將會幫助解決這一難題。
在2013年出版的Nature Methods上,Ideker博士及其同事指出癌癥基因組圖譜計劃(The Cancer Genome Atlas ,TCGA)與國際癌癥基因組協會(the International Cancer Genome Consortium ,ICGC)已經開始了對數千個腫瘤樣本的基因組信息多層次系統性分析。具體包括mRNA與microRNA的表達,DNA拷貝數與甲基化分析以及DNA測序。文章的作者們指出諸如TCGA 與ICGC的工作可能會對某些更有野心的工作起到促進作用。
基因表達子網絡分析
為了滿足癌癥大數據研究對數據集成方法的需求,UCSD團隊與其他學者已經對已知的幾種通路數據庫與子網絡相關蛋白編碼基因進行了表達水平的集成分析。與以往簡單羅列不同基因與蛋白的方式不同,這種方法揭示了不同基因與蛋白表達局部網絡的聚集運作方式。
正如該項目的研究人員所說,這類子表達網絡分析工作可以鑒定各種臨床病人的基因表達差異。基因表達子網絡分析不同于常規的數據分析,具有解釋相關信號網絡內基因表達差異的能力。除了上述特點之外,基因表達子網絡分析仍然需要大量的生物信息學、統計學和相關研究機構的支持,通過這種方式已有數據的潛在價值能夠充分地體現。
預后影響
大量的實驗證據表明基因表達網絡分析對于預后有著重要的影響,UCSD研究人員在慢性淋巴細胞白血病領域的研究證實了上述基因表達子網絡分析對于大量病人具有有效的預后能力,減少臨床醫師在慢性淋巴細胞白血病患者診斷過程中產生的分歧,有效提高疾病的診斷與治療水平。這種預測性的基因表達子網絡分析根據基因表達水平的不同產生一定的差異,直到治療之前顯示出一致性。
UCSD研究人員認為他們的分析技術對于研究癌癥的演變與臨床慢性淋巴細胞白血病治療策略的開發具有十分重要的作用。利用生物信息學的相關技術,研究人員能夠準確地挖掘龐大數據具備的實際意義。
“大數據和人工智能極大提高了我們對新冠肺炎的診斷、預測和治療水平。”于12日上午在福州舉辦的第三屆數字中國建設峰會開幕式上,“共和國勛章”獲得者、中國工程院院士鐘南山在視頻致辭中向在抗疫斗爭中作出貢獻......
“提升數字化治理水平,更重要的是要加大數字化或者智能化運用的力度和深度。”9月28日,由中國國際大數據產業博覽會組委會主辦的“永不落幕的數博會”2020系列活動——“大數據助力社會治理創新論壇”在北京......
清華大學中國新型城鎮化研究院近日宣布,將以第三方機構身份啟動“城市健康指數”評估工作,依托“大數據+大健康”為健康城市建設精準畫像。《“健康中國2030”規劃綱要》明確提出:把健康城市和健康村鎮建設作......
基于菌群大數據搜索引擎實現疾病檢測的原理微生物組具有服務疾病診治與生態監控的巨大潛力,但是其影響因素錯綜復雜。如何通過菌群檢測實現快速精準的疾病診斷呢?中科院青島生物能源與過程研究所單細胞中心發明了基......
“喂!何老師,鄖陽的疫情不斷發展。您能否幫忙研發軟件為政府科學決策提供支持?”農歷大年初四,中國石油大學(華東)海洋與空間信息學院青年教師何亞文的手機突然響起來。對這個求助電話何亞文并不陌生,打來電話......
微生物組具有服務疾病診治與生態監控的巨大潛力,但是其影響因素錯綜復雜。如何通過菌群檢測實現快速精準的疾病診斷呢?中國科學院青島生物能源與過程研究所單細胞中心發明了基于菌群大數據搜索的疾病檢測方法,為此......
微生物組具有服務疾病診治與生態監控的巨大潛力,但是其影響因素錯綜復雜。如何通過菌群檢測實現快速精準的疾病診斷呢?中國科學院青島生物能源與過程研究所單細胞中心發明了基于菌群大數據搜索的疾病檢測方法,為此......
2月20日,記者從孵化自中科院自動化所的初創企業視語科技獲悉,為加強對園區內復工企業、復工人員的健康監督管理,確保生產、防疫兩不誤,視語科技于近日推出無感人員防疫系統。該系統可整合人員行為數據、健康數......
雖然隨著更多更優檢測技術和方法的及時應用,確診難問題已得到顯著改善,但新型冠狀病毒的快速、準確檢測與確診仍是科研界與醫學界的緊急任務,有必要尋求更多樣化、更優的檢測方法與試劑。圖片來源于網絡日前,北京......
工程化的T細胞療法通過實現與血液相關的癌癥(如白血病和淋巴瘤)的長期緩解,正在徹底改變癌癥的治療方法。這些療法涉及獲得患者的T細胞,對其進行“重編程”以攻擊癌細胞,然后將其轉移回患者體內。使用CRIS......