自2000年人類基因組圖譜繪制后,生物學研究邁入全新的“組學”時代,科學家們爭先恐后地測序各種有機生物的基因組或蛋白質組。
現在,即使一些簡單的實驗都會產生大量數據,而從“背景噪音”中獲得想要的結果則成為了一大挑戰。美國趣味科學網站近日報道指出,計算機技術正幫助科學家們征服這些數據大山,甚至提出科學假設并對新生物學進程進行解釋。包括機器學習、計算機模擬等數據科學將革新前沿生物學研究。
機器學習變革生物學研究
盡管科學家通過基因和蛋白質測序讓我們知曉它們的名字和所處方位,但這些并不能告知它們的功能以及工作原理,我們需要理解這些基因、蛋白質以及中間成分在不同生物過程中的相互作用,從而最終征服癌癥、心臟病、阿爾茨海默氏癥等多種頑疾,但這會涉及到海量數據。
例如,科學家希望借用DNA測序等“組學”工具,弄清楚人類哪些基因會受到病毒性流感的影響,但人體包含數萬個基因,常見的流感研究也會牽涉多達數千個基因。
計算機在處理海量數據方面是一把好手,因為其能同時考慮所有重要條件并進行分析。盡管編寫程序的人也會犯錯,導致程序出錯,但計算機能有效地處理大量數據且不會像人一樣產生偏見。生物學家們將用計算機來解決這些復雜的問題并定義新的生物學。
人類也能“教會”計算機在實驗數據中發現特定的模式,這種名為“機器學習”的方法首先由“人工智能之父”阿蘭·圖靈于上世紀50年代提出,借用這一方法,科學家們可以借助已有數據組開發出新算法模式,從而對新數據進行預測。從這一方面來說,機器學習已經革新了生物學研究。
計算機能模擬大腦“思考”
美國亞利桑那州立大學生物和健康系統工程學院的斯里·克里希納博士表示,他們正在借助機器學習的一種——人工神經網絡(ANN)進行實驗、分析并解決多種疑難問題。
ANN試圖通過模擬大腦神經網絡處理記憶信息的方式進行信息處理。例如,谷歌公司的“深度夢想項目(DDP)”圖像識別軟件就使用了一個功能強大的ANN來對圖片分門別類,甚至生成新圖片。據國外媒體報道,為了處理網絡上數以億計的圖片,谷歌開發的這個ANN系統會先對大量相似圖片進行處理和學習,從中找到特定物體獨一無二的特征。
克里希納的研究團隊主要研究免疫系統,目的是找到癌癥新療法。在研究中,他們使用ANN計算模型來研究短的表面蛋白質編碼,更好地了解各種免疫細胞如何區分正常(自己的)和反常的(外來的) 事物,從而設計出更好的疫苗和療法。
克里希納團隊將多年來研究確定的數以千計蛋白質編碼的大數據集分成兩組:源于健康人體細胞的正常蛋白質編碼與源于病毒、腫瘤和細菌的反常蛋白質編碼,接著他們將這些蛋白質編碼輸入自己研發的一臺ANN,新算法能區分出正常/反常的蛋白質編碼。
通過機器學習進行預測
機器學習在生物學領域最重要的應用是基于大數據進行預測,測試理論猜想。
亞利桑那州立大學應用數學博士迭戈·丘威爾解釋稱,如在T細胞生物學領域,弄清楚朝哪個引起病毒感染的蛋白質“開火”對疫苗研發和疾病治療意義重大,但某個病毒可能與多個蛋白質編碼有關,因此,很難通過實驗對每個蛋白質編碼逐一測試,且測試成本也極其高昂。
他們現在的解決辦法是訓練ANN幫助機器學會自有和外來兩類蛋白質編碼所有重要的生物化學屬性,接著要求其“預測”哪種蛋白質編碼與外來的蛋白質編碼類似,并能被T細胞發現。
他們用很多病毒蛋白質對這個ANN模型進行了測試,結果發現:這個ANN系統能精確地在病毒內“揪出”大部分能被T細胞激活的蛋白質編碼。研究人員也對找到的蛋白質編碼進行了測試,證實了這種ANN預測的精確性。使用這種ANN模型,科學家們能快速預測與某個病毒有關的所有重要的短蛋白質編碼并進行測試,從而找到療法或疫苗,而不是逐一猜測然后進行實驗。
聰明地利用機器學習
隨著大數據科學和機器學習自身不斷地優化,它們在生物學領域發揮的作用也越來越大:從厘清哪些生物標記結合在一起能最好地探測出疾病,到理解為何只有某些病人能從特定的療法受益等。
當然,計算機也不是萬能的。大數據科學的最大問題是數據本身。如果組學研究獲得的數據一開始就是錯的,或者基于偽科學,那么,機器有可能提供錯誤的結果。還有科學家擔心計算機變成數據的“黑盒子”,因為他們對計算機內進行計算和操控的細節知之甚少。
克里希納表示,盡管存在這些問題,但大數據和計算機帶來的巨大好處將使它們成為科學研究的“好伙伴”。科學家們應時刻保持警惕,聰明地利用計算機,最終借助“機器之眼”來更好地揭示生命的奧秘。
國家知識產權局辦公室關于印發《知識產權數據使用手冊及開放目錄》的通知國知辦函服字〔2025〕153號各省、自治區、直轄市和新疆生產建設兵團知識產權局,各地方有關中心:為促進知識產權數據開發利用,提高知......
2月23日,記者從海南醫科大學獲悉,該校熱帶醫學院楊國靜教授團隊近日在國際醫學期刊《英國醫學雜志》在線發表論文《中國被忽視熱帶病負擔估計的差異:真實世界數據與GBD2021的比較研究(2004—202......
人工智能(AI)初創公司xAI創始人埃隆·馬斯克近日表示:“在AI訓練中,我們現在基本上耗盡了人類知識的累積總和。”之前研究也表明,人類生成的真實數據將在2到8年內消耗殆盡。鑒于真實數據日益稀缺,為滿......
12月28日,由人民數據開發的“數融平臺”正式上線試運營。平臺整體依托區塊鏈、人工智能和企業經營相關數據要素,實現鏈上信息全透明、全上鏈,實現數據資產情況全穿透,實時追蹤一手風控數據,對潛......
隨著新一輪科技革命和產業變革深入發展,數據作為關鍵生產要素的價值日益凸顯。五部門:制定數據產業發展促進政策近日,國家數據局聯合中央網信辦、工業和信息化部、公安部、國務院國資委印發了《關于促進企業數據資......
2024年12月3日,自然科學基金委管理科學部、信息科學部在北京召開專項項目“數據市場制度設計與關鍵技術”評審會議。自然科學基金委黨組成員、副主任江松院士出席會議并講話。國家數據局政策與規劃司副司長欒......
2024年度國家自然科學基金指南引導類原創探索計劃項目“數據流通市場的基礎理論與治理方法”項目指南以數據要素為核心引擎推動數字經濟深化發展,有利于構建新發展格局、建設現代化經濟體系、構筑國家競爭新優勢......
10月21日下午和10月22日上午,國家計量科學數據中心在恩施市接續2024年度工作會召開了“計量與數字化”學術會議。本次會議共安排了13場精彩的學術報告,展出了系列學術墻報,并為學術墻報獲獎者頒獎。......
金秋十月,丹桂飄香。2024年10月21日,國家計量科學數據中心2024年度工作會暨“計量與數字化”學術會議在湖北省恩施州順利召開。本屆大會由中國計量科學研究院主辦,湖北省計量測試技術研究院和恩施州計......
百時美施貴寶近日公布了MAVA長期擴展研究(MAVA-LTE)中EXPLORER-LTE隊列的最新長期隨訪結果。該研究旨在評估邁凡妥?(瑪伐凱泰膠囊)治療紐約心臟協會(NYHA)心功能分級II-III......