近日,中國科學院昆明動物研究所馬占山團隊與天津大學教授鄒權、廈門大學科研人員聯合發布了為千兆(GB)級基因序列數據構建進化樹的軟件HPTree。該軟件使用谷歌Hadoop并行技術和美國加利福尼亞大學伯克利分校Spark集群大數據技術作為并行處理平臺,利用計算機集群對基因序列大數據進行分割處理和整合,相關的軟件和網站服務發布在http://lab.malab.cn/soft/HPtree/上,軟件可以安裝在亞馬遜(Amazon Cloud)等云計算平臺。其技術報告發表在BMC System Biology上。
進化樹,也稱生物系統發育樹或生命樹。這一概念最早發源于19世紀中葉的古生物學研究,達爾文在《物種起源》中勾畫了最早的進化樹之一。對進化樹廣泛研究和構建則始于20世紀90年代,特別是在最近20年間,基因測序技術以及分子進化研究使得構建進化樹成為進化生物學研究不可或缺的技術。達爾文進化論核心思想之一是地球上生命“同根”,即所有物種都有共同起源,并能在生命進化樹上找到自己的位置。然而,與人類對宇宙探索類似,進化樹構建并不能夠一蹴而就,原因至少包括:
其一,我們不僅可能永遠都難以獲得地球上所有已滅絕物種的信息,而且地球上還存在大量未經發現的“暗物種”。例如,不到10年前才發起的人類微生物群系計劃(HMP:Human Microbiome Project)揭示,人體體內(腸道、口腔、呼吸道、生殖道)和體表生活著大量先前未知的微生物(包括細菌、病毒、真菌、質粒、噬菌體等),這些微生物只有依賴最新的微生物宏基因測序技術才能發現。事實上,HMP研究發現,在宏基因測序技術發明之前,人類僅僅能夠檢測到不足10%的腸道細菌種類,而對其它90%的細菌幾乎一無所知。地球上其它動植物體內或體表,乃至所有生命可能存在的生境(例如土壤、湖泊、森林、河流、海洋、冰川,包括呼吸的室內外空氣中)都存在類似比例尚待鑒定發現的微生物。科學家發現,現代人諸多“文明、富貴病”(例如肥胖、糖尿病、痛風、過敏、抑郁、自閉癥)都與腸道菌群有著不同程度的相關。原因之一可能是,現代飲食和生活方式的改變破壞了人類與其腸道菌群長期進化形成的互惠共生機制,而大幅度增加了現代人對于這些代謝、免疫、情緒相關疾病的易感性。因此,預計在不遠的未來,對微生物群系的廣泛研究會對現有進化樹構建方法和技術帶來全新挑戰。
其二,進化樹計算之所以會遇到終極挑戰,是由于進化樹構建在計算機科學屬于所謂的“NP-Hard”問題,絕大多數計算機科學家認為,當所要解決的問題足夠大時(例如所要構建的進化樹足夠大時),即使采用目前人類所發明的最快速計算機(或許包括未來所發明的)也無法完成計算過程。數學家則將證明NP-Hard問題不存在“簡單”算法(當然包括人工智能)的問題列為千禧年期待證明、并被懸賞百萬美元的七大難題之首。令人失望的是,NP-Hard類問題在科學、工程、生物信息計算、乃至日常生活中所抽象出來的計算問題中都占有相當比例;或許可以將其比喻為計算科學領域的“暗物質”。為此,目前所有進化樹計算方法最終都會受到進化樹大小的限制,進化樹越大(物種越多),計算越復雜(耗費時間和計算機內存)。可以肯定的是,進化樹構建問題的復雜性是不斷增長的過程,科學家只有采用一些巧奪天工,但本質上仍是探索、啟示性的算法才能獲得問題的近似答案;而絕大多數科學家相信,理論上最優并且“可計算”的算法可能永遠也無法獲得。
馬占山團隊等此次發布的HPTree軟件采用了目前最先進的并行計算技術,即支撐谷歌公司搜索引擎的Hadoop技術,以及由加州大學伯克利分校所研發的Spark大數據分析技術,從而將進化樹構建推進到了千兆(GB)級基因序列數據的前沿。目前,絕大多數進化樹構建軟件在構建千兆級序列進化樹時都需要依賴于超級計算機集群,或計算太慢而難以在普通服務器完成。HPTree軟件可以在由普通工作站、甚至廉價PC搭建的Hadoop平臺上運行,可大幅度降低其計算成本。
HPTree的研制和測試始于2015年,其技術日趨成熟。事實上,HPTree最大的優勢是其強大的可擴展性,研發團隊在普通學科組計算平臺已能夠處理千兆級別的進化樹構建。隨著硬件平臺的升級(例如移植到云平臺、或超級計算機集群平臺),HPTree軟件的優勢會更顯著。這是因為HPTree采用的計算框架正是像谷歌這些IT巨商用于支撐他們搜索引擎的Hadoop技術,以及先進的大數據分析技術(Spark)。如前所分析,隨著全球在微生物群系研究領域所產生的宏基因大數據不斷增長,對HPTree技術和軟件的需求應隨之大幅度增高。
顯然,HPTree并不能一勞永逸地解決進化樹計算、作為NP-Hard難題之一未來可能會遇到的終極計算挑戰。HPTree軟件的算法設計策略非常簡單,或許類似《西游記》中孫悟空在需要時可以頃刻克隆出一大群猴孫,從而能夠完成對超大規模基因序列數據的并行處理,快速高效地構建出相應的進化樹。對于小規模數據,自然也沒有必要變出一大堆猴子,因此HPTree優勢在于能夠處理大數據。
HPTree軟件技術的開發研制得到了中科院遺傳資源與進化國家重點實驗室開放課題、云嶺產業技術領軍人才等的資助,并與廈門大學副教授曾翔祥合作完成。
近日,在一項發表在PLOSBiology雜志上的新研究中,美國耶魯大學的研究人員公布了一項對物種數據收集和分析方法的全面改革,以構建哺乳動物的生命進化樹。該研究的目的是為科學家、動物保護管理者、政策制......
樟科(Lauraceae)是被子植物木蘭亞綱(Magnoliidae)的重要類群,約有60屬3500種,占木蘭類植物種類的三分之一。當前,樟科分類系統問題尚未解決,先前基于部分形態學特征建立的無根藤亞......
中國科學院昆明動物研究所馬占山團隊與天津大學教授鄒權、廈門大學科研人員聯合發布了為千兆(GB)級基因序列數據構建進化樹的軟件HPTree。該軟件使用谷歌Hadoop并行技術和美國加利福尼亞大學伯克利分......
近日,中國科學院昆明動物研究所馬占山團隊與天津大學教授鄒權、廈門大學科研人員聯合發布了為千兆(GB)級基因序列數據構建進化樹的軟件HPTree。該軟件使用谷歌Hadoop并行技術和美國加利福尼亞大學伯......
近幾年來,腫瘤產生耐藥突變以逃逸靶向治療的假說已被業內科學家所默認。最近一段時間,幾項重要的研究對這一假說進行了充分的證實,腫瘤學家CharlesSwanton領導的肺癌癌癥進化阻斷計劃(TRACER......
朝確定鳥類譜系中主要分枝間進化關系的目標邁出了巨大一步美國科學家近日進行了一項迄今為止規模最大的鳥類遺傳學研究,重塑了鳥類進化樹。這一研究的范圍頗為廣闊,許多鳥類的學名將會因之而改變,而生物學教科書和......