2005年,Tettelin等人提出了微生物泛基因組概念(pangenome,pan源自希臘語‘παν’,全部的意思),泛基因組即某一物種全部基因的總稱。2009 年,Li等人首次采用新全基因組組裝方法對多個人類個體基因組進行拼接,發現了個體獨有的DNA序列和功能基因,并首次提出了“人類泛基因組”的概念,即人類群體基因序列的總和。2009 年泛基因組測序首次應用于人類基因組學研究;2013 年泛基因組測序應用于動植物研究領域。
如圖,泛基因組進而可以分為,核心基因組(core genome)和可變基因組 (variable genome)。核心基因指的是,在所有動植物品系或者菌株中都存在的基。可變基因組是指,在1個以及1個以上的動植物品系或者菌株中存在的基因。如果某個基因,僅存在某一個動植物品系或者菌株中,該基因還可以細分為品系或者菌株特有基因。一般來說,核心基因組控制著生命體基本生成代謝的功能。另外,結構變異中的存在/缺失變化(presnece/absence variation)是泛基因組的重點研究對象,因為可變基因組可能就是使個體產生不同性狀(抗病性,抗寒性等)的原因。
在漫長的進化過程中,由于地域因素,環境因素等的影響,每個個體都形成了極其特別的遺傳性狀,單一個體的基因組已經不能涵蓋這個物種的所有遺傳信息,另外一個原因,由于基因測序變得更加廉價,為近年來火爆的泛基因組的研究提供了可能性。
泛基因組是近年來比較流行的一種研究方向,通過對不同品種基因組進行測序,組裝,然后將組裝好的基因序列進行整合注釋,進而獲取這個物種全部的遺傳信息并且對每一個個體間遺傳變異信息進行解析。
目前比較流行的研究方法與三種:K-mer based assembly,重頭組裝和 迭代組裝)
下面主要給大家講解講:重頭組裝 和 迭代組裝兩種方法。
這是構建泛基因組最經典的方法,分別對多個個體進行,分別的De novo assembly,然后將所得的每個個體的新組裝的序列與參考序列reference基因組進行比對,找出比對不上的區域,再進行進一步的assembly,然后注釋。此方法需要更多的電腦資源,因為需要對每一個個體進行分別進行重頭組裝,然后還需要全基因組比對。該方法比較適合基因組相對較小的植物。
相當于一種迭代的方式,分別將每一個材料的reads比對到參考基因組中,然后找出沒有比對上的部分進行組裝,得到新的基因序列進而擴展原有的參考序列。一步一步這樣迭代,直到所有的種系都處理完。最后建立起的泛基因組,再進行注釋。這種方法,相對需要更少電腦資源,比較適合構建基因size相對較大的植物泛基因組,但是可能會產生更多的小片段。
泛基因組測序是運用高通量測序及生物信息分析手段,針對不同亞種/個體材料進行測序及泛組裝,構建泛基因組圖譜,豐富該物種的遺傳信息。泛基因組測序不僅可以獲得多個基因組,完善該物種的基因集,還可以獲得種群甚至個體特有的DNA序列和功能基因信息,為系統進化分析及功能生物學研究奠定基礎。泛基因組也可以看作是對重測序數據的一種挖掘,挖掘發現每一個材料中獨特的基因,進而進行進一步的分析。
選擇不同亞種材料進行泛基因組測序,可以研究物種的起源及演化等重要生物學問題;選擇野生種和栽培種等不同特性的種質資源進行泛基因組測序,可以發掘重要性狀相關的基因資源,為科學育種提供指導;選擇不同生態地理類型的種質資源進行泛基因組測序,可以開展物種的適應性進化,外來物種入侵性等熱門科學問題的研究,為分子生態學等學科提供新的研究手段。
還有我認為泛基因組還可以應用到尋找新的snps。
泛基因優勢如下:
對比單一的reference基因,可以有效提高可發現的snps數量
用泛基因組去calling snps 意味著你可以節省很多電腦資源和分析時間。(正常snap calling需要比對到不同的個體上,但如果通過泛基因組去calling snps,就可以一步到位,因為這個pangenome 相當于所有個體的集合。另外,這也意味著,你得出的snps 組不需要整合(傳統的snp calling需要整合,因為需要比對到不同個體上)
還有一個好處就是,因為pangenome包括了進一步presence/absence variations 的分析,我們可以區別出這種snp是屬于核心基因的,還是屬于可變基因的。然后,再結合你表現型的數據,這對利用snp提高農作物產量是很有意義的。
Golicz, Agnieszka A., Jacqueline Batley, and David Edwards. "Towards plant pangenomics." Plant biotechnology journal 14.4 (2016): 1099-1105.
Golicz, Agnieszka A., et al. "The pangenome of an agronomically important crop plant Brassica oleracea." Nature communications 7 (2016): 13390.
Hurgobin, Bhavna, and David Edwards. "SNP Discovery Using a Pangenome: Has the Single Reference Approach Become Obsolete?." Biology 6.1 (2017): 21.
Li, Ying-hui, et al. "De novo assembly of soybean wild relatives for pan-genome analysis of diversity and agronomic traits." Nature Biotechnology32.10 (2014): 1045-1052.
Maretty, Lasse, et al. "Sequencing and de novo assembly of 150 genomes from Denmark as a population reference." Nature (2017).d
事件焦點:為什么是它?3月4日,中國將美國基因測序公司因美納(Illumina)列入“不可靠實體清單”,引發行業震動。這家生產基因測序儀的公司看似低調,卻是全球生物實驗室的“水電煤”——它的設備幾乎壟......
通過轉錄組測序獲得人的基因表達譜數據,能進一步挖掘疾病相關的生物標志物,為臨床診斷提供依據。目前,由于轉錄組測序無法溯源,導致不同實驗室及測序平臺產出的數據可比性和測序結果的準確性面臨挑戰。中國計量科......
科技日報北京8月15日電(記者張佳欣)據最新一期《自然》雜志報道,德國康斯坦茨大學和維爾茨堡大學領導的國際研究團隊,對動物界最大基因組的擁有者——肺魚進行了基因組測序。肺魚基因組約為人類基因組大小的3......
據最新一期《自然·遺傳學》雜志報道,由多個機構組成的國際“端粒對端粒(T2T)”聯盟正在推進“反芻動物端粒-端粒”項目,旨在對300多種反芻動物的基因組進行測序。研究團隊期望通過測序得到的基因組圖譜,......
瑞士洛桑聯邦理工學院開發了一種名為CARBonAra的新型人工智能(AI)驅動模型。該模型可以根據不同分子環境所施加限制的主鏈支架預測蛋白質序列,有望在蛋白質工程及包括醫學和生物技術在內的多個領域帶來......
科技日報北京8月8日電(記者劉霞)據最新一期《自然·遺傳學》雜志報道,由多個機構組成的國際“端粒對端粒(T2T)”聯盟正在推進“反芻動物端粒-端粒”項目,旨在對300多種反芻動物的基因組進行測序。研究......
美國格拉德斯通研究所團隊開發了兩種新的單分子分析工具,可將所需的DNA量減少90%至95%。該研究成果發表在最新一期《自然·遺傳學》雜志上,展示了這些工具如何幫助科學家解決他們以前無法回答的生物學問題......
鷹嘴豆是世界第三大豆類作物,具有重要的經濟價值和營養價值,其固氮能力能改善土壤肥力,具有獨特的生態價值。但鷹嘴豆的遺傳背景相對狹窄、抵抗生物或非生物脅迫的能力不足,限制了它的育種改良。5月29日,華大......
近日,國家藥典委員會發布了《微生物全基因組測序技術指導原則》的第二次公示稿,以征求社會各界的意見和建議。公示期為一個月,從即日起至2024年7月1日結束。《微生物全基因組測序技術指導原則》旨在為藥品微......
華大智造近日公布了其2023年的財務報告,2023年的營業收入達到了29.11億元,較2022年的42.31億元降低了31.19%。營業總成本33.31億元,其中研發投入9.1億元,占總收入的31.2......