遺傳變異圖譜是研究人群演化史、醫學遺傳學、基因型-表型關聯的基礎。此前,大多數全基因組測序相關研究主要集中在歐洲血統人群。已有研究表明,罕見和低頻的變異往往特定于人群或樣本,尤其是與疾病相關的變異。針對特定人群的基因組數據可以為全基因組關聯研究、區域適應性研究、用藥指導等提供更準確的參考。
單倍型參考面板可基于大型人群隊列中已知的單倍型信息,對來源于相對稀疏的基因變異芯片或低覆蓋率測序樣本中缺失的基因型進行推演,是促進全基因組關聯研究 (genome-wide association study, GWAS) 有意義且具有成本效益的方法。此前缺乏中國人群特異的參考面板,其他參考面板對中國人群特異的變異推演效果較差,從而導致GWAS中遺漏潛在的表型相關變異。
中國人群全基因組測序資源和單倍型參考面板的缺乏阻礙了世界上最大人群的遺傳學與精準醫學研究。為此,中國科學院院士、中科院生物物理研究所研究員徐濤團隊,研究員何順民團隊合作,在Cell Reports上在線發表了題為NyuWa Genome Resource: A Deep Whole Genome Sequencing-Based Variation Profile and Reference Panel for the Chinese Population的文章,介紹該團隊關于"女媧"(NyuWa)中國人群基因組資源庫(http://bigdata.ibp.ac.cn/NyuWa/)的工作,提供針對中國人群的遺傳變異圖譜與參考面板基因型推演服務,旨在促進中國人群的遺傳學與醫學研究。
研究團隊分析了2,999個中國人的全基因組深度測序數據(26.2X),并以“女媧”命名。基于NyuWa數據資源,研究構建了包含7106萬SNPs和819萬InDels的中國人群遺傳變異圖譜(圖1),并對其進行全面注釋。相比其它人群隊列,NyuWa數據集包含2501萬新變異,其中包括14.9萬非同義變異、10.1萬有害變異、11493個編碼和非編碼基因的功能喪失變異、636個癌癥相關基因的蛋白截短變異。大量新變異表明,在以往遺傳研究中,中國人群的變異代表性不足,NyuWa基因組資源則填補了這一空缺。此外,根據臨床相關數據庫的注釋,研究在NyuWa中發現了1,140個致病變異,以及藥物基因組學相關位點(圖2A)和癌癥風險位點(圖2B)上中國人群與世界其他人群的變異頻率差異。這些發現有助于中國人群精準醫學研究,可能促進新的遺傳學和醫學進展。
為漢族人群構建一個完整的、大隊列的、高質量的參考面板,對漢族的遺傳學與醫學研究具有參考價值。基于NyuWa數據資源,科研人員構建了包含5804個單倍型和1926萬變異的單倍型參考面板,其中325萬變異未包含在其它參考面板中,這些NyuWa參考面板特有變異可能會在未來關聯研究中帶來新發現,是首個數千人級別公開可用的中國人群特異的單倍型參考面板。為評估NyuWa參考面板的基因型推演性能,科研人員使用來自人類基因組多樣性計劃(the Human Genome Diversity Project, HGDP)的亞洲各個人群芯片基因分型數據和高覆蓋率WGS數據作為測試數據集。與其他參考面板相比,NyuWa參考面板將漢族人群基因型推演的錯誤率降低了30%-51%,在大多數其他東亞和東北亞人群中也有優異表現(圖3A-D)。研究進一步比較了不同等位基因頻率的推算結果和實際基因型之間的相關性,NyuWa參考面板性能在漢族的所有等位基因頻率區間中均具有絕對優勢(圖3E)。此外,NyuWa參考面板與千人基因組(1KGP3)面板的結合進一步提高了亞洲人群的基因型推演效果。考慮到南北方漢族遺傳差異,科研人員將NyuWa參考面板中的樣本分為北方和南方子集,使用子集樣本分別構建北方和南方漢族的參考面板,通過基因型推演的模擬測試,證明以NyuWa的人群規模,一個南北整合的參考面板對中國北方人和南方人均適用(圖4)。
綜上,基于中國人群的大型隊列深度WGS數據,研究構建了中國人群的遺傳變異圖譜和首個數千人級別公開可用的中國人群單倍型參考面板,將所有結果整合為中國人群基因組資源庫NyuWa(圖5),有助于中國和亞洲人群的遺傳學和精準醫學研究。當前有關醫學基因組學的知識和指南主要來自以歐洲人群為主的遺傳和基因組資源,可能遺漏有關非歐洲人群的遺傳信息。亞洲人群起源、遷徙和融合歷史悠久而復雜,使得其遺傳多樣性研究面臨挑戰和機遇。針對中國人群的全基因組測序工作,對于擴充世界人群遺傳資源多樣性、提高中國人群醫學研究準確性十分必要,有助于深入了解亞洲人群結構與人群歷史,并對尋找復雜疾病遺傳因素的研究設計以及人口健康指導具有參考價值。
研究工作得到中科院戰略性先導科技專項、國家自然科學基金、國家重點研發計劃、中科院“十三五”信息化專項、國家基因組科學數據中心的支持。
論文鏈接:https://www.sciencedirect.com/science/article/pii/S2211124721014996
圖1.NyuWa全基因組測序資源的變異數量
圖2.NyuWa中的藥物基因組學位點(A)與癌癥風險基因座(B)變異
圖3.NyuWa參考面板對漢族基因型推演具有最佳性能
圖4.南北方漢族測試數據集的基因型推演錯誤率
圖5.NyuWa資源庫
美國國立衛生研究院領導的研究團隊在人體中發現了100多個可能影響血壓的基因組新區域,并確定了幾個與鐵代謝和腎上腺素能受體有關的風險基因座。這些見解有助于發現潛在的血壓藥物靶點。NIH領導的研究發現,遺......
日前,記者從西北農林科技大學獲悉,該校近期聯合西藏農牧科學院等多家科研機構,在藏綿羊基因組中發現了一個包含β-珠蛋白(HBB)的受選擇位點。科研人員進一步分析,該位點包含一段較為復雜的結構變異。這一發......
本報北京4月9日電(記者楊舒)對葉榕是一種廣泛分布于我國南方的植物。近日,中國農業科學院深圳農業基因組研究所農業基因組學技術研發與應用創新團隊發布首個對葉榕的完整基因組,修正了此前學界對其基因組測序繪......
海鷗與丹頂鶴、老鷹與貓頭鷹,這幾組看似“風馬牛不相及”的鳥類,不久前剛認上親。浙江大學生命演化研究中心張國捷教授聯合國內外學者,正在組織收集世界上現生一萬多種鳥類的基因組及形態信息,旨在構建起鳥類物種......
中新網北京4月3日電(記者孫自法)施普林格·自然旗下學術期刊《自然-通訊》最新發表一篇遺傳學論文認為,罕見的會引起蛋白質改變的遺傳變異和微管蛋白基因,可能與人類俗稱“左撇子”的左利手的形成有關。這項研......
近日,“女媧”基因組團隊重點闡釋了適應性選擇下非編碼調控元件對表型演化的影響,相關研究發表于《分子生物學與進化》。這項工作是中國科學院生物物理研究所徐濤院士、何順民研究員牽頭的“女媧”(NyuWa)中......
通過分析基因組中數百萬個微小的遺傳差異,就可預測一個人一生中患某種疾病的幾率。在過去的10年中,研究人員為數十種疾病制定了風險評分,希望有一天患者能利用這些信息來降低患病風險。在《自然·醫學》雜志最新......
記國家自然科學基金重大研究計劃“基因信息傳遞過程中非編碼RNA的調控作用機制”在人類遺傳信息傳遞過程中,非編碼RNA不參與編碼蛋白質,占全部RNA的98%,如同宇宙中神秘的“暗物質”,是生命活動調控的......
近日,中國農業科學院深圳農業基因組研究所聯合國內多家單位發布了迄今為止最大的水稻群體水平倒位變異圖譜,并挖掘獲得了新的水稻耐熱優異等位基因,該研究對水稻育種改良具有重要意義。相關研究成果發表在《科學通......
近日,中國農業科學院深圳農業基因組研究所動物功能基因組學創新團隊研發出增強子鑒定新技術。該技術與傳統技術相比,平均分辨率提高了約10倍,為基因組的精確注釋提供了新方法。相關研究成果發表在《核酸研究》(......