基因組結構變異是很多癌癥、遺傳病等疾病的重要誘因。目前基于二代測序技術檢測基因組結構變異存在很大的局限性,而三代測序存在錯誤率較高等多種問題,尤其針對復雜結構變異大多軟件識別能力較差。針對這一問題,近日,在Nature Methods發表的一項最新研究中,研究人員開發了基因組比對工具NGMLR和結構變異識別工具Sniffles,為變異檢測提供了前所未有的靈敏度和精確度,即使在重復序列區域以及在可能對人體健康有重大影響的復雜結構變異中也是如此,并且NGMLR和Sniffles可以自動過濾虛假事件并對低覆蓋率數據進行操作,從而降低在臨床和研究應用中長讀長測序的高成本。
研究人員還比較了NGMLR和Sniffles在PacBio平臺和Oxford Nanopore平臺中的應用效果差異,并在已經過研究的樣本中鑒定出上千個新突變。
為研究結構變異開發新工具
大約兩年前,該研究的領導者、美國約翰霍普金斯大學計算機科學副教授Michael Schatz致力于長reads在癌癥基因組中的研究,然而,當研究小組使用已有工具進行結構變異檢測時,卻無法成功檢測到變異。
因此,Schatz研究團隊決定從分析工具開始這項研究。NGMLR和Sniffles是適用于長讀長測序的新型結構變異檢測工具,基因組比對工具NGMLR在基于短read比對方法的基礎上,考慮了PacBio和Oxford Nanopore平臺產生的數據類型。結構變異識別工具Sniffles是一款結構變異識別工具,可以根據比對結果進行掃描,精確檢測出結構變異。
NGMLR和Sniffles實施的主要步驟
新工具適于復雜結構變異檢測
根據模擬數據進行的工具評價
該研究中,為比較新開發工具與其他方法,研究人員對已知不同大小和類型結構變異進行了檢測,并與模擬數據進行對比,他們還根據擬南芥樣本和來自“瓶中基因組計劃”的德系猶太人三重測序數據對新開發工具進行了分析驗證。通過PacBio和Illumina的測序數據分析發現,在人類三重測序數據中,PacBio的孟德爾不一致率為5.6%,Illumina檢測到的為21%,表明Illumina的測序平臺對于易位變異的檢測可能存在一些問題。
隨后,他們又利用新分析工具在已經研究成熟的NA12878基因組中進行了檢測,將PacBio、Oxford Nanopore和Illumina的測序數據進行了效果比較。結果表明,結構變異識別工具Sniffles在PacBio的數據中檢測到15499個結構變異,在Oxford Nanopore數據中檢測到26657個SV,而短讀長結構變異軟件SURVIVOR在Illumina測序數據中僅檢測到7275個SV。
此外,在PacBio數據中檢測到的變異有95%能夠被Oxford Nanopore、Illumina或其他數據集驗證。而Oxford Nanopore數據的一致性較低,檢測到的SV中有11433個(43%)與數據集不一致,其中大部分位于同聚物或重復序列區域。
有趣的是,研究發現Oxford Nanopore和PacBio產生的數據錯誤類型完全不同。Oxford Nanopore數據的大部分錯誤都是同聚物區域的缺失,而PacBio檢測到的SV中有773個(5%)為PacBio數據所特有,大部分為小型插入。Schatz認為,這與測序系統的生物物理性能相關,由于熒光標記的核苷酸進入零模波導孔后,即使在未整合到DNA鏈的情況下也會進行成像,最終導致數據錯誤。
研究人員進一步在更加復雜的乳腺癌細胞系樣本中,只利用PacBio數據測試了NGMLR和Sniffles,共鑒定出15個基因融合事件,并進行了PCR驗證。
PacBio生物信息首席研究員Aaron Wenger表示,與開發用于短讀長測序的標準相同,這項研究證明了長讀長測序領域正在趨于“成熟”,標準的設置可以幫助研究人員判斷是否有效檢測到了SV以及分辨變異是真實存在的還是人為錯誤,有利于減少研究人員的時間和研究成本。
伯明翰大學教授Nick Loman認為,長讀長比對工具的開發和優化很有必要且非常重要,Nanopore數據中大量的假陽性indel需要利用更新版本的堿基識別軟件進行優化,目前該款軟件已經發布。
長讀長測序技術的優勢對整個基因領域而言是非常令人興奮的,新開發的開源基因組比對工具NGMLR和結構變異識別工具Sniffles為變異檢測提供了前所未有的靈敏度和精確度,即使在重復序列區域以及復雜結構變異中也是如此,還同時降低了實際應用中長讀長測序的高成本,這為結構變異的檢測帶來了新的希望。
自從20多年前首次對人類基因組進行測序以來,對人類基因組的研究幾乎完全依賴于單一的參考基因組,并與其他基因組進行比較,以確定遺傳變異。科學家們早就認識到,單一參考基因組不能代表人類的多樣性,而且使用它......
近日,中國科學院昆明動物研究所遺傳資源與進化國家重點實驗室、動物進化與遺傳前沿交叉卓越創新中心張亞平團隊與中國農業科學院農業基因組研究所開展合作,第一次系統地構建了家犬在馴化中的結構變異(Struct......
基因組結構變異是很多癌癥、遺傳病等疾病的重要誘因。目前基于二代測序技術檢測基因組結構變異存在很大的局限性,而三代測序存在錯誤率較高等多種問題,尤其針對復雜結構變異大多軟件識別能力較差。針對這一問題,近......
基因組結構變異是很多癌癥、遺傳病等疾病的重要誘因。目前基于二代測序技術檢測基因組結構變異存在很大的局限性,而三代測序存在錯誤率較高等多種問題,尤其針對復雜結構變異大多軟件識別能力較差。針對這一問題,近......
2013年度基因組生物學大會(TheBiologyOfGenomes2013)于5月7日晚在美國紐約冷泉港實驗室召開。這是基因組學領域最大的會議之一,吸引了多個著名研究所的大牛參加。會議主題包括高通量......
我科學家采用新一代測序技術為人類基因組結構變異檢測提供新方法我國科學家在人類個體基因組研究領域又取得一項重要成果。7月25日,由深圳華大基因研究院主導完成的“基于全基因組組裝數據檢測人類基因組結構變異......