<li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 發布時間:2021-06-10 10:34 原文鏈接: 關于三代基因測序,你所需要知道的都在這兒!

      一、導讀:

      在大部分投資者對“二代測序”(NGS)還沒有搞清技術細節的情況下,“三代測序”(3GS)又火了。

      6月17日,醫藥板塊中基因測序相關標的在“三代測序技術獲得重大突破”的新聞影響上出現明顯漲幅,我們也接到較多投資者對相關新聞的背景及觀點的詢問。為此,我們結合各方面資料歸納總結了三代基因測序的發展歷史、原理、優劣勢,以及國內外布局的公司等(也就是說,這是篇三代測序“科普文”)。此外,我們對該英文文獻部分原文進行了意譯,以期能夠對最新的算法和行業技術有粗淺的了解,有不符合原文意思之處,望多多海涵。

      新聞背景:

      中科院昆明動物研究所研究員馬占山與美國馬里蘭大學葉承曦博士在基因測序領域的合作再次取得重要突破。合作團隊近日正式發布了一款代號為 Sparc 的軟件,針對第三代基因測序儀硬件錯誤率高達15%-40%的問題,研發出“基于稀疏分解的線性復雜度算法”,Sparc軟件基于該新算法完成。使用測序深度為30x的Pac Bio 數據, Sparc能夠達到錯誤率低于0.5%;使用更具有挑戰性的Oxford Nanopore數據,Sparc能夠達到和NGS相似的錯誤率。與現行方法相比,Sparc對于一致序列的計算更加準確,并且節省80%的內存和時間。這一重要突破為推進基因測序技術邁向三代技術的產業升級提供了又一關鍵軟件技術。

      總體觀點:

      我們認為,以Helicos公司的Heliscope單分子測序儀、Pacific Biosciences公司的SMRT技術和Oxford Nanopore Technologies公司的納米孔單分子技術為代表的三代測序技術在經過了多年發展后已經逐步趨于成熟。盡管當下該技術還有成本偏高、錯誤率較高、生物信息學分析軟件不夠豐富的問題,但其在讀長、測序速度等方面都具有明顯優勢,三代測序設備已實現穩定性、小型化,未來隨著準確度提升、平行測序能力和酶活性等問題的解決,第三代測序技術是未來發展的重要技術趨勢,實現大規模商業化將是大勢所趨。

      具體到Sparc這一算法,根據文獻我們認為其具有幫助提高測序精度、降低測序成本的可能性(特別是混合使用NGS和3GS數據時,或能夠明顯降低成本),值得給予關注。但是否能夠實現商業化引用還有待觀察(其發表的PeerJ期刊以影響因子及投稿命中率衡量并不是一線期刊)。而對于精準醫療板塊,我們認為,雖然精準醫療在高估值和部分行業事件(如魏則西事件)的影響下表現平平,但也不乏催化劑,2016年3月8日,國家發布《科技部關于發布國家重點研發計劃精準醫學研究等重點專項2016年度項目申報指南的通知》。考慮到年初以來相關標的已有較大跌幅,如果后續市場風險偏好提升且有持續催化劑(如新的行業規劃出臺或者相關企業獲得國家科技部精準醫學研究重點專項支持),也是值得關注的領域,同時建議關注部分前期未完全發酵的新技術主題(如液體活檢),關注新開源、麗珠集團、潤達醫療、迪安診斷、美康生物。

      風險提示:相關標的絕對估值較高,政策催化及技術革新具有不確定性。

      二、三代測序行業背景:

      1、基因測序技術發展的歷史

      1986年,第一臺商用基因測序設備出現,間隔19年,第二代測序設備出現,從第二代設備到第三代設備只用了5年,說明基因測序設備更新換代速度加快。第一代測序技術,主要基于 Sanger雙脫氧終止法的測序原理,結合熒光標記和毛細管陣列電泳技術來實現測序的自動化,基本方法是鏈終止或降解法,人類基因組計劃就是基于一代測序技術。第二代測序技術,早期代表平臺包括 Illumina 的 Solexa、LifeTechnologies的Solid、羅氏的454平臺等,目前二代測序設備在通量、準確度上都有了較大的提高,同時測序成本也隨之大幅度下降,成為商用測序的主流。第三代測序技術又稱為單分子 DNA 測序,即通過現代光學、高分子、納米技術等手段來區分堿基信號差異的原理,以達到直接讀取序列信息的目的,三代測序設備在DNA 序列片段讀長上優于二代設備,但在準確度上較二代設備差,未來隨著技術的改善,三代測序設備將更為穩定和成熟。

      2、第三代基因測序方法原理

      Helicos公司的Heliscope單分子測序儀、Pacific Biosciences公司的SMRT技術和Oxford Nanopore Technologies公司的納米孔單分子技術,被認為是第三代測序技術。與前兩代技術相比,他們最大的特點是單分子測序,其中,Heliscope技術和SMRT技術利用熒光信號進行測序,而納米孔單分子測序技術利用不同堿基產生的電信號進行測序。

      PacBio SMRT技術應用了邊合成邊測序的思想,并以SMRT芯片為測序載體,芯片上有很多小孔,每個孔中均有DNA聚合酶。測序基本原理是: DNA聚合酶和模板結合,4色熒光標記4 種堿基(即是dNTP),在堿基配對階段,不同堿基的加入,會發出不同光,根據光的波長與峰值可判斷進入的堿基類型。DNA 聚合酶是實現超長讀長的關鍵之一,讀長主要跟酶的活性保持有關,它主要受激光對其造成的損傷所影響。另外,可以通過檢測相鄰兩個堿基之間的測序時間,來檢測一些堿基修飾情況,既如果堿基存在修飾,則通過聚合酶時的速度會減慢,相鄰兩峰之間的距離增大,可以通過這個來之間檢測甲基化等信息。SMRT技術的測序速度很快,每秒約數個dNTP。但是,同時其測序錯誤率比較高(這幾乎是目前單分子測序技術的通病),達到15%,但好在它的出錯是隨機的,并不會像第二代測序技術那樣存在測序錯誤的偏向,因而可以通過多次測序來進行有效的糾錯(代價是重復測序,也就是成本會增加)。

      相關技術確實專業性較強,若文字版難以理解,請移步視頻版本:http://www.le.com/ptv/vplay/24994915.html?ch=baidu_s

      Oxford Nanopore Technologies公司所開發的納米單分子測序技術與以往的測序技術皆不同,它是基于電信號而不是光信號的測序技術。該技術的關鍵之一是,設計了一種特殊的納米孔(只能容納單分子通過),孔內共價結合有分子接頭。當DNA堿基通過納米孔時,它們使電荷發生變化,從而短暫地影響流過納米孔的電流強度(每種堿基所影響的電流變化幅度是不同的),靈敏的電子設備檢測到這些變化從而鑒定所通過的堿基。

      如果閱讀文字版無法理解的,同樣請移步視頻版(英文):http://v.youku.com/v_show/id_XNjYzMDUxNzY4.html

      3、第三代基因測序技術的優勢和劣勢

      相比于二代測序,三代測序具有如下優勢:

      1)第三代基因測序讀長較長,如 Pacific Biosciences 公司的 PACBIO RS II 的平均讀長達到 10kb,可以減少生物信息學中的拼接成本,也節省了內存和計算時間。

      2)直接對原始DNA樣本進行測序,從作用原理上避免了 PCR 擴增帶來的出錯。

      3)拓展了測序技術的應用領域,二代測序技術大部分應用基于DNA,三代測序還有兩個應用是二代測序所不具備的:第一個是直接測RNA的序列,RNA的直接測序,將大大降低體外逆轉錄產生的系統誤差。第二個是直接測甲基化的DNA序列。實際上DNA聚合酶復制A、T、C、G的速度是不一樣的。正常的C或者甲基化的C為模板,DNA聚合酶停頓的時間不同,根據這個不同的時間,可以判斷模板的C是否甲基化。

      4)三代測序在ctDNA,單細胞測序中具有很大的優勢:ctDNA含量非常低,三代測序技術靈敏度高,能夠對于1ng以下做到監測;在單細胞級別:二代測序要把DNA提取出來打碎測序,三代測序直接對原始DNA測序,細胞裂解原位測序,是三代測序的殺手應用。

      同時,第三代基因測序也存在一定的缺陷:

      1)總體上單讀長的錯誤率依然偏高,成為限制其商業應用開展的重要原因;第三代基因測序技術目前的錯誤率在15%-40%,極大地高于二代測序技術NGS的錯誤率(低于1%)。不過好在三代的錯誤是完全隨機發生的,可以靠覆蓋度來糾錯(但這要增加測序成本)。

      2)三代測序技術依賴DNA聚合酶的活性。

      3)成本較高,二代Illumina的測序成本是每100萬個堿基0.05-0.15美元,三代測序成本是每100萬個堿基0.33-1.00美元。

      4)生信分析軟件也不夠豐富。

      4、國內外布局三代測序的公司

      國外布局三代測序的主要有Pacific Biosciences、Oxford Nanopore Technologies等公司,2015 年 10 月 27 日,國內公司瀚海基因(Direct Genomics)公布了基于 Helicos 技術研發的專門用于臨床的第三代單分子測序儀 GenoCare 原理樣機。中科院北京基因組研究所與浪潮基因組科學也在共同研制國產第三代基因測序儀。在測序儀價格方面,PACBIO 2011年的第一臺三代測序儀PacBio RS在美國價格80萬美金,2015年生產的sequel測序儀價格35萬美金,大幅下降。在測序成本方面,預計未來5年內三代測序能達到100美元全基因組測序的價格。

      目前,三代測序設備已實現穩定性、小型化,價格也在不斷下降,分析軟件不斷豐富,我們認為隨著準確度提升、平行測序能力和酶活性等問題的解決,第三代測序技術是未來發展趨勢,實現大規模商業化將是大勢所趨。

      三、原文文獻翻譯縮減版

      原文為《Sparc: a sparsity-based consensus algorithm for long erroneous sequencing reads》,鑒于PeerJ期刊2016年6月8日(影響因子為2.183,投稿命中率為52.22%,在各類SCI期刊中屬于比較普通的水平)

      摘要:

      Sparc軟件通過高效的線性復雜度一致性算法,將目標基因組區域的序列構建k聚體圖,幫助基因組的從頭組裝。權重最大的路徑最近似于基因組真實序列,通過稀疏分解誘導的算法對序列圖譜不斷重新調整權重,從而得到一致性序列。Sparc 能夠支持同時使用NGS和3GS數據,極大改善成本和計算方法有效性。

      使用測序深度為30× 的PacBio 數據,Sparc能夠達到錯誤率低于0.5%;使用更具有挑戰性的OxfordNanopore 數據,Sparc能夠達到和NGS數據相似的錯誤率。與現行方法相比,Sparc對于一致序列的計算更加準確,并且節省80%的內存和時間。

      前言:

      與前面幾代測序技術相比,三代測序技術在每個片段能夠提供5-120kb的讀長。然而,根據2012年和2015年兩篇文獻的介紹,Pac Bio測序錯誤率大約為15%(2012年),OxfordNanopore 測序的錯誤率高達40%(2015年),高的測序錯誤率為使用3GS測序進行基因組拼接提出了很大的挑戰。

      使用三代測序數據進行基因組的從頭組裝,主要需克服三個瓶頸:1)找到重復序列;2)序列對比;3)序列優化/序列糾錯。高效地糾正這些長錯誤序列是個重大的難題,下圖顯示這三個主要挑戰,其中最后一步是這篇文獻的主要解決的問題:

      一致性算法對于基因組拼接非常關鍵,有以下幾個原因:1)一致性算法是匯編程序產生高質量輸出結果的必要部分。2)糾錯程序提高了輸入序列的準確度。每個組裝重疊序列(或者稱為主干序列-backbone)作為靶序列,每次測序結果作為查詢序列(query sequences)與靶序列對比。另一種情形,每個長錯誤測序結果作為靶序列,NGS或者3GS序列作為查詢序列;通過同時使用NGS數據和3GS數據,即混合組裝方法,是廣泛采用的組裝方法。由于NGS短序列的成本更低、準確率更高,因此將兩種數據結合可以降低成本,并且緩解整個管線的計算壓力。3)最后一個步驟占用了大部分的計算時間,因此,高效的一致性算法極大地加速了基因組組裝過程。

      我們借助了著名的de Bruijn/k聚體圖,針對3GS數據設計了一種更簡便的方法。在我們的sparc算法中,每個節點是一個k聚體,為節省內存,同一位置的k聚體進行合并,k聚體之間的連接的得分代表連接的可靠性,因此,最終得分最高的路徑是最近似于一致序列。Sparc可以在低內存的條件下提供極好的結果,而不用使用其他作圖簡化技術。由于技術的簡便性,此算法相比較主流的3GS測序項目PBdagcon,速度加快五倍,內存也節省五倍。此外,由于主流NGS測序數據的準確性(>99%)更高,所以利用成本更低的NGS代替部分高成本的3GS數據是值得的,在混合情形下,Sparc能夠提供高質量的結果。

      實驗方法:

      1、搭建原始圖

      首先搭建一個原始的k聚體圖,稱為backbone(骨架),即靶序列,k聚體是位置特異的,不同的位置相互獨立。將k聚體分配到每個位置占用大量內存,特別是在下一個實驗步驟。為了節省內存,我們構建一個稀疏k聚體圖,在每g個堿基存儲一個k聚體,從而減少高達1/g的內存消耗。同時我們記錄k聚體節點之間的連接,連接的得分代表相應路徑的置信度。在原始圖中,連接的多樣性是1,因此連接的得分是1。

      2、與靶序列對比,建立全景圖

      (i) 如果查詢序列顯示新的路徑,我們建立一個分支,分配新的k聚體節點和連接。如下圖3b中顯示,當我們將Seq1的最后六個堿基與靶序列對照時,兩個新的連接ACC和AAA 的復雜性是1,分配一個k聚體節點。(ii) 如果查詢序列和現有序列完美契合,我們不分配新的節點,而是增加連接的得分,我們也可以從下圖3b中看出,當我們對照Seq1序列的前五個堿基時,節點AC, GG和連接 TGG 和原靶序列重合,并且連接得分增加1分。當我們和現有圖對照Seq2的最后六個堿基時,節點和連接與Seq1重合,連接得分增加1分。這個構圖過程和de Bruijn做圖方法相似,但是我們區分了節點以及他們的位置。

      3、調整圖的權重得分

      通過上一步驟,得分最高的路徑具有最高的置信度,也就是最接近于真實的序列。然而,直接使用這個結果可能導致錯誤,一個簡單的例子是長的插入錯誤,為了避免這種情況的發生,我們將連接得分減去一部分,減去的這部分取決于覆蓋率。同時引入參數b增加可靠連接的權重(b=5~10)。

      4、輸出結果

      實驗結果:

      Sparc已經在多種數據集上進行了測試,我們的實驗是基于對PacBio數據集和OxfordNanopore數據集的測試。Sparc是一個堿基水平的一致性算法,公平起見,我們用我們的程序和最相似的項目PBdagcon(主要用在HGAP和MHAP管線用來糾正序列)做了對比。

      兩個程序都輸入一樣的數據,得到組裝骨架和用DBG2OLC收集每一個骨架有關聯的序列。Blasr用來序列對比,最后的一致錯誤率通過MUMmer3里的ednadiff方程來計算。所有的實驗都在一個用AMD Opteron2425HE CPUs的工作站(800MHz)。在一些實驗中,我們提供二代和三代測序數據,在這些混合的組合中,50XIllumina匯編重疊群也包含在內,邊界權重增長b=5~10。測序深度為 50X的Illumina提供中等的覆蓋度從而允許現成的基于deBruijn圖譜的匯編程序來匯編高質量重疊群。

      在PacBio數據集,我們設置k=1,g=1,并運行一致算法四輪。每一個堿基的錯誤率在1/2/4輪次后在表1和2中分別報告為ERR1,ERR2和ERR4。在第一個實驗中,我們使用大腸桿菌PacBio數據集和用不同的覆蓋度測試其準確性。DBG2OLC用10X/30X的測序深度得到的最長骨架分別是1.3Mb和4.6Mb。一個重要的匯編情境就是當我們既有二代又有三代測序數據時,我們發現Sparc可以實現混合匯編,而且使它們都有很高的計算效率和很好的成本效率。兩輪之后,Sparc在混合數據處理方面只用10X的測序深度就可以達到0.09%的錯誤率,相比PBdagcon的0.64%的錯誤率是一個明顯的飛躍。當用30X的測序深度時,結果正如預期一樣更好(0.02%)。算法運行兩輪以上結果將更加改善,表1和表2中有其各自運行兩輪的時間。

      Sparc對大量數據的測序表現更好,我們展示了Sparc和PBdagcon在一個更大的20X的PacBio A.thaliana 數據集 (基因組大小:120 Mbp)。DBG2OLC得到的最長骨架是7.1Mbp。Sparc跑完用了PBdagcon五分之一的時間和內存,但卻產生了更精確的結果。這里我們用一個由MHAP得到的純PacBio全基因用作參考系來計算錯誤率。

      在Oxford Nanopore數據集中,考慮到較高的誤碼率我們設置k=2,g=2,運行一致算法四輪。每一個堿基的錯誤率在1/2/4輪次后在表3中被報告為ERR1/2/4。第一、二行為僅使用Oxford Nanopore(ON)的數據,第三、四行為使用混合數據的結果。

      即使原始錯碼率可能高達40%,我們程序的測試錯碼率都低于0.5%。與此相反,非混合數據得到的結果則不那么有用。在本次測試中最長的骨架是4.6 MBP。兩個程序運行四輪的時間報告在表3中。

      Sparc對不同參數相對不是很敏感,因此即使對初用者來說也很容易使用。我們在第二輪變換了參數,只用PacBio數據。表4中報告了不同k、g相對應的內存、時間和結果質量。使用稍大尺寸的k聚體會增加每個堿基測序的準確性,這個效應對多倍基因組更明顯。但是,這也增加了內存的使用,因為支鏈節點也相應產生。設置一個大一點的g可以幫助我們減少內存的消耗,不同的權重增加的對二代測序數據在混合一致數據中的影響可以在表5中得見。經驗得出,在不影響準確性的前提下,這個參數被設置為b=5~15比較安全。實踐中,我們將它設為一個比較低的值(b=5~10),從而更好地使用三代測序數據。

      實驗結論:

      一致模型是一個重疊-布局-一致匯編程序框架的關鍵組成部分。隨著三代測序技術的引入,它的重要性在進一步提高。在這項工作中,我們驗證了一個簡單但是高效的一致算法:使用k聚體作為基礎模塊和從位點特異的k聚體圖譜可以產出高質量一致序列,它支持混合測序這一點使得成本效率和計算效率大大提高。該方法可望顯著擴大其在測序糾錯和變異發現方面的應用。一致測序質量也可以通過平臺特異性、信號信息的整合進一步得到提高。

    相關文章

    科學家測序動物界最大基因組

    科技日報北京8月15日電(記者張佳欣)據最新一期《自然》雜志報道,德國康斯坦茨大學和維爾茨堡大學領導的國際研究團隊,對動物界最大基因組的擁有者——肺魚進行了基因組測序。肺魚基因組約為人類基因組大小的3......

    動物保護新動作,300多種反芻動物基因組將測序

    據最新一期《自然·遺傳學》雜志報道,由多個機構組成的國際“端粒對端粒(T2T)”聯盟正在推進“反芻動物端粒-端粒”項目,旨在對300多種反芻動物的基因組進行測序。研究團隊期望通過測序得到的基因組圖譜,......

    預測蛋白質序列的新AI模型問世

    瑞士洛桑聯邦理工學院開發了一種名為CARBonAra的新型人工智能(AI)驅動模型。該模型可以根據不同分子環境所施加限制的主鏈支架預測蛋白質序列,有望在蛋白質工程及包括醫學和生物技術在內的多個領域帶來......

    300多種反芻動物基因組將測序

    科技日報北京8月8日電(記者劉霞)據最新一期《自然·遺傳學》雜志報道,由多個機構組成的國際“端粒對端粒(T2T)”聯盟正在推進“反芻動物端粒-端粒”項目,旨在對300多種反芻動物的基因組進行測序。研究......

    細胞用量大幅減少,新技術提升單分子DNA測序水平

    美國格拉德斯通研究所團隊開發了兩種新的單分子分析工具,可將所需的DNA量減少90%至95%。該研究成果發表在最新一期《自然·遺傳學》雜志上,展示了這些工具如何幫助科學家解決他們以前無法回答的生物學問題......

    藥典委:《微生物全基因組測序技術指導原則》二次公示

    近日,國家藥典委員會發布了《微生物全基因組測序技術指導原則》的第二次公示稿,以征求社會各界的意見和建議。公示期為一個月,從即日起至2024年7月1日結束。《微生物全基因組測序技術指導原則》旨在為藥品微......

    華大智造2023年財報發布:核心測序業務穩步增30.31%

    華大智造近日公布了其2023年的財務報告,2023年的營業收入達到了29.11億元,較2022年的42.31億元降低了31.19%。營業總成本33.31億元,其中研發投入9.1億元,占總收入的31.2......

    3450萬,該高校6、7月份采購計劃出爐

    為便于供應商及時了解政府采購信息,根據《江蘇省財政廳關于做好政府采購意向公開工作的通知》等有關規定,現將南京醫科大學(本部)2024年5月(第1批)政府采購意向公告如下:編號項目名稱采購需求概況采購預......

    揭示不同類型供體血管導致冠狀動脈旁路移植術遠期效果差異的分子機制

    冠狀動脈旁路移植術(CABG)又被稱為冠狀動脈搭橋術,是改善心臟自身血供的手術,可以有效治療冠心病導致的心肌缺血。該手術從患者身上取下一段健康的血管供體,一端與升主動脈相連,另一端與冠狀動脈堵塞部位的......

    研究提出適用中國人群腫瘤突變負荷檢測技術

    西安交通大學計算機科學與技術學院生物信息管理與數字健康研究團隊與南京世和基因生物技術股份有限公司合作,提出了一種基于推薦思想的數據特征與檢測策略動態適配的腫瘤突變檢測方法。該方法基于元學習框架,根據測......

    <li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 1v3多肉多车高校生活的玩视频