相對于較早出現的Sanger雙脫氧核苷酸測序技術(簡稱Sanger測序),2005年后出現的NGS測序技術,使得基因組研究進入高通量時代,促進了基因組學科學研究及技術轉化應用。
在基因組學領域,NGS通常是next-generation
sequencing的縮寫,意為下一代或者新一代測序技術,亦有人稱之高通量測序技術(High-throughput
sequencing,HTS)、二代測序技術(second-generation
sequencing)。至于到底哪些測序技術屬于NGS,并無明確統一的界定,目前主要有兩種觀點,存在些許差別。
一、對NGS的第一種理解:
自動化的Sanger測序技術,通常被稱為“第一代”測序技術。以Sanger技術為起點,新出現的技術被稱為下一代測序技術(簡稱NGS)1。
這些新技術涉原理,依賴不同的模板制備方法(例如乳液PCR、DNA納米球、橋式擴增 、單分子模板)、序列測定方法(焦磷酸測序、基于可逆終止化學測序、基于連接反應的測序、磷酸連接熒光核苷酸或實時測序)、基因組比對與組裝方法等。
這種觀點認為目前的大規模并行測序技術都屬于NGS,包括Roche/454測序、Illumina/Solexa測序、Life的SOLiD與ION系列以及華大基因的BGISEQ/MGISEQ系列等;此外,持這種觀點的學者還將Helicos
BioScience、Pacific BioSciences以及Oxford
Nanopore的單分子及納米孔測序技術均納入NGS技術,并未單獨將其定義為第三代測序技術1~3。
二、對NGS第二種理解:
另一種理解認為 NGS主要是指基于大規模并行測序(massively parallel sequencing,簡寫MPS)的測序技術4。
大規模并行測序的關鍵技術誕生于上世紀90年代,于2005年商業化進入市場。這一技術同時對成百上千萬的待檢測DNA模板分子進行測序,加大了測序反應的效率與通量,使得一次測序實驗便能夠完成一個或更多的人類基因組序列的測定。盡管不同的大規模并行測序技術原理各不相同,但有一些共同特點,楊煥明老師有非常簡潔的總結5:(1)“裸”、“密”并行,每一個分子簇為一個裸露的測序反應,使得測序通量提高了幾個數量級;(2)測序通量 的提高,損失了下機的讀長(初期只有約20個堿基,現在已有顯著提升)。
盡管MPS的標本制備和測序原理不同于Sanger測序,但它與Sanger 測序一樣,仍需要對測序分子進行擴增,因而也不可避免的增加引入序列誤差的概率和GC偏差,也不能直接分析不同修飾的核苷酸5。
按照這一觀點,單分子測序不屬于NGS,而是更加新的技術。
三、NGS:Next-generation還是Now-generation?
隨著MPS成熟穩定,在2008~2010年左右,NGS有了一個新的含義,即Now-generation sequencing6,7,直譯為“當代”或者“現代“測序技術。
也就是說,“下一代”測序技術變成了“現代”測序技術。不過,Now-generation sequencing這一說提法并未被廣泛使用。因此在多數情況下,NGS主要是指Next-generation sequencing。
在高通量測序技術剛剛問世時,人們并沒有預料到測序技術的后續發展如此迅猛。因此,無論是Next-generation
還是Now-generation,其實都是一個比較籠統的提法,本身也意味著變化和發展。這也就不難理解為什么目前對于哪些技術屬于NGS會存在不同觀點了。
四、關于測序技術的代際:
上述話題牽涉出所謂的測序技術代際的問題。然而目前來看似乎并沒有統一的認定。
如果按照上文對NGS的第一種理解,目前的代際劃分似乎更多的用來區分Sanger
測序與非Sanger
測序。這兩類技術在原理和測序通量上都有存在較大差異,但也有相通之處。例如,無論是Sanger雙脫氧核苷酸測序,還是高通量測序中的邊合成邊測序技術,或者是基于連接反應的測序,其原理都依賴核苷酸的聚合反應。
目前測序儀代際劃分的分歧點主要圍繞“二代測序”和“三代測序”技術。“三代測序”這種提法出現于2008~2009年,當時主要是指有別于NGS的新型測序技術。一些學者認為單分子測序、實時測序以及核心方法有別于已有技術的方法,應是三代測序技術的定義性特征。目前,三代測序通常是指無需DNA擴增的單分子測序技術4。這種技術從原理與特點來看,有其自身優勢(比如測序能夠獲得較長的讀長,有望解決單倍體基因組組裝和結構變異識別),是測序技術發展的重要思路。
有學者指出,目前測序技術代際劃分,也許更多的是出于商業上的考慮,因為人們通常習慣性的認為技術代際升級代表了技術的演化。例如,Pacific
BioSciences 公司在其發表的論文中,將單分子實時測序技術與NGS進行了區分,被歸入三代測序技術8,其用意是不言而喻的。
單分子測序技術早在2003年就有概念性的論文發表9。2008年,Helicos
BioSciences推出了第一臺單分子測序儀,隨后Pacific BioSciences與Oxford
Nanopore也推出了各自商業化的測序儀。不過,也許是由于單分子測序對技術體系要求更高,這項技術的發展遠不如當初人們預想得那般迅猛,直至今日尚未達到NGS這樣的市場規模。這期間,Helicos
BioScience已于2012年破產,盡管其技術符合目前對三代測序技術的界定。
隨著更多的應用,單分子技術也陸續暴露出一些技術問題。例如,在近期的一篇論文中,研究人員對利用長讀長測序技術組裝的人類基因組進行分析,發現與短讀長組裝相比,長讀長組裝的蛋白編碼區域含有更多的錯誤10。盡管有學者指出,新的生物信息學工具已經能夠改善納米孔測序的組裝結果,有望從Oxford
Nanopore和PacBio的測序數據中獲得高質量的序列11。但是,真正的長讀長技術,只有達到或超越現有技術的性能和準確度時,才有實用意義。
從測序技術應用角度來看,某些應用也許并不需要長讀長的單分子測序技術。例如,基于外周血游離DNA測序的無創產前檢測,因目標DNA本身就是一百多個堿基的短片段,采用NGS就能夠比較好的進行檢測與分析,且成本也在逐漸下降。此外,通過一些間接技術手段,比如華大智造近期推出的stLFR測序12,也能夠在全基因組范圍內提供基因組長片段信息,包括分型、突變及基因組結構變異。
單分子測序技術從原理上具備潛力與優勢,值得進一步研發完善。但是未來能否達到預期的市場規模,甚至成為主流測序技術,還需要經過實踐檢驗。技術發展代際內的升級相對比較頻繁,而代際間的升級則相對緩慢,只有核心原理有創新并且跨越式超越前一代的技術,也許才更適合被定義為新一代技術。
總之,目前測序技術代際劃分較為模糊,且測序技術目前仍處于快速發展中。其中,SANGER與 NGS均引領了基因組技術的革命,推動了基因組學科技進步。前者為人類基因計劃(HGP)做出了主要貢獻,目前仍在是很多生物學與醫學實驗室的常規技術;后者則是當前基因組研究與應用的主流技術,直接為基因組測序的廣泛應用掃清了經濟上的障礙,使其不僅能更好的服務于科研,也正在成為精準醫學以及其他應用領域的重要工具。單分子技術則是測序技術發展的重要方向,開始嶄露頭角,但成熟與完善尚需時日。以上這些測序技術,均有各自的特點,也有其適合的應用范圍與應用場景。
附筆:
寫這篇小文的初衷,是近期因為有朋友提出過此類問題,也有人常將測序技術類比IT技術的發展。因此在這里分享自己的觀點,也期望與持不同意見的朋友交流探討。
特別感謝兩位曾經參與過水稻基因組計劃等早期基因組大項目的同事張建國博士與李勝霆博士,在春節假期期間分享了各自的觀點,并協助完善本文。
目前測序技術的代際劃分并沒有統一的認定。即使一個人,其觀點也會隨時間與認知的改變而發生某些變化。在2008年前后,我們單位的NGS平臺剛剛進入規模化穩定運行階段。也正是那個時候,出現了“三代技術”。業內不少人都認為這類單分子技術很快將取代NGS。但事實并非如此。我曾經的觀點認為單分子測序技術屬于三代技術,而目前則傾向于將其歸入NGS。
關于測序技術的代際,可以看看IT的代際。百度上是這樣劃分的:第一代計算機被稱為電子管計算機,第二代計算機被稱為晶體管計算機,第三代計算機成為中小規模集成電路計算機,第四代計算機成為大規模和超大規模集成電路計算機,第五代計算機,指具有人工智能的新一代計算機。IT的代際劃分主要源自技術原理的革新(第五代感覺主要是軟件上的革新),是認識計算機發展史和技術原理的需要,具有客觀存在的價值。新一代在性能上全面超越前一代。
從認識論的角度來講,大家習慣于根據技術劃分代際,代際升級代表了技術的演化。只有核心原理新并且跨越式超越前一代的技術才能被稱為新一代。新一代的出現首先是從技術原理上提出,有希望和潛力超越現有技術,然后從商業角度宣傳,有一些最終行不通的被淘汰,能發展成熟超越前一代的才會真正成為新一代。也有可能方向是對的,但是技術暫時跟不上,會經歷曲折的發展。這種代際認識在回顧歷史的時候最清楚。