在DNA測序過去的40年中,我們見證了諸多技術的變革和測序規模的極度增長。從幾千個堿基到第一個人體基因組,乃至當前數以萬計的人體和無數其它的基因組。包括作為大量分子現象的“計數器”在內,DNA測序被廣泛和創造性地應用于各個領域。從長遠來看,我們可以預測DNA測序技術所帶來的影響將會與顯微鏡的使用相媲美。
華盛頓大學基因組科學學院于十月份在國際頂級期刊《Nature》上發表了題為“DNA sequencing at 40: past, present and future”的綜述文章,用以紀念DNA測序四十周年。文章主要包含4個:1.DNA測序技術發展史,2.DNA測序的應用,3.DNA測序的未來,4.DNA測序——新的顯微鏡。本次主要為大家帶了第1部分內容的介紹(圖1)
DNA測序技術發展史
DNA測序技術的發展歷史很豐富,在幾十年間發生了多個模式的轉換。下面,我們回顧一下對生物聚合物進行測序的早期努力:電泳法DNA測序的發明和它們在人類基因組計劃上的拓展,以及二代(大規模平行測序,高通量)和三代(實時,單分子)測序技術的出現。
早期測序技術
Fred Sanger把自己的科研生命貢獻到了對基本序列的確定,他認為我們需要對生物分子特定化學結構的知識進行更深層次的了解。極具諷刺的是,即使是基于當前的生物高聚物進行測序技術,我們首先了解的卻是蛋白和RNA。
在20世紀50年代早期,Sanger確定了第一個蛋白序列,即胰島素,他把胰島素斷裂成兩條鏈,解碼每一條片段,然后通過兩條鏈之間的重疊區域將它們拼接成一條完整的鏈。他的這個工作明確地揭示蛋白具有特定模式的氨基酸殘基。隨后發展的Edman降解法,通過連續降解肽鏈的N端殘基,使蛋白測序變得更加簡單。即使這些方法顯得很笨重,但是到20世紀60年代末期,很多蛋白的序列已經被測定,顯而易見,每個蛋白序列在物種和個人之間是不同的。
在20世紀60年代,通過相同的處理過程解決了RNA測序問題:首先用RNases將RNA片段化,緊接著通過層析和電泳技術對這些片段進行分離,然后通過連續的外切酶降解對單個片段的序列進行測定,最后通過每個片段之間的重疊區域將它們連接成完整的RNA序列。第一個測序的RNA序列,即丙氨酸tRNA,對于其1g純凈的樣本,需要5個人工作3年才能確定其76個核苷酸。“指紋”技術對該過程進行了大大的簡化,包括對放射性標記的RNA片段進行雙向分離和可視化,然后通過最終的位置來確定RNA的大小和序列。
DNA測序技術的發明
對DNA序列進行測定的早期嘗試是很麻煩的。在1968年,Wu報道了通過引物延伸法來確定lambda噬菌體粘性末端的12個堿基。在1973年,Gilbert和Maxam報道了乳糖抑制物結合位點的24個堿基,該結果是通過將該序列復制到RNA序列中,然后對RNA進行測序而得到的,該過程花費了2年,一個月測定一個堿基。
在大約1976年,兩個能夠在一個下午對成百上千個堿基進行測定方法的發明改變了該領域。這兩個方法是:Sanger和Coulson發明的鏈終止法和 Maxam和Gilbert發明的化學切割法,這兩種方法都是利用放射性標簽到每個堿基在DNA上所處位置的距離來確定核苷酸順序的。Sanger的方法涉及到熒光標記引物的四次DNA聚合酶擴增,每次擴增利用微量的鏈終止核苷酸,產生不同長度的片段。Gilbert的方法利用末端標記的DNA限制性片段,并且在四個反應中,利用化合物對特定堿基進行部分切割。對于這兩種方法,利用聚丙烯酰胺凝膠電泳來測定每個堿基特異性反應產生的片段大小。在凝膠上,每個泳道包含一個堿基,通過X射線照射產生一個具有梯度的圖像,通過圖像可以快速讀取序列,按照大小對四個泳道進行排序,從而獲得每個堿基的順序。
這些方法迅速地得到了應用。1979年Staden提出了鳥槍法測序-對隨機克隆子進行測序,然后基于重疊區對序列進行拼接,在1980左右,Messing發明的單鏈M13噬菌體克隆載體極大地改善了該技術,并被用于基因組的de novo組裝,例如早在 1982年,利用該方法測定了lambda噬菌體的基因組。1987年,Smith和Hood發明了自動的、基于熒光的Sanger測序儀,并將其用于生物系統,每天可以產生大約1000個堿基。序列數據以指數形式增長,逼近了摩爾定律,促進了中心數據庫的產生(如GenBank),通過搜索工具(如BLAST),放大每條序列的值,并且形成了數據共享的思想。在1982年,超過50萬的堿基已經被提交到了GenBank ;到1986年,有將近1000萬的堿基 (GenBank和WGS統計數據 https://www.ncbi.nlm.nih.gov/genbank/statistics/)。
人類基因組的擴展
“層級shotgun”策略是人類基因組(HGP)計劃的主力軍,它把大片段的人類基因組序列克隆到細菌人工基因組上(BACs)。對來自于每個 BAC的DNA進行片段化、大小篩選和亞克隆。挑選和培養單個克隆,然后分離DNA。純化后的DNA作為Sanger自動測序的模板,從凝膠的激光掃描圖中獲取信號,最后調用堿基來生成序列。事實上該過程涉及到很多獨立的步驟,每一步必須很好的實施,讓懷疑論者去懷疑在任何合理的成本下去足夠高效地測定人類基因組吧。
的確,隨著對較大基因組測序的努力已經成形,每一步測序的規模和效率都需要大大的提升。在20世紀90年代,這些想法在適應和沖刺中得以實現。值得注意的改進包括:(1)由染料標記的引物向染料標記的終止劑轉變,反應由原來的四個變成了一個;(2)一個突變的T7 DNA聚合酶更容易融入染料標記的終止子;(3)線性擴增反應,極大地降低了對模板的需求,并且促進了小型化的進程;(4)磁念珠DNA純化方法,簡化了自動的焦磷酸化步驟;(5)能進行雙鏈DNA測序的方法,該方法促進了質粒克隆的應用和隨后的雙端測序;(6)毛細管電泳消除了凝膠的澆注和裝載,同時也簡化了熒光信號的提取和翻譯;(7)采用工業過程來提高效率和降低誤差(如自動化、質控、標準的操作過程等等)。
潮濕的實驗室協議只是挑戰的一半。花費大量的努力來開發能追蹤克隆、翻譯和組裝測序數據的軟件。如,phred的發明代替了測序序列的人工編輯,它引入了可用于堿基調用的質量衡量標準,并且幫助整理出緊密相關的重復序列。然后用質量感知的方式,根據序列間的重疊區對序列進行組裝,產生長度連續的序列。隨著更加復雜的基因組被攻克,重復的序列越來越混雜。甚至在對一個BAC進行深度shotgun測序之后,一些序列仍然未出現,這樣就導致序列的不連續,必須通過其它方法來解決這種不連續的問題。雙端測序幫助將contigs連接成有缺口的scaffolds,可以通過直接測序來填補scaffolds的缺口。有些問題只能有肉眼進行解決;科學家被訓練成“修理工”,去評估單克隆測序序列的組裝質量。
雖說在輪廓上該過程依然穩定,20世紀90年代測序過程的快速改善導致測序成本的穩步下降,而并行計算的發展很快替代了人的決策。到2001年,少數學術基因組中心通過操作自動化生產線每天可以產生超過1000萬的堿基。基因組組裝軟件在人類基因組計劃內外都很成熟了,例如phrap、TIGR和Celera組裝軟件,能夠處理日益復雜的基因組。每年倍增的容量使我們能夠成功地完成對一些高質量基因組的測定,從Haemophilus influenza(嗜血桿菌,大約2Mb,1995年)開始,緊接著是Saccharomyces cerevisiae(釀酒酵母,大約12Mb,1996年)和Caenorhabditis elegans(秀麗隱桿線蟲,大約100Mb,1998年)。人類基因組計劃所測定的人類基因組,其大小是秀麗隱桿線蟲的30倍,并且具有更多的重復序列,在2001年完成了對其草圖基因組的繪制,然后在2004年獲得了其完整的序列。在人類基因組計劃實施的同時,Venter 和Celera利用全基因組shotgun策略測定了一個人的基因組(2001年)以及Drosophila melanogaster(果蠅,大約175Mb,2000)基因組。全基因組shotgun策略與人類基因組計劃測序策略不同,在下面將會進行更深一步的討論。
到2004年,利用儀器對含有600-700bp堿基的序列進行測定需要耗費1美元,因此再進行額外的改進也只是一個越來越邊緣化實踐。此外,隨著人類基因組計劃的完成,大規模DNA測序的未來尚不清楚。
大規模并行DNA測序技術
貫穿20世紀80年代和90年代,一些研究小組一直在探索電泳測序的替代者。雖然這些努力并未成功。直到人類基因組計劃完成的10年之內,“大規模平行”或“下一代”DNA測序(NGS)幾乎完全替代了Sanger測序。NGS技術在一些方法上與電泳測序顯著不同,而主要的變化是多路技術。不是每個反應一個管,而是將一個復雜的DNA模板庫固定到一個雙向表面上,所有的模板都可以與單個試劑進行反應。該技術更不是細菌克隆,而是在體外產生大量的測序模板。最后,也不是測量片段的長度,而是測定生物化學循環(如聚合酶介導的熒光標記核苷酸)和成像(也被稱為邊合成邊測序,SBS)。
雖然擴增并不是嚴格必須的(如單分子SBS),但是NGS稠密的多路技術(含有數百萬到數十億的模板)很大程度上是由體外克隆擴增獲得的。最簡單的方法“橋式擴增”,包括用固定在表面的引物擴增復雜的模板庫,這種方式擴增得到的模板緊密成簇。作為替代,可以在乳劑中進行PCR,通過此方法獲得的模板被固定在玻璃粉上,然后將玻璃粉排列到表面上進行測序。第三個方法包括在溶液中進行滾環擴增產生克隆的“納米球” ,然后將納米球排列在表面進行測序。
對于邊合成邊測序,這里有三個主要的策略。Ronaghi和Nyrèn焦磷酸測序的方法,包括離散的、分步加入每個dNTP。dNTP的加入會釋放焦磷酸鹽,利用螢火蟲熒光素酶產生熒光。利用一個類似的方法,離子敏感場效應檢測加入的天然dTNP。第二個策略是一個基于序列的方式,利用DNA連接酶的特異性將熒光寡核苷酸連接到模板上。第三個方法被證明是最持久的,包括分步的、聚合酶介導的熒光標記寡核苷酸的摻入。對于聚合酶介導的邊合成邊測序最重要的是:可逆終止的發展,可逆的熒光標記dNTPs,以及一個合適的工程化的聚合酶,這樣對于一次循環一個模板只能合成摻入一個dNTP。通過成像確定是哪個熒光標記的dNTP被摻入到了模板,然后去掉阻礙基團和熒光標記物,將會開啟下一輪擴增;這種方法是Balasubramanian和Klenerman在1998年發現的,并被用于Solexa。
第一個綜合的NGS平臺來自于2005年,即Solexa。Shendure、Porreca、 Mitra和Church利用該平臺對大腸桿菌進行重測序,Margulies、Rothberg和454利用該平臺對生殖支原體進行de novo組裝,以及利用該平臺對phiX174和一個人類的BAC進行重測序。這些研究證明短序列是如此的重要,并為它們的組裝提供了參考基因組。在三年內,于Solexa平臺上利用35bp的讀長將實現對人類基因組的重測序。
在2005年,454發布了第一個商業化的NGS儀器。伴隨著人類基因組計劃,大規模的測序依然是少數基因組中心成立的起源。隨著454和其它競爭性的儀器相繼出現,個別實驗室可以立即訪問整個人類基因組計劃時代的基因組中心。隨著來自于各個方面的新方法、新結果、基因組和其它革新的出現,這種“平民化”的測序能力對基因組領域的文化和組成具有深遠的影響。
與人類基因組計劃期間美國應用生物系統公司的壟斷不同,一些公司包括454(被羅氏收購)、Solexa(被Illumina收購)、Agencourt(被美國應用生物系統公司收購)、Helicos(由Quake成立)、Complete Genomics(由Drmanac成立)和Ion Torrent(由Rothberg成立)在激烈地競爭NGS,通過不斷出現的新儀器迅速改變了以上的壟斷情況,他們每年都會在硅谷的AGBT會議上發布新的儀器。在2007到2012年間,DNA測序的每個堿基的耗費下降了4個數量級。
自從2012年,測序儀器更新的速度已經變緩,各大公司之間的競爭也是一樣的。454、SOLiD 和Helicos平臺不再開發新的儀器,Illumina平臺開始占主導優勢(盡管Complete Genomics依然是一個潛在的競爭對手)。盡管如此,自從2005年NGS概念的提出開始,當考慮到我們已經走了多遠的時候,還是很令人震驚的。雖然序列讀長依然短于Sanger測序,只有幾百個堿基,但是它的正確率超過了99.9%。花費幾千美元,一個畢業生可以利用一個Illumina NovaSeq儀器在兩天內對長度超過幾十億堿基的獨立序列進行測定。這超過了人類基因組計劃產生的大約23兆堿基的人類基因組草圖40個數量級。
實時單分子測序技術
上述提到的幾乎所有的平臺都需要模板擴增 。然而,擴增的缺點包括復制錯誤、基于序列的偏好性和信息的缺失(例如,甲基化),更別說添加的時間和復雜性。在理想條件下,測序是準確且不受讀長限制。為了達到這個目標,可追溯到20世紀80年代,對少數群落的探索甚至比NGS方法更基礎。許多方法都已到盡頭,但至少兩種方法沒有,這些方法就是最近興起的再次顛覆這一領域的實時單分子測序平臺。
第一種方法,由Webb和Craighead提出,由 Korlach,Turner 和Pacific Biosciences (PacBio)進一步發展,在實時測序中利用光學觀察聚合酶的合成。一個零模波導孔不到光波長的一半,當模板與單個聚合酶發生反應被激發的熒光限制在小孔內。因此,只有標記熒光的核苷酸DNA鏈合成發出連續的信號才能被捕獲到。合成的聚合酶是具有高度活性的,通常可以讀取10 kb,一些reads可達到100 kb。PacBio的通量始終比NGS平臺(如,Illumina公司)的最高通量低于在一個數量級。PacBio的錯誤率很高(約10%),但都是隨機分布。PacBio的最小偏差(例如,極端GC含量的耐受)、隨機誤差、長讀長和高覆蓋度可使de novo組裝更加準確,許多物種可以超越可能甚至與HGP相似。
第二種方法是nanopore測序。這個概念于20世紀80年代首次提出,基于流動離子的概念。當單鏈DNA分子通過狹窄的通道時,也就暴露除了測序的首鏈。從概念念到現實需要數十年的工作。首先,DNA通過電場在納米孔中轉運,一個核苷酸有數個電子,因此釋放的信號是不足的。這些和其他挑戰最終都被解決,包括加入干預酶減慢進程,提高核苷酸蛋白的鑒定,更好地分析結果信號。這種進展最近成功應用藻類的Nannopore測序中,在工業和學術中,在2005年由Bayley建立的Oxford Nanopore Techno -logies (ONT)尤其顯著。ONT的測序讀長與PacBio相似甚至超越PacBio的測序讀長。目前獲得的最長的序列達到900 kb。與其他測序儀器的主要區別在于nanopore儀器的可攜帶性,大小等同于USB設備,因為它們依賴于電信號的檢測,而不是光學信號。一些挑戰仍然存在(如,測序錯誤可能不是隨機分布),但過程很快。
核酸測序可理想的捕獲到DNA的修飾。事實上,PacBio和nanopore測序都說明了原始共價修飾的檢測,如甲基化作用。單分子測序方法也開啟了對RNA測序甚至蛋白質進行直接測序的可能。
1977年以后,DNA測序技術的發展突飛猛進,在我們的努力下也一直發生變化。盡管Illumina是目前測序儀器的主要供應商,但是商業市場不可能是一成不變的,其他技術也可能成功地占據重要的市場(如,de novo 組裝的PacBio和便攜式的ONT)。NGS和單分子方法的成本和通量都很高,也有其他的觀念一直在發展,這里不做討論(如:固態孔和電子顯微檢查)。所有的可能并非全部實現,但通過上例可以清晰的看出測序技術的變化走向成熟需幾十年。
基因測序技術基因測序技術也稱作DNA測序技術,即獲得目的DNA片段堿基排列順序的技術,獲得目的DNA片段的序列是進一步進行分子生物學研究和基因改造的基礎。基因測序技術的發展歷史1977年,Walter......
荷蘭科學家研究報道了一種給中樞神經系統腫瘤快速分類的技術,結合快速測序和深度學習AI模型,或能在不到90分鐘內完成分子診斷。相關研究近日在線發表于《自然》。研究結果顯示術中進行腫瘤分子診斷以輔助手術決......
在進行常規的DNA檢測時,樣本中通常含有許多目標DNA以外的分子,這可能會干擾結果。據美國《科學時報》5日消息,美國馬薩諸塞大學阿默斯特分校的研究人員開發出一種技術,無需額外成本即可將DNA檢測靈敏度......
近日,一家名為UltimaGenomics的年輕公司在美國奧蘭多舉行的基因組生物學技術進展會議上表示,通過對現有技術進行調整,它可以每次100美元的價格(現行價格的1/5)提供人類基因組測序服務。據《......
美國斯坦福大學醫學院科學家領導的聯合團隊開發的一種新的超快速基因組測序方法,可在平均8小時內診斷出罕見遺傳疾病,這是標準臨床護理領域中幾乎聞所未聞的壯舉。相關研究論文日前發表在《新英格蘭醫學雜志》上。......
通常,98%的宮頸癌是由人乳頭瘤病毒(humanpapillomavirus,HPV)引起,而HPV疫苗可以預防HPV感染,使宮頸癌發病率降低約71%。此外,研究表明約20%-40%的人類癌癥由細菌和......
北京大學黃巖誼教授帶領的團隊在《NatureBiotechnology》期刊上在線發表《基于信息理論來修正錯誤的高準確度熒光產生DNA測序方法》,這標志著我國學者已成功刷新DNA信息解讀的精確程度,從......
日前,北京大學黃巖誼教授帶領的團隊在《自然—生物技術》期刊上在線發表《基于信息理論來修正錯誤的高準確度熒光產生DNA測序方法》,這標志著我國學者已成功刷新DNA信息解讀的精確程度,從根本上提高了測序方......
在DNA測序過去的40年中,我們見證了諸多技術的變革和測序規模的極度增長。從幾千個堿基到第一個人體基因組,乃至當前數以萬計的人體和無數其它的基因組。包括作為大量分子現象的“計數器”在內,DNA測序被廣......
關于古代人類DNA的研究并不是一項享有平等機會的努力。過去10年間,早期歐洲人和亞洲人的部分基因組被測序了上百次,歐亞歷史也在這個過程中得以改寫。然而,由于基因材料在溫暖、潮濕的氣候中衰變得非常迅速,......