三、三代全長轉錄本分析工具
三代全長轉錄本在輔助基因注釋,可變剪接分析,融合基因檢測方面可以說大顯身手,下面小編列了幾個工具及對應的下載地址,供大家參考。大家有好的最新的工具歡迎留言補充!
1. 可變剪接鑒定(3個工具)
1)網址:https://github.com/liuxiaoxian/IsoSeq_AS_de_novo
Liu X, Mei W, Soltis P S, et al. Detecting Alternatively Spliced Transcript Isoforms from Single‐Molecule Long‐Read Sequences without a Reference Genome[J]. Molecular Ecology Resources, 2017.
2)網址:http://splicegrapher.sourceforge.net/
Rogers M F, Thomas J, Reddy A S N, et al. SpliceGrapher: detecting patterns of alternative splicing from RNA-Seq data in the context of gene models and EST data[J]. Genome biology, 2012, 13(1): R4.
3)網址:https://sourceforge.net/projects/cash-program/
Wu W, Zong J, Wei N, et al. CASH: a constructing comprehensive splice site method for detecting alternative splicing events[J]. Briefings in Bioinformatics, 2017: bbx034.
2. 多平臺結合分析高基因密度基因組
網址:https://github.com/flemingtonlab/public
O’Grady T, Wang X, H?ner Zu Bentrup K, Baddoo M, Concha M, Flemington EK. Global transcript structure resolution of high gene density genomes through multi-platform data integration. Nucleic Acids Res. 2016 Jul 12; PMID: 27407110.
3. 全長轉錄本分析流程TAPIS
網址:https://bitbucket.org/comp_bio/tapis
Abdel-Ghany S E, Hamilton M, Jacobi J L, et al. A survey of the sorghum transcriptome using single-molecule long reads[J]. Nature communications, 2016, 7.
4. 全長轉錄組瀏覽器
網址:https://github.com/goeckslab/isoseq-browser
Hu J, Uapinyoying P, Goecks J. Interactive analysis of Long-read RNA isoforms with Iso-Seq Browser[J]. bioRxiv, 2017: 102905.
5.全長轉錄組測序新轉錄結構發現注釋工具
網址:https://bitbucket.org/ConesaLab/sqanti
Tardaguila M, de la Fuente L, Marti C, et al. SQANTI: extensive characterization of long read transcript sequences for quality control in full-length transcriptome identification and quantification[J]. bioRxiv, 2017: 118083.
6.全長轉錄組Iso-Seq和RNA-Seq集合進行無參考轉錄組分析
Ning G, Cheng X, Luo P, et al. Hybrid sequencing and map finding (HySeMaFi): optional strategies for extensively deciphering gene splicing and expression in organisms without reference genome[J]. Scientific Reports, 2017, 7.
另外一種技術就是單分子納米技術,顧名思義,就是讓核酸分子單獨的經過納米通道,通過每個分子不同的電信號進行識別。這個技術的代表是牛津大學的naropore技術。
納米孔測序技術
納米孔測序技術是最近幾年興起的新一代測序技術。目前測序長度可以達到150kb。這項技術開始于90年代,經歷了三個主要的技術革新:一、單分子DNA從納米孔通過;二、納米孔上的酶對于測序分子在單核苷酸精度的控制;三、單核苷酸的測序精度控制。目前市場上廣泛接受的納米孔測序平臺是Oxford Nanopore Technologies(ONT)公司的MinION納米孔測儀。它的特點是單分子測序,測序讀長長(超過150kb),測序速度快,測序數據實時監控,機器方便攜帶等。這篇綜述重點總結了MinION測序儀的技術特點和應用領域。
一、 MinION測序技術簡介
MinION納米孔測序儀的核心是一個有2,048個納米孔,分成512組,由專用集成電路控制的flow cell。測序原理見圖1a所示:首先,將雙分子DNA連接lead adaptor(藍色),hairpin adaptor(紅色)和trailing adaptor(棕色);當測序開始,lead adaptor帶領測序分子進入由酶控制的納米孔,lead adaptor后是template read(即待測序的DNA分子)通過納米孔,hairpin adaptor的作用是DNA雙鏈測序的保證,然后complement read(待測序分子的互補鏈)通過納米孔,最后是trailing adaptor通過。在上述測序方法中,template read和complement read依次通過納米孔,利用pairwise alignment,它們組合成2D read;而在另外一種測序方法中,不使用hairpin adaptor,只測序template read,最終形成1D read。后一種測序方法通量更高,但是測序準確性低于2D read。每個接頭序列(adaptor)通過納米孔引起的電流變化不同(圖1c),這種差別可以用來做堿基識別。
二、 MinION相對于其他NGS測序平臺的優勢
1、堿基修飾的檢測
納米孔測序技術可以檢測四種胞嘧啶(cytosine)堿基修飾,分別為5-methycytosine,5-hydroxymethycytosine,5-formylcytosine和5-carboxylcytosine。檢測準確率為92%-98%。
2、實時測序監控
對于臨床實踐,實時獲取和分析DNA/RNA序列是一件很重要的事情。對于傳統的NGS測序,做到這一點非常不易。但對于MinION,實現起來相對容易。這不僅是因為MinION體積小,易操作等,更是因為在測序過程中單分子穿過納米孔,其電流變化可以檢測并識別,這種設計允許用戶在測序過程中根據實時結果做出一些判斷。
實時測序監控對于MinION針對特定目標序列測序有重要的應用(圖2):當DNA片段通過納米孔時,如果電流變化呈現與目標序列一樣的趨勢,則通過納米孔。如果DNA片段與目標序列呈現不同的電流變化趨勢,則不能通過納米孔。通過這樣的方式,實現目標序列的富集,從而顯著減少測序時間,對于在野外和即時診療有重要意義。
3、測得更長的read
用MinION測序儀,對于1D read可以獲得300kb長的read;對于2D read可以獲得60kb長的read。利用MinION測序儀產生的長read,研究人員設法填充了人參考基因組Xq24號染色體一個長50kb的gap。該區域存在多個CT47基因串聯拷貝,研究人員利用MinION的長read判斷該區域極有可能存在8個CT47基因拷貝(圖3)。
4、結構變異的檢測
NGS短序列的特征使結構變異的檢測往往不準確。這個問題在癌癥的檢測中尤其嚴重,這是因為癌癥組織中充斥各種結構變異。研究人員發現利用MinION測得的幾百個拷貝的長read得到的結構變異結果比NGS平臺測得的上百萬read得到的結果更可靠。
5、RNA表達分析
對于RNA表達分析,NGS平臺測得的短序列帶來的問題是序列需要進行拼接,才能得到轉錄本。這給可變剪切研究帶來困擾。因為通常情況下NGS測序不能產生足夠的信息將不同形式的可變剪切區分開來。而利用MinION測序儀產生的長read,可以更好地解決這個問題。研究人員利用果蠅的Dscam1基因為例,其存在18,612種可變剪切形式,利用MinION測序儀可以檢測到超過7,000種可變剪切形式,而這樣的結果利用NGS的短序列測序是不能夠獲得的。
6、生物信息學配套軟件的發展
近些年來,隨著生物信息分析方法的發展,MinION測序reads成功比對參考基因組的比例已經從66%提升至92%。文章下面對各種工具的適用場景進行了分別介紹。工具概述見表1。
1、堿基識別工具
Metrichor是ONT公司推出的基于隱馬爾可夫模型進行堿基識別的軟件。它的使用需要網絡連接。MinION注冊用戶需要獲得開發者賬號才能獲得軟件的源代碼。2016年初,兩個實驗室分別開發了Nanocall和DeepNano軟件。這兩個軟件都可以在本地運行,不需要網絡連接。Nanocall基于隱馬爾可夫模型,可對1D read在本地進行堿基識別;DeepNano基于recurrent neural network framework,可以獲得比隱馬爾可夫模型更準確的堿基識別。
2、序列比對工具
傳統的NGS序列比對軟件不能滿足MinION序列比對的需求。這是因為MinION測序數據錯誤率相對高且序列長,即使調整參數也不能取得好的效果。在這種情況下,適合MinION測序數據的比對軟件應運而生。
MarginAlign是通過更好地估計MinION測序reads測序錯誤來源從而提高與參考基因組的比對效率。通過評估檢測到的變異,發現其顯著提高了比對的準確性。由于MarginAlign是基于LAST或BWA mem的比對結果進行優化,結果的最終準確性依賴最初的比對結果。
GraphMap是另一個用于MinION測序數據比對的軟件。它利用的是一種啟發式(heuristics)方法,對高錯誤率reads和長reads進行了優化。一項研究表明GraphMap比對的靈敏性可與BLAST媲美,且它對reads測序錯誤率的估計與MarginAlign相當。
3、從頭組裝工具
MinION測序數據不適合利用NGS數據組裝的de Bruijn圖法進行組裝,主要存在兩方面的原因。第一,de Bruijn圖法等方法依賴測序reads拆分的k-mer測序準確,而高錯誤率的MinION測序reads不能保證這一點;第二,de Bruijn圖的結構不適用長reads。
MinION測序數據的長reads更適合Sanger測序時期基于有overlap的共有(consensus)序列組裝的方法。需要的是在組裝前進行測序reads的糾錯。第一個基于這種原理進行組裝的研究組利用MinION數據組裝了一個完整的E. coli K-12 MG1655基因組,序列準確率達到99.5%。他們利用的流程稱為nanocorrect,首先利用graph- based,greedy partial order aligner方法進行糾錯,然后利用Celera Assembler將糾錯后的reads進行組裝,最后利用nanopolish對組裝結果進行進一步提升。
4、單核苷酸變異檢測工具
Reference allele bias是一種在變異檢測中傾向于少檢測出變異的現象。該現象在測序reads錯誤率高的情況下尤為嚴重。
MarginAlign中的marginCaller模塊是研究機構開發的適用于MinION測序數據的變異檢測軟件。MarginCaller利用maximum-likelihood參數估計和多條測序reads序列比對來檢測單核苷酸變異。當計算機模擬出測序錯誤為1%時,測序深度在60X,marginCaller檢測出的SNV具有97%的準確率和完整度。另外一項研究中,研究者利用GraphMap方法,檢測人基因組的雜合變異,可以達到96%的準確率。利用計算機模擬的數據,GraphMap同樣可以高準確率,高完整度地檢測出結構變異。
Nanopolish也可以用來檢測變異。它用的是event-level alignment算法。在該方法中,從參考基因組序列開始,依次評估參考基因組序列產生的電信號與測序reads的相似性進而依次修飾參考基因組序列,生成一個consensus read。直到consensus read與測序read產生的電信號足夠相似,將consensus read與參考基因組序列比較,得到變異。該方法在埃博拉病毒的研究中有大約80%的準確性。
PoreSeq采用與Nanopolish類似的算法。它可以利用更低深度的測序數據獲得高準確率和高完整度的SNV檢測。在一項研究中,PoreSeq在16X測序深度下獲得99%準確率和完整度的SNV檢測,與marginAlign相比,它顯著降低了測序深度。
5、共有序列的測序(consensus sequencing)方法
MinION測序數據目前只有92%的準確性。在低深度測序的情況下,不能夠滿足類似單體型(haplotype phasing)和人樣品的SNV檢測的要求。文章提到的解決問題的方法是rolling circle amplication,它的原理是將一個片段進行多次擴增,在一個DNA分子上生成多個拷貝,這樣最終獲得的共有序列測序結果的準確率可以達到97%。
三、MinION目前的應用領域
1、即時檢測傳染源
NGS測序方法可以在醫院環境下進行傳染源等病菌的檢測,而MinION測序方法提供的是一種全新的體驗。MinION在測序讀長,攜帶的方便性,檢測時長方面具有NGS不可比的優勢。文獻記載從樣品準備到發現致病菌只需要6小時時間,而從樣品放置機器到發現致病菌只需要4分鐘。文章列舉了截至目前用MinION測序儀涉及研究的物種及詳細描述了西非爆發埃博拉病毒時,MinION測序方法在病毒檢測過程中起到的重要作用。
2、非整倍體檢測
MinION可以在胎兒非整倍體產前檢測中發揮重要作用。利用NGS平臺,通常需要1-3周時間獲得結果。而利用MinION測序方法,文獻報道只需要4小時。
3 、太空應用
在太空飛行中,發掘細菌和病毒是很困難的事情。大部分研究是將樣品帶回地球進行測序鑒定。目前,NASA準備利用MinION測序儀在國際空間站進行病菌的實時測序。
四、 展望
1 、PromethION
為了滿足研究人員對高通量測序的需求,ONT公司開發了一個臺式納米孔測序儀—PromethION。PromethION有48個flow cell,可以單獨運行也可以并行。每個flow cell包括3,000個通道(channel),每天產生6Tb測序數據。
2、 測序read準確性
目前MinION測序儀的測序準確率在92%左右。對于類似致病菌和可變剪切的發掘,這樣的測序準確率可以滿足需求。但是對于臨床檢測,通常read準確率需要達到99.99%。因此,文章提到ONT公司需要在測序相關的化學反應和堿基識別軟件方面進行優化。
另外,文章提到MinION測序方法存在非隨機的測序錯誤。比如MinION不能很好處理長于6個核苷酸的同聚物的測序,同時缺少堿基修飾檢測的內參訓練。如果這兩個問題能夠得到解決,共有序列(consensus)測序的準確率可以達到大于99.99%。
3 、測序read長度
目前MinION測序長度達到150kb。在未來一段時間,可以期許其測序長度可以得到更大提升。
4 、RNA直接測序
逆轉錄和PCR擴增會導至很多RNA自身信息的丟失,所以目前ONT公司和一些研究機構正在嘗試用納米孔技術進行RNA直接測序。之前的研究已經為此奠定了基礎,比如研究表明可以對tRNA進行單通道和固態納米孔(solid-state nanopore)檢測,且納米孔可以檢測DNA和tRNA的堿基修飾。
5 、單分子蛋白測序
目前,質譜(mass spectrometry)是做蛋白組分析較好的技術,但是對于靈敏性,準確性和分辨率,目前的技術都存在局限性。2013年一項研究報道了酶介導的蛋白通過單通道納米孔。這項研究表明蛋白的序列特征可以被檢測。這些發現為蛋白質納米孔測序奠定了很好的基礎。
五、參考文獻
The Oxford Nanopore MinION: delivery of nanopore sequencing to the genomics community
記者21日從國家乳業技術創新中心獲悉,該中心技術研發團隊成功研制出奶牛種用胚胎基因組遺傳評估芯片和“高產、抗病、長生產期”功能強化基因組預測芯片。該系列基因芯片具有完全自主知識產權,填補了我國基因芯片......
英國研究人員在新一期美國《神經腫瘤學雜志》上發表論文介紹,他們新開發出一種超快速腦腫瘤基因診斷方法,可以將腦腫瘤的診斷時間從此前的6至8周縮短至2小時。這種腦腫瘤基因診斷方法由英國諾丁漢大學等機構的研......
由新加坡科技研究局基因組研究所領導的科學家團隊,發布了迄今全球最大、最全面的長讀長RNA測序數據集之一——新加坡納米孔表達數據集(SG-NEx)。這一成果有望解決疾病研究中長期存在的技術瓶頸,使研究人......
經過20多年的努力,科研人員成功地對6種現存猿類的基因組進行了完整測序,為研究人類進化提供了近距離視角,這被英國《自然》雜志稱為“遺傳學的一個里程碑”。123名來自多個國家和地區的科研人員組成的團隊9......
昆明醫科大學第二附屬醫院2025年05月(至)2025年06月政府采購意向為便于供應商及時了解政府采購信息,根據《財政部關于開展政府采購意向公開工作的通知》(財庫〔2020〕10號)等有關規定,現將昆......
事件焦點:為什么是它?3月4日,中國將美國基因測序公司因美納(Illumina)列入“不可靠實體清單”,引發行業震動。這家生產基因測序儀的公司看似低調,卻是全球生物實驗室的“水電煤”——它的設備幾乎壟......
通過轉錄組測序獲得人的基因表達譜數據,能進一步挖掘疾病相關的生物標志物,為臨床診斷提供依據。目前,由于轉錄組測序無法溯源,導致不同實驗室及測序平臺產出的數據可比性和測序結果的準確性面臨挑戰。中國計量科......
科技日報北京8月15日電(記者張佳欣)據最新一期《自然》雜志報道,德國康斯坦茨大學和維爾茨堡大學領導的國際研究團隊,對動物界最大基因組的擁有者——肺魚進行了基因組測序。肺魚基因組約為人類基因組大小的3......
據最新一期《自然·遺傳學》雜志報道,由多個機構組成的國際“端粒對端粒(T2T)”聯盟正在推進“反芻動物端粒-端粒”項目,旨在對300多種反芻動物的基因組進行測序。研究團隊期望通過測序得到的基因組圖譜,......
瑞士洛桑聯邦理工學院開發了一種名為CARBonAra的新型人工智能(AI)驅動模型。該模型可以根據不同分子環境所施加限制的主鏈支架預測蛋白質序列,有望在蛋白質工程及包括醫學和生物技術在內的多個領域帶來......