測序簡史（三）

發布時間：2021-07-01 16:57 原文鏈接：測序簡史（三）

什么是miRNA測序

成熟的microRNA（miRNA）是17~24nt的單鏈非編碼RNA分子，通過與mRNA相互作用影響目標mRNA的穩定性及翻譯，最終誘導基因沉默，調控著基因表達、細胞生長、發育等生物學過程。基于第二代測序技術的microRNA測序，可以一次性獲得數百萬條microRNA序列，能夠快速鑒定出不同組織、不同發育階段、不同疾病狀態下已知和未知的microRNA及其表達差異，為研究microRNA對細胞進程的作用及其生物學影響提供了有力工具。

什么是Chip-seq

染色質免疫共沉淀技術（ChromatinImmunoprecipitation，ChIP）也稱結合位點分析法，是研究體內蛋白質與DNA相互作用的有力工具，通常用于轉錄因子結合位點或組蛋白特異性修飾位點的研究。將ChIP與第二代測序技術相結合的ChIP-Seq技術，能夠高效地在全基因組范圍內檢測與組蛋白、轉錄因子等互作的DNA區段。

ChIP-Seq的原理是：首先通過染色質免疫共沉淀技術（ChIP）特異性地富集目的蛋白結合的DNA片段，并對其進行純化與文庫構建；然后對富集得到的DNA片段進行高通量測序。研究人員通過將獲得的數百萬條序列標簽精確定位到基因組上，從而獲得全基因組范圍內與組蛋白、轉錄因子等互作的DNA區段信息。

什么是CHIRP-Seq

CHIRP-Seq( Chromatin Isolationby RNA Purification )是一種檢測與RNA綁定的DNA和蛋白的高通量測序方法。方法是通過設計生物素或鏈霉親和素探針，把目標RNA拉下來以后，與其共同作用的DNA染色體片段就會附在到磁珠上，最后把染色體片段做高通量測序，這樣會得到該RNA能夠結合到在基因組的哪些區域，但由于蛋白測序技術不夠成熟，無法知道與該RNA結合的蛋白。

什么是RIP-seq

RNA Immunoprecipitation是研究細胞內RNA與蛋白結合情況的技術，是了解轉錄后調控網絡動態過程的有力工具，能幫助我們發現miRNA的調節靶點。這種技術運用針對目標蛋白的抗體把相應的RNA-蛋白復合物沉淀下來，然后經過分離純化就可以對結合在復合物上的RNA進行測序分析。

RIP可以看成是普遍使用的染色質免疫沉淀ChIP技術的類似應用，但由于研究對象是RNA-蛋白復合物而不是DNA-蛋白復合物，RIP實驗的優化條件與ChIP實驗不太相同（如復合物不需要固定，RIP反應體系中的試劑和抗體絕對不能含有RNA酶，抗體需經RIP實驗驗證等等）。RIP技術下游結合microarray技術被稱為RIP-Chip，幫助我們更高通量地了解癌癥以及其它疾病整體水平的RNA變化。

什么是CLIP-seq

CLIP-seq,又稱為HITS-CLIP，即紫外交聯免疫沉淀結合高通量測序(crosslinking-immunprecipitationand high-throughput sequencing), 是一項在全基因組水平揭示RNA分子與RNA結合蛋白相互作用的革命性技術。其主要原理是基于RNA分子與RNA結合蛋白在紫外照射下發生耦聯，以RNA結合蛋白的特異性抗體將RNA-蛋白質復合體沉淀之后，回收其中的RNA片段，經添加接頭、RT-PCR等步驟，對這些分子進行高通量測序，再經生物信息學的分析和處理、總結，挖掘出其特定規律，從而深入揭示RNA結合蛋白與RNA分子的調控作用及其對生命的意義。

什么是染色體構象捕獲技術

3C 通常是用啟動子或者某一個基因或者基因組某一個短的片段在鄰近的幾十kb或者幾百kb基因組掃描可以獲得相互作用區域。由于實驗需要特異性引物，因而實驗室相當費力的，且檢測范圍小。

4C同3C一樣做單位點的檢測，但其檢測擴展到了整個基因組上。主要是引入了反向PCR，因而只需要對這一單一位點設計引物即可。

5C 做兩個大片段之間相互作用點的檢測，可以達到10Mb水平。其仍需使用引物，且引物設計是其技術的難點。

Hi-C 可以實現基因組對基因組水平的檢測，但是獲得高精度需要非常大的測序深度

ChIA-PET標在于特定的蛋白因子及其相關聯的染色質相互作用.該技術將配對末端標簽測序技術與ChIP相結合, 對富集了某種蛋白質的DNA 片段進行交聯, 可以測定全基因組范圍的特定轉錄因子參與的染色質遠程交互作用, 從而可以呈現高特異性和高分辨率的染色質相互作用.

什么是Hi-C輔助基因組組裝

Hi-C輔助基因組組裝是指在已有二代或三代或光學圖譜輔助組裝的Draft genome序列和已知染色體數目的前提下，利用Hi-C測序數據將Draft genome序列進行染色體群組的劃分，并確定各序列在染色體上的順序和方向，使基因組組裝組裝水平提升到染色體水平的技術。

什么是metagenomic（宏基因組）

Magenomics研究的對象是整個微生物群落。相對于傳統單個細菌研究來說，它具有眾多優勢，其中很重要的兩點：(1) 微生物通常是以群落方式共生于某一小生境中，它們的很多特性是基于整個群落環境及個體間的相互影響的，因此做Metagenomics研究比做單個個體的研究更能發現其特性；(2)Metagenomics研究無需分離單個細菌，可以研究那些不能被實驗室分離培養的微生物。

宏基因組是基因組學一個新興的科學研究方向。宏基因組學（又稱元基因組學，環境基因組學，生態基因組學等），是研究直接從環境樣本中提取的基因組遺傳物質的學科。傳統的微生物研究依賴于實驗室培養，宏基因組的興起填補了無法在傳統實驗室中培養的微生物研究的空白。過去幾年中，DNA測序技術的進步以及測序通量和分析方法的改進使得人們得以一窺這一未知的基因組科學領域。

什么是SNP、SNV（單核苷酸位點變異）

單核苷酸多態性singlenucleotide polymorphism，SNP 或單核苷酸位點變異SNV。個體間基因組DNA序列同一位置單個核苷酸變異(替代、插入或缺失)所引起的多態性。不同物種、個體基因組DNA序列同一位置上的單個核苷酸存在差別的現象。有這種差別的基因座、DNA序列等可作為基因組作圖的標志。人基因組上平均約每1000個核苷酸即可能出現1個單核苷酸多態性的變化，其中有些單核苷酸多態性可能與疾病有關，但可能大多數與疾病無關。單核苷酸多態性是研究人類家族和動植物品系遺傳變異的重要依據。在研究癌癥基因組變異時，相對于正常組織，癌癥中特異的單核苷酸變異是一種體細胞突變（somatic mutation），稱做SNV。

什么是INDEL (基因組小片段插入）

基因組上小片段（>50bp）的插入或缺失，形同SNP/SNV。

什么是copy number variation（CNV）：基因組拷貝數變異

基因組拷貝數變異是基因組變異的一種形式，通常使基因組中大片段的DNA形成非正常的拷貝數量。例如人類正常染色體拷貝數是2，有些染色體區域拷貝數變成1或3，這樣，該區域發生拷貝數缺失或增加，位于該區域內的基因表達量也會受到影響。如果把一條染色體分成A-B-C-D四個區域，則A-B-C-C-D/A-C-B-C-D/A-C-C-B-C-D/A-B-D分別發生了C區域的擴增及缺失，擴增的位置可以是連續擴增如A-B-C-C-D也可以是在其他位置的擴增，如A-C-B-C-D。

什么是structure variation（SV）：基因組結構變異

染色體結構變異是指在染色體上發生了大片段的變異。主要包括染色體大片段的插入和缺失（引起CNV的變化），染色體內部的某塊區域發生翻轉顛換，兩條染色體之間發生重組（inter-chromosometrans-location）等。一般SV的展示利用Circos軟件。

什么是Segment duplication

一般稱為SD區域，串聯重復是由序列相近的一些DNA片段串聯組成。串聯重復在人類基因多樣性的靈長類基因中發揮重要作用。在人類染色體Y和22號染色體上，有很大的SD序列。

什么是genotype and phenotype

既基因型與表型；一般指某些單核苷酸位點變異與表現形式間的關系。

什么是Read?

高通量測序平臺產生的短序列就稱為reads。PE125，就是讀長為125bp雙端測序。

什么是Contig?

拼接軟件基于reads之間的overlap區，拼接獲得的序列稱為Contig（重疊群），無N。

什么是Scaffold?

基因組de novo測序，通過reads拼接獲得Contigs后，往往還需要構建454 Paired-end庫或Illumina Mate-pair庫，以獲得一定大小片段（如3Kb、6Kb、10Kb、20Kb）兩端的序列。基于這些序列，可以確定一些Contig之間的順序關系，這些先后順序已知的Contigs組成Scaffold（含有N）。

什么是Contig N50？

Reads拼接后會獲得一些不同長度的Contigs。將所有的Contig長度相加，能獲得一個Contig總長度。然后將所有的Contigs按照從長到短進行排序，如獲得Contig 1，Contig 2，Contig 3...………Contig 25。將Contig按照這個順序依次相加，當相加的長度達到Contig總長度的一半時，最后一個加上的Contig長度即為Contig N50。舉例：Contig 1+Contig 2+ Contig 3+Contig4=Contig總長度*1/2時，Contig 4的長度即為Contig N50。Contig N50可以作為基因組拼接的結果好壞的一個判斷標準。

什么是Scaffold N50？

Scaffold N50與Contig N50的定義類似。Contigs拼接組裝獲得一些不同長度的Scaffolds。將所有的Scaffold長度相加，能獲得一個Scaffold總長度。然后將所有的Scaffolds按照從長到短進行排序，如獲得Scaffold 1，Scaffold 2，Scaffold 3...………Scaffold 25。將Scaffold按照這個順序依次相加，當相加的長度達到Scaffold總長度的一半時，最后一個加上的Scaffold長度即為Scaffold N50。舉例：Scaffold 1+Scaffold 2+Scaffold 3 +Scaffold 4 +Scaffold 5=Scaffold總長度*1/2時，Scaffold 5的長度即為Scaffold N50。Scaffold N50可以作為基因組拼接的結果好壞的一個判斷標準。

什么是測序深度和覆蓋度？

測序深度是指測序得到的總堿基數與待測基因組大小的比值。假設一個基因大小為2M，測序深度為10X，那么獲得的總數據量為20M。覆蓋度是指測序獲得的序列占整個基因組的比例。由于基因組中的高GC、重復序列等復雜結構的存在，測序最終拼接組裝獲得的序列往往無法覆蓋有所的區域，這部分沒有獲得的區域就稱為Gap。例如一個細菌基因組測序，覆蓋度是98%，那么還有2%的序列區域是沒有通過測序獲得的。

什么是RPKM、FPKM

RPKM,ReadsPer Kilobase of exon model per Million mapped reads, is defined in thisway [Mortazavi etal., 2008]:

每1百萬個map上的reads中map到外顯子的每1K個堿基上的reads個數。

假如有1百萬個reads映射到了人的基因組上，那么具體到每個外顯子呢，有多少映射上了呢，而外顯子的長度不一，那么每1K個堿基上又有多少reads映射上了呢，這大概就是這個RPKM的直觀解釋。

如果對應特定基因的話，那么就是每1000000 mapped到該基因上的reads中每kb有多少是mapped到該基因上的exon的read

Total exon reads

This is the number in the column with header Total exonreads in the rowfor the gene. This is the number of reads that have beenmapped to a region inwhich an exon is annotated for the gene or across theboundaries of two exons oran intron and an exon for an annotated transcript ofthe gene. For eukaryotes,exons and their internal relationships are defined byannotations of type mRNA.映射到外顯子上總的reads個數。這個是映射到某個區域上的reads個數，這個區域或者是已知注釋的基因或者跨兩個外顯子的邊界或者是某個基因已經注釋的轉錄本的內含子、外顯子。對于真核生物來說，外顯子和它們自己內部的關系由某類型的mRNA來注釋。

Exonlength:

This is the number in the column with theheader Exon length inthe row for the gene, divided by 1000. This is calculatedas the sum of thelengths of all exons annotated for the gene. Each exon isincluded only once inthis sum, even if it is present in more annotatedtranscripts for the gene.Partly overlapping exons will count with their fulllength, even though theyshare the same region.外顯子的長度。計算時，計算所有某個基因已注釋的所有外顯子長度的總和。即使某個基因以多種注釋的轉錄本呈現，這個外顯子在求和時只被包含一次。即使部分重疊的外顯子共享相同的區域，重疊的外顯子以其總長來計算。

Mapped reads

The sum of all the numbers in the column with header Totalgenereads. The Total gene reads for a gene is the total number ofreads that aftermapping have been mapped to the region of the gene. Thus thisincludes all thereads uniquely mapped to the region of the gene as well asthose of the readswhich match in more places (below the limit set in thedialog in figure 18.110) that have been allocated tothis gene's region. Agene's region is that comprised of the flanking regions(if it was specified infigure 18.110), the exons, the introns andacross exon-exonboundaries of all transcripts annotated for the gene. Thus,the sum of the totalgene reads numbers is the number of mapped reads for thesample (you can findthe number in the RNA-Seq report).map的reads總和。映射到某個基因上的所有reads總數。因此這包含所有的唯一映射到這個區域上的reads。

舉例：比如對應到該基因的read有1000個，總reads個數有100萬，而該基因的外顯子總長為5kb，那么它的RPKM為：10^9*1000(reads個數)/10^6(總reads個數)*5000(外顯子長度)=200或者：1000(reads個數)/1(百萬)*5(K)=200這個值反映基因的表達水平。

FPKM(fragmentsper kilobase of exon per million fragments mapped)

FPKM與RPKM計算方法基本一致。不同點就是FPKM計算的是fragments，而RPKM計算的是reads。Fragment比read的含義更廣，因此FPKM包含的意義也更廣，可以是pair-end的一個fragment，也可以是一個read。

什么是轉錄本重構

用測序的數據組裝成轉錄本。有兩種組裝方式：1，de-novo構建； 2，有參考基因組重構。其中de-novo組裝是指在不依賴參考基因組的情況下，將有overlap的reads連接成一個更長的序列，經過不斷的延伸，拼成一個個的contig及scaffold。常用工具包括velvet，trans-ABYSS，Trinity等。有參考基因組重構，是指先將read貼回到基因組上，然后在基因組通過reads覆蓋度，junction位點的信息等得到轉錄本，常用工具包括scripture、cufflinks。

什么是表達譜

基因表達譜(geneexpression profile)：指通過構建處于某一特定狀態下的細胞或組織的非偏性cDNA文庫,大規模cDNA測序,收集cDNA序列片段、定性、定量分析其mRNA群體組成,從而描繪該特定細胞或組織在特定狀態下的基因表達種類和豐度信息,這樣編制成的數據表就稱為基因表達譜

什么是比較基因組學

比較基因組學(ComparativeGenomics)是基于基因組圖譜和測序基礎上，對已知的基因和基因組結構進行比較，來了解基因的功能、表達機理和物種進化的學科。利用模式生物基因組與人類基因組之間編碼順序上和結構上的同源性，克隆人類疾病基因，揭示基因功能和疾病分子機制，闡明物種進化關系，及基因組的內在結構。

什么是基因組注釋

基因組注釋(Genomeannotation) 是利用生物信息學方法和工具,對基因組所有基因的生物學功能進行高通量注釋,是當前功能基因組學研究的一個熱點。基因組注釋的研究內容包括基因識別和基因功能注釋兩個方面。基因識別的核心是確定全基因組序列中所有基因的確切位置。

四、主要注意問題

1.建庫

原理基本如下，將基因組序列采用鳥槍法打碎——俗稱建庫，然后采用凝膠電泳的方式將不同長度的片段分離，比如現在建庫，短庫一般建180bp，200bp或者300bp等。這里的180 和300 就是測序片段的長度。當然因為測序儀的讀長是固定的，比如110，125，或者450等。公司現在采用的是220bp文庫，讀長為125bp，因為是雙端測序，因此會有30bp的overlap區（這些是后期利用allpath-lg組裝的必要條件）。然后大文庫測序采用的時環化的技術，同樣全基因組鳥槍之后，跑膠，跑出我們需要的相應的長度，比如3k，5k，7k，14k等。得到這些數據之后，再將其打斷，然后測序，因為這里有一個環化的過程，所以這里的方向是RF（小文庫是FR）。

2.過濾

小文庫數據拿到手之后，一般要將質量較低的過濾掉，然后去掉序列兩端的接頭序列，而大文庫處理過濾低質量和過濾掉兩端接頭序列之外，還要將中間的接頭過濾掉。對于過濾大文庫接頭的程序，我推薦兩個，一個是R語言寫的Relox，這個要求你指定接頭。還有一個就是NXtrim，美國冷泉港開發的一款專門過濾illumina公司的大文庫數據接頭。

3.評估

做完這些數據處理之后，一般還要對插入片段的評估。插入片段其實就是文庫的大小。比如300bp的文庫，插入片段就是300bp，但是我們都應該知道在目前的測序水平下，難免會有失誤和誤差，誤差導至的后果是雖然插入片段是300bp，但是只能是平均值是300bp，存在一個方差，大概在幾十bp左右。通常誤差我們是可以接受的，而對于失誤，我們就要把它給找出來，如果插入片段，嚴重偏離300bp，那么就意味著建庫失敗。通常我們采用的檢驗方法是將數據進行基因組組裝，組裝之后進行soap比對，然后畫出比對的效率圖。有人會問了難道只能組裝完之后才能進行插入片段評估嗎？我不知道其他的方式，只能說莫須有。

二代測序主要的使用工具，小編推薦Softberry家的工具，另外生信人是Softberry在中國的代理商。有誰想買的話，可以聯系我們哦。http://www.softberry.com/

平臺上提供的工具基本上從基因組，轉錄組，蛋白組統統都有。免費試用。

第三代測序技術

一、簡介

第三代測序技術目前在市場上較為活躍的是Pacbio公司的RS II系列和Sequl系列。二代測序主要的長度較短的問題，Pacbio將會徹底給予解決，目前其讀長在9Kb以上，準確性在85%以上。通量較二代差距很大，目前Sequl的一個cell可以產出5 Gb左右。這個通量目前對于科研市場是消費的起的，但是對于臨床檢測，成本較高。不過值得慶幸的是，他們的CTO承諾18年一個cell可以產出150Gb，到那個時候，基本上就是1萬元denovo 一個人。這對于復雜疾病的破譯非常具有意義。

第三代測序技術是指單分子測序技術。DNA測序時，不需要經過PCR擴增，實現了對每一條DNA分子的單獨測序。第三代測序技術也叫從頭測序技術，即單分子實時DNA測序。

主要包括單分子熒光技術，也就是不需要擴增，每一個分子顯示一種光，然后實時去監控，去讀取。因此這里如何構建一個環境，讓核酸分子單獨發光，去識別是技術難點。

最近國內較火的瀚海基因的GenoCare也是基于單分子熒光技術的。

二、Pacbio主要應用

目前三代數據主要應用在科研市場的兩個方向上，第一個是基因組的組裝，另一個就是全長轉錄組。

全長轉錄組上的應用其實沒啥說的，他不需要組裝，只需要糾錯，然后識別就好了，定量還是利用二代測序。這里就不說了，主要說下三代組裝上的一些情況。

1.糾錯

第一個就是由于三代數據的隨機錯誤很多，因此對數據進行糾錯是繞不過去的，介紹兩款軟件，一款是pacbioToCa，一款是ectool。一個是利用二代數據糾錯，一個是利用contig進行糾錯。

2.組裝

第二個軟件就是三代數據的組裝，推薦celera Assembly。當然肯定還有其他的牛X的軟件因此我們很難拿到。對了，多一句嘴，官網說單獨用三代組裝的話，深度要到40x。

3.混拼

第三個軟件是混拼，也就是二代數據和三代數據一起組裝。軟件為，不廢話，官網要求深度為20x。

4.補洞

第四個軟件是我喜歡的，就是利用三代數據的長片段來填補二代數據組裝完的gao和連接contig為scaffold。推薦軟件PBjerry。官網要求深度為5X。

實驗室

北京大學高通量測序中心中國科學院國家基因研究中心北京大學生物動態光學成像中心浙江大學分析測試中心中國農業科學院哈爾濱獸醫研究所飛秒檢測未知物分析配方研發平臺飛秒檢測未知物分析配方研發平臺北京大學工學院生物醫學工程實驗室國家生物醫學分析中心蛋白質組學技術平臺中山大學基因工程教育部重點實驗室

測序簡史（三）

其他網友還關注過

細胞用量大幅減少，新技術提升單分子DNA測序水平

藥典委：《微生物全基因組測序技術指導原則》二次公示

華大智造2023年財報發布：核心測序業務穩步增30.31％

3450萬，該高校6、7月份采購計劃出爐

揭示不同類型供體血管導致冠狀動脈旁路移植術遠期效果差異的分子機制

研究提出適用中國人群腫瘤突變負荷檢測技術

年度盤點：2023年阿爾茨海默病研究初現曙光

Nature最新文章：基因測序游戲規則正在被改寫，速度翻倍，僅需數小時

瑞孚迪：改變千萬新生命——全基因組測序在新生兒篩查中的應用

立足“東方大灣區”：因美納攜手海普洛斯打造國產旗艦桌面測序系統