其他 | 1. 重復序列分析
對于真核生物的核酸序列而言,在進行基因辨識之前都應該把簡單的大量的重復序列標記出來并除去,因為很多情況下重復序列會對預測程序產生很大的擾亂,尤其是涉及數據庫搜索的程序。
2. 數據庫搜索
把未知核酸序列作為查詢序列,在數據庫里搜索與之相似的已有序列是序列分析預測的有效手段。在理論課中已經專門介紹了序列比對和搜索的原理和技術。但值得注意的是,由相似性分析作出的結論可能導致錯誤的流傳;有一定比例的序列很難在數據庫里找到合適的同源伙伴。對于EST序列而言,序列搜索將是非常有效的預測手段。
3. 編碼區統計特性分析
統計獲得的經驗說明,DNA中密碼子的使用頻率不是平均分布的,某些密碼子會以較高的頻率使用而另一些則較少出現。這樣就使得編碼區的序列呈現出可察覺的統計特異性,即所謂的“密碼子偏好性”。利用這一特性對未知序列進行統計學分析可以發現編碼區的粗略位置。這一類技術包括:雙密碼子計數(統計連續兩個密碼子的出現頻率);核苷酸周期性分析(分析同一個核苷酸在3,6,9,...位置上周期性出現的規律);均一/復雜性分析(長同聚物的統計計數);開放可讀框架分析等。
4. 啟動子分析
啟動子是基因表達所必需的重要序列信號,識別出啟動子對于基因辨識十分重要。有一些程序根據實驗獲得的轉錄因子結合特性來描述啟動子的序列特征,并依次作為啟動子預測的依據,但實際的效果并不十分理想,遺漏和假陽性都比較嚴重。總的來說,啟動子仍是值得繼續研究探索的難題。
5. 內含子 / 外顯子剪接位點 剪接位點一般具有較明顯的序列特征,但是要注意可變剪接的問題。由于可變剪接在數據庫里的注釋非常不完整,因此很難評估剪接位點識別程序預測剪接位點的敏感性和精度。如果把剪接位點和兩側的編碼特性結合起來分析則有助于提供剪接位點的識別效果。 6. 翻譯起始位點
對于真核生物,如果已知轉錄起始點,并且沒有內含子打斷5'非翻譯區的話,“Kozak規則”可以在大多數情況下定位起始密碼子。原核生物一般沒有剪接過程,但在開放閱讀框中找正確的起始密碼子仍很困難。這時由于多順反操縱子的存在,啟動子定位不象在真核生物中起關鍵作用。對于原核生物,關鍵是核糖體結合點的定位,可以由多個程序提供解決方案。 7. 翻譯終止信號
PolyA和翻譯終止信號不象起始信號那么重要,但也可以輔助劃分基因的范圍。
8. 其它綜合基因預測工具
除了上面提到的程序之外,還有許多用于基因預測的工具,它們大多把各個方面的分析綜合起來,對基因進行整體的分析和預測。多種信息的綜合分析有助于提高預測的可靠性,但也有一些局限:物種適用范圍的局限;對多基因或部分基因,有的預測出的基因結構不可靠;預測的精度對許多新發現基因比較低;對序列中的錯誤很敏感;對可變剪接、重疊基因和啟動子等復雜基因語法效果不佳。
9. tRNA 基因識別
tRNA基因識別比編碼蛋白質的基因識別簡單,目前基本已經解決了用理論方法預測tRNA基因的問題。tRNAscan-SE工具中綜合了多個識別和分析程序,通過分析啟動子元件的保守序列模式、tRNA二級結構的分析、轉錄控制元件分析和除去絕大多數假陽性的篩選過程,據稱能識別99%的真tRNA基因。 展 |
---|