<li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 發布時間:2019-12-16 13:22 原文鏈接: 基因數據分析的主流軟件

    基因組測序

    在過去的幾年中,許多生物的基因組完成了測序工作,如何對如此龐大的原始序列信息進行分析和應用,正是現在最為棘手的問題。大量的基因預測軟件和在線工具應運而生。如何廣泛而深入地了解并能有的放矢地利用這些工具,已經成為21世紀分子生物學家的必修課。

    隨著大規模EST和cDNA序列信息的獲取,那些基于表達序列同源范圍的程序,在基因組注釋中的作用日益顯著。即使在稀少基因或組織特異性表達的基因中,基因組序列的相關性信息也頗具參考價值。所以利用基因組序列的比對來擴充基因的信息是不可獲缺的。特別是在對人類基因組做注釋時,與那些相對完整的脊椎動物基因組,如小鼠和魚類的基因組比較是必不可少的步驟。

    許多基因組測序計劃正在進行之中,盡管仍存在急需解決的問題,比較基因組學方法(comparative genome approach)被認為是最有應用前景的方法。該方法不僅在基因預測中舉足輕重,而且在鑒定調控基因、探索垃圾基因(junk gene)等方面的作用也不容忽視。基因預測軟件的用戶應該認識到,軟件預測結果的可靠性和置信水平都有較大程度的提升。但這些畢竟是預測的結果,分子生物學家,總是試圖證明真實存在的蛋白質,及其功能和在組織中的表達狀態。

    當前,已有超過60種真核基因組測序計劃在進程之中。然而生物學方面的相關注釋還遠不能匹配如此洶涌而至的原始序列數據。當務之急是,研發出更多的準確而快速的分析工具,特別在尋找基因、確定其準確功能等應用方面。許多基因預測程序都可以免費共享。當前,幾乎沒有一個完美的程序可以解決用戶們的所有問題。這就需要用戶最大程度地利用主流程序的整合優勢。

    基因數目預測的主流軟件

    10年前,研究人員開始預測人類基因的數目,這個數目在很長時間沒有明顯改變。幾年前,最多的預測是100,000;當人類基因組完成測序時,這個數目降至30,000。現在有降至20,000左右。研究人員相信:充分考慮人類的基因組序列和其它生物的基因組序列,可以做出近似的估計。Affymetrix 的計算科學家David Kulp稱:“很難對基因數目的諸多估算,做出正誤的判別。”分子生物學家正在尋找比預期設想的基因更小的基因。在某種情況下,就一段編碼的序列,很難確定是一個基因或是兩個基因的重疊。學術界仍不能完全肯定地歸類那些編碼多種蛋白質的基因,或是僅編碼RNA的類似基因的序列。

    早在20世紀30年代,George Beadle和Tatum認為每個基因僅僅編碼一個蛋白質。幾十年來這個說法仍舊沿襲。現在則認為這樣的理論過于簡單。一個基因可以編譯成多種蛋白質,甚至可以轉錄成RNA。人類基因組中編碼蛋白質的區域,稱為外顯子,約僅占總體DNA的2%。一些簡單的基因僅含有一個外顯子。有些基因沒有功能,稱為假基因pseudogene:是與已知基因在不同部位有密切相似性的基因,但由于結構上有加入或缺失,而阻止了正常的轉錄或翻譯,以致使它們無功能。這樣就會增加基因預測的數量,造成許多假陽性的結果。

    英國劍橋的EBI(European Bioinformatics Institute)的基因預測專家Ewan Birney指出:“目前預測的人類24,500個基因中,有將近3,000個基因可能為pseudogene”。華盛頓大學的計算科學家Michael Brent稱:“如果在基因預測中準確地考慮到假基因的存在,那么預測的結果會更為精確。”

    目前廣泛應用的基因預測方法是:“ab initio”方法,即通過探索DNA序列中特異的區域,如基因的起始區域和終止區域,來進行基因預測。另一種方法是比較基因組學的方法,即根據與已知的蛋白質或基因之間的相似性來發現新的基因。Ab initio程序對于那些類似于基因的序列,也給予歸類,所以總的預測數量要高出實際值;而比較的方法不考慮無相似關系的基因,所以估計的基因數目偏低。

    大多數人所熟知的一個ab initio程序叫做Gene Modeler是1990年新墨西哥洲大學的Chris Fields和Cari Soderlund研發的。當時是被應用在線蟲Caenorhabditis elegans的基因探尋過程中。那時出現的其它軟件都稍遜于Gene Modeler。例如,BLAST、FASTA能將DNA序列翻譯成蛋白質序列,并與已有的、蛋白質數據進行比較。

    這個領域進展迅速,涌現出許多具有專業軟件編寫技能的預測人員,包括采用Gene Modeler的方法創建GeneID來尋找人類基因的Guigo,以及編寫GeneParser軟件的Eric Snyder。GeneParser采用了一個稱為動力學程序的技術,將外顯子與不編碼蛋白質的內含子區分開來。Rockville的TIGR(The Institute for Genomic Research)的Steven Salzberg自從1994年,利用ab initio的方法,來改進尋找人類基因的程序。

    隨后的幾年里,他們又研發出幾個新的程序。其中的一個是與更為詳盡的背景信息相整合,進行基因預測。它可以更加清楚地預測外顯子和內含子的大小。另一個程序是同時作用于兩個完整的基因組,由計算機完成兩者的比較。許多研究人員更傾向于后種方法,原因是相似的物種,更為傾向于擁有相似的基因序列。National Human Genome Research Institute的遺傳學家Eric Green說,他及他的同事,已經從13個物種中進行了DNA比較,包括狗、牛、雞以及河豚魚。2003年8月14日的Nature上發表了他們對基因、以及調控區域的比較結果。

    GENSCAN就是一個經典的基因預測軟件。1996年由MIT的Chris Burge開始編寫這個軟件程序。當時,Burge的許多同事主張采用比較的方法,他們隨機選取一個最新測序基因組中基因的DNA序列,與數據庫中已存在的基因進行聯配。但是Chris Burge認為:“利用人類基因組所獲知的信息,可能不能發現某些新的基因。” 他還積極吸取了加州大學計算機科學家David Haussler的經驗。很多年前,Haussler就意識到基因預測的問題與語言學家們所遇到的問題相類似。語言學家總是試圖尋找語言中句法、語法,以及其它某些特征。

    Haussler和其他人都建議從語言學中借助一種叫做Hidden Markov Model,HMM隱馬爾科夫模型的統計工具。在序列分析中,HMM通常是多重序列對位排列的概率模型,但也可用于單一序列的周期性模式的模型,比如代表發現基因外顯子的模式。在一個多重序列對位排列的模型中,用被稱作狀態的符號的概率分布代表排列中的每一列字母,插入和缺失用其他狀態表示。然后在模型內沿特定的路徑從一個狀態進入另一個狀態,試圖匹配一條給定的序列。從每一狀態選出下一個匹配符號,記錄其概率(頻率)和從前一狀態進入特定狀態的概率(過渡態概率)。

    狀態與過渡態的概率相乘就得到給定序列的概率。一般來說,HMM是一個對給定字符的統計模型,類似隨機狀態機器,從每一個狀態過渡到另一個就產生一個字符。狀態間的過渡態用過渡概率確定。HMM已成為許多基因預測算法的標準。Burge指出:目前存在一整套的能夠區分部分基因的模式和規則。比如,幾乎所有的基因在起始和終止區域存在特異的序列。外顯子的末端通常也存在一個特征序列,可以指導相關的酶切除外顯子下游的內含子。Burge已經利用這些規則分析了幾百個已知外顯子和內含子位置的基因序列。


    相關文章

    華大基因2022年度業績快報,利潤同比下滑近42.57%

    近日,深圳華大基因股份有限公司發布2022年度業績快報,報告顯示華大基因2022年度營業總收入約71.26億元人民幣,同比上年增加5.32%。2022年度營業利潤約10.47億元人民幣,同比上年減少4......

    基因組育種大數據計算新工具“天權”發布

    近日,國際學術期刊《核酸研究》(NucleicAcidsResearch)發表了華中農業大學動物遺傳育種團隊開發的基因組育種大數據計算新工具HIBLUP,中文名為“天權”。相關論文被期刊評為“突破性進......

    環境中致病菌毒力基因高通量檢測獲新進展

    近日,中科院生態環境研究中心土壤環境科學與技術實驗室朱永官院士團隊在環境中致病菌毒力基因高通量檢測方面取得新進展,相關研究成果以“VFG-Chip:Ahigh-throughputqPCRmicroa......

    Science:新的定量方法來更好地定義并測定基因功能的缺陷

    如今人們普遍認為,癌癥是一種基因和基因功能獲得性缺陷而誘發的一種疾病,近日,一篇發表在國際雜志Science上題為“Epigeneticsasamediatorofplasticityincancer......

    TheLancet:對患者進行基因分析或能降低30%不良藥物反應

    近日,一篇發表在國際雜志TheLancet上題為“A12-genepharmacogeneticpaneltopreventadversedrugreactions:anopen-label,mult......

    基因治療能有效改善大動物模型神經退行性疾病

    2月16日,我國科學家利用病毒載體表達CRISPR/Cas9基因編輯的技術敲除和修復亨廷頓豬模型的突變基因(HTT),首次在國際上證明基因治療能有效改善神經退行性疾病大動物模型的病理變化以及行為癥狀。......

    野駱駝生存基因魔方,可造福人類

    在“生命禁區”尋蹤“沙漠之王”在我國的西北部邊緣,分布著以“生命禁區”著稱的阿爾金山脈及其周邊綿延數百公里的茫茫戈壁。著名的無人區羅布荒原和毗鄰相接的庫姆塔格沙漠便是其中的一部分。在這片極端貧瘠寒苦的......

    嬰兒猝死因素研究進展,基因檢測幫大忙

    研究者發現,以往被用于診斷兒童疾病的一種基因測試(被稱為染色體微陣列芯片測試)可以幫助更好地理解嬰幼兒猝死背后的原因。美國波士頓兒童醫院的研究員CatherineBrownstein最近在Advanc......

    寵物克隆:“復活”一只寵物的代價,是無數只動物被虐殺

    寵物克隆原理看上去很簡單,取一塊原本寵物的皮膚,在皮膚細胞里提取細胞核;從其它動物體內取一個卵細胞,去掉它的細胞核;再把新卵細胞植入到另一動物體內,直到孕育出一個新生命。取卵的過程是無比痛苦的,他們會......

    獨特人類基因進化是平衡行為

    人類和黑猩猩的DNA僅百分之一不同。人類加速區域(HAR)是基因組的一部分,美國研究人員分析了數以千計的人類和黑猩猩HAR,發現人類進化過程中積累的許多變化具有相反的影響。研究結果近日發表在《神經元》......

    <li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 1v3多肉多车高校生活的玩视频