<li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 發布時間:2024-06-20 16:29 原文鏈接: 新工具可輕松搜索世界已知10%的基因

      一種功能類似于谷歌搜索的計算工具已經證明了它的前景——可以廉價且容易地搜索生物序列數據。開發該工具的瑞士團隊表示,在一項原理驗證研究中,他們利用該工具成功索引了10%世界已知DNA、RNA和蛋白質序列,同樣的方法也可以用于完成其余部分。

      日前,該進展在預印本平臺bioRxiv上公布。這款名為MetaGraph的計算工具,可以將公開的序列數據組織并壓縮為可搜索的格式,就像互聯網搜索引擎對網頁及其內容所做的那樣。由此產生的索引可供下載,也可通過門戶網站獲得,用戶可以掃描包含數萬億對堿基對和數十億個氨基酸的序列。

      沒有參與該工作的美國馬里蘭大學的計算生物學家Rob Patro說,這項研究“是一項巨大成就,是對所有公開的測序數據進行索引這一重大挑戰的里程碑。”這樣的資源可以助力無數領域的研究,從鑒定新病毒到揭示與疾病相關的RNA序列。雖然MetaGraph并不是唯一一個旨在實現這一目標的項目,但該團隊已經創建了迄今最大的索引,并且使用成本相對較低。

      Patro指出,目前,存儲DNA、RNA和蛋白質序列數據的存儲庫呈指數級增長。序列讀取檔案(SRA)是一個由美國國立衛生研究院國家生物技術信息中心(NCBI)及其合作者運營的基因數據庫,包含了來自人類和其他動物、植物和細菌等生物體的超過5萬億個堿基對(50 PB堿基)。

      目前的生物信息學工具無法同時掃描這么多數據,尤其是對于那些尚未組裝成基因組的序列,研究人員必須縮小序列集合的范圍。一些研究小組希望通過將較大數據庫中的序列壓縮成更有組織的數據結構或索引來解決這個問題,以便在可下載文件或在線門戶中輕松搜索。

      2020年,瑞士蘇黎世聯邦理工學院的生物信息學家AndréKahles和計算機科學家Gunnar R?tsch及其同事展示了MetaGraph的早期版本。該團隊使用稱為德布魯因圖的數學結構表示序列之間的重疊,從SRA中索引了100多萬條記錄,總計約3 PB。

      現在,該團隊利用MetaGraph的改進版本索引來自SRA和其他數據庫的5個pb堿基,包括來自微生物、真菌、植物、人類和人類腸道微生物組的序列。新發布的工具可以將幾十太字節的數據壓縮到大約10gb——小到足以在一臺個人電腦上運行。構建初始索引是很困難且昂貴的,所有SRA都要花費數十萬美元,但現在用戶可以比現有技術更便宜地查詢數據集。

      英國諾丁漢特倫特大學的生物信息學家和微生物學家Lesley Hoyles說,這項工作“非常令人興奮”。隨著數據存儲庫的規模不斷膨脹,“任何可以減少計算存儲和能源成本的東西……對全世界的研究人員來說都是一個巨大優勢。”Hoyles說,這種方法可以減少低收入和中等收入國家的科學家進行基因組研究的障礙。“工作可以在便宜的筆記本電腦上輕松完成。”

      無獨有偶,其他研究小組也在取得進展。去年,法國巴斯德研究所從歐洲研究委員會獲得了200萬歐元,啟動了IndexThePlanet項目,對SRA中的所有數據進行編目。NCBI的研究人員正在開發索引工具Pebblescout。“目前這是一個非常活躍的領域。”英國巴斯大學的計算生物學家Zamin Iqbal說。他曾參與“所有細菌”項目,該項目旨在收集細菌序列數據,使其更容易搜索。

      Patro認為,由于受MetaGraph索引大小的限制,其在一些特別大的任務上可能比其他工具慢,比如同時從一個樣本中查找數百萬個序列。他補充說,目前還不清楚如何最好地用新的序列數據更新索引。還有一個挑戰是為項目提供資金,以及隨之而來的所有計算成本。事實上,該工具最終是否被廣泛采用,將部分取決于“如何解決社會和行政方面的問題,即如何使用如此大量的資源”。

      Kahles和R?tsch對此表示贊同,他們希望這項工作能激勵其他團體,以及NCBI或SRA等更大的組織的參與,并幫助索引剩余90%的序列數據,供研究人員使用。

    相關文章

    新技術首次實現以RNA為媒介的基因精準寫入

    從中國科學院動物研究所獲悉,該所李偉研究員與周琪研究員團隊開發的逆轉座子基因工程新技術,首次實現以RNA為媒介的基因精準寫入,有望為遺傳病、腫瘤等疾病帶來更高效、更安全、更低成本的全新治療方式,為新一......

    科學家開發逆轉座子基因工程新技術?實現全RNA介導的基因精準寫入

    基因組DNA是生命的藍圖,對基因組DNA實現任意尺度的精準操作代表對生命藍圖進行修改繪制的底層能力,是基因工程技術發展的核心。以CRISPR基因編輯技術為代表的技術進步實現了基因組單堿基和短序列尺度的......

    新技術首次實現以RNA為媒介的基因精準寫入

    記者9日從中國科學院動物研究所獲悉,該所李偉研究員與周琪研究員團隊開發的逆轉座子基因工程新技術,首次實現以RNA為媒介的基因精準寫入,有望為遺傳病、腫瘤等疾病帶來更高效、更安全、更低成本的全新治療方式......

    《全鏈條支持創新藥發展實施方案》通過,細胞與基因療法行業迎來重大利好

    在近日召開的國務院常務會議上,國務院總理李強主持并審議通過了備受矚目的《全鏈條支持創新藥發展實施方案》。這一舉措對于推動中國生物醫藥領域的創新發展具有深遠影響,尤其是細胞與基因療法行業,有望因此迎來全......

    中信湘雅與華大基因攜手促基因組學等前沿研究

    7月3日,中信湘雅生殖與遺傳專科醫院和深圳華大基因科技有限公司簽署戰略合作協議,雙方將共建“中信湘雅-華大DCSlab”科研實驗平臺,推動基因組學、基因檢測、輔助生殖技術及精準醫療等領域的科學研究。簽......

    工業大麻產量基因首次被發現

    記者6月22日從中國農業科學院麻類研究所獲悉,該所聯合國內外多家單位,研究發現第一個工業大麻產量基因,標志著大麻分子育種領域的重大突破。據介紹,該研究為提高工業大麻花葉及籽粒產量奠定了理論基礎,也為培......

    【CGCT2024】青藜論壇全議程揭曉,開啟CGT九大主題交流!

    2024年第四屆基因與細胞治療青藜風云論壇(CGCT2024),由中國研究型醫院學會醫工轉化與健康產業融合專業委員會、博騰生物、佰傲谷BioValley聯合主辦,將于2024年7月5-6日在上海召開。......

    新工具可輕松搜索世界已知10%的基因

    一種功能類似于谷歌搜索的計算工具已經證明了它的前景——可以廉價且容易地搜索生物序列數據。開發該工具的瑞士團隊表示,在一項原理驗證研究中,他們利用該工具成功索引了10%世界已知DNA、RNA和蛋白質序列......

    古麥今用現代小麥找回丟失的遺傳基因

    記者18日從中國農業科學院深圳農業基因組研究所獲悉,6月17日23時,《自然》刊登了該所(嶺南現代農業科學與技術廣東省實驗室深圳分中心)研究員程時鋒團隊聯合英國約翰·英納斯中心等國內外多家優勢單位完成......

    《自然》最新:古基因組研究揭示瑪雅人祭祀儀式細節

    中新網北京6月13日電(記者孫自法)國際著名學術期刊《自然》最新發表一篇考古學論文稱,一項研究通過對古代個體的DNA分析,發現了瑪雅古城奇琴伊察埋葬祭祀儀式的更多細節。研究結果還展示了瑪雅地區延續至今......

    <li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 1v3多肉多车高校生活的玩视频