<li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>

  • 拷貝數變異(CNV)與多種遺傳性疾病的病因有很大關聯。利用全外顯子組測序(WES)數據準確檢測 CNV 一直是臨床上長期追求的目標。盡管最近性能有所提高,但這是不可能的,因為算法大多精度低,專家策劃的黃金標準調用集的召回率甚至更低。

      牛津大學(Oxford University)、瑞士洛桑聯邦理工學院(EPFL)以及土耳其畢爾肯大學(Bilkent University)提出了一個基于深度學習的 WES 數據體細胞和種系 CNV 調用程序,名為 ECOLE。

      基于 Transformer 架構的變體,該模型通過對匹配的 WGS 樣本進行高置信度調用,學習調用每個外顯子的 CNV。

      研究人員用遷移學習通過一小組專家調用,進一步訓練和微調模型。ECOLE 首次在人類專家標記數據上實現了高性能,準確率達到 68.7%,召回率達到 49.6%。

      與排名第二的最佳方法相比,準確率和召回率分別提高了 18.7% 和 30.8%。使用腫瘤樣本的相同微調策略使 ECOLE 能夠檢測膀胱癌樣本中經過 RT-qPCR 驗證的變異,而無需對照樣本。

      該研究以「ECOLE: Learning to call copy number variants on whole exome sequencing data」為題,于 2024 年 1 月 2 日發布在《Nature Communications》。

      拷貝數變異 (CNV) 是癌癥、精神分裂癥和自閉癥等許多疾病的眾所周知的重要危險因素。在過去十年中,高通量測序 (HTS) 一直是檢測 CNV 的標準技術。使用全基因組測序 (WGS) 數據的各種 CNV 檢測算法非常成功,靈敏度和精確度值分別高達 96% 和 97%。

      這與處理整個外顯子組測序 (WES) 數據的算法形成鮮明對比,后者的精度非常低。WGS 是一個更適合這項任務的平臺,因為它不使用引入長度、GC 和參考偏差的靶向探針。另一方面,WES 在臨床上更具吸引力,因為它比 WGS 更緊湊、可解釋且價格實惠。不幸的是,由于這些限制,WES 技術在 CNV 檢測方面的臨床應用受到限制。

      牛津大學、瑞士洛桑聯邦理工學院以及土耳其畢爾肯大學的研究人員,前期開發了一種基于深度學習的拋光方法(deep-learning-based polishing approach),該方法可以使用對匹配的 WGS 樣本進行的更值得信賴的調用,來糾正許多最先進的基于 WES 的種系 CNV 調用者的調用。雖然這是向前邁出的重要一步,但在臨床使用方面仍然存在瓶頸。

      第一個問題是結果的敏感性。拋光器(polisher)只能處理基本算法返回的調用(例如刪除)。它要么改變這些調用(例如,重復),要么中和它們(例如,不調用)。雖然這有助于降低錯誤發現率,但它對靈敏度的影響有限,因為拋光器無法進行新的調用(例如,將無調用轉換為刪除/重復)。不幸的是,由于性能非常低,靈敏度大多超出了基于 WES 的 CNV 調用域的范圍。

      第二個問題是,即使是經過優化后的精度性能也受到專家策劃的 CNV 調用集的限制,這些調用集被視為黃金地面事實(高達 35%)。這是因為拋光器使用基于 WGS 的自動化 CNV 調用作為模型訓練的標簽,但這些標簽(調用)與人類專家決策相比具有非常不同的分布。

      不幸的是,這種手動策劃的調用集尺寸非常小,這阻礙了機器學習模型的訓練。因此,在人類專家策劃的 CNV 調用集上實現高性能的調用者將使基于 WES 的種系 CNV 檢測在臨床中得到廣泛使用。

      圖示:ECOLE 的系統概述。(來源:論文)

      因此,該團隊又提出了第一個基于深度學習的方法(ECOLE: Exome-based COpy number variation calling LEarner),該方法可以獨立學習對 WES 數據執行體細胞和種系 CNV 調用。該模型基于 Transformer 模型的變體,這是自然語言處理領域處理序列數據的最先進方法。

      ECOLE 可以處理每個外顯子的讀取深度信號。它了解需要關注信號的哪些部分以及在哪個上下文(即染色體)中調用 CNV。它使用在匹配的 WGS 樣本上獲得的高置信度調用(即標簽)作為半真實值。

      ECOLE 在自動 WGS 調用的基準上顯著提高了外顯子精確度以及第二最佳方法性能的召回率(分別提高了 13.5% 和 16.6%)。這是唯一具有平衡精度和召回率的方法。

      此外,該團隊還首次提出使用轉移學習并使用少量人類專家標記的樣本來微調模型參數。研究人員表明,這種方法在預測人類標簽方面的精度和召回率分別提高了約 18% 和約 30%。

      同樣,他們使用微調方法使 ECOLE 能夠使用膀胱癌樣本來調用體細胞變異。研究人員證明,他們能夠在 16 個膀胱癌樣本中的 13 個樣本中檢測到經過 PCR 驗證的拷貝數畸變,而最先進的方法即使在拋光后也只能檢測到 2 個樣本中經過驗證的拷貝數畸變。

      該方法具有作為種系和體細胞 CNV 調用者的能力,并通過微調輕松適應疾病和人類專家;研究人員建議 ECOLE 作為擴大外顯子組測序技術在 CNV 檢測臨床應用的可行選擇。


    <li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 1v3多肉多车高校生活的玩视频