近年來得益于單細胞測序技術的發展,我們可以以單細胞分辨率去理解生物學過程,包括發育,衰老和疾病等。細胞類型注釋在單細胞數據分析過程中非常關鍵,傳統的注釋方法是將細胞降維到去除批次效應的低維空間,再進行一輪或多輪不同分辨率的聚類,最后根據不同細胞簇的標記基因人工的標注細胞類型。這一過程缺乏公認的標準,很大程度上受到研究人員偏好的影響。此外,移除批次效應的同時保留生物學差異也是單細胞研究的難點。幸而,隨著技術進步,越來越多大規模單細胞圖譜產生并公開發表,為后續研究提供了重要參考,但同時也產生了開發能夠高效處理大規模數據的計算工具的需求。所以,統一標準的,高效的,生物學可解釋的細胞類型標注工具對于單細胞分析結果的可重復性和科學研究的持續發展至關重要。
近日,北京大學韓敬東課題組在 Nature Communications 期刊發表題為:Transformer for One Stop Interpretable Cell type Annotation 的研究論文。
該研究開創性的提出了基于多頭自注意力機制的深度學習方法TOSICA,實現了無需任何批次信息輸入,使用個人電腦,在數十分鐘內對百萬級單細胞數據的細胞類型注釋,并建立多層次可解釋性的,批次不敏感的,高分辨率的細胞低維表示。
與基于特征基因或相關性的機器學習方法相比,深度學習方法往往更適合處理大數據,更高效,更自動化。目前已經有大量基于自編碼器(Autoencoder,AE)及其各種變體的細胞類型注釋方法被開發,但受限于AE模型結構本身帶來的弊端,此類方法大多伴隨著特征提取過程中的信息損失,需要額外批次信息的輔助去除批次效應,以及無法在不犧牲模型深度或能力的情況下賦予隱空間生物學可解釋性等問題。
Transformer是一種先進的,基于多頭自注意力(Multi-head self-attention)機制的深度學習模型,擁有強大的全局信息集成能力和可解釋性,它在自然語言處理(NLP)和計算機視覺(CV)等領域都取得了突破性進展。受這些優良特性的鼓舞,TOSICA 開創性的將Transformer計算單元運用到scRNA-seq數據分析領域。該模型首先將細胞中基因的表達信息轉化成基因集特征(Gene set token)并添加一維用于分類的分類頭(Class token),由于基因集間的離散特性,相對于傳統Transformer模型,TOSICA無需位置信息編碼(position embedding)而直接進入多頭自注意力層進行特征集成,最后僅將class token接入分類器中得到細胞分類結果。
研究團隊在多種不同的數據集中對模型的準確性進行了試驗,包括疾病數據集,細胞類型不平衡數據集,發育數據集,復雜批次數據集,小鼠全組織圖譜數據集。在橫向比較的19種細胞類型注釋器中,TOSICA綜合準確性排名第一,運行時間隨細胞數增加呈線性增加。值得注意的是,在規模大且細胞類型多的小鼠全組織圖譜數據集和細胞類型不平衡數據集中,TOSICA的準確性分別領先第二名2%和6%。TOSICA還具有準確識別不同的新細胞類型,高靈敏鑒定過渡狀態細胞,重構細胞動態軌跡,以及無需批次信息的批次效應去除等優秀特質。
隨后研究團隊在泛癌浸潤T細胞數據集,泛癌浸潤髓系細胞數據集,COVID19疾病數據集,紅斑狼瘡(SLE)數據集中驗證了TOSICA在解決實際科學問題中的優勢和潛力。實現了疾病相關可解釋動態軌跡重構,鑒定隨年齡,疾病狀態,癌癥類型變化而活化的通路,細分功能的細胞亞群鑒定,以及跨不同疾病模型的細胞類型遷移。
單光子的產生和檢測已經從實驗室研究逐步發展成為現代醫學、量子處理、制造等領域的重要組成部分。單光子對于量子網絡、單細胞的成像和測量、加密的量子“密鑰”的分配以及納米粒子的尺寸測定都很重要。為促進對該領......
01、二代“真”單細胞蛋白質組學質譜:timsTOFUltra2023年6月5日,在第71屆ASMS會議上,布魯克公司重磅發布了timsTOFUltra,“真”單細胞蛋白質組學正式進入第二代。圖1:成......
7月31日,中國科學院深圳先進技術研究院合成生物學研究所胡政課題組與廈門大學數學科學學院周達課題組合作,在《自然-生物技術》(NatureBiotechnology)上,發表了題為PhyloVeloe......
近期,中國科學院上海營養與健康研究所李虹研究組在《肝臟病學雜志》(JournalofHepatology)上,發表了題為Single-cellandspatiallyresolvedtranscrip......
由于小鼠的易實驗性和強遺傳性,其一直是生物醫學研究中使用廣泛的動物模型。但是,胚胎學研究發現,小鼠早期發育的許多方面與其他哺乳動物不同,從而使有關人類發育的推論復雜化。英國劍橋大學等研究團隊合作構建了......
近期,中國科學院上海營養與健康研究所李虹研究組在《肝臟病學雜志》(JournalofHepatology)上,發表了題為Single-cellandspatiallyresolvedtranscrip......
摘要 蛋白質是細胞功能的主要執行者,由于其無法在體外進行擴增,單細胞蛋白質組學技術相較單細胞基因組學和轉錄組學技術而言發展相對滯后。傳統的蛋白質組學技術可......
西北大學研究團隊開發出一種基于電荷檢測質譜技術的自頂向下(top-down)的單細胞蛋白質組學方法。該方法在本月發表于BioRxiv預印本上,科學家們用此方法可以每天檢測1000多個單細胞中的完整蛋白......
科學家們發現了Spirostomum的超快收縮的分子基礎,Spirostomum是一種以令人難以置信的快速運動而聞名的毫米級單細胞原生動物屬。利用從RNAi獲得的高質量基因組,研究人員發現收縮結構,即......
微生物生長表型篩選是工業育種、酶定向進化和合成生物學等領域面臨的限速步驟。精準的單細胞精度生長表型測量是突破上述瓶頸的關鍵。近日,中國科學院青島生物能源與過程研究所單細胞中心開發了低成本、非標記的微型......