如今,單細胞生物學是一個熱門話題。而在這一領域中,最前沿的則是單細胞RNA測序(scRNA-seq)。
傳統“批量的”RNA測序方法(RNA-seq)可以一次處理成千上萬個細胞,并得到變異的平均水平。但是沒有兩個細胞是完全相同的,而scRNA-seq則可以揭示出每個細胞獨特的微妙變化,甚至可以揭示全新的細胞類型。
例如,在使用scRNA-seq技術檢測了約2,400個免疫細胞后,位于馬薩諸塞州劍橋市Broad研究所的Aviv Regev及其同事發現了一些具有強大T細胞刺激活性的樹突細胞。Regev表示,一種能夠刺激這些細胞的疫苗可能會潛在地增強免疫系統功能,并預防癌癥。
這些發現來之不易,操縱單個細胞比大群體要困難得多,而且因為每個細胞只產生少量的RNA,所以沒有任何犯錯的余地。此外,另一個問題是如何分析海量數據產生的結果,因為我們目前所使用的工具可能不是直觀的。
通常,研究人員需要費力地在Unix操作系統中鍵入命令來分析RNA-seq數據。數據文件會從一個軟件包傳遞到下一個軟件包,每個工具包在這個過程中處理其中一個步驟:基因組比對、質量控制、變異分析等。
這個過程十分復雜,但是對于“批量的”RNA-seq來說,至少已經形成了一種共識,即哪種算法最適合每一步,以及它們應該如何運行。因此,現在已經有了基本的流程,雖然仍有待調整,但至少對非專家來說也是可處理的。在分析基因表達的差異方面,英國癌癥研究所計算生物學家Aaron Lun表示,RNA-seq的問題目前來說已基本解決。
但對于scRNA-seq來說,我們還不能妄言已經解決:研究人員仍然在探索可以用數據集做什么、哪些算法是最有用的。
但是一系列在線資源和工具正在簡化scRNA-seq數據分析的過程。在GitHub網站上,一個名為“Awesome Single Cell”的頁面收錄了70多種工具和資源,涵蓋了分析過程的每個步驟。西雅圖華盛頓大學的生物學家Cole Trapnell說,該領域已經催生了計算生物學工具的小型產業。
定制技術
Lana
Garmire是夏威夷大學的生物信息學家,她在去年發表的一篇評論中列出了scRNA-seq數據分析以及約48項工具的基本步驟。她談道,盡管每個實驗都不盡相同,但大多數分析流程都遵循著相同的步驟來清理和篩選測序數據,找出哪些轉錄子可以表達,并且對于擴增效率的差異是正確的。研究人員隨后進行一項或多項二級分析,以檢測亞群和其他功能。
威斯康星大學麥迪遜分校的生物統計學家Christina Kendziorski談道,在許多情況下,大規模RNA-seq中使用的工具也可以應用于scRNA-seq。但數據的根本差異意味著,這并不總是可行的。Lun表示,一方面,單細胞測序數據的背景噪聲更大。在如此少量RNA的情況下,擴增和捕獲效率的微小變化,就可能在細胞間產生與生物學無關的巨大差異。因此,研究人員必須對“批量效應”保持警惕,因為在不同日期制備的看似相同的細胞,可能因為純粹的技術原因而不盡相同,導至“中途退出”的基因在細胞中表達,但在測序的數據中卻沒有發現。
澳大利亞悉尼Victor Chang心臟研究所的生物信息學家Joshua Ho也談道,另一個挑戰則是規模。典型的大規模RNA-seq實驗涉及的樣品數量較少,但scRNA-seq研究可能涉及數千個樣本。能夠對十幾個樣本進行處理的工具在遇到10倍或100倍數目的樣本時,處理速度往往會十分緩慢。
此外,即使是看似簡單的問題,如一個良好的細胞制備是如何構成的,在scRNA-seq的領域里也很復雜。Lun的工作流程假定大多數細胞具有大致相當的RNA豐度。但他表示,“這種假設并不一定是正確的”。例如,他談道,從未被抗原激活并且相對靜止的初始T細胞往往比其他免疫細胞具有更少的信使RNA,并且在分析過程中可能會被移除,因為程序認為沒有足夠的RNA來進行處理。
或許最重要的是,執行scRNA-seq的研究人員傾向于從分析大量RNA的問題中提出不同的問題。“批量”的分析通常是研究基因表達在兩種或多種治療條件之間的區別。但是,研究單個細胞的研究人員通常旨在識別新的細胞類型或狀態,或重建細胞的發育途徑。Lun強調:“因為目標是不同的,所以這就需要一套不同的工具來分析數據。”
例如,單細胞分析的一種常見類型是維數約簡。該過程簡化了數據集,以便于識別類似的細胞。據英國劍橋Wellcome Trust Sanger研究所的計算生物學家Martin Hemberg所說,scRNA-seq數據將每個細胞表示為“20,000個基因表達值的列表”。 主成分分析(PCA)和t分布式隨機相鄰嵌入(t-SNE)等維度降低算法,有效地將這些特征投射到二維或三維中,使得相似的細胞簇易于分辨。另一個流行的應用程序是偽時間分析。2014年,Trapnell開發了第一個名為“Monocle”的工具。Trapnell表示,這款機器學習軟件從scRNA-seq實驗推斷出伴隨細胞分化的基因表達變化序列,這就像從空中拍攝跑步者的路徑一樣。
此外,其他工具解決了亞群檢測(例如,波士頓哈佛醫學院Peter Kharchenko開發的Pagoda)和空間定位的問題,其使用了關于組織中基因表達分布的數據來確定每個轉錄組產生自哪里。Rahul Satija工作于紐約基因組中心,他開發一種這樣的工具,名為“Seurat”。他表示,該軟件利用這些數據,將細胞定位為三維空間中的點。“這就是為什么我們將其命名為Seurat(Seurat為法國印象派畫家,在繪畫技法上運用畫筆一筆一筆點在畫面,這種作品被稱為點彩畫)。”他解釋說,“因為這些點讓我們聯想起了一副點彩畫。”
盡管針對特定的任務,這些工具通常涉及多種功能。例如,Rahul Satija的研究團隊通過Seurat進行了細胞亞群分析,以識別新的免疫細胞。
加州大學圣地亞哥分校的生物信息學家Gene Yeo談道,大多數的scRNA-seq工具都是基于R語言的Unix程序或軟件包編程的,但相對而言,很少有生物學家在這些環境中工作。即便是這樣,他們也可能沒有時間下載和配置所有工作,使這些工具真正發揮作用。
目前,研究人員已經開發了一些即用型的流程。還有端到端的圖形工具,包括來自FlowJo的商業化GenSeq軟件包,以及一對開源的Web工具:來自Garmire集團的Granatum和來自瑞士聯邦理工學院Bart Deplancke實驗室的ASAP(自動單細胞分析流程)。
ASAP和Granatum使用Web瀏覽器提供相對簡單的交互式工作流程,使研究人員能夠以圖形的方式探索數據。用戶上傳了他們的數據后,軟件會逐步走完他們的步驟。對于ASAP,這意味著通過可預處理、可視化、聚類和基因表達差異分析獲取數據;Granatum還允許偽時間分析和蛋白質交互作用數據的整合。
Garmire和Deplancke也都表示,ASAP和Granatum旨在讓生物信息等多個領域的研究人員共同合作。研究人員曾經認為,“(生物信息學家)獲取數據并產生結果是十分神奇的,”夏威夷大學博士生、Granatum首席開發人員Xun Zhu表示,“現在研究人員可以參與一些參數的調整,這是一件好事。”
謹慎前行
當然,這些工具并不是完美的。例如,在識別細胞類型方面性能優異的工具可能會因偽時間分析而出現問題。此外,加州大學伯克利分校生物統計學家Sandrine
Dudoit強調,合適的方法是“非常依賴于數據集的”。這可能需要對方法和參數進行調整,以考慮諸如測序長度之類的變量。但Marioni談道,重要的是不要完全信任這些流程,他打比方說:“就像衛星導航告訴你開車進入河流,但你可不能真開進河里。”
對于初學者來說,保持謹慎的態度是有道理的。生物信息學工具幾乎總是能給出答案;但問題是,這些答案究竟意味著什么?Dudoit的建議是進行一些探索性的分析,并驗證你所選擇算法的假定條件是有意義的。
Satija還談道,一些分析任務仍然頗具挑戰性,如在不同實驗條件或生物體間進行比較,并整合不同組學的數據。
但是,目前的工具已經基本滿足了大多數研究人員的需求。Kendziorski建議那些感興趣的研究人員可以深入了解。每一種新的工具都可以揭示生物學的另一個方面,只要你關注科學,并做出明智的選擇。
參考資料:
Single-cell sequencing made simple
通過轉錄組測序獲得人的基因表達譜數據,能進一步挖掘疾病相關的生物標志物,為臨床診斷提供依據。目前,由于轉錄組測序無法溯源,導致不同實驗室及測序平臺產出的數據可比性和測序結果的準確性面臨挑戰。中國計量科......
科技日報北京8月15日電(記者張佳欣)據最新一期《自然》雜志報道,德國康斯坦茨大學和維爾茨堡大學領導的國際研究團隊,對動物界最大基因組的擁有者——肺魚進行了基因組測序。肺魚基因組約為人類基因組大小的3......
據最新一期《自然·遺傳學》雜志報道,由多個機構組成的國際“端粒對端粒(T2T)”聯盟正在推進“反芻動物端粒-端粒”項目,旨在對300多種反芻動物的基因組進行測序。研究團隊期望通過測序得到的基因組圖譜,......
瑞士洛桑聯邦理工學院開發了一種名為CARBonAra的新型人工智能(AI)驅動模型。該模型可以根據不同分子環境所施加限制的主鏈支架預測蛋白質序列,有望在蛋白質工程及包括醫學和生物技術在內的多個領域帶來......
科技日報北京8月8日電(記者劉霞)據最新一期《自然·遺傳學》雜志報道,由多個機構組成的國際“端粒對端粒(T2T)”聯盟正在推進“反芻動物端粒-端粒”項目,旨在對300多種反芻動物的基因組進行測序。研究......
美國格拉德斯通研究所團隊開發了兩種新的單分子分析工具,可將所需的DNA量減少90%至95%。該研究成果發表在最新一期《自然·遺傳學》雜志上,展示了這些工具如何幫助科學家解決他們以前無法回答的生物學問題......
近日,國家藥典委員會發布了《微生物全基因組測序技術指導原則》的第二次公示稿,以征求社會各界的意見和建議。公示期為一個月,從即日起至2024年7月1日結束。《微生物全基因組測序技術指導原則》旨在為藥品微......
華大智造近日公布了其2023年的財務報告,2023年的營業收入達到了29.11億元,較2022年的42.31億元降低了31.19%。營業總成本33.31億元,其中研發投入9.1億元,占總收入的31.2......
為便于供應商及時了解政府采購信息,根據《江蘇省財政廳關于做好政府采購意向公開工作的通知》等有關規定,現將南京醫科大學(本部)2024年5月(第1批)政府采購意向公告如下:編號項目名稱采購需求概況采購預......
冠狀動脈旁路移植術(CABG)又被稱為冠狀動脈搭橋術,是改善心臟自身血供的手術,可以有效治療冠心病導致的心肌缺血。該手術從患者身上取下一段健康的血管供體,一端與升主動脈相連,另一端與冠狀動脈堵塞部位的......