Tim Wehr
由于人類基因序列的建立已經接近完成,人們認識到生物科學屆的下一項任務將是表征基因組的產物——其中絕大部分是蛋白質。作為正在興起的研究領域,蛋白質組學將其研究目標定位于:鑒定和測量在一個細胞或組織中的所有蛋白質,這樣做的預期是,將能發現那些能夠成為疾病生物標志物(biomarker)或藥物靶標的候選蛋白質。經證明,這是一項令人望而生畏的工作,難度之一在于,25,000個基因中的每一個都會產生拼接、翻譯后修飾,最后表達的蛋白質數量將會大大增加。另一個增加難度的因素是蛋白質的濃度范圍太廣——通常為許多個數量級——并且很可能大多數人們感興趣的都是那些低豐度的蛋白。
目前,已有大量的技術和實驗方法用于解決蛋白質組學的問題。其中應用最廣泛的是“自下而上”的方法。用蛋白質水解酶(典型的為胰蛋白酶)將細胞提取液或溶胞產物中的所有蛋白質酶解,接著用反相液相色譜(LC)分離,然后在線引入電噴霧源的質譜。一種參考的液相色譜-串聯質譜(LC-MS-MS)流程通常為:多肽離子在母離子掃描中被分離,其中幾個最強的離子將被自動碎裂,將母離子質量和子離子/碎片質量都輸入搜索引擎,和數據庫中的蛋白按照多肽和碎片質量去匹配,匹配的結果將生成記錄、即完成了蛋白質的鑒定。獲得一個、幾個或所有蛋白質的定量信息,可以有幾種做法:比如通過譜圖計數和峰強度測量的非標記方法(Label free);通過引入穩定同位素標記標簽;或用重同位素標記蛋白中的一個或幾個肽(“蛋白典型多肽”) [1]對于復雜樣品,如人體液或胞溶產物,潛在需要分析的蛋白質數量將非常龐大。在一個特定狀態下一個細胞典型地會表達幾千種蛋白質,每個蛋白質將產生多達幾十個多肽,而每一個多肽在質譜中又以多種帶電狀態存在。因此,單個蛋白質組學樣本就包含500, 000多種類別或者更多。為了減少分析問題的復雜性,通常在進行LC-MS分析前利用一維或二維凝膠電泳[2]、溶液中的等電聚焦[3]或多維高效液相色譜(HPLC)[4]技術,將樣本預分離成多餾分(prefractionation)。
表1 蛋白質組學實驗中不確定性來源
|
操作技能 |
|
樣品制備(預分離、酶解、色譜) |
|
蛋白豐度 |
|
多肽離子化效率 |
|
質譜類型和制造商 |
|
質譜的質量精度和分辨率 |
|
搜索引擎的算法 |
|
蛋白質鑒定試探方法的嚴密性 |
|
數據庫的不透明性和綜合性 |
當面對復雜樣本時,自下而上的方法有幾種局限性。首先,由于蛋白質濃度具有非常寬的動態范圍,故質譜不能檢測到所有的多肽離子,因此自下而上的方法本身傾向于檢測豐度較高的蛋白質。第二,復雜體系中酶解肽的數量巨大,而分析中的質譜的譜圖采集速率(duty cycle)有限,減少了低豐度多肽的采集重現性。第三,多肽異構體(如翻譯后的修飾)信息會丟失。最后,自下而上實驗中大量的不確定因素會降低實驗室內部和實驗室之間分析的重現性。表1歸納了各種不確定因素。
表2 標準化蛋白質組學組織機構
英文全稱 中文全稱 英文縮寫 網 址 Association of Biomelecular Resource Facilities 生物分子資源實驗室協會 ABRF www.abrf.org The Biological Reference 生物參考物質組織 BRMI ref_materials/en Clinical Proteomic Technology Assessment for Cancer 癌癥臨床蛋白質組學 技術評價組織 CPTAC www.fixingproteomics.org Fixing Proteomics Campaign 蛋白質組學固定運動 www.fixingproteomics.org 人類蛋白質組研究組織 HUPO www.hupo.org
由于大量的不確定因素和大多數實驗室中缺乏專家,早期蛋白質組學研究中數據的質量較差,并且由于較差的數據重現性致使該領域的名譽不太好。在過去的幾年中,一些組織在蛋白質組學標準化協議和提供參考樣本方面做出了努力。表2列出了其中5個組織機構及其網址。“發現中的方向”這一部分將對每個發起的組織和計劃進行回顧。
ABRF蛋白質組學研究組
生物分子資源實驗室協會(ABRF)是一個由約1000個成員組成的成員組織,這1000個成員分別代表政府部門、學術領域、研究領域和工業領域的250多個核心實驗室。ABRF組織支持13個活躍研究組,成立這些研究組是為了對用于核心實驗室的技術進行評估。蛋白質組學技術的三個核心小研究組為:蛋白質組學研究組(PRG)、蛋白質組學標準化研究組(sPRG)和蛋白質組學信息學研究組(iPRG)。
表3 2006-2009年PRG合作樣本分析項目