在人類基因組項目完成十多年后,辨別基因仍是一項挑戰。
圖片來源:Alan Phillips/Getty
估測人類基因組中基因數量的最早嘗試涉及喝醉酒的基因學家、美國紐約冷泉港的一個酒吧以及純粹的臆測。
那是2000年。當時,人類基因組序列草圖仍在繪制中。基因學家正在打賭人類擁有多少基因,賭注從幾萬個到幾十萬個不等。近20年后,掌握了真實數據的科學家仍無法就這一數量達成一致。在他們看來,這一知識鴻溝阻礙了發現相關疾病突變的努力。
填補這一空白的最新努力利用了來自上百個人類組織樣本的數據,并于日前發表在預印本服務器BioRxiv上。它包括近5000個此前未被發現的基因,其中近1200個攜帶制造蛋白質的指令。2.1萬余個蛋白質編碼基因的總數和此前估測(認為這一數字在2萬左右)相比有大幅提高。
不過,很多遺傳學家仍不相信所有最新提出的基因都能經得起仔細推敲。他們的批評強調了辨別新基因甚至定義一個基因的難度。
“20年來,人們一直致力于此項研究,但我們仍未獲得答案。”帶領團隊開展最新研究的約翰斯·霍普金斯大學計算生物學家Steven Salzberg表示。
2000年,隨著基因組學界就有多少人類基因將被發現的問題展開熱烈討論,Ewan Birney發起了GeneSweep競賽。如今身為歐洲生物信息學研究所(EBI)聯合所長的Birney在一年一度的基因組學會議期間,在一間酒吧里最先下注。
這場競賽最終吸引了1000多人參與以及3000美元的累積賭注。關于基因數量的賭注從多于31.2萬個到不足2.6萬個不等,平均在4萬左右。當時,估測的數量范圍已經縮小,但仍存在不同意見。
基因數量依據被分析的數據、利用的工具以及剔除錯誤信息的標準而有所不同。最新計數利用了一個更大的數據集、另一種不同于此前努力的計算方法,以及定義基因的更寬泛標準。
Salzberg團隊利用了基因型組織表達(GTEx)項目的數據。該項目對從幾百具尸體上采集的30多個不同組織的RNA進行了測序。RNA是DNA和蛋白質之間的“媒介”。研究人員想辨別出編碼蛋白質的基因以及不編碼蛋白質但仍在細胞中扮演重要角色的基因。為此,他們組裝了GTEx的9000億個微小RNA片段并將其同人類基因組進行比對。
不過,僅一段DNA被表達為RNA并不意味著它是一個基因。為此,該團隊嘗試利用各種標準過濾掉噪音。例如,他們將獲得的結果同來自其他物種的基因組進行比較,并且推斷遠親生物共享的序列可能在進化過程中被保存下來,因為它們是有用的,基因也可能如此。
研究人員獲得了21306個蛋白質編碼基因和21856個非編碼基因——遠多于兩個最廣泛使用的人類基因數據庫中的基因數量。由EBI維護的GENCODE基因集包括19901個蛋白質編碼基因和15779個非編碼基因。由美國國家生物技術信息中心(NCBI)管理的RefSeq數據庫擁有20203個蛋白質編碼基因和17871個非編碼基因。
NCBI基因組研究人員、RefSeq 之前的負責人Kim Pruitt表示,出現這一差異的部分原因可能是Salzberg團隊分析的數據量不同。不過,還有另外一個重要差異。GENCODE和RefSeq均依賴于人工管理——有人評審每個基因的證據并且作出最終判斷。Salzberg團隊則完全依賴于計算機程序篩選數據。
“如果人們喜歡我們的基因目錄,那么或許幾年后我們將成為人類基因的仲裁者。”Salzberg說。
不過,很多科學家表示,他們需要更多證據以確信最新目錄是準確的。協調GENCODE人工注釋工作的EBI計算生物學家Adam Frankish介紹說,他和團隊已經掃描了Salzberg團隊辨別的約100個蛋白質編碼基因。根據他們的估測,僅有1個看上去是真正的蛋白質編碼基因。
與此同時,Pruitt小組分析了Salzberg團隊公布的約十幾個新的蛋白質編碼基因,但并未發現任何符合RefSeq標準的基因。一些同看上去屬于侵入人類祖先基因組的逆轉錄病毒的基因組區域重疊,剩下的則屬于極少被翻譯成蛋白質的其他重復性片段。
不過,Salzberg認為,一些重復序列可被視為基因。一個例子是出現在RefSeq 中并且編碼在結直腸癌中過度表達的蛋白質的ERV3-1。Salzberg還承認,位于其團隊目錄中的新基因有待該團隊和其他人確認。
記者27日從西南大學獲悉,該校資源昆蟲高效養殖與利用全國重點實驗室代方銀教授團隊發現了調控壽命的新基因OSER1,并在家蠶、線蟲、果蠅等多物種中研究揭示了其調控機制。該基因對壽命的影響得到人類受試者研......
隨著經濟社會的不斷發展,人們對豬肉的偏好也發生改變,更加偏愛吃優質的瘦肉。我國地方豬肉質優良,但普遍肥肉多、瘦肉少。比如我國“四大名豬”之一的湖南地方豬寧鄉花豬,瘦肉率僅38.6%,而國外引進豬種(杜......
美國科學家發現了DNA內長期潛伏的“空間語法”,這是理解基因活動如何在人類基因組中編碼的關鍵。這項研究或重塑科學家對基因調控的理解,更深入地揭示遺傳變異如何影響發育或疾病中的基因表達。相關論文發表于《......
科技日報北京8月21日電 (記者劉霞)美國科學家發現了DNA內長期潛伏的“空間語法”,這是理解基因活動如何在人類基因組中編碼的關鍵。這項研究或重塑科學家對基因調控的理解,更深入地揭示遺傳變異......
最近發表在《植物科學前沿》(1)上的一篇論文介紹了一整套表達的球蛋白基因,這些基因編碼燕麥中的主要儲存蛋白及其染色體位置。為了獲取這些信息,研究人員利用串聯質譜法(MS/MS)分析分離的球蛋白,以確認......
盡管在過去的十多年里,全基因組關聯研究(GWAS)已經在APOE、BIN1和CLU等基因中發現了數百種與AD相關的常見變異,但是由于GWAS存在基因組覆蓋密度低和檢測罕見變異能力差的問題,目前與AD相......
據最新一期《自然·遺傳學》雜志報道,由多個機構組成的國際“端粒對端粒(T2T)”聯盟正在推進“反芻動物端粒-端粒”項目,旨在對300多種反芻動物的基因組進行測序。研究團隊期望通過測序得到的基因組圖譜,......
腸癌多組學研究成果發布 結直腸癌被稱為“沉默殺手”,全球每年結直腸癌新增病例約190萬例,發病率居所有癌癥第三位。更可怕的是,約20%的患者在確診時已發生轉移,其死亡率更是高居各類癌癥第二位......
科技日報北京8月8日電(記者劉霞)據最新一期《自然·遺傳學》雜志報道,由多個機構組成的國際“端粒對端粒(T2T)”聯盟正在推進“反芻動物端粒-端粒”項目,旨在對300多種反芻動物的基因組進行測序。研究......
加拿大多倫多大學科學家已經確定了兩個對胰腺腫瘤生長起關鍵作用的基因:腫瘤抑制基因USP15和SCAF1。研究發現,擁有這兩個基因突變的人,其腫瘤更有可能快速生長,但這些腫瘤也更容易受到化療的影響。最新......