染色體構象捕獲3C(chromosome conformation capture【1】)和Hi-C(high-throughput chromosomeconformation capture【2,3】)測序技術已經逐漸成熟,成為研究遠距離基因調控機制的重要方法。越來越多的學者提出分析Hi-C數據信號探測的模型和算法,但由于Hi-C數據深度測序成本巨大,而大部分檢驗結果無法進行實驗驗證真偽,因而迫切需要一個穩定的Hi-C數據模擬方法來進行基準測試和評估。目前,只有一個系統的Hi-C 數據模擬方法即Sim3C【4】,卻由于三維基因組數據結構過于復雜,Sim3C模型無法捕獲所有Hi-C數據的基本特征,再加上參數模型強加的一系列假設,使得模擬出來的Hi-C數據矩陣與真實Hi-C數據矩陣相差甚遠(下圖)。此外降采樣(downsampling)和生物樣本間置換(permutation)作為常見的測試方法,也有各自無法避免的局限。
2019年11月11日,來自威斯康星大學麥迪遜分校的鄭曄博士和 Sunduz Keles教授在Nature Methods發表了題為“FreeHi-C simulates high fidelity Hi-C data for benchmarking and dataaugmentation”的論文,提出了一個全新的Hi-C數據高保真模擬方法,即FreeHi-C, 使得三維基因學基準測試更為合理,并且通過模擬數據擴增(data augmentation)顯著提高了信號差異分析的檢測精度(precision)與強度(power)并且有效地控制錯誤發現率(false discovery rate)。
目前,Hi-C數據的模擬方法都是通過學習Hi-C數據矩陣特征,比如接觸距離(contact distance)、拓撲相關結構域(TopologicallyAssociating Domains,TADs)、染色質環( chromatin loops )等,直接模擬出n x n的矩陣。但由于基因組三維立體結構非常復雜,結構之間的關系也尚未明晰,因而直接模擬矩陣效果并不理想。FreeHi-C則選擇從Hi-C實驗過程【2,3】的角度,通過非參數模型,模擬實驗中每一步生成的數據,獲得模擬基因序列(sequencing data),再進行與真實數據相同的基因序列處理,得到高保真的Hi-C模擬數據矩陣(下圖)。FreeHi-C一大優勢是使用者可以任意設定測序深度(sequencing depth,即基因序列總個數),而基因測序深度是影響Hi-C數據質量,分析效果強度的主要因素。此外,使用者可以通過調節模擬基因序列的錯配(mismatches)、空位(gaps)、嵌合序列(chimeric reads)的比率來控制模擬數據與真實數據之間的相似度。
文章中,作者通過與Sim3C以及降采樣(downsampling)的對比,展示出FreeHi-C對真實Hi-C數據結構各個層面(A/B compartment,TADs等)的精準模擬。同時,對diffHic【5】,multiHiCcompare【6】,FIND【7】,Selfish【8】四種差異信號檢測(differential chromatin interaction detection)方法的比較分析中,FreeHi-C的推斷結論一致,且不受測序深度的限制。最后,作者提出可以通過數據擴增(data augmentation),將模擬Hi-C數據加入差異信號檢驗中,以克服生物學重復(biological replicate)數量過少的問題。FreeHi-C模擬數據的加入極大地提高了檢測的精度和強度,同時控制錯誤發現率在理想范圍內(下圖)。
原文鏈接:
https://doi.org/10.1038/s41592-019-0624-3
參考文獻
1. Dekker, J., Rippe, K., Dekker, M., Kleckner, N.:Capturing chromosome conformation. Science 295(5558)(2002)1306–11
2. Lieberman-Aiden,E.,VanBerkum,N.L.,Williams,L.,Imakaev,M.,Ragoczy,T.,Telling,A., Amit, I., Lajoie, B.R., Sabo, P.J., Dorschner, M.O., et al.: Comprehensive map -ping of long-range interactions revealsfolding principles of the human genome. Science 326(5950) (2009)289–293
3. Rao,S.S.P.,Huntley,M.H.,Durand,N.C.,Stamenova,E.K.,Bochkov,I.D.,Robinson,J.T., Sanborn,A.L.,Machol,I.,Omer,A.D.,Lander,E.S.,Aiden,E.L.:A3Dmapofthehuman genome at kilobase resolutionreveals principles of chromatin looping. Cell 159(7)(2014) 1665–1680
4. DeMaere, M.Z., Darling, A.E.: Sim3c: simulation ofhi-c and meta3c proximity ligation sequencingtechnologies. GigaScience 7(2)(2017)gix103
5. Lun, A.T., Smyth,G.K.: diffHic: a Bioconductor package to detect differential genomicinteractions in Hi-C data. BMC Bioinformatics 16(1) (2015)258
6. Stansfield, J.C., Cresswell, K.G., Dozmorov, M.G.: multiHiCcompare: jointnormalization and comparative analysis of complex hi-c experiments.Bioinformatics(2019)
7. Djekidel,M.N.,Chen,Y., Zhang,M.Q.:Find:differentialchromatininteractionsdetectionusing a spatial poisson process. Genome Research 28(3) (2018)412–422
8. Ardakany, A.R., Ay, F., Lonardi, S.: Selfish: discovery ofdifferential chromatin interactions via a self-similarity measure.Bioinformatics (2019)i145–i153
染色體構象捕獲3C(chromosomeconformationcapture【1】)和Hi-C(high-throughputchromosomeconformationcapture【2,3】)測......
染色體構象捕獲3C(chromosomeconformationcapture【1】)和Hi-C(high-throughputchromosomeconformationcapture【2,3】)測......
染色體構象捕獲3C(chromosomeconformationcapture【1】)和Hi-C(high-throughputchromosomeconformationcapture【2,3】)測......
相關研究成果Anintercrosspopulationstudyrevealsgenesassociatedwithbodysizeandplumagecolorinducks于7月17日在自然子刊......
4月7日,《細胞研究》發表了中國科學院生物物理研究所劉光慧課題組和徐濤課題組,以及中科院動物研究所曲靜課題組合作的題為VisualizationofAging-AssociatedChromatinA......