<li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 發布時間:2020-07-21 13:07 原文鏈接: 主成分分析在生命科學研究中的應用(一)

    主成分分析常常用于基因組全序列表達研究,但是,到底什么是主成分分析?如何將這種方法用于對高維度數據的分析中呢?

    生命科學研究中采用的一些測定方法,對每個樣品所采集的數據的變量要多于所測定的樣品數。例如,DNA芯片及質譜儀可以對上百個樣品中數以千計的mRNAs或蛋白質水平進行測定。諸如此類的高維度測定使得樣品的分析結果很難清晰便捷地進行判斷,也限制了對數據進行簡單分析的應用。

    主成分分析(Principal component analysis, PCA)是一種數學算法,它可以在減少數據維度的同時,保留數據集中絕大多數的變量[1]。PCA通過對主成分進行辨別,找出一個方向,并沿此方向分布的數據為最大值,從而減少數據維度。通過采用這樣的主成分,便可以只選用若干變量而不是上千的變量來對一種樣品進行分析了。這樣,就可以將樣品有關變量繪制成圖,使得樣品間的相似性和相異之處一目了然,對不同樣品是否可以歸為一組,也一清二楚。

    Saal等人 [2] 曾使用基因芯片對105個乳腺腫瘤樣品中的27,648個基因表達情況進行了檢測。本文將采用這組基因表達數據集表明PCA如何只用很少的變量就能完成對樣品的分析,包括基因的表達水平、基因表達模式等。所需實驗數據來自Gene Expression Omnibus database(accession no.GSE5325)。

    a 每一點代表一個乳腺癌樣品中兩個基因的表達水平(在a-c, e中雌激素受體陽性ER+的樣品顯示為紅色,黑色代表陰性ER—)。

    b PCA分析了兩個主成分PC1和PC2,沿著這兩個主成分數據有最大的分散。

    c 樣品數據只用一維顯示,將ER+、ER—和所有樣品的數據都分別記入第一個主成分PC1中。

    d 當PCA用于分析樣品所有8534個基因的表達水平時,主成分的變量情況。

    e PCA二維圖,用前兩個主成分數據形成的散點圖,兩個基因采用其權重系數作為主成分 (綠點所示)。所示標度適用于樣品;該標度需除以950,才得到基因所對應的標度。

    f 圖e中的樣品數據依ERBB2的情況繪制的圖(藍色、ERBB2+、棕色、ERBB2—、綠色、情況未知)。

    主成分

    盡管要深入理解PCA的算法需要具備線性代數的知識,但是,其基本原理卻可以通過簡單的幾何圖形進行解釋。為了更加簡單明了的弄清個中原理,不妨假設在這一實驗中,采用的基因芯片只對兩個基因GATA3和XBP1的表達水平進行檢測。這樣可以簡化根據乳腺癌樣品表達譜進行作圖的過程,因為它只包含了兩組數據(圖.1a)。我們將乳腺癌樣品按照雌激素受體陽性或陰性進行分類,本文已選擇了兩個基因,其表達水平與雌激素受體水平相關[3]。

    在PCA中,鑒別出新的變量即主成分——原始變量的線性組合。這項二維基因表達譜研究中所采用的兩個主成分見圖.1b。可以很清楚的看出,沿第一個主成分方向,分布的是樣品最大變量;沿第二個主成分的方向分布的是與第一個主成分無相關的最大變量。

    如果數據已經過標準化,那么每個基因的數據都應該集中在0平均表達水平,主成分是代表標準化后的基因表達數據協方差的特征向量,并根據它們包含變量信息的多少而被排序。每個主成分都可被理解為一個向量,且它們之間互不相關,每個主成分都盡可能的包含了樣品變量的最大差異。這里,用于研究的基因數據在進行PCA前都被進行了標準化,圖.1b中的第一個主成分PC1=0.83×GATA3 + 0.56×XBP1。主成分很好的體現了每個樣品數據本身的特征,有時就是指特征向量。和PCA相關的方法包括獨立成分分析,該方法是用來確認成分之間統計學上互相獨立,而不僅僅是非相關的方法。


    <li id="omoqo"></li>
  • <noscript id="omoqo"><kbd id="omoqo"></kbd></noscript>
  • <td id="omoqo"></td>
  • <option id="omoqo"><noscript id="omoqo"></noscript></option>
  • <noscript id="omoqo"><source id="omoqo"></source></noscript>
  • 1v3多肉多车高校生活的玩视频