近紅外的數據處理

發布時間：2018-11-05 17:37 原文鏈接：近紅外的數據處理

窗體頂端

引言
    近紅外是指波長在780nm～2526nm范圍內的光線，是人們認識最早的非可見光區域。習慣上又將近紅外光劃分為近紅外短波（780nm～1100nm）和長波（1100 nm～2526 nm）兩個區域.近紅外光譜（Near Infrared Reflectance Spectroscopy，簡稱NIRS）分析技術是一項新的無損檢測技術，能夠高效、快速、準確地對固體、液體、粉末狀等有機物樣品的物理、力學和化學性質等進行無損檢測。它綜合運用了現代計算機技術、光譜分析技術、數理統計以及化學計量學等多個學科的最新研究果，并使之融為一體，以其獨有的特點在很多領域如農業、石油、食品、生物化工、制藥及臨床醫學等得到了廣泛應用，在產品質量分析、在線檢測、工藝控制等方面也獲得了較大成功。近紅外光譜分析技術的數據處理主要涉及兩個方面的內容：一是光譜預處理方法的研究，目的是針對特定的樣品體系，通過對光譜的適當處理，減弱和消除各種非目標因素對光譜的影響，凈化譜圖信息，為校正模型的建立和未知樣品組成或性質的預測奠定基礎；二是近紅外光譜定性和定量方法的研究，目的在于建立穩定、可靠的定性或定量分析模型，并最終確定未知樣品和對其定量。
1工作原理
    近紅外光譜區主要為含氫基團X-H（X=O,N,S,單健C,雙健C,三健C等）的倍頻和合頻吸收區，物質的近紅外光譜是其各基團振動的倍頻和合頻的綜合吸收表現，包含了大多數類型有機化合物的組成和分子結構的信息。因為不同的有機物含有不同的基團，而不同的基團在不同化學環境中對近紅外光的吸收波長不同，因此近紅外光譜可以作為獲取信息的一種有效載體。近紅外光譜分析技術是利用被測物質在其近紅外光譜區內的光學特性快速估測一項或多項化學成分含量。被測樣品的光譜特征是多種組分的反射光譜的綜合表現，各組分含量的測定基于各組分最佳波長的選擇，按照式(1)回歸方程自動測定結果：組分含量＝C0＋C1(Dp)1＋C2(Dp)2＋…＋Ck(Dp)k(1)式中：C0～k為多元線性回歸系數；(Dp)1～k為各組分最佳波長的反射光密度值（D＝－lgp，p為反射比）。該方程準確的反映了定標范圍內一系列樣品的測定結果，與實驗室常規測定法之間的標準偏差SE為：SE＝[Σ(y－x)2/(n－1)]1/2(2)式中：x表示實驗室常規法測定值，y表示近紅外光
譜法測值，n為樣品數。
2光譜數據的預處理
    儀器采集的原始光譜中除包含與樣品組成有關的信息外，同時也包含來自各方面因素所產生的噪音信號。這些噪音信號會對譜圖信息產生干擾，有些情況下還非常嚴重，從而影響校正模型的建立和對未知樣品組成或性質的預測。因此，光譜數據預處理主要解決光譜噪音的濾除、數據的篩選、光譜范圍的優化及消除其他因素對數據信息的影響，為下步校正模型的建立和未知樣品的準確預測打下基礎。常用的數據預處理方法有光譜數據的平滑、基線校正、求導、歸一化處理等。
2.1數據平滑處理
    信號平滑是消除噪聲最常用的一種方法，其基本假設是光譜含有的噪聲為零均隨機白噪聲，若多次測量取平均值可降低噪聲提高信噪比。平滑處理常用方法有鄰近點比較法、移動平均法、指數平均法等。
2.1.1鄰近點比較法
    對于許多干擾性的脈沖信號，將每一個數據點和它旁邊鄰近的數據點的值進行比較可以測得其存在。如果與鄰近點的數值相差太大，超過給定的閾值，便可認為該數據是一個脈沖干擾，并通過鄰近數據點的平均值來取代這一數據點值，就可以把這一干擾脈沖去掉，這樣不影響信號的其它部分。在這一數據點處理過程中，需注意選擇調節參數，也就是考慮鄰近數據點值，以及判斷一個數據點和鄰近數據點之間不同的閾值。這個閾值一般定義為噪音測量偏差的倍數，以免把必要的有用信號去掉。這一方法有時也稱為鄰近點平滑法，也叫做單點平滑法。
2.1.2移動平均法
    由于平滑是通過對信號進行平均而減小噪音，因而多點平滑效果更好。移動平均法是多點平滑中最簡單的一種。先選擇在數據序列中相鄰的奇數個數據點，這奇數個數據點即構成一個窗口。計算在窗口內奇數個數據點的平均值，然后用求得的平均值代替奇數個數據點中的中心數據點的數據值，這樣我們就得到了數據平滑后的一個新的數據點。接著去掉窗口內的第一個數據點，并添加上緊接著窗口的下一個數據點，形成移動后的一個新窗口，其中的總數據個數不變。同樣地，用窗口內的奇數個數據點求平均值，并用它來代替窗口中心的一個數據點.如此移動并平均直到最后。
2.1.3指數平均法
    指數平均法是計算在一個具有m個數據點的移動窗口中的各數據點的加權平均.在窗口的最后一個點p1即為要平滑的點，它的權重最大，而前面的每個點分配到的權重依次遞減。權重系數由平滑時間常數為T的指數函數e－ji（j標志i前面第j個點，即j＝－(m－1),－(m－2),…,－1,0（要平滑的點i的j＝0）的形狀來決定。p1后點的權重為0，這一過濾函數是用點i前面的點對第i個數據點進行平滑。這一過程和用電子RC濾波器（阻容濾波器）的實時平滑類似。由于該平滑函數是不對稱的，故在平滑后的數據中引入了單向失真，這一點也和實時RC濾波器一樣。除了獲得期望的信噪比降低外，指數平均的結果是峰的最大值下降，同時發生移動。由于用平滑常數T對峰值進行指數平滑和具有時間常數Tx＝T的儀器測量該峰的效果相同，因此T和峰寬比值函數的強度下降值從實驗測量和理論計算都可得到。
2.2基線校正
    由于儀器背景、樣品粒度和其它因素的影響，近紅外分析中常常出現基線漂移和傾斜現象。采用基線校正可有效地消除這些影響。操作時可選用峰谷點扯平、偏移扣減、微分處理和基線傾斜等方法，其中最常用的是一階微分和二階微分，但在微分處理時，要注意微分級數和微分數據點的選擇。
2.3數據求導處理
    近紅外分析中，對于樣品不同組分之間的相互干擾導致吸收光譜譜線重疊的現象，可采用求導的方法進行處理。其中常用的是一階導數和二階導數。一階導數表示為：yi′＝yi＋g－yi－g二階導數表示為：yi″＝yi＋2g－2yi＋yi－2g式中：g為光譜間隔，大小可視具體情況設定。對光譜求導一般有兩種方法:直接差分法和Savitzky Golay求導法。對于分辨率高、波長采樣點多的光譜，直接差分法求取的導數光譜與實際相差不大，但對于稀疏波長采樣點的光譜，該方法所求的導數則存有較大誤差，這時可采用Savitzky Golay卷積求導法計算。
2.4歸一化處理
    用于消除光程變化或樣品稀釋等變化對光譜產生的影響。有三種光譜歸一化方法:最小/最大歸一化、矢量歸一化、回零校正。其中常用的是矢量歸一化，它是先計算出光譜的y平均值，再用光譜減去該平均值，這樣光譜的中值為零，計算所有的y值的平方和，然后用光譜除以該平方和的平方根，結果光譜的矢量歸一化是1。回零校正是將光譜減去最小的y值，使得最小y值變為0。
3近紅外光譜分析常用的數據處理方法
    樣品的近紅外光譜包含了物質的組成和結構信息。而物質質量參數（如成分含量）也與其組成結構相關。應用化學計量學方法對兩者進行關聯，就可確定這兩者間的定性或定量關系，即定標模型。建立定標模型后，只要測出未知樣品的近紅外譜，根據標模型就可以預測樣品的質量參數。近紅外光譜分析常用的計量方法有:主成分分（PrincipalComponentAnalysis,PCR），偏最小二乘法（PartialLeast Squares,PLS）和人工神經網絡法（Artificial
Neural Network,ANN）等。它們都是常用的化學計量學方法，有著各自的優點和局限。
3.1主成分分析法（PCR）
    主成分分析法是使用最為廣泛的線形降維方法之一，該方法概念簡單易懂，實現算法高效，因而在許多降維處理中應用都很廣泛。主成分分析法將方差的大小作為衡量信息量多少的標準，認為方差越大提供的信息越多，反之提供的信息就越少。其基本思想是通過線形變換保留方差大、含信息多的分量，丟掉信息量少的方向，從而降低數據的維數。降維后每個分量是原變量的線形組合，因此，主成分分析方法本質上是一種線形降維的方法。其計算步驟一般分為以下四步：
1）對原始數據樣本集合進行標準化處理。
2）計算標準化后的數據矩陣的協方差矩陣，并對其進行正交分解，得出主成分分量。
3）計算各主成分的累計貢獻量，根據要求的貢獻率閾值選取主成分。
4）針對選取的主成分建立主成分方程，計算主成分值。
PCR把原自變量映射為含絕大部分信息的少數潛變量，再用線性的最小二乘確定這些潛變量系數，建立潛變量和因變量的回歸方程后再轉換為原自變量和因變量的回歸方程。其壓縮自變量的效率極高，但其映射過程和因變量無關，因而其預測精度也難達
到很高。
3.2偏最小二乘法（PLS）
    偏最小二乘法（Partial least squares regression，簡稱PLS）將因子分析和回歸分析結合的方法，很好地解決了許多以往用普通多元線性回歸難以解決的問題。用近紅外光譜數據來預測樣品的組成含量時，作為解釋變量的近紅外反射光譜的波長有幾百個甚至幾千個，往往超過了樣本的個數，造成多重相關，難用普通的多元線性回歸方法來建立穩健、精度較高的
數學模型。PLS通過因子分析將光譜（多維空間數據，維數相當于波長數目）壓縮為較低維空間數據，其方法是將光譜數據向協方差最大方向投影，將原近紅外光譜分解為多種主成分光譜，不同近紅外光譜的主成分分別代表不同組分和因素對光譜的貢獻，通過對主成分的合理選取，去掉代表干擾組分和干擾因素主成分，選用有用的主成分參與回歸。為了建立由各因素構成的數據矩陣X與由各目標構成的數據矩陣Y之間的關系，其中X包含p個變量，Y包含pi個變量，樣本數為m，用PLS方法處理時，首先將X矩陣作為雙線性分解，即X＝TPT＋F，其中矩陣T含有兩兩正交的隱變量。PLS方法與主成分分析方法的不同之處在于，主
成分分析法要求分解后得到的隱變量t的方差為最大，而不考慮矩陣Y的關系，而用PLS方法時，需要用到矩陣Y中的信息，矩陣Y也可作雙線性分解，即Y＝UQT＋E。其中U矩陣包含Y的隱變量u，即u為矩陣Y中變量的線性組合，E為殘差陣。PLS方法要求X分解得到的隱變量t與Y分解得到的隱變量u為最大重疊或相關性最大，因此有u＝vt＋e，式中e為殘差矢量，系數v根據最小二乘確定。所以PLS是一種具有較好發展前景的新型數據處理方法，是近年來因實際需要而產生和發展的一個廣泛使用的多元統計數據分析方法。例如：王宏等將遺傳算法應用于無創傷人體血糖濃度光學檢測的基礎研究中，在偏最小二乘法校正模型的波長優化選擇中具有顯著的效果。將遺傳算法作為模塊循環運行，能更快達到最優解，有效提高測量精度。Bangalore等以LAIRS測量水中有機物含量為例，研究了遺傳算法用于優化PLS建立多元校正模型的波長和特征變量數。張大仁、趙立新將遺傳算法和偏最小二乘法結合應用于定量結構活性關系研究中，得到較好的QSAR模型。
3.3人工神經網絡法（ANN）
    ANN始于20世紀40年代初。它的基本思想是模擬人腦細胞（神經元）工作原理，以建立模型進行分類和預測的。人工神經網絡的最大優點是它的抗干擾、抗噪音能力和它的非線性轉換能力。ANN用于非線性模型（也可用于線性模型），其缺點是學習時間較長，但只要得到模型參數，進行預測時能立即得到結果。神經網絡的連接方式有很多種，使用較多的是反向傳輸模型，即BP（back-propagation）模型，在1986年由Rumelhart,Hinton和Williams等人提出。該模型可以實現數據處理的定量預測，也可以用于模式識別。在近紅外光譜的光譜數據處理中，無論是對樣品的組成、質量指標預測，還是模式識別分類，都可以人工神經網絡在近紅外光譜分析中有著不可替代的作用，特別是在解決非線性數據處理方面優勢明顯。例如：Tanabe等利用神經網絡系統對1129個紅外譜圖進行識別，系統由兩部分組成，能在0.1s內鑒別未知譜。王志有等采用BP人工神經網絡光度法對復合維生素片中的VB1,VB2,VB6和VPP進行了同時測定，得到了較為準確的結果。張卓勇等論述了人工神經網絡在光譜分析重疊信號解析中的應用，將基于計算最大差異光譜的目標轉換因子分析法，用于解析混合物的紅外光譜和從混合物的紅外光譜中解析出純組分光譜，得到了滿意的結果。
    以上幾種紅外光譜的數據處理方法可根據建模模型以及實際情況靈活選擇。主成分回歸方法可有效解決譬如共線問題、變量數使用限制問題并在一定程度上解決了噪音濾除問題，缺點是不能保證參與回歸的主成分一定與被測組分的性質有關。偏最小二乘法把數據分解和回歸融合在一起，得到的特征值向量直接與被測組分或性質有關，適于非線性數據的建模，缺點是建模過程復雜。對譜峰重疊嚴重、有用信號較弱、噪音較大的譜圖，可用人工神經網絡法建模。4結語數據處理和分析方法是現場光譜技術三大技術主題之一。若沒有有效的數據處理和分析方法，即使儀器質量再好，得出的譜圖再清晰、準確，這些數據也不能直接給出任何面向最終應用的有用信息.更何況，在現場的惡劣條件下，得到的譜圖必然包含各種噪音和干擾信號，若不進行適當的預處理和分析，則良莠不齊的數據勢必使最終結論的可靠性和準確性大打折扣。對于每一種化學計量學方法而言，它們都有各自的優缺點。因此，將各種方法聯合使用，相互取長補短，將是今后發展的方向。

窗體底端

更多與近紅外的數據處理相關的新聞

FTIR920紅外光譜儀伯東在線質譜與紅外光譜儀和熱重聯用布魯克VERTE真空型傅立葉變換紅外光譜儀 Nicolet6700 智能傅立葉紅外光譜儀 Nicolet Apex FTIR 傅里葉變換紅外光譜儀粉末壓片機熒颯光學FOLI30V真空型傅里葉變換紅外光譜儀熒颯光學FOLI10 Plus移動式傅里葉變換紅外光譜儀熒颯光學MOBILE10便攜式傅里葉變換紅外光譜儀愛丁堡傅里葉變換紅外光譜儀IR5

實驗室

北京理工大學光譜實驗室首都師范大學分析測試中心國產科學儀器應用示范（陜西）中心實驗室貴州省理化測試分析研究中心上海交通大學熱能工程研究所佛山出入境檢驗檢疫局檢驗檢疫綜合技術中心消費品檢測區域中心實驗室江西省有機功能分子重點實驗室廣東省物料實驗檢測中心 SGS通標標準技術服務有限公司廈門檢測中心中國藥科大學分析測試中心

近紅外的數據處理

其他網友還關注過

響應政策讓紅外光譜儀科研選型無憂

皖儀科技丨色譜質譜光譜相關3項專利申請獲公開

超700萬！西南交通大學采購原位微分電化學質譜儀等設備

近540萬！一單位采購光譜儀、質譜儀項目公開招標

賽默飛、珀金埃爾默等中標這批廣東工業大學采購項目

貴州省六盤水市公安局496萬采購多臺儀器，涉UPLCMS／MS等

近紅外的數據處理

羧甲基菊糖紅外光譜解析

藥品紅外光譜集編寫細則

基于CCD的便攜式近紅外光譜儀器總體設計