聚類分析方法包括:pca 主成分分析、loading 分析、lda 線性判別分析。
主成分分析法(pca)是將原始數(shù)據(jù)(十個(gè)傳感器的輸出)通過算法降維成兩個(gè)新的指標(biāo)主成分1(pc1)和主成分2(pc2)(二者沒有信息交叉,且指標(biāo)無量綱),在圖形上顯示分別為x 軸和y 軸,性質(zhì)相似的樣品,經(jīng)過降維轉(zhuǎn)換后,距離上會很靠近,因此,可以用輸出的圖形來判斷組間的不同和比較組內(nèi)樣品的差異。通過pca 可以使所有樣品差異z大化,用x 軸和y 軸來表示的圖形位置是新變量pc1 和pc2 的數(shù)值,值越高意味著,包含主要原始信息的量越大,如果兩個(gè)變量的總方差貢獻(xiàn)率不低于95%,基本上可以包含樣品的所有原始信息。
在文本窗口里,包含了模型文件和樣品以及樣品間的區(qū)分度,數(shù)值越接近于1,區(qū)分得越顯著。
該圖顯示的是棗花的loading 分析圖,從圖中可以看出7 號傳感器w1w 對di一主成分貢獻(xiàn)率大,同理6 號傳感器w1s 對第二主成分貢獻(xiàn)率大。loading 分析的算法與pca 的算法相同,有很好的相關(guān)性,不同的是,pca 是對樣品的分析,loading 分析是對傳感器的分析,可以分析出傳感器區(qū)分樣品的能力。
分析結(jié)果時(shí),具有以下規(guī)則:
(1)傳感器在loading 分析中所在的方向與pca 方向一致。在同一軸方向的傳感器可以用pca 思維來分析。數(shù)值在軸上較大的傳感器對于區(qū)分是有作用的。
(2)位于圖*(0,0)附近的傳感器在pca 結(jié)構(gòu)中對于樣品的區(qū)分作用較小。在當(dāng)前的模板文件中,loading分析有利于識別對區(qū)分有用的傳感器。只要他們對區(qū)分過程有負(fù)面影響,單一傳感器就可以識別區(qū)分從而關(guān)閉分析。
lda 線性判別分析是區(qū)分-應(yīng)用-分析的di一個(gè)步驟。lda 計(jì)算出識別結(jié)果并且類似于pca-----顯示培訓(xùn)數(shù)據(jù)設(shè)置的二維圖。在pca 和lda 的區(qū)別是:lda 算法利用模型每組的信息,兼顧了組內(nèi)分布和它們間的距離。因此,lda 收集了所有傳感器的信息盡力提高組間的差異,而pca 不考慮組間的差異,盡可能使每個(gè)數(shù)據(jù)點(diǎn)進(jìn)行z大化地區(qū)分。
重要性:dfa/lda 與pca 相比,需要更多的數(shù)據(jù)。我們推薦數(shù)據(jù)點(diǎn)至少是所使用傳感器數(shù)量的6 倍(如10 傳感器就應(yīng)該對應(yīng)于至少60 個(gè)獨(dú)立數(shù)據(jù)點(diǎn))。