本發明專利技術公開一種茶葉檢測技術中混合GK聚類的紅外光譜茶葉優劣鑒別方法,用線性判別分析法對壓縮后的訓練樣本學習得到包含鑒別信息的訓練樣本和測試樣本,對包含鑒別信息的測試樣本運行模糊C均值聚類,得到初始模糊隸屬度和初始聚類中心,先計算模糊散射矩陣和模糊隸屬度值,再計算出典型值,根據典型值計算出聚類中心,分別計算包含鑒別信息的訓練樣本的平均值到測試樣本的聚類中心的歐式距離,若聚類中心到訓練茶葉的平均值的歐式距離最小則判定該聚類中心所屬茶葉品種和這種訓練樣本的茶葉品種是相同品種,根據模糊隸屬度值判定測試樣本所屬茶葉和類別;本發明專利技術將典型值增加進入函數中,可以大幅度降低處理噪聲數據時出錯的概率。
【技術實現步驟摘要】
本專利技術涉及茶葉檢測技術,具體涉及基于GK聚類和紅外光譜技術的茶葉優劣鑒別方法。
技術介紹
在茶葉檢測中,紅外光譜檢測是一種快速無損檢測分析技術,常用中紅外光譜儀檢測茶葉,中紅外光譜的波數范圍在4000cm-1~400cm-1之間,大多數的無機化合物和有機化合物的化學鍵振動的基頻均在此區域。不同的分子中官能團、化合物的類別和化合物的立體結構,其紅外吸收光譜不盡相同。中紅外光譜技術以其方便、快速、高效、無損、低成本等特點成為檢測食品和藥品的有效檢測技術。常見的聚類方法有兩種:硬聚類方法和軟(模糊)聚類方法,硬聚類方法應用于聚類邊界明顯的情況;對于聚類邊界不是很清晰的情況采用模糊聚類方法則更為合適,例如常用的模糊C均值聚類。GK聚類方法是由Gustafson和Kessel提出的一種聚類方法(見文獻GustafsonDE,KesselWC.Fuzzyclusteringwithfuzzycovariancematrix[C]//ProceedingsoftheIEEECDC,SanDiego,1979:761~766),目的是將數據集按照某種相似準則劃分為若干個子集,通過聚類方法將大批數據分類為許多本質聯系的簇;對于模糊C均值聚類未考慮數據集的結構這一缺陷進行了改進,采用模糊協方差矩陣對簇形狀的距離測度具有局部自適應性,可以聚類多種簇形狀的數據集。但是傳統的GK聚類方法在聚類含噪聲數據時,聚類準確率會因噪聲數據而受到很大影響。而在用中紅外光譜儀檢測茶葉過程中會產生噪聲信號,所采集得到的中紅外光譜含有噪聲信號,由于GK聚類方法對噪聲敏感,因而在處理含噪聲的茶葉中紅外光譜數據時易出錯。
技術實現思路
本專利技術的目的在于解決現有GK聚類方法在聚類茶葉紅外光譜時存在對噪聲數據易出錯的問題,提出在GK聚類方法的基礎上進行改進和優化的一種混合GK聚類的紅外光譜茶葉優劣鑒別方法,能很好地聚類含噪聲的茶葉中紅外光譜數據,提高對茶葉優劣鑒別的準確率。本專利技術一種混合GK聚類的紅外光譜茶葉優劣鑒別方法采用的技術方案是:采集茶葉樣本紅外光譜,將茶葉樣本分為訓練樣本和測試樣本,預處理茶葉樣本紅外光譜,然后壓縮紅外光譜數據,用線性判別分析法對壓縮后的訓練樣本學習得到包含鑒別信息的訓練樣本和測試樣本,對包含鑒別信息的測試樣本運行模糊C均值聚類,得到初始模糊隸屬度uik,0和初始聚類中心v0,0,還依序包括以下步驟:A、先計算第r次迭代時第i類的模糊散射矩陣Sfi,r和第r次迭代時的模糊隸屬度值uik,r,再計算出第r次迭代時第k個測試樣本隸屬于第i類的典型值為第r-1次迭代時測試樣本xk到聚類中心vi,r-1的距離范數,d為測試樣本的維數,r為迭代次數,c為茶葉類別數,1≤i≤c,1≤k≤n,n為測試樣本數;B、根據典型值tik,r計算出第r次迭代時的第i類的聚類中心m是權重指數值;C、計算所述包含鑒別信息的訓練樣本的平均值,再分別計算平均值到測試樣本的聚類中心νi,r的歐式距離,若聚類中心到訓練茶葉的平均值的歐式距離最小則判定該聚類中心所屬茶葉品種和這種訓練樣本的茶葉品種是相同品種;D、根據模糊隸屬度值uik,r判定測試樣本xk所屬茶葉和類別,若uik,21>0.5則判定xk所屬茶葉為優質茶葉。由于茶葉的紅外漫反射光譜包含了茶葉內部的組分信息,優劣茶葉所對應的紅外漫反射光譜不同,本專利技術先運用主成分分析壓縮優劣茶葉的紅外光譜數據,采用線性判別分析提取紅外光譜的鑒別信息,最后用混合GK聚類方法鑒別優劣茶葉,相比傳統的GK聚類方法,本專利技術混合GK聚類方法所需茶葉樣本少,可以有效地聚類茶葉的紅外光譜數據,聚類準確率高,聚類速度快,檢測速度快,分類效率高,識別率高等優點。相比傳統的GK聚類目標函數,本專利技術將典型值增加進入函數中,可以大幅度降低處理噪聲數據時出錯的概率,對數據中的噪聲有很好的處理效果。使噪聲對鑒別優劣茶葉結果的影響大大降低。附圖說明圖1是本專利技術一種混合GK聚類的紅外光譜茶葉優劣鑒別方法的流程圖;圖2是實施例中優質竹葉青茶葉紅外光譜圖;圖3是實施例中劣質竹葉青茶葉紅外光譜圖;圖4是實施例中預處理后的茶葉紅外光譜圖;圖5是實施例中茶葉的紅外光譜經LDA提取鑒別信息后得到的訓練樣本數據圖;圖6是是實施例中茶葉的紅外光譜經LDA提取鑒別信息后得到的測試樣本數據圖;圖7和圖8分別是實施例中兩類茶葉樣本運行模糊C均值聚類產生的初始模糊隸屬度圖;圖9和圖10分別是實施例中兩類茶葉第2個測試樣本經過21次迭代后得到的模糊隸屬度圖。具體實施方式參見圖1,收集優劣茶葉樣本,用紅外光譜儀采集茶葉樣本的紅外光譜,獲取茶葉樣本紅外漫反射光譜信息,將光譜信息存儲在計算機里。采集紅外漫反射光譜信息時,盡量保持室內的溫度和濕度基本一致。采集的紅外漫反射光譜信息的光譜波數范圍為4001.569cm-1~401.1211cm-1,采集到的每個茶葉樣本的光譜是1868維的數據。采集好信息后,將茶葉樣本分為訓練樣本和測試樣本,訓練樣本數nr和測試樣本數n,茶葉類別數c=2。先用常規的多元散射校正法(MSC)和標準正態變量變換法(SNV)對茶葉樣本紅外光譜數據進行預處理。然后對預處理后的茶葉樣本紅外光譜數據利用主成分分析(PCA)進行降維,獲得茶葉樣本紅外光譜的壓縮數據。再對壓縮數據用線性判別分析(LDA)提取鑒別信息,得到包含鑒別信息的訓練樣本和測試樣本數據。最后對包含鑒別信息的測試樣本用混合GK聚類方法以鑒別測試樣本中的優劣茶葉。混合GK聚類方法具體如下:先進行初始化設置,設置權重指數m的值且滿足m∈(1,+∞),迭代次數初始值r=0,最大迭代次數為rmax,迭代最大誤差參數ε;對包含鑒別信息的測試樣本運行常規的模糊C均值聚類,模糊C均值聚類運行終止后的模糊隸屬度和類中心分別作為初始模糊隸屬度uik,0和初始聚類中心vi,0。根據初始模糊隸屬度uik,0和初始聚類中心vi,0,計算第r(r=1,2,…,rmax)次迭代時第i類的模糊散射矩陣Sfi,r:上式中,xk為第k個包含鑒別信息的茶葉紅外光譜測試樣本,vi,r-1為第r-1次迭代時第i類的聚類中心,i=1,2,uik,r-1為第r-1次迭代時測試樣本xk屬于第i類的模糊隸屬度,Sfi,r是第r次迭代時第i類的模糊散射矩陣。并計算第r次迭代時的模糊隸屬度值uik,r:上式中為第r-1次迭代時測試樣本xk到聚類中心vi,r-1的距離范數,為第r-1次迭代時測試樣本xk到聚類中心vj,r-1的距離范數,j=1,2,j≠i,vj,r-1為第r-1次迭代時第j類的聚類中心。其中:上式中,Ai,r是第r次迭代時的第i個聚類中心的范數矩陣,d為測試樣本xk的維數。然后根據距離范數和模糊散射矩陣Sfi,r計算第r次迭代時第k個測試樣本xk隸屬于第i類的典型值tik,r:根據典型值tik,r計算第r次迭代時的第i類的聚類中心νi,r:判斷迭代次數或者||νi,r-νi,r-1||的值,當||νi,r-νi,r-1||<ε或者r>rmax時,則計算終止,否則從計算第r次迭代時第i類的模糊散射矩陣Sfi,r開始重新計算,如此迭代直至終止。迭代終止后,分別計算包含鑒別信息的訓練樣本的平均值,以及平均值到聚類中心νi,r本文檔來自技高網...

【技術保護點】
一種混合GK聚類的紅外光譜茶葉優劣鑒別方法,采集茶葉樣本紅外光譜,將茶葉樣本分為訓練樣本和測試樣本,預處理茶葉樣本紅外光譜,然后壓縮紅外光譜數據,用線性判別分析法對壓縮后的訓練樣本學習得到包含鑒別信息的訓練樣本和測試樣本,對包含鑒別信息的測試樣本運行模糊C均值聚類,得到初始模糊隸屬度uik,0和初始聚類中心v0,0,其特征是還依序包括以下步驟:A、先計算第r次迭代時第i類的模糊散射矩陣Sfi,r和第r次迭代時的模糊隸屬度值uik,r,再計算出第r次迭代時第k個測試樣本隸屬于第i類的典型值為第r?1次迭代時測試樣本xk到聚類中心vi,r?1的距離范數,d為測試樣本的維數,r為迭代次數,c為茶葉類別數,1≤i≤c,1≤k≤n,n為測試樣本數;B、根據典型值tik,r計算出第r次迭代時的第i類的聚類中心m是權重指數值;C、計算所述包含鑒別信息的訓練樣本的平均值,再分別計算平均值到測試樣本的聚類中心νi,r的歐式距離,若聚類中心到訓練茶葉的平均值的歐式距離最小則判定該聚類中心所屬茶葉品種和這種訓練樣本的茶葉品種是相同品種;D、根據模糊隸屬度值uik,r判定測試樣本xk所屬茶葉和類別,若uik,21>0.5則判定xk所屬茶葉為優質茶葉。...
【技術特征摘要】
1.一種混合GK聚類的紅外光譜茶葉優劣鑒別方法,采集茶葉樣本紅外光譜,將茶葉樣本分為訓練樣本和測試樣本,預處理茶葉樣本紅外光譜,然后壓縮紅外光譜數據,用線性判別分析法對壓縮后的訓練樣本學習得到包含鑒別信息的訓練樣本和測試樣本,對包含鑒別信息的測試樣本運行模糊C均值聚類,得到初始模糊隸屬度uik,0和初始聚類中心v0,0,其特征是還依序包括以下步驟:A、先計算第r次迭代時第i類的模糊散射矩陣Sfi,r和第r次迭代時的模糊隸屬度值uik,r,再計算出第r次迭代時第k個測試樣本隸屬于第i類的典型值為第r-1次迭代時測試樣本xk到聚類中心vi,r-1的距離范數,d為測試樣本的維數,r為迭代次數,c為茶葉類別數,1≤i≤c,1≤k≤n,n為測試樣本數;B、根據典型值tik,r計算出第r次迭代時的第i類的聚類中心m是權重指數值;C、計算所述包含鑒別信息的訓練樣本的平均值,再分別計算平均值到測試樣本的聚類中心νi,r的歐式距離,若聚類中心到訓練茶葉的平均值的歐式距離最小則判定該聚類中心所屬茶葉品種和這種訓練樣本的茶葉品種是相同品...
【專利技術屬性】
技術研發人員:武小紅,陳博文,武斌,孫俊,田瀟瑜,戴春霞,楊梓耘,張偉,
申請(專利權)人:江蘇大學,
類型:發明
國別省市:江蘇;32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。