本發明專利技術公開了一種基于韋恩預測的電子鼻數據挖掘方法,具體步驟為:首先對原始數據進行特征提取生成特征空間數據集;然后建立韋恩預測算法框架,選擇支持向量機和k平均聚類融合算法作為分類器進行模式識別;假設測試樣本為某一類別y,測試樣本和訓練樣本形成數據集,利用“除一法”對數據集中各個樣本進行建模和預測;遍歷所有y值,得出概率預測矩陣;最后給出所有預測樣本的預測種類和預測正確的概率區間。本方案克服了傳統的模式識別算法只對樣本的種類進行預測的缺陷,在預測樣本種類的同時給出預測正確的概率區間,為決策提供了更多的有效信息。本發明專利技術適用于所有電子鼻數據的處理。
【技術實現步驟摘要】
一種基于韋恩預測的電子鼻數據挖掘方法
本專利技術涉及電子鼻數據處理,尤其是涉及一種基于韋恩預測的電子鼻數據挖掘方法。
技術介紹
電子鼻是一種模擬生物嗅覺工作原理的新型仿生檢測儀器。它利用若干非特異性的氣敏傳感器組成的傳感器陣列對目標氣體進行精確的檢測和區分,具有快速識別、操作簡便、客觀性強、可靠性高以及成本低廉等優點。電子鼻已經廣泛應用于環境監測、食品質量評估、醫療診斷以及其他方面的研究。數據挖掘是電子鼻發展過程中的一個重要部分,傳統的數據挖掘將更多注意力放在數據的預處理、特征提取、特征優化以及分類器的設計等方面。傳統的分類器如線性判別分析(LDA),支持向量機(SVM)等只給出預測結果,而對預測結果可信任程度并沒有給出更多的信息。舉例來說,在醫學診斷中,通常給出一個疾病確診的概率比只給出一個診斷結果要有用的多。有許多方法能都能給出預測結果的概率分布,但這些方法是建立在對樣本分布很強的假設上。因此,一旦假設的統計模型不正確,預測的結果也不會正確。中華人民共和國國家知識產權局于2013年01月23日公開了名稱為“基于有監督顯式流形學習算法的電子鼻數據挖掘方法”的專利文獻(公開號:CN102890718A),其中顯式流形學習算法對電子鼻數據進行數據挖掘的方法的步驟包括:氣體樣本的采集、氣體樣本的特征提取、確定特征值矩陣中各點的近鄰、計算任意兩特征值點的關系和顯式流形算法的數據降維。有監督的顯式流形學習算法對電子鼻數據進行數據挖掘包括上述全部步驟并在氣體樣本的特征提取后增加一步:考慮類別信息確定特征值矩陣中各點的近鄰。此方案不能提供預測結果正確的概率區間,對后續決策來說缺少必要的信息。
技術實現思路
近年來,svm模型得到了廣泛的研究和應用,取得了較好的結果。韋恩預測算法一種多概率預測算法(multi-probabilisticpredictor)。它是一種算法框架,任何一種分類算法都可以應用到韋恩預測算法中。韋恩預測算法不僅預測測試樣本的種類,同時給出該預測正確的概率區間,為后續的決策提供更多的信息。本專利技術主要是解決傳統分類算法只能夠預測測試樣本種類的技術問題,提供一種不僅預測測試樣本的種類,同時給出該預測正確的概率區間,從而為后續的決策提供更多信息的基于韋恩預測的電子鼻數據挖掘方法。本專利技術針對上述技術問題主要是通過下述技術方案得以解決的:一種基于韋恩預測的電子鼻數據挖掘方法,包括以下步驟:S01、獲取m個傳感器的n次實驗數據,得到原始樣本矩陣M,原始樣本矩陣表示為:其中,(i=1,2,…n,j=1,2…,m)是一個向量,表示第i次實驗第j個傳感器隨采樣時間得到的采樣點數據,采樣點數目為s;S02、提取原始樣本矩陣M中每次實驗每個傳感器的s個采樣點中的最大響應值,得到最大值特征矩陣X,最大值特征矩陣表示為:其中,是一個標量,表示第i次實驗第j個傳感器s個采樣點數據中的最大值;對n次實驗的樣本種類進行編號1,2…k,k代表原始樣本的種類數,生成樣本的標簽Y;得到樣本矩陣Z=[XY],zi={xi,yi},i={1,2,…,n};S03、將樣本矩陣Z分為訓練集Str和測試集Ste,Str={z1,z2,…,zr-1};抽取測試集中某一樣本zt進行預測;S04、假設yt=y,y∈{1,2,…k}。新的數據集Zt=[z1,z2,…,zr-1,zt];S05、對于Zt中的每一個樣本zj,j={1,2,…r-1,t},其他樣本構成新的訓練集進行建模,然后對zj進行預測,得到它的預測種類bj;S06、預測類別為bt的樣本集合中包括zt=(xt,y);令py是這個集合中不同類別的經驗概率分布,py是Y上的概率分布;(x*,y*)是預測類別為bt的所有樣本的集合,y’的取值是1到k;S07、返回步驟S04,令y逐一等于1到k中的每一個值,重復步驟S05和S06,最終得到對于樣本zt的韋恩預測器Pt={py:yt∈Y};Pt是一個K*K的概率矩陣;定義Pt每一列的最小項為q,具有最大q值的列為jbest;zt的預測種類是jbest,預測正確的概率區間是S08、逐一對步驟S03中測試集的樣本進行預測,得到相應的韋恩預測器P,預測種類jbest和預測正確的概率區間;最終求出模型的預測的準確率以及所有預測樣本預測正確的概率區間的并集。作為優選,建模和預測的過程如下:用新的訓練集的數據,選擇One-vs-One的方式進行SVM建模得到模型;數據集中可能的種類{1,2,…k},有k(k-1)/2個二分類的svm模型;對于每一個可能的種類,有k-1個相關的二分類svm的決策函數;對于新的訓練集的每一個樣本x,計算融合的決策函數D(x),是在One-vs-One的SVM模型中,通過max-wins投票方式求得的預測種類;N(f)將f值歸一化至[01]區間;對D(x)運用k平均聚類算法,找出k個中心點;對樣本zj,求出它的融合決策函數值D(xj),找到離它最近的中心點,求出它的預測種類bj。作為優選,步驟S03中訓練集和測試集是按照10-folds交叉檢驗的方法進行劃分,即對每種類別的樣本劃分為10份,每次取其中1份作為訓練集,其他9份作為測試集,重復10次直到所有樣本都作為測試樣本1次。作為優選,svm模型選擇的核函數是RBF,其中參數gamma和C通過網格法進行優化。作為優選,傳感器的個數m取16,所屬實驗次數n取175。作為優選,是二分類svm分類器的決策方程,如果大于i,則取反。作為優選,步驟S05中k平均聚類算法的距離計算為歐氏距離,最大迭代次數為100次,初始中心點為[1.5,2.5,…,k+0.5]。作為優選,本專利技術帶來的實質性效果是,采用韋恩預測算法框架,采用svm和k平均聚類作為分類器,對樣本進行建模和測試,不僅對測試樣本的類別進行預測,同時給出每個預測正確的概率區間,為后續的決策提供更多信息。附圖說明圖1是本專利技術的一種流程圖。具體實施方式下面通過實施例,并結合附圖,對本專利技術的技術方案作進一步具體的說明。實施例:本實施例中所使用的電子鼻數據采集自5種人參樣本,分別是集安產中國紅參、撫松產中國紅參、集安產高麗參、集安產中國白參和撫松產中國白參。數據采集:分別將5種人參粉碎至顆粒直徑小于0.5mm的粉末。每次測試取樣本5g放入100ml玻璃瓶,將玻璃瓶放入50℃恒溫箱中30分鐘后,取頂部空氣5ml進行測試。每種人參測試35次,共獲得175組數據。如圖1所示,本實施例采用以下技術方案對所采集的電子鼻信號進行處理,步驟如下:步驟1:根據16個傳感器采集的175組數據得到原始樣本矩陣M表示為步驟2:提取原始樣本矩陣M中每次實驗每個傳感器的s個采樣點中的最大響應值,得到最大值特征矩陣X,表示為:其中,是一個標量,表示第i次實驗第j個傳感器s個采樣點數據中的最大值;對175次實驗的樣本種類進行編號1,2…k,k代表原始樣本的種類數,k=5,生成樣本的標簽Y。得到樣本矩陣Z=[XY],zi={xi,yi},i={1,2,…,n},n=175;步驟3:將樣本矩陣Z分為訓練集Str和測試集Ste,Str={z1,z2,…,zr-1}。訓練集和測試集是按照10-folds交叉檢驗的方法進行劃分,即對每種類別的樣本大致劃分為10份,由于每種本文檔來自技高網...

【技術保護點】
一種基于韋恩預測的電子鼻數據挖掘方法,其特征在于,包括以下步驟:S01、獲取m個傳感器的n次實驗數據,得到原始樣本矩陣M,原始樣本矩陣表示為:M=x11x12...x1mx21x22...x2m...xn1xn2...xnm]]>其中,(i=1,2,…n,j=1,2…,m)是一個向量,表示第i次實驗第j個傳感器隨采樣時間得到的采樣點數據,采樣點數目為s;S02、提取原始樣本矩陣M中每次實驗每個傳感器的s個采樣點中的最大響應值,得到最大值特征矩陣X,最大值特征矩陣表示為:X=x11maxx12max...x1mmaxx21maxx22max...x2mmax...xn1maxxn2max...xnmmax]]>其中,是一個標量,表示第i次實驗第j個傳感器s個采樣點數據中的最大值;對n次實驗的樣本種類進行編號1,2…k,k代表原始樣本的種類數,生成樣本的標簽Y;得到樣本矩陣Z=[X?Y],zi={xi,yi},i={1,2,…,n};S03、將樣本矩陣Z分為訓練集Str和測試集Ste,Str={z1,z2,…,zr?1};抽取測試集中某一樣本zt進行預測;S04、假設yt=y,y∈{1,2,…k}。新的數據集Zt=[z1,z2,…,zr?1,zt];S05、對于Zt中的每一個樣本zj,j={1,2,…r?1,t},其他樣本構成新的訓練集進行建模,然后對zj進行預測,得到它的預測種類bj;S06、預測類別為bt的樣本集合中包括zt=(xt,y);令py是這個集合中不同類別的經驗概率分布,py(y′)=|(x*,y*)∈bt:y*=y′||bt|]]>py是Y上的概率分布;(x*,y*)是預測類別為bt的所有樣本的集合,y’的取值是1到k;S07、返回步驟S04,令y逐一等于1到k中的每一個值,重復步驟S05和S06,最終得到對于樣本zt的韋恩預測器Pt={py:yt∈Y};Pt是一個K*K的概率矩陣;定義Pt每一列的最小項為q,具有最大q值的列為jbest;zt的預測種類是jbest,預測正確的概率區間是[mini=1,...,kPi,jbest,maxi=1,...,kPi,jbest];]]>S08、逐一對步驟S03中測試集的樣本進行預測,得到相應的韋恩預測器P,預測種類jbest和預測正確的概率區間;最終求出模型的預測的準確率以及所有預測樣本預測正確的概率區間的并集。...
【技術特征摘要】
1.一種基于韋恩預測的電子鼻數據挖掘方法,其特征在于,包括以下步驟:S01、獲取m個傳感器的n次實驗數據,得到原始樣本矩陣M,原始樣本矩陣表示為:其中,是一個向量,表示第i次實驗第j個傳感器隨采樣時間得到的采樣點數據,采樣點數目為s;S02、提取原始樣本矩陣M中每次實驗每個傳感器的s個采樣點中的最大響應值,得到最大值特征矩陣X,最大值特征矩陣表示為:其中,是一個標量,表示第i次實驗第j個傳感器s個采樣點數據中的最大值;對n次實驗的樣本種類進行編號1,2...k,k代表原始樣本的種類數,生成樣本的標簽Y;得到樣本矩陣Z=[XY],zi={xi,yi},i={1,2,...,n};S03、將樣本矩陣Z分為訓練集Str和測試集Ste,Str={z1,z2,...,zr-1};抽取測試集中某一樣本zt進行預測;S04、假設yt=y,y∈{1,2,...k};新的數據集Zt=[z1,z2,...,zr-1,zt];S05、對于Zt中的每一個樣本zj,j={1,2,...r-1,t},其他樣本構成新的訓練集進行建模,然后對zj進行預測,得到它的預測種類bj;S06、預測類別為bt的樣本集合中包括zt=(xt,y);令py是這個集合中不同類別的經驗概率分布,py是Y上的概率分布;(x*,y*)是預測類別為bt的所有樣本的集合,y’的取值是1到k;S07、返回步驟S04,令y逐一等于1到k中的每一個值,重復步驟S05和S06,最終得到對于樣本zt的韋恩預測器Pt={py:yt∈Y};Pt是一個K*K的概率矩陣;定義Pt每一列的最小項為q,具有最大q值的列為jbest;zt的預測種類是jbest,預測正確的概率區間是S08、逐一對步驟S03中測試集的樣本進行預測,得到相應的韋恩預測器P,預測種類jbest和預測正確的概率區間;最終求出模型...
【專利技術屬性】
技術研發人員:王酉,苗加成,李光,
申請(專利權)人:浙江大學,
類型:發明
國別省市:浙江;33
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。