本發明專利技術公開了一種鄰域決策錯誤率集成的屬性約簡方法,所述的用于從鄰域粗糙集中選定屬性子集,來降低鄰域決策發生錯誤的程度,從而有效的提高鄰域分類器的分類精度,本發明專利技術將集成策略引入到約簡的計算過程中。它使用一組重要度函數代替傳統約簡中的單個屬性重要度。從而確定在計算約簡的過程中應該選擇哪個屬性。實驗結果表明,該方法不僅提高了約簡穩定性和分類結果的穩定性,而且增強了分類性能。
A method of attribute reduction based on the integration of neighborhood decision error rate
【技術實現步驟摘要】
一種鄰域決策錯誤率集成的屬性約簡方法
本專利技術涉及一種鄰域決策錯誤率集成的屬性約簡方法。
技術介紹
在經典粗糙集是由波蘭學者Pawlak于1982年提出的一種刻畫不精確、不確定性問題的數學工具,鄰域粗糙集則是經典粗糙集的一種重要拓展模型。相較于經典粗糙集,鄰域粗糙集適用于處理現實生活中廣泛存在的數值型數據,從而避免了將數值型數據離散化而導致的數據缺失的問題。鄰域粗糙集從使用距離構建鄰域的角度出發,其簡潔直觀的表達方式以及廣泛的應用范圍受到了眾多學者的廣泛關注。類似于其他擴展粗糙集模型的研究,屬性約簡在鄰域粗糙集中也是一項重要的研究內容。從粗糙集描述不確定性本身的角度來看,可以把近似質量、條件熵、粗糙近似分布等作為度量指標來定義基于鄰域粗糙集的屬性約簡。然而更值得關注的是,在鄰域粗糙集理論中,還可以從分類學習的角度來研究屬性約簡。例如:鄰域決策錯誤率概念的提出,就是在使用鄰域分類器進行分類學習的基礎上,討論如何找到最小的屬性子集,來降低鄰域決策發生錯誤的程度,從而有效的提高鄰域分類器的分類精度。迄今為止,由于啟發式算法的時間復雜度較低,受到了廣大粗糙集學者的青睞。例如:姚等人分析了啟發式搜索在構造約簡的結構問題,他指出大多數搜索策略都有兩個相似的結構:(1)將一個屬性逐步添加到約簡集合中,直到滿足約束條件為止,即“添加控制策略”;(2)從原始集合中逐步刪除一個屬性,直到滿足約束條件為止,即“刪除控制策略”。值得注意的是,無論是哪種搜索策略,都只是使用了一個重要度函數來評估屬性的重要性,然后再決定應該添加或刪除哪一個屬性。遺憾的是,僅使用一種重要度函數極有可能對數據擾動非常敏感,比如部分樣本發生變動時,原始數據的重要度值可能與約簡結果存在很大差異。為了解決使用一個重要度函數對評估屬性重要性的局限性,設計了一種鄰域決策錯誤率集成的屬性選擇方法,以達到更高穩定性的目的。
技術實現思路
本專利技術的目的在于克服現有技術中存在的上述不足,而提供一種結構設計合理,鄰域決策錯誤率集成的屬性約簡方法。本專利技術解決上述問題所采用的技術方案是:一種鄰域決策錯誤率集成的屬性約簡方法,所述的用于從鄰域粗糙集中選定屬性子集,來降低鄰域決策發生錯誤的程度,從而有效的提高鄰域分類器的分類精度,其包括以下步驟;步驟1:定義候選屬性集合;定義輸入:決策系統DS=<U,AT,d>,待預測樣本y,鄰域半徑參數σ。定義輸出:樣本的預測類別標記PreA(y)。1.1:計算ΔA(y,x);1.2:計算NA(y);1.3:計算;//[x]k表示y的鄰域中屬于第k個類別的樣本;1.4:1.5:PreA(y)=j,輸出PreA(y);步驟2:計算屬性的重要度;定義輸出:鄰域決策系統DS=<U,AT,d>,鄰域半徑參數σ;定義輸入:一個鄰域決策錯誤率約簡red;2.1:設置NDERred(d)=1;2.2:計算NDERAT(d)。若滿足NDERred(d)≤NDERAT(d),轉步驟2.5,否則轉步驟2.3;2.3:計算Sig(ai);2.4:若b滿足則令red=red∪,計算NDERred(d),返回步驟2.5:輸出red。步驟3:從步驟2中的屬性重要度中選擇一個屬性值;步驟4:將步驟3中選定的屬性值進行集合獲得最終屬集。進一步的:所述的步驟3和步驟4包括;定義輸入值:鄰域決策系統DS=<U,AT,d>,鄰域半徑參數σ。定義輸出值:一個鄰域決策錯誤率約簡red。3.1設置NDERred(d)=1;3.2計算NDERAT(d)。若滿足NDERred(d)≤NDERAT(d),轉步驟3.4,否則轉步驟3.3;3.3(1)設置一個臨時集合(2)計算(3)若b滿足則將b加入臨時集合T中;(4)然后計算出臨時集合T中每個不同屬性出現的頻率;選擇臨時集合T中出現頻率最大的屬性b;如果臨時集合T的兩個或多個屬性具有最大的出現頻率,那么屬性b則按原始屬性的順序排列選擇出來;3.4輸出red。進一步的:所述的步驟3.3的時間復雜度為o(n2×m2),其中n為屬性數,m為樣本個數。如果有n個候選屬性,則總體時間復雜度為o(nr×m2),然后選擇r個屬性。本專利技術與現有技術相比,具有以下優點和效果:本專利技術將集成策略引入到約簡的計算過程中。它使用一組重要度函數代替傳統約簡中的單個屬性重要度。從而確定在計算約簡的過程中應該選擇哪個屬性。實驗結果表明,該方法不僅提高了約簡穩定性和分類結果的穩定性,而且增強了分類性能。附圖說明圖1是本專利技術實施例的結構示意圖。具體實施方式下面結合附圖并通過實施例對本專利技術作進一步的詳細說明,以下實施例是對本專利技術的解釋而本專利技術并不局限于以下實施例。參見圖1,在鄰域粗糙集中,一個決策系統可以被描述為DS=<U,AT,d>,其中U是所有樣本所構成的集合,AT是所有條件屬性的合集;d(x)表示樣本x的類別標記。ai(x)表示樣本在對應的條件屬性上的值。給定一個決策系統DS=<U,AT,d>,假設決策屬性的值是不相關聯的,那么d的等價關系可以被描述為:INDd={(x,y)∈U×U:d(x)=d(y)}。由INDd可以得到一個劃分,U/INDd={X1,X2…,Xq},則Xk∈U/INDd被稱為第k個決策類,那么包含所有樣本x的決策類記為[x]d。此外,條件屬性也可以通過關系的形式表現出來。在實際應用中大多數條件屬性的值都是連續型的。因此,Hu等人[17,18]定義了如下的鄰域關系,對于有:NA={(x,y)∈U×U:ΔA(x,y)≤σ}。在鄰域關系中,σ≥0,ΔA(·,·)是關于A的距離函數,該距離函數需要滿足以下特性:(1)非負性:(2)對稱性:(3)三角不等式:歐幾里德度量(歐氏距離)是被廣大學者經常采用的一種距離定義,公式可表示為:根據NA,樣本x的鄰域可以被定義為:NA(x)={y∈U:(x,y)∈NA}。鄰域分類器定義1給定一個決策系統DS=<U,AT,d>,U/INDd={X1,X2…,Xq},屬性A關于d的鄰域下近似集與上近似集分別定義如下:那么可以得到通過進一步考慮鄰域與決策類之間的部分包含性,胡等人提出了鄰域分類器(NEC)。與KNN不同的是NEC使用鄰域半徑來選擇鄰居。在利用鄰域分類器進行性分類學習的基礎上,Hu等人[16]進一步提出了鄰域決策錯誤率(NDER)的概念,以下給出了NDER的形式化定義。定義2給定一個決策系統DS=<U,AT,d>,決策系統的鄰域決策錯誤率為:在定義(2)中,對于PreA(y)的每次計算,x被視為測試本文檔來自技高網...
【技術保護點】
1.一種鄰域決策錯誤率集成的屬性約簡方法,其特征在于:所述的用于從鄰域粗糙集中選定屬性子集,來降低鄰域決策發生錯誤的程度,從而有效的提高鄰域分類器的分類精度,其包括以下步驟;/n步驟1:定義候選屬性集合;/n定義輸入:決策系統DS=<U,AT,d>,待預測樣本y,鄰域半徑參數σ。/n定義輸出:樣本的預測類別標記Pre
【技術特征摘要】
1.一種鄰域決策錯誤率集成的屬性約簡方法,其特征在于:所述的用于從鄰域粗糙集中選定屬性子集,來降低鄰域決策發生錯誤的程度,從而有效的提高鄰域分類器的分類精度,其包括以下步驟;
步驟1:定義候選屬性集合;
定義輸入:決策系統DS=<U,AT,d>,待預測樣本y,鄰域半徑參數σ。
定義輸出:樣本的預測類別標記PreA(y)。
1.1:計算ΔA(y,x);
1.2:計算NA(y);
1.3:計算//[x]k表示y的鄰域中屬于第k個類別的樣本;
1.4:
1.5:PreA(y)=j,輸出PreA(y);
步驟2:計算屬性的重要度;
定義輸出:鄰域決策系統DS=<U,AT,d>,鄰域半徑參數σ;
定義輸入:一個鄰域決策錯誤率約簡red;
2.1:設置NDERred(d)=1;
2.2:計算NDERAT(d)。若滿足NDERred(d)≤NDERAT(d),轉步驟2.5,否則轉步驟2.3;
2.3:計算Sig(ai);
2.4:若b滿足則令red=red∪,計算NDERred(d),返回步驟2.5:輸出red。
步驟3:從步驟2中的屬性重要度中選...
【專利技術屬性】
技術研發人員:文輝祥,朱悅,
申請(專利權)人:文輝祥,
類型:發明
國別省市:江蘇;32
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。