本發明專利技術公開了基于改進哈里斯鷹算法的特征選擇方法,包括:隨機構造初始的特征子集;通過改進哈里斯鷹優化算法對所述特征子集進行迭代尋優;利用目標函數獲取哈里斯鷹特征子集的適應度,并確定其個體最優與全局最優;根據所述全局最優輸出特征子集。本發明專利技術其將二階分類錯誤率與特征子集長度的加權作為評估函數,通過改進哈里斯鷹優化算法迭代尋優,篩選出質量較佳的特征子集。量較佳的特征子集。量較佳的特征子集。
【技術實現步驟摘要】
基于改進哈里斯鷹算法的特征選擇方法
[0001]本專利技術涉及特征選擇
,具體來說是針對分類不平衡問題,使用改進哈里斯鷹優化算法進行特征選擇的方法。
技術介紹
[0002]特征選擇是機器學習領域數據預處理的重要方法之一。但由于特征選擇本身的性質是個NP難問題,即特征數為n時,搜索空間為2
n
;導致研究者們只能退而求其次,使用近似算法獲取特征選擇問題的近似最優解,這也使得群體智能優化算法在特征選擇問題中得到廣泛應用。
[0003]另一方面,由于數據集本身的特性,會導致部分分類數據樣本遠遠少于其它分類數據,這將大大影響算法的分類準確性,而且僅僅考慮分類錯誤率會使得選擇到的特征子集中包含較多的冗余特征,此時大大提高了算法的計算復雜度,這一點對于高維數據尤為明顯。
技術實現思路
[0004]本專利技術針對分類不平衡問題,提出了基于改進哈里斯鷹優化算法的特征選擇方法,其將二階分類錯誤率與特征子集長度的加權作為評估函數,通過改進哈里斯鷹優化算法迭代尋優,篩選出質量較佳的特征子集。
[0005]為實現上述目的,本申請提出基于改進哈里斯鷹算法的特征選擇方法,包括:
[0006]隨機構造初始的特征子集;
[0007]通過改進哈里斯鷹優化算法對所述特征子集進行迭代尋優;
[0008]利用目標函數獲取哈里斯鷹特征子集的適應度,并確定其個體最優與全局最優;
[0009]根據所述全局最優輸出特征子集。
[0010]進一步的,通過改進哈里斯鷹優化算法對所述特征子集進行迭代尋優,具體為:
[0011]將每一個特征子集對應的看成一個粒子,在粒子初始化時,其維度根據數據集的特征數確定,其值則隨機初始化為[0,1]之間的隨機數,若值大于等于0.5則表示該特征選取為有用特征,否則表示不選取。例如下表所示:
[0012][0013]一個特征數量為9的數據集,則粒子維度為9;隨機初始化其值,根據結果可知,特征4、特征6、特征8、特征9選取為有用特征。
[0014]特征選擇初期階段,要求算法有較強的搜索能力,后期要求算法有較強的開發能力。據此,本申請針對哈里斯鷹算法作如下改進:
[0015]設粒子在t時刻的位置為X(t),粒子的全局最優位置為gbest,粒子個體最優位置
為pbest;當控制因子C
r
值大于[0,1]間的隨機數 rand時,使用下式更新粒子位置:
[0016][0017]其中d代表粒子的維度,范圍是[1,D]中的任意整數,這里的D是粒子搜索空間的總維度;rand是在區間(0,1)內均勻分布的隨機數; i代表當前粒子的索引號;當控制因子C
r
值小于等于[0,1]間的隨機數 rand時,使用下式更新粒子位置:
[0018][0019]Y=gbest
?
E*(gbest
?
X
i
)
????
(3)
[0020][0021]temp1=gbest
?
α1*|gbest
?
X
i
|
??????????
(5)
[0022]temp2=mean_best
i
?
α2*|mean_best
i
?
X
i
|
??????
(6)
[0023][0024][0025]α=a*(2*rand
?
1)
??????
(9)
[0026]其中E是粒子的逃逸能量因子;α1、α2均為權重因子,由式(9) 得到;mean_best
i
是從種群中比第i個粒子適應度好的前i
?
1個粒子的歷史最優適應度值中隨機抽取k個,再作均值,如式(7)所示。
[0027]進一步的,所述控制因子C
r
值由式(10)獲得,其中t為迭代次數, T為最大迭代次數:
[0028][0029]進一步的,將二階分類錯誤率與特征子集長度加權形成目標函數,具體為:
[0030][0031]其中,s
f
代表所選擇的特征子集長度;n
f
代表數據集中總共的特征數量;μ是平衡分類錯誤率與特征子集長度的平衡因子;balanced_error 為分類錯誤率,fitness即為哈里斯鷹特征子集的適應度,對所述fitness 進行排序得到個體最優與全局最優。所述個體最優是在迭代過程中,每個特征子集所能取得的最優適應度值;所述全局最優是在迭代過程中,所有特征子集中取得的最優適應度值;
[0032]進一步的,所述分類錯誤率balanced_error由下式計算得到:
[0033][0034]其中,n是問題的總類數,TP
i
是第i類中被正確分類的實例數,S
i
是第i類中包含的所有實例數。
[0035]本專利技術采用的以上技術方案,與現有技術相比,具有的優點是:
[0036]1、用二階分類錯誤率與特征子集長度的加權作為目標函數進行適應度計算,這樣既可以最大限度減少分類不平衡問題對分類結果造成的影響,又可以使得最終求得的特征子集不至于過大。
[0037]2、改進的哈里斯鷹算法克服了不能靈活轉換搜索與開發的缺陷,加強算法跳出局部最優的能力,使得算法有更強的全局尋優能力。
[0038]3、本專利技術提出的基于改進哈里斯鷹算法的特征選擇方法能夠篩選出質量較優的特征子集。
附圖說明
[0039]圖1為實施例中基于改進哈里斯鷹算法的特征選擇方法流程圖。
具體實施方式
[0040]為了使本申請的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本申請進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本申請,并不用于限定本申請,即所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。
[0041]因此,以下對在附圖中提供的本申請的實施例的詳細描述并非旨在限制要求保護的本申請的范圍,而是僅僅表示本申請的選定實施例。基于本申請的實施例,本領域技術人員在沒有做出創造性勞動的前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
[0042]為了證明本專利技術所提方法的有效性,利用UCI公開數據庫中的 waveform+noise數據集做驗證,該數據集在原來的waveform數據集上添加了均值為1、方差為0的噪聲。waveform+noise數據集的目標是準確分類出3類wave。該數據集共有5000條樣本,每條樣本有40 個特征(屬性),用0到6間的實數表示。
[0043]特征選擇問題旨在剔除數據集中無關、冗余特征,從而提高機器學習的性能。一般來說,特征選擇算法有四個主要步驟,“初始化”、“子集生成”、“子集評估”、“輸出”。在這四個步驟中,“子集生成”和“本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.基于改進哈里斯鷹算法的特征選擇方法,其特征在于,包括:隨機構造初始的特征子集;通過改進哈里斯鷹優化算法對所述特征子集進行迭代尋優;利用目標函數獲取哈里斯鷹特征子集的適應度,并確定其個體最優與全局最優;根據所述全局最優輸出特征子集。2.根據權利要求1所述基于改進哈里斯鷹算法的特征選擇方法,其特征在于,通過改進哈里斯鷹優化算法對所述特征子集進行迭代尋優,具體為:將每一個特征子集對應的看成一個粒子,設粒子在t時刻的位置為X(t),粒子的全局最優位置為gbest,粒子個體最優位置為pbest;當控制因子C
r
值大于[0,1]間的隨機數rand時,使用下式更新粒子位置:其中d代表粒子的維度,范圍是[1,D]中的任意整數,這里的D是粒子搜索空間的總維度;rand是在區間(0,1)內均勻分布的隨機數;i代表當前粒子的索引號;當控制因子C
r
值小于等于【0,1]間的隨機數rand時,使用下式更新粒子位置:Y=gbest
?
E*(gbest
?
X
i
)
????
(3)temp1=gbest
?
α1*|gbest
?
X
i
|
????
(5)temp2=mean_best
i
?
α2*|mean_best
...
【專利技術屬性】
技術研發人員:周士華,鄒樂旺,呂卉,
申請(專利權)人:大連大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。