本發明專利技術公開了一種基于自然鄰域加權的過采樣算法,來解決傳統過采樣方法在樣本合成過程中存在較大隨機性,可能導致生成大量對少數類樣本分類效果不明顯甚至是噪聲的合成樣本的問題。首先,利用自然鄰域算法識別并刪除少數類中的異常點,以減少噪聲樣本的干擾。然后,通過計算少數類點與其周圍自然鄰居之間的變異系數,來合理分配每個少數類樣本生成新樣本的個數。最后,基于樣本之間的距離關系,分配生成新樣本的數量,距離較遠的樣本生成更多的新樣本,從而更好地覆蓋整個特征空間。本發明專利技術的方法能夠有效提高少數類樣本的代表性,并且生成的合成樣本能更好地保持原數據的分布特征,克服了傳統方法中隨機性較大的問題。
【技術實現步驟摘要】
:本專利技術涉及一種基于自然鄰域加權的過采樣算法,該方法可以確保新生成的樣本在空間中合理分布,同時更好地保留少數類樣本的局部特征,從而提升模型的分類性能。
技術介紹
0、
技術介紹
:
1、隨著時間的推移,數據的特性常常發生變化,這導致數據本身變得不均衡,尤其是在很多應用中,收集到的數據類往往呈現不平衡的分布。類不平衡的主要表現是不同類別中的實例數量不相等。為了解決這一問題,國內外的研究學者對不平衡數據的處理主要有兩個方面,分別是數據層面和算法層面。
2、在數據層面,處理不平衡數據的思路是根據某種規則,人為的通過刪減多數類實例或者增加少數類實例,調整數據集中的樣本數量,使其更加平衡。常見的策略包括:欠采樣、過采樣和混合采樣。欠采樣是通過減少多數類樣本來平衡數據,而過采樣則通過增加少數類樣本來實現平衡。這些方法旨在通過調整樣本的分布,緩解正負類樣本的不均衡。
3、在算法層面,主要的解決方案包括集成學習和代價敏感學習。集成學習是一種常見的分類方法,它通過結合多個分類器的預測結果來提高整體性能。集成學習對不平衡數據具有較好的適應性,因為它可以通過調整各個分類器的權重,使少數類別得到更多關注,從而有效提升分類的準確性。
技術實現思路
0、
技術實現思路
:
1、為了解決傳統smote算法在新生成點時遇到的噪聲傳播,邊界效應,樣本分布不均的問題,本專利技術公開了一種基于自然鄰域加權的過采樣算法。
2、為此,本專利技術提供了如下技術方案:p>3、1.一種基于自然鄰域加權的過采樣算法,其特征在于,該方法包括以下步驟:
4、步驟1:使用自然鄰域算法來識別少數類樣本中的異常點,并將其刪除。
5、步驟1-1將搜索輪數r設置為1,即最小鄰居數量。然后,搜索每個樣本的1近鄰,即與其相似度最高的樣本。接著,判斷這些1近鄰是否滿足條件:每個樣本至少有一個相互的1近鄰。如果條件滿足,即每個樣本都至少有一個真正的鄰居,則自然鄰域形成。如果條件不滿足,意味著存在某些樣本沒有相互的1近鄰,則增加r的值,進入下一輪搜索。在每輪搜索中,尋找每個樣本的r近鄰,并再次判斷是否滿足每個樣本至少有一個相互的r近鄰的條件。當找到一個r值,使得每個樣本都滿足條件,即每個樣本都有至少一個真正的鄰居時,認為自然鄰域已形成,其中λ為自然鄰域的特征值,具體公式如下:
6、
7、其中,r為搜索輪數,nnλ(x)表示數據對象x的λ最近鄰。
8、步驟1-2找到樣本xi的所有自然鄰居中具有與它不同的類別標簽的點,則該點屬于異常點,具體的公式如下:
9、
10、其中,ae為異常點的集合,l(xi)表示xi的類別標簽,少數類樣本用1來表示,多數類樣本用0來表示,xj∈nan(xi)表示樣本xj是樣本xi的自然鄰居。
11、步驟2:通過計算少數類樣本與其鄰域點的變異系數,確定每個新生成點的權重,具體公式如下:
12、
13、其中,ci為少數類樣本xi的變異系數,l(xi)表示xi的類別標簽,少數類樣本用1來表示,多數類樣本用0來表示,λ為自然鄰域的特征值,變異系數越大,意味著數據越分散,因此分配的權重越大,反之越小,ni(k)表示與樣本xi最近的第k個鄰居的索引,表示樣本點xi在其λ個近鄰中,所有少數類樣本的特征的平均值。
14、步驟3:計算所有少數類樣本應生成的新樣本的總數量。將合成后的數據集的平衡比例設為1:1,計算整個數據集最后需要合成的新樣本的總數量,具體公式如下:
15、t=tmax-tmin
16、其中,t為合成的新樣本總數量,tmax是數據集中多數類樣本的個數,tmin是數據集中少數類樣本的個數。
17、步驟4:根據變異系數計算出每個少數類點需要合成的新樣本的數量,具體公式如下:
18、
19、gi=t*pi
20、其中,pi是變異因子,ci是少數類樣本點xi的變異系數,m為少數類樣本點的總數,gi為少數類樣本點xi生成的新樣本總數,t為新生成樣本的總數。
21、步驟5:通過步驟4,我們得到了每個少數類樣本生成新樣本的總數。在此基礎上,進一步進行樣本分配。具體做法是計算每個少數類樣本與其周圍其他少數類樣本之間的距離,然后根據這些距離分配生成新樣本的個數。這樣可以確保生成的新樣本在空間上合理分布,同時更好地保持少數類樣本的局部特征,提高模型的分類效果,具體步驟如下。
22、計算樣本空間d中任意少數類對象xi與其自然鄰域內其他少數類對象xj(其中j∈[1,λ])之間新生成點的數量rij,計算公式如下所示:
23、
24、其中,d(xi,xj)表示xi與自然鄰居xj之間的距離,l(xi)表示xi的類別標簽少數類樣本用1來表示,多數類樣本用0來表示,gi為少數類樣本點xi生成的新樣本總數,ni(r)表示與樣本xi最近的第r個鄰居的索引。
25、步驟6:采用改進的smote算法生成新的樣本點,具體步驟如下。
26、步驟6-1根據新生成點的個數進行插值等分rij+1個值,得到少數類對象xi的差值因子diffi,計算公式如下所示:
27、
28、其中,
29、rij表示點xi和xj之間生成點的個數。
30、步驟6-2根據上述步驟得到的插值因子,進行新點的生成。生成公式如下所示:
31、xnew=xi+|xi-xj|×k*diffij
32、其中k∈[1,rij],rij表示點xi和xj之間生成點的個數,這意味著每個新點的坐標是通過在xi和xj之間按照等距離插值的方式生成的。通過這種均勻的生成方式,可以確保創建的合成對象在xi和xj之間均勻分布,避免了過于接近,過于遠離或者堆疊的情況出現。
33、有益效果:
34、1.本專利技術是一種基于自然鄰域加權的過采樣算法。為了解決傳統smote算法在新生成點時遇到的噪聲傳播,邊界效應,樣本分布不均的問題,在新生成點之前通過自然鄰域算法進行噪聲點的刪除,通過計算變異系數,來控制新生成樣本分布的問題,稠密區域生成的點較少,稀疏區域生成的點較多。在此基礎上,進一步進行樣本分配。具體做法是計算每個少數類樣本與其周圍其他少數類樣本之間的距離,然后根據這些距離分配生成新樣本的個數。這樣可以確保生成的新樣本在空間上合理分布,同時更好地保持少數類樣本的局部特征,提高模型的分類效果。
本文檔來自技高網...
【技術保護點】
1.一種基于自然鄰域加權的過采樣算法,其特征在于,該方法包括以下步驟:
2.根據權利要求1所述的一種基于自然鄰域加權的過采樣算法,其特征在于,所述步驟1中,對所有樣本進行自然鄰域的檢測,具體步驟為:
3.根據權利要求1所述的一種基于自然鄰域加權的過采樣算法,其特征在于,所述步驟2中,計算少數類樣本與其鄰域點的變異系數,確定每個新生成點的權重,具體公式如下:
4.根據權利要求1所述的一種基于自然鄰域加權的過采樣算法,其特征在于,所述步驟3中,將合成后的數據集的平衡比例設為1:1,計算整個數據集最后需要合成的新樣本的總數量,具體公式如下:
5.根據權利要求1所述的一種基于自然鄰域加權的過采樣算法,其特征在于,所述步驟4中。根據變異系數計算出每個少數類點需要合成的新類樣本的數量,具體公式如下:
6.根據權利要求1所述的一種基于自然鄰域加權的過采樣算法,其特征在于,所述步驟5中,將每個少數類點生成的新樣本總數進一步的分配,具體步驟如下:
7.根據權利要求1所述的一種基于自然鄰域加權的過采樣算法,其特征在于,所述步驟6中使用改進的SMOTE方法來合成新的少數類樣本。具體步驟為:
...
【技術特征摘要】
1.一種基于自然鄰域加權的過采樣算法,其特征在于,該方法包括以下步驟:
2.根據權利要求1所述的一種基于自然鄰域加權的過采樣算法,其特征在于,所述步驟1中,對所有樣本進行自然鄰域的檢測,具體步驟為:
3.根據權利要求1所述的一種基于自然鄰域加權的過采樣算法,其特征在于,所述步驟2中,計算少數類樣本與其鄰域點的變異系數,確定每個新生成點的權重,具體公式如下:
4.根據權利要求1所述的一種基于自然鄰域加權的過采樣算法,其特征在于,所述步驟3中,將合成后的數據集的平衡比例設為1:1,計算整個數...
【專利技術屬性】
技術研發人員:萬靜,李洋洋,陳健,
申請(專利權)人:哈爾濱理工大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。