一種基于少數類簇加權的過采樣算法制造技術

技術編號：43967461 閱讀：15 留言：0更新日期：2025-01-10 19:56

本發明專利技術涉及一種基于少數類簇加權的過采樣算法。本發明專利技術首先對原始數據集中的所有少數類樣本進行k?means聚類，形成多個少數類簇，將少數類樣本劃為安全點，邊界點和噪聲點，并將噪聲點刪除。其次結合采樣率計算出每個少數類簇需要合成的少數類樣本的數量，然后根據邊界點樣本和安全點樣本的分布情況，分別以不同的方法為邊界點樣本和安全點樣本分布權重。最后根據每個少數類樣本點的權重使用改進后的SMOTE算法生成少數類樣本，使數據集達到平衡狀態；利用UCI數據庫中的6組標準版公開數據集進行測試，驗證了該方法可以有效降低少數類樣本的重疊率，提高分類器對少數類樣本的分類精度。本發明專利技術更準確分析了數據集原始分布情況，降低了樣本間的冗余性，從而提高了分類器的性能。

全部詳細技術資料下載

【技術實現步驟摘要】

：本專利技術涉及基于一種少數類簇加權的過采樣算法，該方法將少數類樣本分為安全點樣本和邊界點樣本，分別對這兩種類別的點使用不同的方法賦予相應的權值，再使用一種改進的smote方法來合成新的少數類樣本。從而使數據集樣本達到更好的平衡比例。

技術介紹

0、
技術介紹
：

1、不平衡數據處理是機器學習和數據挖掘中一個重要的問題，因為在現實世界中，很多數據集都存在類別不平衡的情況，即某些類別的樣本數量遠遠多于或遠遠少于其他類別的樣本數量。這種情況會導致模型在訓練和評估過程中出現偏向性，使得模型更傾向于預測樣本數量較多的類別，而對于樣本數量較少的類別則表現不佳。

2、根據不同的策略，國內外的研究學者對不平衡數據的處理主要在兩個方面，分別是數據層面和算法層面。數據層面的處理思路就是根據某種規則，人為地通過刪減多數類實例或者增加少數類實例來改善原有數據集的不平衡度，通過盡可能地使原始數據集趨于平衡，有效解決不平衡數據正負類樣本分布不平衡的情況，根據數據預處理過程中采樣方式的不同，將采樣分為三部分：欠采樣、過采樣和混合采樣，其中主流是欠采樣和過采樣。算法層面的處理邏輯主要包括集成學習和代價敏感學習。其中過采樣技術是數據層面中最常見的數據預處理方法，它通過一定規則合成一定數量的少數類樣本來解決數據不平衡的問題，實現原始數據的再平衡。

技術實現思路

0、
技術實現思路
：

1、為了解決傳統smote算法對少數類樣本分類性能不足的問題，本專利技術公開了一種基于少數類簇加權的過采樣算法。

2、為此，本專利技術提供了如下技術方案：

3、1.基于少數類簇加權的過采樣算法，其特征在于，該方法包括以下步驟：

4、步驟1：對少數類樣本進行k-means聚類，本方法先對少數類進行聚類，形成多個少數類簇，將少數類樣本劃為安全點，邊界點和噪聲點。將噪聲點刪除。

5、步驟2：確定需要合成的少數類樣本的總數量。

6、步驟3：根據采樣率計算出每個少數類簇所需要合成的少數類樣本的數量。

7、步驟4：為每個少數類邊界點樣本分配權重。其中包括密度權重和距離權重，根據權重的大小來決定合成新的少數類樣本時所需要用到的少數類樣本順序，其中權重越高的樣本，在其采樣的區域內需要優先合成少數類樣本且合成數量越多。并且使用改進的smote方法來合成新的少數類樣本。

8、步驟5：為每個少數類安全點樣本分配權重，其中包括密度權重和距離權重，根據權重的大小來決定合成新的少數類樣本時所需要用到的少數類樣本順序，其中權重越高的樣本，在其采樣的區域內需要優先合成少數類樣本且合成數量越多。并且使用改進的smote方法來合成新的少數類樣本。

9、步驟6：對于每個少數類簇每一次生成新的少數類樣本后，記錄此時該簇新合成的少數類樣本總的數量。如果此時該簇新合成的少數類樣本總的數量已經達到步驟3中所要求的數量，則本算法結束運行。如果當該簇中的所有少數類樣本都參與過合成新樣本的過程后，已經生成的新的少數類樣本的數量小于步驟3所要求的數量，則在該簇內所有的安全點樣本進行隨機smote方法來合成新的少數類樣本，直至每個少數類簇中已經合成的新的少數類樣本的數量達到步驟3所要求的數量為止，則本算法結束運行。

10、2.根據權利要求1所述的基于少數類簇加權的過采樣算法，其特征在于，所述步驟1中，對少數類樣本k-means聚類，具體步驟為：

11、步驟1隨機選擇k個數據點作為初始質心，將每個數據點分配到與其最近的質心所對應的簇。計算每個簇中所有數據點的平均值，并將它們作為新的質心重復以上步驟，直到滿足簇的質心不再發生變化、已達到預定的最大迭代次數、簇的變化小于預定的閾值這三個條件之一，聚類結束。形成多個少數類簇，對于每個少數類識別其m個近鄰，其中記錄多數類的個數為n,如果n＝0,則此少數類點為安全點，若0<n<m,則稱其為邊界點，若n＝m,則稱其為噪聲點，將噪聲點刪除掉。

12、3.根據權利要求1所述的基于少數類簇加權的過采樣算法，其特征在于，所述步驟2中，將合成后的數據集的平衡比例設為1：1，計算整個數據集最后需要合成的新樣本的總數量，具體公式如下：

13、tadd＝tmax-tmin

14、其中，tmax是數據集中多數類樣本的個數，tmin是數據集中少數類樣本的個數。

15、4.根據權利要求1所述的基于少數類簇加權的過采樣算法，其特征在于，所述步驟3中。根據采樣率計算出每個少數類簇所需要合成的少數類樣本的數量。具體公式如下：

16、

17、

18、其中dj表示少數類簇中每個點到簇中心的距離，表示少數類簇中所有點到簇中心的平均距離，ui表示少數類簇中少數類樣本的個數，用少數類簇中所有點到簇中心的距離的方差來表示簇間樣本的稀疏度，方差越大，表示簇內的數據點越分散，簇的稀疏度越高，對應的采樣率應該越高；方差越小，表示簇內的數據點越集中，簇的稀疏度越低，對應的采樣率應該越低。v表示整個樣本的少數類樣本的個數，其中v和ui的比值越大，則說明此少數類簇中少數類樣本數量越少，所以此少數類簇中需要合成的少數類樣本數量應該越多，對應的采樣率也越高。相反，v和ui的比值越小，對應的采樣率越低。通過以上的方法來計算采樣率既可以解決類內不平衡，也可以解決類間不平衡的問題。

19、5.根據權利要求1所述的基于少數類簇加權的過采樣算法，其特征在于，所述步驟4中，為每個少數類邊界點樣本分配權重。其中包括密度權重和距離權重，并且使用改進的smote方法來合成新的少數類樣本。具體步驟為：

20、步驟4-1計算少數類簇中每個邊界點樣本的密度權重，具體公式如下：

21、

22、其中a是邊界樣本最近的k個樣本中少數類樣本的個數。

23、步驟4-2計算少數類簇中每個邊界點樣本的距離權重，具體公式如下：

24、

25、其中，dist(xi,xj)是每個邊界點樣本到其k個最近的安全點樣本之間的歐氏距離。

26、步驟4-3計算每個少數類邊界點樣本的總權重，具體公式如下：

27、

28、其中λ是用來平衡密度和距離的影響因子，在這里λ取值為0.5。

29、步驟4-4根據步驟4-3計算的權重代表邊界點樣本的權重，按照權重大小選擇好哪些樣本用來合成新樣本的少數類樣本后，使用改進的smote方法來合成新的少數類樣本：對于被選中的邊界樣本，選取距離它本身最近的兩個邊界點樣本，然后依次在此邊界點樣本和距離它本身最近的兩個邊界點樣本之間的連線上各隨機生成一個過渡樣本x1,x2。然后再在x1,和x2之間的連線上隨機生成一個新樣本x0,這個樣本就是我們所需要的最后的合成的新的少數類樣本。具體公式如下：

30、

31、

32、

33、其中xi表示被選中合成的邊界點樣本，和分別表本文檔來自技高網...

【技術保護點】

1.基于少數類簇加權的過采樣算法，其特征在于，該方法包括以下步驟：

2.根據權利要求1所述的基于少數類簇加權的過采樣算法，其特征在于，所述步驟1中，對少數類樣本k-means聚類，具體步驟為：

3.根據權利要求1所述的基于少數類簇加權的過采樣算法，其特征在于，所述步驟2中，將合成后的數據集的平衡比例設為1：1，計算整個數據集最后需要合成的新樣本的總數量，具體公式如下：

4.根據權利要求1所述的基于少數類簇加權的過采樣算法，其特征在于，所述步驟3中。根據采樣率計算出每個少數類簇所需要合成的少數類樣本的數量。具體公式如下：

5.根據權利要求1所述的基于少數類簇加權的過采樣算法，其特征在于，所述步驟4中，為每個少數類邊界點樣本分配權重。其中包括密度權重和距離權重，并且使用改進的SMOTE方法來合成新的少數類樣本。具體步驟為：

6.根據權利要求1所述的基于少數類簇加權的過采樣算法，其特征在于，所述步驟5中為每個少數類安全點樣本分配權重。其中包括密度權重和距離權重，并且使用改進的SMOTE方法來合成新的少數類樣本。具體步驟為：p>...

【技術特征摘要】

1.基于少數類簇加權的過采樣算法，其特征在于，該方法包括以下步驟：

2.根據權利要求1所述的基于少數類簇加權的過采樣算法，其特征在于，所述步驟1中，對少數類樣本k-means聚類，具體步驟為：

4.根據權利要求1所述的基于少數類簇加權的過采樣算法，其特征在于，所述步驟3中。根據采樣...

【專利技術屬性】
技術研發人員：何云斌，李成龍，董明銳，
申請(專利權)人：哈爾濱理工大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術