System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請的實施例涉及雷達運行數(shù)據(jù)分析,特別涉及一種基于smote的雷達運行數(shù)據(jù)平衡分類方法。
技術(shù)介紹
1、雷達在運行時產(chǎn)生的故障運行數(shù)據(jù)遠遠小于正常運行數(shù)據(jù),如果錯誤的把潛在的故障運行數(shù)據(jù)分類為正常運行數(shù)據(jù),那么很有可能會導(dǎo)致重大的通信事故的發(fā)生,造成難以估計的財產(chǎn)損失。因此,在實際情況下,更準確地對少數(shù)類數(shù)據(jù)(即故障運行數(shù)據(jù))進行分類是非常重要的。傳統(tǒng)的分類學習方法往往會偏袒多數(shù)類而忽視少數(shù)類,少數(shù)類的誤分類成本通常遠高于多數(shù)類的分類成本,這有著巨大的安全隱患。
2、目前對雷達運行數(shù)據(jù)集的處理方法主要有隨機過采樣和隨機欠采樣兩種。在隨機過采樣技術(shù)中,smote(synthetic?minority?oversampling?technique,合成少數(shù)過采樣技術(shù))是最流行的方法,雖然smote已被證明是一種簡單有效的過采樣方法,但他也存在一些缺點,比如多數(shù)階級群體和少數(shù)階級群體之間的分離不明顯,以及容易產(chǎn)生噪音等。因此技術(shù)人員通常會選擇少數(shù)類樣本合成作為新的樣本,但該方法又忽略了周圍的環(huán)境,并帶來了兩個新的問題。第一個問題是如果所選少數(shù)類樣本的周圍分布都是少數(shù)類樣本,那么新合成的樣本的意義不大,因為這些新合成的樣本往往是遠離多數(shù)類與少數(shù)類邊界的。第二個問題是通過smote生成少數(shù)類樣本時,需要隨機選取k近鄰進行插值,這并沒有考慮到少數(shù)類樣本內(nèi)部分布不均衡的情況,也就是說,這種通過隨機插值的方式新合成的樣本很可能會改變原本少數(shù)類樣本的分布。
技術(shù)實現(xiàn)思路
1、為了解決上
2、為了實現(xiàn)上述目的,本申請的實施例提出了一種基于smote的雷達運行數(shù)據(jù)平衡分類方法,包括以下步驟:對獲取到的雷達運行數(shù)據(jù)進行分類預(yù)處理,按照正常運行數(shù)據(jù)和故障運行數(shù)據(jù)劃分為多數(shù)類樣本和少數(shù)類樣本;基于雷達運行數(shù)據(jù)的原始分布,將各少數(shù)類樣本劃分為少數(shù)類邊界樣本和少數(shù)類內(nèi)部樣本;其中,少數(shù)類邊界樣本是分布于多數(shù)類與少數(shù)類分類邊界的少數(shù)類樣本,少數(shù)類內(nèi)部樣本是分布于少數(shù)類內(nèi)部的少數(shù)類樣本;對少數(shù)類邊界樣本采用k-l-smote算法進行處理,得到第一類合成樣本;對少數(shù)類內(nèi)部樣本采用k-means聚類算法劃分為不同的子簇,并根據(jù)每個子簇中少數(shù)類內(nèi)部樣本的數(shù)目計算出不同的采樣倍率以進行合成,得到第二類合成樣本;將第一類合成樣本、第二類合成樣本和多數(shù)類樣本進行合并,得到均衡樣本集;基于均衡樣本集,對不同的分類器進行訓(xùn)練和測試,并基于各分類器的分類結(jié)果進行雷達運行狀態(tài)分析。
3、為了實現(xiàn)上述目的,本申請的實施例還提出了一種基于smote的雷達運行數(shù)據(jù)平衡分類系統(tǒng),所述系統(tǒng)包括:多數(shù)少數(shù)劃分模塊、邊界內(nèi)部劃分模塊、第一類合成模塊、第二類合成模塊、合并模塊和分析處理模塊;多數(shù)少數(shù)劃分模塊,用于對獲取到的雷達運行數(shù)據(jù)進行分類預(yù)處理,按照正常運行數(shù)據(jù)和故障運行數(shù)據(jù)劃分為多數(shù)類樣本和少數(shù)類樣本;邊界內(nèi)部劃分模塊,用于基于雷達運行數(shù)據(jù)的原始分布,將各少數(shù)類樣本劃分為少數(shù)類邊界樣本和少數(shù)類內(nèi)部樣本,其中,少數(shù)類邊界樣本是分布于多數(shù)類與少數(shù)類分類邊界的少數(shù)類樣本,少數(shù)類內(nèi)部樣本是分布于少數(shù)類內(nèi)部的少數(shù)類樣本;第一類合成模塊,用于對少數(shù)類邊界樣本采用k-l-smote算法進行處理,得到第一類合成樣本;第二類合成模塊,用于對少數(shù)類內(nèi)部樣本采用k-means聚類算法劃分為不同的子簇,并根據(jù)每個子簇中少數(shù)類內(nèi)部樣本的數(shù)目計算出不同的采樣倍率以進行合成,得到第二類合成樣本;合并模塊,用于將第一類合成樣本、第二類合成樣本和多數(shù)類樣本進行合并,得到均衡樣本集;分析處理模塊,用于基于均衡樣本集,對不同的分類器進行訓(xùn)練和測試,并基于各分類器的分類結(jié)果進行雷達運行狀態(tài)分析。
4、為了實現(xiàn)上述目的,本申請的實施例還提出了一種電子設(shè)備,所述電子設(shè)備包括:至少一個處理器;以及,與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執(zhí)行的指令,所述指令被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行如上述所述的一種基于smote的雷達運行數(shù)據(jù)平衡分類方法。
5、為了實現(xiàn)上述目的,本申請的實施例提出了一種計算機可讀存儲介質(zhì),存儲有計算機程序,所述計算機程序被處理器執(zhí)行時,能夠?qū)崿F(xiàn)如上述所述的一種基于smote的雷達運行數(shù)據(jù)平衡分類方法。
6、本申請的實施例提出的基于smote的雷達運行數(shù)據(jù)平衡分類方法,先按照正常運行數(shù)據(jù)和故障運行數(shù)據(jù)對獲取到的雷達運行數(shù)據(jù)進行多數(shù)類、少數(shù)類的劃分,再基于雷達運行數(shù)據(jù)的原始分布對各少數(shù)類樣本進行邊界、內(nèi)部的劃分。對于少數(shù)類邊界樣本,本申請選擇采用k-l-smote算法進行處理,得到第一類合成樣本,以擴充少數(shù)類邊界樣本。對于少數(shù)類內(nèi)部樣本,本申請選擇采用k-means聚類算法劃分子簇,接下來根據(jù)每個子簇中少數(shù)類內(nèi)部樣本的數(shù)目計算出不同的采樣倍率以進行合成,得到第二類合成樣本,從而實現(xiàn)少數(shù)類內(nèi)部樣本間的類內(nèi)平衡。最后將第一類合成樣本、第二類合成樣本和多數(shù)類樣本進行合并,得到均衡樣本集對分類器進行訓(xùn)練和測試,再基于分類結(jié)果進行雷達運行狀態(tài)分析。經(jīng)過對少數(shù)類邊界樣本和少數(shù)類內(nèi)部樣本進行有針對性的處理,有效避免了少數(shù)類樣本不平衡問題,進而提升了雷達運行數(shù)據(jù)的分析和處理精度,降低了交通事故發(fā)生的概率。
7、在一些可選的實施例中,將雷達運行數(shù)據(jù)中的少數(shù)類樣本記為ci,i=1,2,...,g,g為少數(shù)類樣本的總數(shù),基于雷達運行數(shù)據(jù)的原始分布,將各少數(shù)類樣本劃分為少數(shù)類邊界樣本和少數(shù)類內(nèi)部樣本,包括:對于少數(shù)類樣本ci,通過歐式距離計算ci的個近鄰,記錄這個近鄰中屬于多數(shù)類樣本的個數(shù)并比較與的大小;若則將ci劃分為少數(shù)類邊界樣本cib,并存入集合b{cib};若則將ci劃分為少數(shù)類內(nèi)部樣本cii,并存入集合i{cii};若則將ci視為噪聲樣本并剔除。
8、在一些可選的實施例中,對少數(shù)類邊界樣本采用k-l-smote算法進行處理,得到第一類合成樣本,包括:對于少數(shù)類邊界樣本cib,計算cib在集合b{cib}中的μ個近鄰,并分別記為ciμ;基于cib和ciμ進行插值,生成第一類合成樣本并將存入集合插值公式具體表示為random(0,1)表示生成0至1之間的隨機數(shù),集合即第一類合成樣本的集合。
9、在一些可選的實施例中,所述對少數(shù)類內(nèi)部樣本采用k-means聚類算法劃分為不同的子簇,并根據(jù)每個子簇中少數(shù)類內(nèi)部樣本的數(shù)目計算出不同的采樣倍率以進行合成,得到第二類合成樣本,包括:對于集合i{cii},采用k-means聚類算法劃分為n個不同的子簇并計算各子簇的簇心,記為{β1,β2,...,βj,...,βn},βj為第j個子簇的簇心;
10、分別基于各子簇中的少數(shù)類內(nèi)部樣本的數(shù)目計算出各子簇本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種基于SMOTE的雷達運行數(shù)據(jù)平衡分類方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于SMOTE的雷達運行數(shù)據(jù)平衡分類方法,其特征在于,將雷達運行數(shù)據(jù)中的少數(shù)類樣本記為ci,i=1,2,…,g,g為少數(shù)類樣本的總數(shù),基于雷達運行數(shù)據(jù)的原始分布,將各少數(shù)類樣本劃分為少數(shù)類邊界樣本和少數(shù)類內(nèi)部樣本,包括:
3.如權(quán)利要求2所述的基于SMOTE的雷達運行數(shù)據(jù)平衡分類方法,其特征在于,對少數(shù)類邊界樣本采用K-L-SMOTE算法進行處理,得到第一類合成樣本,包括:
4.如權(quán)利要求3所述的基于SMOTE的雷達運行數(shù)據(jù)平衡分類方法,其特征在于,對少數(shù)類內(nèi)部樣本采用K-means聚類算法劃分為不同的子簇,并根據(jù)每個子簇中少數(shù)類內(nèi)部樣本的數(shù)目計算出不同的采樣倍率以進行合成,得到第二類合成樣本,包括:
5.如權(quán)利要求4所述的基于SMOTE的雷達運行數(shù)據(jù)平衡分類方法,其特征在于,n的取值范圍為27至34。
6.如權(quán)利要求1至權(quán)利要求5中任一項所述的基于SMOTE的雷達運行數(shù)據(jù)平衡分類方法,其特征在于,雷達運行數(shù)據(jù)包括普通工作數(shù)據(jù)、輕
7.如權(quán)利要求1至權(quán)利要求5中任一項所述的基于SMOTE的雷達運行數(shù)據(jù)平衡分類方法,其特征在于,不同的分類器包括GBDT、KNN和隨機森林;
8.一種基于SMOTE的雷達運行數(shù)據(jù)平衡分類系統(tǒng),其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括:
10.一種計算機可讀存儲介質(zhì),存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時,能夠?qū)崿F(xiàn)如權(quán)利要求1至權(quán)利要求7中任一項所述的基于SMOTE的雷達運行數(shù)據(jù)平衡分類方法。
...【技術(shù)特征摘要】
1.一種基于smote的雷達運行數(shù)據(jù)平衡分類方法,其特征在于,包括:
2.如權(quán)利要求1所述的基于smote的雷達運行數(shù)據(jù)平衡分類方法,其特征在于,將雷達運行數(shù)據(jù)中的少數(shù)類樣本記為ci,i=1,2,…,g,g為少數(shù)類樣本的總數(shù),基于雷達運行數(shù)據(jù)的原始分布,將各少數(shù)類樣本劃分為少數(shù)類邊界樣本和少數(shù)類內(nèi)部樣本,包括:
3.如權(quán)利要求2所述的基于smote的雷達運行數(shù)據(jù)平衡分類方法,其特征在于,對少數(shù)類邊界樣本采用k-l-smote算法進行處理,得到第一類合成樣本,包括:
4.如權(quán)利要求3所述的基于smote的雷達運行數(shù)據(jù)平衡分類方法,其特征在于,對少數(shù)類內(nèi)部樣本采用k-means聚類算法劃分為不同的子簇,并根據(jù)每個子簇中少數(shù)類內(nèi)部樣本的數(shù)目計算出不同的采樣倍率以進行合成,得到第二類合成樣本,包括:
5.如權(quán)利要求4所述的基于smote的雷達運行數(shù)據(jù)平衡分類方法,...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:鄧鈺棟,高翔宇,張歡陽,
申請(專利權(quán))人:西安電子工程研究所,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。