本發明專利技術公開了一種基于信息度和代表度的主動學習抽樣方法,該方法包括以下步驟:1)對未標注數據集中多元時間序列,獲取各時間序列的信息度和代表度;2)基于步驟1)中計算得到的信息度和代表度,通過抽樣算法得到最有價值的未標記樣本;3)對步驟2)抽樣所得的未標注樣本進行標注,并將標注后的樣本加入標注數據集;4)判斷是否滿足停止標準,滿足停止標準后得到更新后的標記數據集。本發明專利技術針對多元時間序列的主動學習問題,提出了一種抽取未標記時間序列樣本的有效抽樣算法,通過雙優化抽樣算法結合信息度和代表度進行抽樣,能在保證準確度的條件下,有效減少未標記樣本的抽樣數目。有效減少未標記樣本的抽樣數目。有效減少未標記樣本的抽樣數目。
【技術實現步驟摘要】
一種基于信息度和代表度的主動學習抽樣方法
[0001]本專利技術涉及數據挖掘技術,尤其涉及一種基于信息度和代表度的主動學習抽樣方法。
技術介紹
[0002]標注訓練數據的大規模和多樣性對于高質量分類模型的訓練至關重要。但是,在實際應用中,通常標記數據很少而未標注數據很多,對所有數據進行標注耗時且昂貴。為了節省人力資源和成本,主動學習成為了研究熱點。對未標記樣本的抽樣是主動學習中的關鍵環節,對此,國內外學者已經提出了很多種算法。
[0003]為了獲得高質量的標注訓練數據,主動學習的一種抽樣策略是尋求未標注數據中最有價值的樣本,其中基于不確定度的抽樣是一種常用方法。Lughofer等學者結合廣義Takagi-Sugeno模糊模型,提出了兩種基于不確定度的抽樣標準。針對基于不確定的抽樣可能選取異常點的問題,基于密度的抽樣方法得到了研究。Mohamad等學者對于動態數據流的處理提出了一種基于密度的標準,通過對樣本加權反映真實的潛在分布實現對抽樣偏差的修正。
[0004]為進一步提升標注訓練數據的質量,一些研究致力于提升訓練數據的多樣性。為了反映多實例主動學習中包含的多樣性,Wang等學者提出了兩種多樣性標準,包括基于聚類多樣性和基于模糊粗糙集的多樣性。一些研究引入了復合策略提升抽樣質量,He等學者提出了一種基于不確定度和局部數據密度排序的抽樣策略。為了找到一種最合適樣本選擇的通用方法,Du等學者提出了一種結合信息度和代表度的測量方法。
[0005]上述研究主要針對主動學習的抽樣問題展開研究,然而,現有研究在高維數據,尤其是多元時間序列上的表現欠佳。時間序列數據在醫學、工商業和軍事等領域有著廣泛的應用,并且多元時間序列數據往往具有較高維度,因此,對于多元時間序列的主動學習具有很高的實際意義和價值。
技術實現思路
[0006]本專利技術要解決的技術問題在于針對現有技術中的缺陷,提供一種基于信息度和代表度的主動學習抽樣方法。
[0007]本專利技術解決其技術問題所采用的技術方案是:一種基于信息度和代表度的主動學習抽樣方法,包括以下步驟:
[0008]1)對未標注數據集中多元時間序列,獲取各時間序列的信息度和代表度;
[0009]2)基于步驟1)中計算得到的信息度和代表度,通過基于線性權重和的抽樣算法或基于指標的抽樣算法得到最有價值的未標記樣本;
[0010]3)對步驟2)抽樣所得的未標注樣本進行標注,并將標注后的樣本加入標注數據集;
[0011]4)判斷是否滿足停止標準,滿足停止標準后得到更新后的標記數據集。
[0012]按上述方案,所述步驟1)中,獲取各時間序列的信息度和代表度如下:
[0013]分別計算各時間序列的不確定度,局部空間密度,最大均值差異和全局分配核函數;
[0014]根據不確定度和局部空間密度計算信息度,根據最大均值差異和全局分配核函數計算代表度。
[0015]按上述方案,所述步驟1)中根據不確定度和局部空間密度計算信息度,具體如下:
[0016]1.1)對某未標注多元時間序列樣本U,基于動態時間規劃的相似度,求樣本U的最近鄰正例樣本U
p
和最近鄰反例樣本U
n
,基于U與U
p
和U
n
的動態時間規劃相似度計算得到兩個參數P
U
和N
U
,基于P
U
,N
U
和信息熵公式,計算樣本U的不確定度UCTI;
[0017]UCTI(U)=-(P
U
logP
U
+N
U
logN
U
)
[0018]其中,
[0019][0020][0021]其中,U
p
是U的最近鄰正例,U
n
是U的最近鄰反例,DSim(U,U
p
)是U與U
p
的基于動態時間規劃的相似度,DSim(U,U
n
)是U與U
n
的基于動態時間規劃的相似度。
[0022]1.2)計算樣本U在整個數據集上的k近鄰,然后對于樣本U與其k近鄰組成的并集,計算并集中各點的逆k近鄰數量并求平均值,得到樣本U的局部空間密度;
[0023]1.3)基于不確定度和局部空間密度,計算樣本U的信息度。
[0024]按上述方案,所述步驟1.2)中局部數據密度LSD由樣本U與其k近鄰組成的并集中各點的逆k近鄰數量并求平均值得到,計算如下:
[0025][0026]其中,K為k近鄰的數目,kNN(U)是U的k近鄰,RkNN(X)是X的逆k近鄰,|RkNN(X)|是X的逆k近鄰的大小。
[0027]按上述方案,所述步驟1.3)中未標注多元時間序列U的信息度INFO計算采用以下公式:
[0028][0029]其中,LSD(U,K)是U的局部空間密度,UCTI(U)是U的不確定度,kNN(U)是U的k近鄰,|RkNN(X)|是X的逆k近鄰的數目,|RkNN(U)|是U的逆k近鄰的數目。
[0030]按上述方案,所述未標注多元時間序列樣本U的代表度計算為,基于兩個時間序列的狀態轉換等式和初始狀態計算兩個時間序列之間的全局分配核函數,用全局分配核函數作為最大均值差異的核函數計算得到樣本U的代表度。
[0031]按上述方案,所述步驟2)中抽樣算法為基于線性權重和的抽樣算法,具體如下:將基于信息度和代表度的樣本排序從雙優化問題轉化為單優化問題,引入參數α對信息度和代表度進行權衡,對所有未標記樣本進行排序后選擇最優樣本,目標方程如下:
[0032][0033]其中,參數α用于權衡信息度和代表度的權重,INFO(X)為X的信息度,REP(X)為X的代表度。
[0034]按上述方案,所述步驟2)中抽樣算法為基于指標的抽樣算法,具體如下:計算兩種比較指標,采取隨機排序技術平衡不同指標之間的搜索偏差,引入參數β控制兩種指標所占比例。兩種比較指標I1(X)和I2(X)的計算如下:
[0035][0036][0037][0038][0039][0040]其中,Y precedes X表示Y在排序中位于X之前。
[0041]按上述方案,所述步驟3)還包括將對步驟2)所得的未標注樣本的逆最近鄰樣本與該未標注樣本分為同一類,標注后加入標記數據集。
[0042]按上述方案,所述步驟4)中停止標準為,設置穩定間隔φ,在穩定間隔φ內的各輪迭代抽樣選擇的未標注樣本之間的價值之差的最大值小于閾值,則滿足停止標準,停止迭代;其中,未標注樣本的價值由步驟2)中所述的抽樣算法計算得到。
[0043]本專利技術產生的有益效果是:
[0044]本專利技術針對多元時間序列的主動學習問題,提出了一種抽取未標記時間序列樣本的有效抽樣算法,通過雙優化抽樣算法結合信息度和代表度進行抽樣,提出兩種從不同角度度量未標注樣本重要性的抽樣標本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種基于信息度和代表度的主動學習抽樣方法,其特征在于,包括以下步驟:1)對未標注數據集中多元時間序列,獲取各時間序列的信息度和代表度;2)基于步驟1)中計算得到的信息度和代表度,通過基于線性權重和的抽樣算法或基于指標的抽樣算法得到最有價值的未標記樣本;3)對步驟2)抽樣所得的未標注樣本進行標注,并將標注后的樣本加入標注數據集;4)判斷是否滿足停止標準,滿足停止標準后得到更新后的標記數據集。2.根據權利要求1所述的基于信息度和代表度的主動學習抽樣方法,其特征在于,所述步驟1)中,獲取各時間序列的信息度和代表度如下:分別計算各時間序列的不確定度,局部空間密度,最大均值差異和全局分配核函數;根據不確定度和局部空間密度計算信息度,根據最大均值差異和全局分配核函數計算代表度。3.根據權利要求2所述的基于信息度和代表度的主動學習抽樣方法,其特征在于,所述步驟1)中根據不確定度和局部空間密度計算信息度,具體如下:1.1)對某未標注多元時間序列樣本U,基于動態時間規劃的相似度,求樣本U的最近鄰正例樣本U
p
和最近鄰反例樣本U
n
,基于U與U
p
和U
n
的動態時間規劃相似度計算得到兩個參數P
U
和N
U
,基于P
U
,N
U
和信息熵公式,計算樣本U的不確定度UCTI;UCTI(U)=-(P
U log P
U
+N
U log N
U
)其中,其中,其中,U
p
是U的最近鄰正例,U
n
是U的最近鄰反例,DSim(U,U
p
)是U與U
p
的基于動態時間規劃的相似度,DSim(U,U
n
)是U與U
n
的基于動態時間規劃的相似度;1.2)計算樣本U在整個數據集上的k近鄰,然后對于樣本U與其k近鄰組成的并集,計算并集中各點的逆k近鄰數量并求平均值,得到樣本U的局部空間密度;1.3)基于不確定度和局部空間密度,計算樣本U的信息度。4.根據權利要求3所述的基于信息度和代表度的主動學習抽樣方法,其特征在于,所述步驟1.2)中局部數據密度...
【專利技術屬性】
技術研發人員:何國良,王晗,黃成瑞,陳儀榕,
申請(專利權)人:武漢大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。