<li id="ec2k4"></li>

一種基于信息度和代表度的主動學習抽樣方法技術

技術編號：27508795 閱讀：44 留言：0更新日期：2021-03-02 18:37

本發明專利技術公開了一種基于信息度和代表度的主動學習抽樣方法，該方法包括以下步驟：1)對未標注數據集中多元時間序列，獲取各時間序列的信息度和代表度；2)基于步驟1)中計算得到的信息度和代表度，通過抽樣算法得到最有價值的未標記樣本；3)對步驟2)抽樣所得的未標注樣本進行標注，并將標注后的樣本加入標注數據集；4)判斷是否滿足停止標準，滿足停止標準后得到更新后的標記數據集。本發明專利技術針對多元時間序列的主動學習問題，提出了一種抽取未標記時間序列樣本的有效抽樣算法，通過雙優化抽樣算法結合信息度和代表度進行抽樣，能在保證準確度的條件下，有效減少未標記樣本的抽樣數目。有效減少未標記樣本的抽樣數目。有效減少未標記樣本的抽樣數目。

全部詳細技術資料下載

【技術實現步驟摘要】
一種基于信息度和代表度的主動學習抽樣方法

[0001]本專利技術涉及數據挖掘技術，尤其涉及一種基于信息度和代表度的主動學習抽樣方法。

技術介紹

[0002]標注訓練數據的大規模和多樣性對于高質量分類模型的訓練至關重要。但是，在實際應用中，通常標記數據很少而未標注數據很多，對所有數據進行標注耗時且昂貴。為了節省人力資源和成本，主動學習成為了研究熱點。對未標記樣本的抽樣是主動學習中的關鍵環節，對此，國內外學者已經提出了很多種算法。
[0003]為了獲得高質量的標注訓練數據，主動學習的一種抽樣策略是尋求未標注數據中最有價值的樣本，其中基于不確定度的抽樣是一種常用方法。Lughofer等學者結合廣義Takagi-Sugeno模糊模型，提出了兩種基于不確定度的抽樣標準。針對基于不確定的抽樣可能選取異常點的問題，基于密度的抽樣方法得到了研究。Mohamad等學者對于動態數據流的處理提出了一種基于密度的標準，通過對樣本加權反映真實的潛在分布實現對抽樣偏差的修正。
[0004]為進一步提升標注訓練數據的質量，一些研究致力于提升訓練數據的多樣性。為了反映多實例主動學習中包含的多樣性，Wang等學者提出了兩種多樣性標準，包括基于聚類多樣性和基于模糊粗糙集的多樣性。一些研究引入了復合策略提升抽樣質量，He等學者提出了一種基于不確定度和局部數據密度排序的抽樣策略。為了找到一種最合適樣本選擇的通用方法，Du等學者提出了一種結合信息度和代表度的測量方法。
[0005]上述研究主要針對主動學習的抽樣問題展開研究，然而，現有...

【技術保護點】

【技術特征摘要】
1.一種基于信息度和代表度的主動學習抽樣方法，其特征在于，包括以下步驟：1)對未標注數據集中多元時間序列，獲取各時間序列的信息度和代表度；2)基于步驟1)中計算得到的信息度和代表度，通過基于線性權重和的抽樣算法或基于指標的抽樣算法得到最有價值的未標記樣本；3)對步驟2)抽樣所得的未標注樣本進行標注，并將標注后的樣本加入標注數據集；4)判斷是否滿足停止標準，滿足停止標準后得到更新后的標記數據集。2.根據權利要求1所述的基于信息度和代表度的主動學習抽樣方法，其特征在于，所述步驟1)中，獲取各時間序列的信息度和代表度如下：分別計算各時間序列的不確定度，局部空間密度，最大均值差異和全局分配核函數；根據不確定度和局部空間密度計算信息度，根據最大均值差異和全局分配核函數計算代表度。3.根據權利要求2所述的基于信息度和代表度的主動學習抽樣方法，其特征在于，所述步驟1)中根據不確定度和局部空間密度計算信息度，具體如下：1.1)對某未標注多元時間序列樣本U，基于動態時間規劃的相似度，求樣本U的最近鄰正例樣本U
p
和最近鄰反例樣本U
n
，基于U與U
p
和U
n
的動態時間規劃相似度計算得到兩個參數P
U
和N
U
，基于P
U
，N
U
和信息熵公式，計算樣本U的不確定度UCTI；UCTI(U)＝-(P
U log P
U
+N
U log N
U
)其中，其中，其中，U
p
是U的最近鄰正例，U
n
是U的最近鄰反例，DSim(U，U
p
)是U與U
p
的基于動態時間規劃的相似度，DSim(U,U
n
)是U與U
n
的基于動態時間規劃的相似度；1.2)計算樣本U在整個數據集上的k近鄰，然后對于樣本U與其k近鄰組成的并集，計算并集中各點的逆k近鄰數量并求平均值，得到樣本U的局部空間密度；1.3)基于不確定度和局部空間密度，計算樣本U的信息度。4.根據權利要求3所述的基于信息度和代表度的主動學習抽樣方法，其特征在于，所述步驟1.2)中局部數據密度...

【專利技術屬性】
技術研發人員：何國良，王晗，黃成瑞，陳儀榕，
申請(專利權)人：武漢大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術