• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>武漢大學專利>正文

    一種基于信息度和代表度的主動學習抽樣方法技術

    技術編號:27508795 閱讀:44 留言:0更新日期:2021-03-02 18:37
    本發明專利技術公開了一種基于信息度和代表度的主動學習抽樣方法,該方法包括以下步驟:1)對未標注數據集中多元時間序列,獲取各時間序列的信息度和代表度;2)基于步驟1)中計算得到的信息度和代表度,通過抽樣算法得到最有價值的未標記樣本;3)對步驟2)抽樣所得的未標注樣本進行標注,并將標注后的樣本加入標注數據集;4)判斷是否滿足停止標準,滿足停止標準后得到更新后的標記數據集。本發明專利技術針對多元時間序列的主動學習問題,提出了一種抽取未標記時間序列樣本的有效抽樣算法,通過雙優化抽樣算法結合信息度和代表度進行抽樣,能在保證準確度的條件下,有效減少未標記樣本的抽樣數目。有效減少未標記樣本的抽樣數目。有效減少未標記樣本的抽樣數目。

    【技術實現步驟摘要】
    一種基于信息度和代表度的主動學習抽樣方法


    [0001]本專利技術涉及數據挖掘技術,尤其涉及一種基于信息度和代表度的主動學習抽樣方法。

    技術介紹

    [0002]標注訓練數據的大規模和多樣性對于高質量分類模型的訓練至關重要。但是,在實際應用中,通常標記數據很少而未標注數據很多,對所有數據進行標注耗時且昂貴。為了節省人力資源和成本,主動學習成為了研究熱點。對未標記樣本的抽樣是主動學習中的關鍵環節,對此,國內外學者已經提出了很多種算法。
    [0003]為了獲得高質量的標注訓練數據,主動學習的一種抽樣策略是尋求未標注數據中最有價值的樣本,其中基于不確定度的抽樣是一種常用方法。Lughofer等學者結合廣義Takagi-Sugeno模糊模型,提出了兩種基于不確定度的抽樣標準。針對基于不確定的抽樣可能選取異常點的問題,基于密度的抽樣方法得到了研究。Mohamad等學者對于動態數據流的處理提出了一種基于密度的標準,通過對樣本加權反映真實的潛在分布實現對抽樣偏差的修正。
    [0004]為進一步提升標注訓練數據的質量,一些研究致力于提升訓練數據的多樣性。為了反映多實例主動學習中包含的多樣性,Wang等學者提出了兩種多樣性標準,包括基于聚類多樣性和基于模糊粗糙集的多樣性。一些研究引入了復合策略提升抽樣質量,He等學者提出了一種基于不確定度和局部數據密度排序的抽樣策略。為了找到一種最合適樣本選擇的通用方法,Du等學者提出了一種結合信息度和代表度的測量方法。
    [0005]上述研究主要針對主動學習的抽樣問題展開研究,然而,現有研究在高維數據,尤其是多元時間序列上的表現欠佳。時間序列數據在醫學、工商業和軍事等領域有著廣泛的應用,并且多元時間序列數據往往具有較高維度,因此,對于多元時間序列的主動學習具有很高的實際意義和價值。

    技術實現思路

    [0006]本專利技術要解決的技術問題在于針對現有技術中的缺陷,提供一種基于信息度和代表度的主動學習抽樣方法。
    [0007]本專利技術解決其技術問題所采用的技術方案是:一種基于信息度和代表度的主動學習抽樣方法,包括以下步驟:
    [0008]1)對未標注數據集中多元時間序列,獲取各時間序列的信息度和代表度;
    [0009]2)基于步驟1)中計算得到的信息度和代表度,通過基于線性權重和的抽樣算法或基于指標的抽樣算法得到最有價值的未標記樣本;
    [0010]3)對步驟2)抽樣所得的未標注樣本進行標注,并將標注后的樣本加入標注數據集;
    [0011]4)判斷是否滿足停止標準,滿足停止標準后得到更新后的標記數據集。
    [0012]按上述方案,所述步驟1)中,獲取各時間序列的信息度和代表度如下:
    [0013]分別計算各時間序列的不確定度,局部空間密度,最大均值差異和全局分配核函數;
    [0014]根據不確定度和局部空間密度計算信息度,根據最大均值差異和全局分配核函數計算代表度。
    [0015]按上述方案,所述步驟1)中根據不確定度和局部空間密度計算信息度,具體如下:
    [0016]1.1)對某未標注多元時間序列樣本U,基于動態時間規劃的相似度,求樣本U的最近鄰正例樣本U
    p
    和最近鄰反例樣本U
    n
    ,基于U與U
    p
    和U
    n
    的動態時間規劃相似度計算得到兩個參數P
    U
    和N
    U
    ,基于P
    U
    ,N
    U
    和信息熵公式,計算樣本U的不確定度UCTI;
    [0017]UCTI(U)=-(P
    U
    logP
    U
    +N
    U
    logN
    U
    )
    [0018]其中,
    [0019][0020][0021]其中,U
    p
    是U的最近鄰正例,U
    n
    是U的最近鄰反例,DSim(U,U
    p
    )是U與U
    p
    的基于動態時間規劃的相似度,DSim(U,U
    n
    )是U與U
    n
    的基于動態時間規劃的相似度。
    [0022]1.2)計算樣本U在整個數據集上的k近鄰,然后對于樣本U與其k近鄰組成的并集,計算并集中各點的逆k近鄰數量并求平均值,得到樣本U的局部空間密度;
    [0023]1.3)基于不確定度和局部空間密度,計算樣本U的信息度。
    [0024]按上述方案,所述步驟1.2)中局部數據密度LSD由樣本U與其k近鄰組成的并集中各點的逆k近鄰數量并求平均值得到,計算如下:
    [0025][0026]其中,K為k近鄰的數目,kNN(U)是U的k近鄰,RkNN(X)是X的逆k近鄰,|RkNN(X)|是X的逆k近鄰的大小。
    [0027]按上述方案,所述步驟1.3)中未標注多元時間序列U的信息度INFO計算采用以下公式:
    [0028][0029]其中,LSD(U,K)是U的局部空間密度,UCTI(U)是U的不確定度,kNN(U)是U的k近鄰,|RkNN(X)|是X的逆k近鄰的數目,|RkNN(U)|是U的逆k近鄰的數目。
    [0030]按上述方案,所述未標注多元時間序列樣本U的代表度計算為,基于兩個時間序列的狀態轉換等式和初始狀態計算兩個時間序列之間的全局分配核函數,用全局分配核函數作為最大均值差異的核函數計算得到樣本U的代表度。
    [0031]按上述方案,所述步驟2)中抽樣算法為基于線性權重和的抽樣算法,具體如下:將基于信息度和代表度的樣本排序從雙優化問題轉化為單優化問題,引入參數α對信息度和代表度進行權衡,對所有未標記樣本進行排序后選擇最優樣本,目標方程如下:
    [0032][0033]其中,參數α用于權衡信息度和代表度的權重,INFO(X)為X的信息度,REP(X)為X的代表度。
    [0034]按上述方案,所述步驟2)中抽樣算法為基于指標的抽樣算法,具體如下:計算兩種比較指標,采取隨機排序技術平衡不同指標之間的搜索偏差,引入參數β控制兩種指標所占比例。兩種比較指標I1(X)和I2(X)的計算如下:
    [0035][0036][0037][0038][0039][0040]其中,Y precedes X表示Y在排序中位于X之前。
    [0041]按上述方案,所述步驟3)還包括將對步驟2)所得的未標注樣本的逆最近鄰樣本與該未標注樣本分為同一類,標注后加入標記數據集。
    [0042]按上述方案,所述步驟4)中停止標準為,設置穩定間隔φ,在穩定間隔φ內的各輪迭代抽樣選擇的未標注樣本之間的價值之差的最大值小于閾值,則滿足停止標準,停止迭代;其中,未標注樣本的價值由步驟2)中所述的抽樣算法計算得到。
    [0043]本專利技術產生的有益效果是:
    [0044]本專利技術針對多元時間序列的主動學習問題,提出了一種抽取未標記時間序列樣本的有效抽樣算法,通過雙優化抽樣算法結合信息度和代表度進行抽樣,提出兩種從不同角度度量未標注樣本重要性的抽樣標本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.一種基于信息度和代表度的主動學習抽樣方法,其特征在于,包括以下步驟:1)對未標注數據集中多元時間序列,獲取各時間序列的信息度和代表度;2)基于步驟1)中計算得到的信息度和代表度,通過基于線性權重和的抽樣算法或基于指標的抽樣算法得到最有價值的未標記樣本;3)對步驟2)抽樣所得的未標注樣本進行標注,并將標注后的樣本加入標注數據集;4)判斷是否滿足停止標準,滿足停止標準后得到更新后的標記數據集。2.根據權利要求1所述的基于信息度和代表度的主動學習抽樣方法,其特征在于,所述步驟1)中,獲取各時間序列的信息度和代表度如下:分別計算各時間序列的不確定度,局部空間密度,最大均值差異和全局分配核函數;根據不確定度和局部空間密度計算信息度,根據最大均值差異和全局分配核函數計算代表度。3.根據權利要求2所述的基于信息度和代表度的主動學習抽樣方法,其特征在于,所述步驟1)中根據不確定度和局部空間密度計算信息度,具體如下:1.1)對某未標注多元時間序列樣本U,基于動態時間規劃的相似度,求樣本U的最近鄰正例樣本U
    p
    和最近鄰反例樣本U
    n
    ,基于U與U
    p
    和U
    n
    的動態時間規劃相似度計算得到兩個參數P
    U
    和N
    U
    ,基于P
    U
    ,N
    U
    和信息熵公式,計算樣本U的不確定度UCTI;UCTI(U)=-(P
    U log P
    U
    +N
    U log N
    U
    )其中,其中,其中,U
    p
    是U的最近鄰正例,U
    n
    是U的最近鄰反例,DSim(U,U
    p
    )是U與U
    p
    的基于動態時間規劃的相似度,DSim(U,U
    n
    )是U與U
    n
    的基于動態時間規劃的相似度;1.2)計算樣本U在整個數據集上的k近鄰,然后對于樣本U與其k近鄰組成的并集,計算并集中各點的逆k近鄰數量并求平均值,得到樣本U的局部空間密度;1.3)基于不確定度和局部空間密度,計算樣本U的信息度。4.根據權利要求3所述的基于信息度和代表度的主動學習抽樣方法,其特征在于,所述步驟1.2)中局部數據密度...

    【專利技術屬性】
    技術研發人員:何國良王晗黃成瑞陳儀榕
    申請(專利權)人:武漢大學,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文精品无码中文字幕无码专区| 无码永久免费AV网站| 少妇性饥渴无码A区免费| 国精品无码A区一区二区| 亚洲热妇无码AV在线播放| 无码少妇丰满熟妇一区二区| 亚洲AV无码专区日韩| 无码人妻丝袜在线视频| 国产办公室秘书无码精品99| 亚洲AV成人片无码网站| 无码毛片视频一区二区本码 | 亚洲精品一级无码鲁丝片| 久久久久亚洲精品无码系列| 亚洲国产精品无码久久青草| 无码亚洲成a人在线观看| 无码国产精品一区二区免费16| 潮喷大喷水系列无码久久精品| 亚洲av中文无码字幕色不卡 | 亚洲精品无码久久| 国产V亚洲V天堂无码| 精选观看中文字幕高清无码| 少妇无码?V无码专区在线观看| 亚洲AV无码专区国产乱码不卡| 人妻系列无码专区无码中出| 亚洲午夜福利AV一区二区无码| 国产日韩AV免费无码一区二区三区| 无码人妻丰满熟妇啪啪网站牛牛| 精品无码一区二区三区亚洲桃色| 无码人妻精品一区二区三区东京热| 国产成人无码一区二区三区在线| 中文字幕丰满乱子无码视频| 久久久久亚洲AV无码专区网站| 无码国产精品一区二区高潮| 国产精品无码一区二区三区免费| 本道久久综合无码中文字幕| 人妻av无码专区| 一本色道无码不卡在线观看| 亚洲av无码乱码国产精品fc2 | 无码av免费一区二区三区试看| 亚洲av无码乱码国产精品| 精品无码一区在线观看|