System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及機器學習領域,更具體地,涉及一種將分類任務中的標注結果轉化為軟標簽的方法及裝置。
技術介紹
1、對于數據挖掘和機器學習任務,尤其是對于分類任務而言,用于訓練模型的標簽數據是至關重要的。要求人類標注者對樣本進行打標簽是一種常用的做法。人類會以多種方式表達自身不確定性,以分類任務為例,標注者往往被要求給出最可能的類別,同時要求給出置信度水平。當人類以離散分級的形式(例如,低、中、高)而非概率置信分數形式(例如,85%)表達自身置信度,將難以把標注者的標注信息轉化為標注者在全部類別上的一個概率分布,進而形成樣本上的軟標簽,提供給模型進行訓練。若能將具有離散置信度的人類標注結果轉化為軟標簽,將有助于可以處理標簽的不確定性和模糊性,并有利于模型學習到更多信息。
2、當注釋任務涉及主觀判斷時,離散的置信度水平可以更好地捕捉標注者對不確定性的主觀感受。相比于概率置信度分數,離散置信度水平易于解釋和使用,盡管它們比概率置信度分數更難以計算。然而,這種方式難以把標注者的標注信息轉化為標注者在全部類別上的一個概率分布,以形成軟標簽,從而提供給模型進行訓練。
3、因此,提供一種將分類任務中標注者帶有離散形式置信度的標注結果轉化為軟標簽的方法,就成為亟待解決的問題。
技術實現思路
1、針對現有技術的至少一個缺陷或改進需求,本專利技術提供了一種將分類任務中的標注結果轉化為軟標簽的方法及裝置,實現了將分類任務中的標注結果轉化為軟標簽,構建所得的軟標簽具有更豐富的信息,能更加準
2、為實現上述目的,按照本專利技術的第一個方面,提供了一種將分類任務中的標注結果轉化為軟標簽的方法,該方法包括:將標注者在樣本上目標類別的標注結果拓展至所有類別,得到條件置信度集,其中,條件置信度集為所有類別中具有離散置信度的標注結果的集合;構建條件置信度集服從的高斯分布,確定高斯分布上的各子區間對應的各類別的置信度的邏輯數值,其中,各類別的置信度的邏輯數值為從各子區間內采樣得到的;對獲取到樣本上各類別的置信度的邏輯數值進行歸一化,得到標注者在樣本上標注的概率標簽;通過聚合多個標注者在樣本上的概率標簽,獲得樣本的軟標簽。
3、在一個示例性實施例中,將標注者在樣本上單個類別的標注結果拓展至所有類別,得到條件置信度集包括:將標注者在樣本中除目標類別之外的類別確定為待拓展類別,其中,所有類別包括待拓展類別與目標類別;基于目標類別的標注結果定義待拓展類別的標注結果為拓展標注結果;將目標類別的標注結果與拓展標注結果的并集確定為條件置信度集。
4、在一個示例性實施例中,構建條件置信度集服從的高斯分布包括:獲取條件置信度集中各類別的置信度;基于條件置信度集中各類別的置信度對應的概率分布,擬合出條件置信度集服從的高斯分布。
5、在一個示例性實施例中,構建條件置信度集服從的高斯分布,確定高斯分布上的各子區間對應的各類別的置信度的邏輯數值包括:將高斯分布劃分為多個子區間,其中,多個子區間是依據條件置信度集中各類別的置信度進行劃分的;對高斯分布的多個子區間進行采樣,獲取與各子區間對應的置信度的邏輯數值。
6、在一個示例性實施例中,在對高斯分布的多個子區間進行采樣,獲取與各子區間對應的置信度的邏輯數值之后,上述方法還包括:在給定數據集參數的情況下,獲取標注者在樣本所有類別的邏輯數值;通過計算一致性誤差確定最優數據集參數;基于最優數據集參數確定最優邏輯數值。
7、在一個示例性實施例中,對獲取到樣本上各類別的置信度的邏輯數值進行歸一化,得到標注者在樣本上標注的概率標簽包括:通過激活函數對標注者在樣本的各類別的置信度的邏輯數值進行歸一化,將邏輯數值轉化成為概率分布;基于概率分布確定標注者在樣本上標注的概率標簽。
8、在一個示例性實施例中,通過聚合多個標注者在樣本上的概率標簽,獲得樣本的軟標簽包括:利用平均加權法聚合多個標注者在樣本上的概率標簽的得到聚合概率標簽;將聚合概率標簽確定為多個標注者在樣本上的軟標簽。
9、按照本專利技術的第二個方面,還提供了一種將分類任務中的標注結果轉化為軟標簽的裝置,其包括:拓展單元,用于將標注者在樣本上目標類別的標注結果拓展至所有類別,得到條件置信度集,其中,條件置信度集為所有類別中具有離散置信度的標注結果的集合;構建單元,用于構建條件置信度集服從的高斯分布,確定高斯分布上的各子區間對應的各類別的置信度的邏輯數值,其中,各類別的置信度的邏輯數值為從各子區間內采樣得到的;歸一化單元,用于對獲取到樣本上各類別的置信度的邏輯數值進行歸一化,得到標注者在樣本上標注的概率標簽;聚合單元,用于通過聚合多個標注者在樣本上的概率標簽,獲得樣本的軟標簽。
10、按照本專利技術的第三個方面,還提供了一種計算機可讀的存儲介質,該計算機可讀的存儲介質中存儲有計算機程序,其中,該計算機程序被設置為運行時執行上述將分類任務中的標注結果轉化為軟標簽的方法。
11、按照本專利技術的第四個方面,還提供了一種電子裝置,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其中,上述處理器通過計算機程序執行上述的將分類任務中的標注結果轉化為軟標簽的方法。
12、總體而言,通過本專利技術所構思的以上技術方案與現有技術相比,能夠取得下列有益效果:
13、(1)本專利技術提供了一種將分類任務中的標注結果轉化為軟標簽的方法,該方法構建所得的軟標簽具有更豐富的信息,能更加準確的反應出樣本的類間相似性。提出的補置信度的概念,解決了標注者在除了標注類別之外的所有類別上置信度標注結果的缺失,進而可以實現對更加豐富的數據展開分析。此外,進行逐類別構建高斯分布,能夠比較精準的建模標注者群體真實情況,通過從還原的高斯分布中采樣,可以得到更準確的離散置信度對應的估計數值,提升了形成的軟標簽的準確性。
14、(2)本專利技術提供了一種將分類任務中的標注結果轉化為軟標簽的方法,將具有離散置信度的人類標注結果轉化為軟標簽,將有助于可以處理標簽的不確定性和模糊性,并有利于模型學習到更多信息。
本文檔來自技高網...【技術保護點】
1.一種將分類任務中的標注結果轉化為軟標簽的方法,其特征在于,包括:
2.如權利要求1所述的將分類任務中的標注結果轉化為軟標簽的方法,其特征在于,所述將標注者在樣本上單個類別的標注結果拓展至所有類別,得到條件置信度集包括:
3.如權利要求1所述的將分類任務中的標注結果轉化為軟標簽的方法,其特征在于,所述構建所述條件置信度集服從的高斯分布包括:
4.如權利要求1所述的將分類任務中的標注結果轉化為軟標簽的方法,其特征在于,所述構建所述條件置信度集服從的高斯分布,確定所述高斯分布上的各子區間對應的各類別的置信度的邏輯數值包括:
5.如權利要求4所述的將分類任務中的標注結果轉化為軟標簽的方法,其特征在于,在所述對所述高斯分布的多個子區間進行采樣,獲取與所述各子區間對應的置信度的所述邏輯數值之后,所述方法還包括:
6.如權利要求1所述的將分類任務中的標注結果轉化為軟標簽的方法,其特征在于,所述對獲取到所述樣本上所述各類別的置信度的邏輯數值進行歸一化,得到所述標注者在所述樣本上標注的概率標簽包括:
7.如權利要求1所述的
8.一種將分類任務中的標注結果轉化為軟標簽的裝置,其特征在于,包括:
9.一種計算機可讀的存儲介質,其特征在于,所述計算機可讀的存儲介質包括存儲的程序,其中,所述程序運行時執行權利要求1至7中任一項所述的方法。
10.一種電子裝置,包括存儲器和處理器,其特征在于,所述存儲器中存儲有計算機程序,所述處理器被設置為通過所述計算機程序執行權利要求1至7中任一項所述的方法。
...【技術特征摘要】
1.一種將分類任務中的標注結果轉化為軟標簽的方法,其特征在于,包括:
2.如權利要求1所述的將分類任務中的標注結果轉化為軟標簽的方法,其特征在于,所述將標注者在樣本上單個類別的標注結果拓展至所有類別,得到條件置信度集包括:
3.如權利要求1所述的將分類任務中的標注結果轉化為軟標簽的方法,其特征在于,所述構建所述條件置信度集服從的高斯分布包括:
4.如權利要求1所述的將分類任務中的標注結果轉化為軟標簽的方法,其特征在于,所述構建所述條件置信度集服從的高斯分布,確定所述高斯分布上的各子區間對應的各類別的置信度的邏輯數值包括:
5.如權利要求4所述的將分類任務中的標注結果轉化為軟標簽的方法,其特征在于,在所述對所述高斯分布的多個子區間進行采樣,獲取與所述各子區間對應的置信度的所述邏輯數值之后,所述方法還包括:
【專利技術屬性】
技術研發人員:劉三女牙,馮錦天,鄒睿,孫建文,
申請(專利權)人:華中師范大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。