System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人工智能,特別是涉及一種標簽校正方法、裝置、計算機設備和計算機可讀存儲介質。
技術介紹
1、在監督學習的模型訓練中,需要使用帶標簽的樣本數據對模型進行訓練,這在分類任務中的應用非常廣泛,比如:文本情感的分類、圖像的分類、歌曲風格的分類等。然而,在實際應用中,樣本的標簽難免會出現誤標注的問題,即,樣本的標簽有噪聲,這給模型訓練的準確性造成很大影響。因此,需要對樣本的標簽進行校正。
2、傳統方法中,一般是針對特定類型的樣本數據,專門制定特定的規則進行標簽校正。比如:針對文本數據集,需要人為構造關聯詞表或匹配規則等。這種方法受主觀因素影響很大,通用性和泛化性較差。
技術實現思路
1、本申請實施例提供了一種標簽校正方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品,可以提高標簽校正的通用性和泛化性。
2、第一方面,本申請提供了一種標簽校正方法。所述方法包括:
3、將待校正的初始樣本數據集作為當前輪的樣本數據集;
4、在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;
5、通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;
6、根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽
7、將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。
8、第二方面,本申請還提供了一種標簽校正裝置。所述裝置包括:
9、模型訓練模塊,用于將待校正的初始樣本數據集作為當前輪的樣本數據集;在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;
10、置信學習模塊,用于通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;
11、標簽校正模塊,用于將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。
12、第三方面,本申請還提供了一種計算機設備。所述計算機設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現以下步驟:
13、將待校正的初始樣本數據集作為當前輪的樣本數據集;
14、在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;
15、通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;
16、根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;
17、將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。
18、第四方面,本申請還提供了一種計算機可讀存儲介質。所述計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現以下步驟:
19、將待校正的初始樣本數據集作為當前輪的樣本數據集;
20、在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;
21、通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;
22、根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;
23、將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。
24、第五方面,本申請還提供了一種計算機程序產品。所述計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現以下步驟:
25、將待校正的初始樣本數據集作為當前輪的樣本數據集;
26、在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;
27、通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;
28、根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;
29、將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。
30、上述標簽校正方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品,首先將待校正的初始樣本數據集作為當前輪的樣本數據集,然后在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,通過當前輪訓練完成的目標模型,預測當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率,根據各樣本分別在各類別標簽下的預測概率和各樣本的當前的標注標簽,確定當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各目標樣本的預估真實標簽,將目標樣本的當前的標注標簽校正為預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件則停止迭代,以多輪迭代的方式自適應地進行標簽校正,使得通用性和泛化性較好,無需專門針對特定類型的樣本數據制定特定的規則,就能使得針對任意類型的樣本數據都能通過迭代地標簽校正得到更加準本文檔來自技高網...
【技術保護點】
1.一種標簽校正方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,包括:
3.根據權利要求1所述的方法,其特征在于,所述在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,包括:
4.根據權利要求1所述的方法,其特征在于,在所述將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集之前,所述方法還包括:
5.根據權利要求4所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率,確定各所述樣本的當前的標注標簽的標簽質量評分,包括:
6.根據權利要求5所述的方法,其特征在于,所述分別針對每個所述樣本,根據所述樣本在當前的標注標簽下的預測概率與所述當前的標注標簽對應的概率門限值之間的差異,確定所述樣本的當前的標注標簽的標簽質量評分,包括:
7.根據權利要求1所述的方法,其特征在于,所述根據各所述樣本分別在各
8.根據權利要求7所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本,包括:
9.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率,確定各所述樣本的預測標簽,包括:
10.根據權利要求9所述的方法,其特征在于,所述方法還包括:
11.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本的預測標簽和當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本,包括:
12.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本的預測標簽和當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本,包括:
13.根據權利要求12所述的方法,其特征在于,所述方法還包括:
14.根據權利要求7所述的方法,其特征在于,所述根據所述目標樣本分別在各所述類別標簽下的預測概率,確定所述目標樣本的預估真實標簽,包括:
15.根據權利要求1至14中任一項所述的方法,其特征在于,所述滿足迭代停止條件包括滿足第一迭代停止條件和第二迭代停止條件中的任意一種;所述第一迭代停止條件是當前的迭代次數大于或等于第一預設迭代次數;所述第二迭代停止條件是當前輪中所述目標模型的性能指標的優化程度小于或等于預設指標門限值;所述當前輪中所述目標模型的性能指標的優化程度,用于表征當前輪訓練完成的目標模型相較于上一輪訓練完成的目標模型的性能指標的優化程度。
16.根據權利要求15所述的方法,其特征在于,所述當前輪的樣本數據集包括當前輪的訓練集和當前輪的驗證集;所述當前輪的樣本數據集用于對基礎分類模型進行模型訓練;所述當前輪的驗證集用于確定所述前輪訓練完成的目標模型的性能指標。
17.根據權利要求1至14中任一項所述的方法,其特征在于,所述方法還包括:
18.一種標簽校正裝置,其特征在于,包括:
19.一種計算機設備,包括存儲器及處理器,所述存儲器中儲存有計算機程序,其特征在于,所述計算機程序被所述處理器執行時,使得所述處理器執行如權利要求1至17中任一項所述的標簽校正方法的步驟。
20.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至17中任一項所述的方法的步驟。
21.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1至17中任一項所述的方法的步驟。
...【技術特征摘要】
1.一種標簽校正方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,包括:
3.根據權利要求1所述的方法,其特征在于,所述在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,包括:
4.根據權利要求1所述的方法,其特征在于,在所述將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集之前,所述方法還包括:
5.根據權利要求4所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率,確定各所述樣本的當前的標注標簽的標簽質量評分,包括:
6.根據權利要求5所述的方法,其特征在于,所述分別針對每個所述樣本,根據所述樣本在當前的標注標簽下的預測概率與所述當前的標注標簽對應的概率門限值之間的差異,確定所述樣本的當前的標注標簽的標簽質量評分,包括:
7.根據權利要求1所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽,包括:
8.根據權利要求7所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本,包括:
9.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率,確定各所述樣本的預測標簽,包括:
10.根據權利要求9所述的方法,其特征在于,所述方法還包括:
11.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本的預測標簽和當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標...
【專利技術屬性】
技術研發人員:鄧小龍,帥朝春,
申請(專利權)人:廣東明創軟件科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。