System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲中文字幕久久精品无码VA,国产亚洲精久久久久久无码77777,亚洲va成无码人在线观看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    標簽校正方法、裝置、計算機設備和計算機可讀存儲介質制造方法及圖紙

    技術編號:44485812 閱讀:3 留言:0更新日期:2025-03-04 17:51
    本申請涉及一種標簽校正方法、裝置、計算機設備和存儲介質。方法包括:根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;通過當前輪訓練完成的目標模型預測當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;根據各樣本分別在各類別標簽下的預測概率和各樣本的當前的標注標簽,確定當前輪樣本數據集中需要標簽校正的目標樣本、各目標樣本的預估真實標簽;將目標樣本的當前的標注標簽校正為預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。采用本方法能夠提高標簽校正的通用性和泛化性。

    【技術實現步驟摘要】

    本申請涉及人工智能,特別是涉及一種標簽校正方法、裝置、計算機設備和計算機可讀存儲介質


    技術介紹

    1、在監督學習的模型訓練中,需要使用帶標簽的樣本數據對模型進行訓練,這在分類任務中的應用非常廣泛,比如:文本情感的分類、圖像的分類、歌曲風格的分類等。然而,在實際應用中,樣本的標簽難免會出現誤標注的問題,即,樣本的標簽有噪聲,這給模型訓練的準確性造成很大影響。因此,需要對樣本的標簽進行校正。

    2、傳統方法中,一般是針對特定類型的樣本數據,專門制定特定的規則進行標簽校正。比如:針對文本數據集,需要人為構造關聯詞表或匹配規則等。這種方法受主觀因素影響很大,通用性和泛化性較差。


    技術實現思路

    1、本申請實施例提供了一種標簽校正方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品,可以提高標簽校正的通用性和泛化性。

    2、第一方面,本申請提供了一種標簽校正方法。所述方法包括:

    3、將待校正的初始樣本數據集作為當前輪的樣本數據集;

    4、在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;

    5、通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;

    6、根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;

    7、將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。

    8、第二方面,本申請還提供了一種標簽校正裝置。所述裝置包括:

    9、模型訓練模塊,用于將待校正的初始樣本數據集作為當前輪的樣本數據集;在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;

    10、置信學習模塊,用于通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;

    11、標簽校正模塊,用于將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。

    12、第三方面,本申請還提供了一種計算機設備。所述計算機設備包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現以下步驟:

    13、將待校正的初始樣本數據集作為當前輪的樣本數據集;

    14、在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;

    15、通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;

    16、根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;

    17、將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。

    18、第四方面,本申請還提供了一種計算機可讀存儲介質。所述計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現以下步驟:

    19、將待校正的初始樣本數據集作為當前輪的樣本數據集;

    20、在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;

    21、通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;

    22、根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;

    23、將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。

    24、第五方面,本申請還提供了一種計算機程序產品。所述計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現以下步驟:

    25、將待校正的初始樣本數據集作為當前輪的樣本數據集;

    26、在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型;

    27、通過所述當前輪訓練完成的目標模型,預測所述當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率;

    28、根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽;所述當前的標注標簽,是所述樣本當前實際標注的類別標簽;

    29、將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件,得到標簽校正完成的目標樣本數據集。

    30、上述標簽校正方法、裝置、計算機設備、計算機可讀存儲介質和計算機程序產品,首先將待校正的初始樣本數據集作為當前輪的樣本數據集,然后在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,通過當前輪訓練完成的目標模型,預測當前輪的樣本數據集中各個樣本分別在各個類別標簽下的預測概率,根據各樣本分別在各類別標簽下的預測概率和各樣本的當前的標注標簽,確定當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各目標樣本的預估真實標簽,將目標樣本的當前的標注標簽校正為預估真實標簽,得到當前輪標簽校正完成的樣本數據集,作為更新的當前輪的樣本數據集進入下一輪迭代,直至滿足迭代停止條件則停止迭代,以多輪迭代的方式自適應地進行標簽校正,使得通用性和泛化性較好,無需專門針對特定類型的樣本數據制定特定的規則,就能使得針對任意類型的樣本數據都能通過迭代地標簽校正得到更加準本文檔來自技高網...

    【技術保護點】

    1.一種標簽校正方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,包括:

    3.根據權利要求1所述的方法,其特征在于,所述在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,包括:

    4.根據權利要求1所述的方法,其特征在于,在所述將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集之前,所述方法還包括:

    5.根據權利要求4所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率,確定各所述樣本的當前的標注標簽的標簽質量評分,包括:

    6.根據權利要求5所述的方法,其特征在于,所述分別針對每個所述樣本,根據所述樣本在當前的標注標簽下的預測概率與所述當前的標注標簽對應的概率門限值之間的差異,確定所述樣本的當前的標注標簽的標簽質量評分,包括:

    7.根據權利要求1所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽,包括:

    8.根據權利要求7所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本,包括:

    9.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率,確定各所述樣本的預測標簽,包括:

    10.根據權利要求9所述的方法,其特征在于,所述方法還包括:

    11.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本的預測標簽和當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本,包括:

    12.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本的預測標簽和當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本,包括:

    13.根據權利要求12所述的方法,其特征在于,所述方法還包括:

    14.根據權利要求7所述的方法,其特征在于,所述根據所述目標樣本分別在各所述類別標簽下的預測概率,確定所述目標樣本的預估真實標簽,包括:

    15.根據權利要求1至14中任一項所述的方法,其特征在于,所述滿足迭代停止條件包括滿足第一迭代停止條件和第二迭代停止條件中的任意一種;所述第一迭代停止條件是當前的迭代次數大于或等于第一預設迭代次數;所述第二迭代停止條件是當前輪中所述目標模型的性能指標的優化程度小于或等于預設指標門限值;所述當前輪中所述目標模型的性能指標的優化程度,用于表征當前輪訓練完成的目標模型相較于上一輪訓練完成的目標模型的性能指標的優化程度。

    16.根據權利要求15所述的方法,其特征在于,所述當前輪的樣本數據集包括當前輪的訓練集和當前輪的驗證集;所述當前輪的樣本數據集用于對基礎分類模型進行模型訓練;所述當前輪的驗證集用于確定所述前輪訓練完成的目標模型的性能指標。

    17.根據權利要求1至14中任一項所述的方法,其特征在于,所述方法還包括:

    18.一種標簽校正裝置,其特征在于,包括:

    19.一種計算機設備,包括存儲器及處理器,所述存儲器中儲存有計算機程序,其特征在于,所述計算機程序被所述處理器執行時,使得所述處理器執行如權利要求1至17中任一項所述的標簽校正方法的步驟。

    20.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至17中任一項所述的方法的步驟。

    21.一種計算機程序產品,包括計算機程序,其特征在于,該計算機程序被處理器執行時實現權利要求1至17中任一項所述的方法的步驟。

    ...

    【技術特征摘要】

    1.一種標簽校正方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,所述在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,包括:

    3.根據權利要求1所述的方法,其特征在于,所述在每輪迭代中,根據當前輪的樣本數據集對基礎分類模型進行模型訓練,得到當前輪訓練完成的目標模型,包括:

    4.根據權利要求1所述的方法,其特征在于,在所述將所述目標樣本的當前的標注標簽校正為所述預估真實標簽,得到當前輪標簽校正完成的樣本數據集之前,所述方法還包括:

    5.根據權利要求4所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率,確定各所述樣本的當前的標注標簽的標簽質量評分,包括:

    6.根據權利要求5所述的方法,其特征在于,所述分別針對每個所述樣本,根據所述樣本在當前的標注標簽下的預測概率與所述當前的標注標簽對應的概率門限值之間的差異,確定所述樣本的當前的標注標簽的標簽質量評分,包括:

    7.根據權利要求1所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本、以及各所述目標樣本的預估真實標簽,包括:

    8.根據權利要求7所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率和各所述樣本的當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標樣本,包括:

    9.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本分別在各所述類別標簽下的預測概率,確定各所述樣本的預測標簽,包括:

    10.根據權利要求9所述的方法,其特征在于,所述方法還包括:

    11.根據權利要求8所述的方法,其特征在于,所述根據各所述樣本的預測標簽和當前的標注標簽,確定所述當前輪的樣本數據集中需要進行標簽校正的目標...

    【專利技術屬性】
    技術研發人員:鄧小龍帥朝春
    申請(專利權)人:廣東明創軟件科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩AV无码中文无码不卡电影| 无码国产精品一区二区免费vr | 亚洲AV永久无码天堂影院 | 亚洲国产成人精品无码久久久久久综合| 毛片一区二区三区无码| 亚洲AV无码日韩AV无码导航| 国产成人无码区免费A∨视频网站 国产成人无码午夜视频在线观看 国产成人无码精品一区不卡 | 性无码一区二区三区在线观看| 国产精品va无码二区| 久久久久av无码免费网| 亚洲色无码一区二区三区| 国内精品久久久久久无码不卡| 麻豆aⅴ精品无码一区二区| 亚洲色中文字幕无码AV| gogo少妇无码肉肉视频| 波多野结衣VA无码中文字幕电影 | 久久久久久久久免费看无码| 人妻丰满熟妇AV无码片| 亚洲综合无码精品一区二区三区 | 日韩精品无码AV成人观看| 国外AV无码精品国产精品| 亚洲爆乳AAA无码专区| 伊人天堂av无码av日韩av| 精品无码无人网站免费视频| 久久人妻内射无码一区三区| 中文字幕无码无码专区| 中文字幕丰满乱子伦无码专区| 精品无码中文视频在线观看| 永久免费av无码网站大全| 久久AV无码精品人妻出轨| 国模无码视频一区| 国产在线无码制服丝袜无码| 精品无码黑人又粗又大又长| 亚洲AV永久无码精品一区二区国产| 18禁无遮挡无码网站免费| 无码人妻少妇伦在线电影| 狠狠噜天天噜日日噜无码| 中文字幕无码日韩专区| 精品无码人妻一区二区三区| 亚洲精品无码专区在线播放| 国产精品无码无卡在线观看久|