一種獎勵模型訓練方法、排序方法、裝置、設備及介質制造方法及圖紙

技術編號：44457718 閱讀：3 留言：0更新日期：2025-02-28 19:04

本發明專利技術公開了一種獎勵模型訓練方法、排序方法、裝置、設備及介質，應用于計算機技術領域，包括：對訓練數據集進行分組，得到預設數量個訓練數據子集；利用預設數量個訓練數據子集對待訓練的獎勵模型進行訓練，得到預設數量個初始獎勵模型；利用預設數量個初始獎勵模型確定每個訓練數據子集中訓練數據對的置信度，基于置信度對訓練數據對進行過濾，得到篩選后的訓練數據集；置信度為訓練數據對獲得贊成票的比例；基于篩選后的訓練數據集對初始獎勵模型中的目標初始獎勵模型進行訓練得到目標獎勵模型。本申請在對獎勵模型進行訓練的過程中，通過訓練數據對的置信度，對訓練數據對進行過濾，提高訓練數據對的質量，防止影響獎勵模型的擬合。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及計算機，特別涉及一種獎勵模型訓練方法、排序方法、裝置、設備及介質。

技術介紹

1、獎勵模型的訓練數據往往有大量的噪聲數據，即有大量的訓練數據對其正例和負例被標注人員搞反，混在大量的訓練數據集中無法被挑出，這些數據在訓練時會嚴重影響模型的擬合。

2、因此，如何對訓練數據進行降噪，降低噪聲數據的影響，提高獎勵模型的擬合性能是本領域技術人員急需解決的技術問題。

技術實現思路

1、有鑒于此，本專利技術的目的在于提供一種獎勵模型訓練方法、排序方法、裝置、設備及介質，解決了現有技術中噪聲數據無法過濾的技術問題。

2、為解決上述技術問題，本專利技術提供了一種獎勵模型訓練方法，包括：

3、對訓練數據集進行分組，得到預設數量個訓練數據子集；

4、利用所述預設數量個訓練數據子集對多個待訓練的獎勵模型進行訓練，得到預設數量個初始獎勵模型；

5、利用所述預設數量個初始獎勵模型確定每個訓練數據子集中訓練數據對對應的置信度，并基于所述置信度對所有的訓練數據對進行過濾，得到篩選后的訓練數據集；所述置信度為訓練數據對在預設數量個初始獎勵模型中獲得贊成票的比例，所述贊成票為贊成該訓練數據對中正例的參數值大于負例的參數值的投票；

6、基于所述篩選后的訓練數據集對所述初始獎勵模型中的目標初始獎勵模型進行訓練，得到目標獎勵模型。

7、可選的，利用所述預設數量個訓練數據子集對多個待訓練的獎勵模型進行訓練，得到預設數量個初始獎勵模型，包括：

8、確定所述預設數量個訓練數據子集中每個訓練數據子集對應的待訓練的獎勵模型；

9、利用每個所述訓練數據子集對相應的待訓練的獎勵模型進行訓練，得到所述預設數量個初始獎勵模型。

10、可選的，利用所述預設數量個初始獎勵模型確定每個訓練數據子集中訓練數據對對應的置信度，并基于所述置信度對所有的訓練數據對進行過濾，得到篩選后的訓練數據集，包括：

11、利用所述預設數量個初始獎勵模型確定每個訓練數據對的正例對應的參數值，以及負例對應的參數值；

12、基于所述正例對應的參數值和所述負例對應的參數值確定每個所述訓練數據對的置信度；

13、當所述置信度大于置信度閾值時，確定不對所述訓練數據對進行過濾；

14、當所述置信度不大于所述置信度閾值時，確定對所述訓練數據對進行過濾。

15、可選的，在基于所述篩選后的訓練數據集對所述初始獎勵模型中的目標初始獎勵模型進行訓練，得到目標獎勵模型之后，所述獎勵模型訓練方法還包括：

16、基于所述篩選后的訓練數據集中每個訓練數據對對應的置信度確定平滑系數；

17、基于每個訓練數據對對應的所述平滑系數，動態調整所述目標獎勵模型對應的損失函數；

18、基于所述損失函數對所述目標獎勵模型進行訓練，得到最終的目標獎勵模型。

19、可選的，基于每個訓練數據對對應的所述平滑系數，動態調整所述目標獎勵模型對應的損失函數，包括：

20、基于所述平滑系數對排序損失函數進行加權標簽平滑處理，得到所述目標獎勵模型對應的所述損失函數。

21、可選的，基于所述損失函數對所述目標獎勵模型進行訓練，得到最終的目標獎勵模型，包括：

22、基于預設數量個初始獎勵模型確定的所述每個訓練數據對的正例和負例分別對應的多個參數值，基于所述多個參數值確定每個訓練數據對對應的平均差異值；其中，所述平均差異值為正例參數值和負例參數值之間差值的平均數；

23、基于所述平均差異值確定動態調整邊際系數，并根據所述動態調整邊際系數對所述損失函數進行調整，得到調整后的損失函數；

24、基于所述調整后的損失函數對所述目標獎勵模型進行訓練，直至所述調整后的損失函數收斂，得到所述最終的目標獎勵模型。

25、可選的，對訓練數據集進行分組，得到預設數量個訓練數據子集，包括：

26、對所述訓練數據集進行分組，得到十個訓練數據子集；其中，每個訓練數據子集包括的訓練數據對的數量相同。

27、本申請還提供了一種排序方法，包括：

28、獲取命令文本對應的多個大模型答復文本；其中，所述大模型答復文本為大模型根據接收的命令文本生成的輸出文本；

29、基于每個大模型答復文本，利用目標獎勵模型得到答復質量參數；其中，所述目標獎勵模型為基于上述的獎勵模型訓練方法得到的模型；

30、基于每個大模型答復文本對應的所述答復質量參數，對每個大模型答復文本進行排序，得到目標排序大模型答復文本。

31、本申請還提供了一種獎勵模型訓練裝置，包括：

32、分組模塊，用于對訓練數據集進行分組，得到預設數量個訓練數據子集；

33、初始獎勵模型確定模塊，用于利用所述預設數量個訓練數據子集對多個待訓練的獎勵模型進行訓練，得到預設數量個初始獎勵模型；

34、數據過濾模塊，用于利用所述預設數量個初始獎勵模型確定每個訓練數據子集中訓練數據對對應的置信度，并基于所述置信度對所有的訓練數據對進行過濾，得到篩選后的訓練數據集；所述置信度為訓練數據對在預設數量個初始獎勵模型中獲得贊成票的比例，所述贊成票為贊成該訓練數據對中正例的參數值大于負例的參數值的投票；

35、目標獎勵確定模塊，用于基于所述篩選后的訓練數據集對所述初始獎勵模型中的目標初始獎勵模型進行訓練，得到目標獎勵模型。

36、本申請還提供了一種排序裝置，包括：

37、大模型答復文本獲取模塊，用于獲取命令文本對應的多個大模型答復文本；其中，所述大模型答復文本為大模型根據接收的命令文本生成的輸出文本；

38、答復質量參數確定模塊，用于基于每個大模型答復文本，利用目標獎勵模型得到答復質量參數；其中，所述目標獎勵模型為基于上述的獎勵模型訓練方法得到的模型；

39、排序模塊，用于基于每個大模型答復文本對應的所述答復質量參數，對每個大模型答復文本進行排序，得到目標排序大模型答復文本。

40、本申請還提供了一種電子設備，包括：

41、存儲器，用于存儲計算機程序；

42、處理器，用于執行所述計算機程序時實現上述獎勵模型訓練方法和排序方法的步驟。

43、本申請還提供了一種計算機可讀存儲介質，所述計算機可讀存儲介質上存儲有計算機程序，所述計算機程序被處理器執行時實現上述獎勵模型訓練方法和排序方法的步驟。

44、本申請還提供了一種計算機程序產品，包括計算機程序/指令，所述計算機程序/指令被處理器執行時實現上述獎勵模型訓練方法和排序方法的步驟。

45、可見，本專利技術通過對訓練數據集進行分組，得到預設數量個訓練數據子集；利用預設數量個訓練數據子集對多個待訓練的獎勵模型進行訓練，得到預設數量個初始獎勵模型；利用預設數量個初始獎勵模型確定每個訓練數據子集中訓練數據本文檔來自技高網...

【技術保護點】

1.一種獎勵模型訓練方法，其特征在于，包括：

2.根據權利要求1所述的獎勵模型訓練方法，其特征在于，利用所述預設數量個訓練數據子集對多個待訓練的獎勵模型進行訓練，得到預設數量個初始獎勵模型，包括：

3.根據權利要求1所述的獎勵模型訓練方法，其特征在于，利用所述預設數量個初始獎勵模型確定每個訓練數據子集中訓練數據對對應的置信度，并基于所述置信度對所有的訓練數據對進行過濾，得到篩選后的訓練數據集，包括：

4.根據權利要求1至3任一項所述的獎勵模型訓練方法，其特征在于，在基于所述篩選后的訓練數據集對所述初始獎勵模型中的目標初始獎勵模型進行訓練，得到目標獎勵模型之后，所述獎勵模型訓練方法還包括：

5.根據權利要求4所述的獎勵模型訓練方法，其特征在于，基于每個訓練數據對對應的所述平滑系數，動態調整所述目標獎勵模型對應的損失函數，包括：

6.根據權利要求4所述的獎勵模型訓練方法，其特征在于，基于所述損失函數對所述目標獎勵模型進行訓練，得到最終的目標獎勵模型，包括：

7.根據權利要求1所述的獎勵模型訓練方法，其特征在于，對

8.一種排序方法，其特征在于，包括：

9.一種獎勵模型訓練裝置，其特征在于，包括：

10.一種排序裝置，其特征在于，包括：

11.一種電子設備，其特征在于，包括：

12.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質上存儲有計算機程序，所述計算機程序被處理器執行時實現如權利要求1至8任一項所述方法的步驟。

13.一種計算機程序產品，其特征在于，包括計算機程序/指令，所述計算機程序/指令被處理器執行時實現上述獎勵模型訓練方法和排序方法的步驟。

...

【技術特征摘要】

1.一種獎勵模型訓練方法，其特征在于，包括：

...

【專利技術屬性】
技術研發人員：肖釩，潘樹燊，
申請(專利權)人：騰訊音樂娛樂科技深圳有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術