模型訓練方法、文本糾錯方法、裝置、設備、介質及產品制造方法及圖紙

技術編號：44005275 閱讀：11 留言：0更新日期：2025-01-10 20:22

本申請公開了一種模型訓練方法、文本糾錯方法、裝置、設備、介質及產品，應用于人工智能技術領域。該方法先將訓練文本進行分詞，并映射到高維嵌入表示，以轉換得到目標詞向量表示，即BERT?embeddings的過程。然后將目標詞向量表示輸入初始文本糾錯模型中進行強化學習，本方案結合了BERT?embeddings與強化學習單元的聚合操作，僅需要較少的文本完成訓練，且能夠捕捉語義關系，實現語法、標點符號以及用詞的糾錯，同時提升文本表征和分類能力。能夠適應公文文本糾錯場景，具有較好的糾錯效果。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請屬于人工智能，尤其涉及一種模型訓練方法、文本糾錯方法、裝置、設備、介質及產品。

技術介紹

1、公文作為政府機關、企業以及學術機構等正式場合中，用于通知、匯報和記錄的正式文件，其包含了政策決策、業務指南以及法律規定等重要信息，對讀者的理解和行為產生直接影響。公文文本中的任何錯誤(內容錯誤以及格式錯誤等)，都可能導致誤解和操作失誤。因此，公文文本的準確性和嚴謹性至關重要。

2、目前的文本糾錯方法，主要通過機器學習進行文本預測與校對，這種方法需要大量訓練語料，但公文訓練語料較少，訓練得到的模型對于如公文等特定領域缺乏對專業性描述的生成和鑒別能力。可見，傳統的文本糾錯模型無法適應公文文本糾錯場景，糾錯效果較差。

技術實現思路

1、本申請實施例提供一種模型訓練方法、文本糾錯方法、裝置、設備、介質及產品，能夠適應公文文本糾錯場景，具有較好的糾錯效果。

2、一方面，本申請實施例提供一種文本糾錯模型的訓練方法，包括：

3、獲取存在錯誤的訓練文本以及所對應的正確的參考文本；

4、將所述訓練文本進行分詞，并映射到高維嵌入表示，以轉換得到目標詞向量表示；

5、將所述目標詞向量表示輸入預先構建的初始文本糾錯模型中，以基于策略網絡，確定針對所述目標詞向量表示的第一目標動作；

6、對所述目標詞向量表示執行所述第一目標動作，以更新所述目標詞向量表示；

7、基于更新后的所述目標詞向量表示以及所述參考文本，確定執行所述第一目標動作的獎勵值；

8、在所述獎勵值不滿足迭代停止條件的情況下，基于所述獎勵值，更新所述策略網絡，并返回所述將所述目標詞向量表示輸入預先構建的初始文本糾錯模型中，以基于策略網絡，確定針對所述目標詞向量表示的第一目標動作的步驟；

9、在所述獎勵值滿足所述迭代停止條件的情況下，將所述初始文本糾錯模型確定為文本糾錯模型。

10、另一方面，所述將所述目標詞向量表示輸入預先構建的初始文本糾錯模型中，以基于策略網絡，確定針對所述目標詞向量表示的第一目標動作，包括：

11、將所述目標詞向量表示輸入所述初始文本糾錯模型中；

12、基于所述目標詞向量表示以及所述策略網絡的權重矩陣，確定動作概率分布；

13、基于所述動作概率分布，從動作空間中選取所述第一目標動作。

14、另一方面，所述基于所述動作概率分布，從動作空間中選取所述第一目標動作，包括：

15、基于所述動作概率分布，確定所述動作空間中各動作的選取概率；

16、基于所述選取概率，從所述動作空間的各動作中確定所述第一目標動作。

17、另一方面，所述在所述獎勵值不滿足迭代停止條件的情況下，基于所述獎勵值，更新所述策略網絡，包括：

18、在所述獎勵值不滿足所述迭代停止條件的情況下，基于所述獎勵值，更新所述初始文本糾錯模型的動作價值網絡；

19、基于更新后的所述動作價值網絡，確定所述策略網絡的權重矩陣。

20、另一方面，所述基于更新后的所述目標詞向量表示以及所述參考文本，確定執行所述第一目標動作的獎勵值，包括：

21、基于所述參考文本，確定更新后的所述目標詞向量表示的詞匯正確率以及句子連接正確率；

22、基于所述詞匯正確率以及所述句子連接正確率，確定所述獎勵值。

23、另一方面，所述基于所述詞匯正確率以及所述句子連接正確率，確定所述獎勵值，包括：

24、基于交叉熵損失函數，確定所述詞匯正確率對應的第一交叉熵損失值，以及確定所述句子連接正確率對應的第二交叉熵損失值；所述第一交叉熵損失值與所述詞匯正確率呈正相關，所述第二交叉熵損失值與所述句子連接正確率呈正相關；

25、基于所述第一交叉熵損失值以及所述第二交叉熵損失值，確定所述獎勵值。

26、另一方面，在所述將所述訓練文本進行分詞，并映射到高維嵌入表示，以轉換得到目標詞向量表示之后，所述方法還包括：

27、以第一預設比例從所述目標詞向量表示中選取目標詞匯；

28、對所述目標詞匯表示執行以下操作：

29、基于第二預設比例，對所述目標詞匯的詞匯進行掩碼；

30、基于第三預設比例，對所述目標詞匯的詞匯進行替換；所述第一預設比例小于第一比例閾值，所述第二預設比例小于第二比例閾值，所述第三預設比例小于第三比例閾值。

31、另一方面，所述在所述獎勵值滿足所述迭代停止條件的情況下，將所述初始文本糾錯模型確定為文本糾錯模型之后，所述方法還包括：

32、獲取對應場景下的訓練公文文本；

33、基于所述訓練公文文本對所述文本糾錯模型進行微調。

34、再一方面，本申請實施例提供了一種文本糾錯方法，應用于文本糾錯模型，所述文本糾錯模型通過如上所述的文本糾錯模型的訓練方法所訓練得到，所述文本糾錯方法包括：

35、接收待糾錯的原始文本；

36、將所述原始文本輸入所述文本糾錯模型，以基于策略網絡，確定針對所述原始文本的第二目標動作；

37、對所述原始文本執行所述第二目標動作，以得到目標文本；

38、基于所述目標文本，對所述原始文本進行糾錯。

39、再一方面，本申請實施例提供了一種文本糾錯模型的訓練裝置，包括：

40、獲取模塊，用于獲取存在錯誤的訓練文本以及所對應的正確的參考文本；

41、轉換模塊，用于將所述訓練文本進行分詞，并映射到高維嵌入表示，以轉換得到目標詞向量表示；

42、輸入模塊，用于將所述目標詞向量表示輸入預先構建的初始文本糾錯模型中，以基于策略網絡，確定針對所述目標詞向量表示的第一目標動作；

43、第一執行模塊，用于對所述目標詞向量表示執行所述第一目標動作，以更新所述目標詞向量表示；

44、第一確定模塊，用于基于更新后的所述目標詞向量表示以及所述參考文本，確定執行所述第一目標動作的獎勵值；

45、更新模塊，用于在所述獎勵值不滿足迭代停止條件的情況下，基于所述獎勵值，更新所述策略網絡，并返回所述將所述目標詞向量表示輸入預先構建的初始文本糾錯模型中，以基于策略網絡，確定針對所述目標詞向量表示的第一目標動作的步驟；

46、第二確定模塊，用于在所述獎勵值滿足所述迭代停止條件的情況下，將所述初始文本糾錯模型確定為文本糾錯模型。

47、再一方面，本申請實施例提供了一種文本糾錯裝置，應用于文本糾錯模型，所述文本糾錯模型通過如上所述的文本糾錯模型的訓練方法所訓練得到，所述文本糾錯裝置包括：

48、接收模塊，用于接收待糾錯的原始文本；

49、第三確定模塊，用于將所述原始文本輸入所述文本糾錯模型，以確定針對所述原始文本的第二目標動作；

50、第二執行模塊，用于對所述原始文本執行所述第二目標動作，本文檔來自技高網...

【技術保護點】

1.一種文本糾錯模型的訓練方法，其特征在于，包括：

2.根據權利要求1所述的文本糾錯模型的訓練方法，其特征在于，所述將所述目標詞向量表示輸入預先構建的初始文本糾錯模型中，以基于策略網絡，確定針對所述目標詞向量表示的第一目標動作，包括：

3.根據權利要求2所述的文本糾錯模型的訓練方法，其特征在于，所述基于所述動作概率分布，從動作空間中選取所述第一目標動作，包括：

4.根據權利要求2所述的文本糾錯模型的訓練方法，其特征在于，所述在所述獎勵值不滿足迭代停止條件的情況下，基于所述獎勵值，更新所述策略網絡，包括：

5.根據權利要求1所述的文本糾錯模型的訓練方法，其特征在于，所述基于更新后的所述目標詞向量表示以及所述參考文本，確定執行所述第一目標動作的獎勵值，包括：

6.根據權利要求5所述的文本糾錯模型的訓練方法，其特征在于，所述基于所述詞匯正確率以及所述句子連接正確率，確定所述獎勵值，包括：

7.根據權利要求1至6任意一項所述的文本糾錯模型的訓練方法，其特征在于，在所述將所述訓練文本進行分詞，并映射到高維嵌入表示，以轉

8.根據權利要求1所述的文本糾錯模型的訓練方法，其特征在于，所述在所述獎勵值滿足所述迭代停止條件的情況下，將所述初始文本糾錯模型確定為文本糾錯模型之后，所述方法還包括：

9.一種文本糾錯方法，其特征在于，應用于文本糾錯模型，所述文本糾錯模型通過如權利要求1至8任意一項所述的文本糾錯模型的訓練方法所訓練得到，所述文本糾錯方法包括：

10.一種文本糾錯模型的訓練裝置，其特征在于，包括：

11.一種文本糾錯裝置，其特征在于，應用于文本糾錯模型，所述文本糾錯模型通過如權利要求1至8任意一項所述的文本糾錯模型的訓練方法所訓練得到，所述文本糾錯裝置包括：

12.一種電子設備，其特征在于，所述設備包括：處理器以及存儲有計算機程序指令的存儲器；

13.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質上存儲有計算機程序指令，所述計算機程序指令被處理器執行時實現如權利要求1至8任意一項所述的文本糾錯模型的訓練方法以及如權利要求9所述的文本糾錯方法。

14.一種計算機程序產品，其特征在于，所述計算機程序產品中的指令由電子設備的處理器執行時，使得所述電子設備執行如權利要求1至8任意一項所述的文本糾錯模型的訓練方法以及如權利要求9所述的文本糾錯方法。

...

【技術特征摘要】

1.一種文本糾錯模型的訓練方法，其特征在于，包括：

3.根據權利要求2所述的文本糾錯模型的訓練方法，其特征在于，所述基于所述動作概率分布，從動作空間中選取所述第一目標動作，包括：

6.根據權利要求5所述的文本糾錯模型的訓練方法，其特征在于，所述基于所述詞匯正確率以及所述句子連接正確率，確定所述獎勵值，包括：

7.根據權利要求1至6任意一項所述的文本糾錯模型的訓練方法，其特征在于，在所述將所述訓練文本進行分詞，并映射到高維嵌入表示，以轉換得到目標詞向量表示之后，所述方法還包括：

8.根據權利要求1所述的文本糾錯模型...

【專利技術屬性】
技術研發人員：王力強，李珍，古英杰，申佳，王海強，張義澤，孫奇，陳子鋒，聶蘭彬，郭藝娟，
申請(專利權)人：中移動信息技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術