語音識別模型微調方法、電子設備、存儲介質及程序產品技術

技術編號：44404216 閱讀：3 留言：0更新日期：2025-02-25 10:18

本申請公開了一種語音識別模型微調方法、電子設備、存儲介質及程序產品，涉及語音識別技術領域，語音識別模型微調方法包括：將第一訓練音頻數據輸入到預設的語音識別模型，通過語音識別模型預測輸出第一訓練音頻數據對應的各字詞單元的詞表分布信息和第一識別文本；根據各字詞單元的詞表分布信息與預設的記憶集合中對應字詞單元的詞表分布信息之間的分布相似度，確定所述語音識別模型的記憶損失參數，再確定語音識別模型的分類損失參數，結合記憶損失參數和分類損失參數來迭代更新語音識別模型的模型參數，直至微調結束。本申請的技術方案能抑制模型微調中容易產生的過擬合現象從而充分學習相應領域的訓練數據，提高模型的語音識別準確率。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及語音識別，尤其涉及一種語音識別模型微調方法、電子設備、計算機可讀存儲介質及計算機程序產品。

技術介紹

1、在語音識別場景中，為了更好地服務各細分領域的業務，通常需要利用相應領域中已經標注過的音頻數據(包括音頻數據和對應的真實文本)對語音識別模型進行微調。但是，與訓練基礎模型時的訓練數據量相比，模型微調時的用到的數據量較少，在小數據量的基礎上微調模型很容易過擬合的現象。目前抑制過擬合的方法包括在模型微調的過程中凍結部分參數、調整訓練參數、豐富訓練數據等，但這些方法容易導致模型欠擬合和學習不充分，對模型識別準確率有負面影響。因此，目前的語音識別模型微調過程中的過擬合抑制方式會導致模型的性能下降。

2、上述內容僅用于輔助理解本申請的技術方案，并不代表承認上述內容是現有技術。

技術實現思路

1、本申請的主要目的在于提供一種語音識別模型微調方法、電子設備、計算機可讀存儲介質及計算機程序產品，旨在解決目前的語音識別模型微調過程中的過擬合抑制方式會導致模型的性能下降的技術問題。

2、為實現上述目的，本申請提出一種語音識別模型微調方法，所述語音識別模型微調方法包括：

3、將第一訓練音頻數據輸入到預設的語音識別模型，通過所述語音識別模型預測輸出所述第一訓練音頻數據中每個字詞單元的詞表分布信息和所述第一訓練音頻數據對應的第一識別文本；

4、根據各所述字詞單元的詞表分布信息與預設的記憶集合中對應字詞單元的記憶分布信息之間的分布相似度，確定記憶損失

5、根據所述第一識別文本和所述第一訓練音頻數據對應的真實標簽，確定所述語音識別模型的分類損失參數；

6、根據所述記憶損失參數和所述分類損失參數，確定目標損失參數；

7、基于所述目標損失參數更新所述語音識別模型的模型參數，返回執行所述將第一訓練音頻數據輸入到預設的語音識別模型，通過所述語音識別模型預測輸出所述第一訓練音頻數據中每個字的詞表分布信息和第一識別文本的步驟，直至微調結束。

8、在一實施例中，所述根據各所述字詞單元的詞表分布信息與預設的記憶集合中對應字詞單元的記憶分布信息之間的分布相似度，確定記憶損失參數的步驟包括：

9、計算所述字詞單元的詞表分布信息和記憶分布信息之間的分布相似度；

10、將所述分布相似度確定為所述語音識別模型的記憶損失參數，其中，所述詞表分布信息與所述記憶分布信息之間的相似程度與所述分布相似度成反比。

11、在一實施例中，在所述將第一訓練音頻數據輸入到預設的語音識別模型的步驟之前，所述方法還包括：

12、將第二訓練音頻數據輸入到所述語音識別模型中，通過所述語音識別模型預測輸出所述第二訓練音頻數據中每個字詞單元的詞表分布信息以及所述第二訓練音頻數據對應的第二識別文本；

13、根據所述第二訓練音頻數據對應的真實標簽依次判斷所述第二識別文本中各字詞單元是否預測正確；

14、將所述第二識別文本中預測正確的字詞單元和分類錯誤的字詞單元分別賦予不同的標記；

15、基于標記過的字詞單元對應的詞表分布信息構建記憶集合。

16、在一實施例中，所述基于標記過的字詞單元對應的詞表分布信息構建記憶集合的步驟包括：

17、基于所述第二訓練音頻數據對應的真實標簽，構建分類錯誤的各字詞單元分別對應的集中分布信息；

18、根據預測正確的各字詞單元的詞表分布信息以及分類錯誤的各字詞單元分別對應的集中分布信息，生成記憶集合。

19、在一實施例中，在所述通過所述語音識別模型預測輸出所述第一訓練音頻數據中每個字詞單元的詞表分布信息和所述第一訓練音頻數據對應的第一識別文本的步驟之后，所述方法還包括：

20、根據所述第一識別文本和所述第一訓練音頻數據對應的真實標簽，篩選所述第一識別文本中預測正確的字詞單元；

21、基于預測正確的字詞單元的詞表分布信息更新所述記憶集合。

22、在一實施例中，所述基于預測正確的字詞單元的詞表分布信息更新所述記憶集合的步驟包括：

23、判斷所述記憶集合中所述字詞單元對應的標記為錯誤或正確；

24、當所述標記為錯誤時，通過所述字詞單元對應的詞表分布信息替代所述記憶集合中所述字詞單元的記憶分布信息；

25、當所述標記為正確時，根據所述字詞單元的詞表分布信息和預設的更新系數更新所述記憶集合中所述字詞單元的記憶分布信息。

26、在一實施例中，所述根據所述字詞單元的詞表分布信息和預設的更新系數更新所述記憶集合中所述字詞單元的記憶分布信息的步驟包括：

27、計算所述更新系數與所述記憶集合中所述字詞單元的分布信息的積，得到原始分布信息；

28、計算1與所述更新系數的差值，并計算所述差值與所述字詞單元的詞表分布信息的積，得到更新分布信息，其中，所述更新系數不小于0且不大于1；

29、計算所述原始分布信息與所述更新分布信息的和，得到所述記憶集合中所述字詞單元對應的更新后的記憶分布信息。

30、此外，為實現上述目的，本申請還提出一種電子設備，所述設備包括：存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述計算機程序配置為實現如上文所述的語音識別模型微調方法的步驟。

31、此外，為實現上述目的，本申請還提出一種存儲介質，所述存儲介質為計算機可讀存儲介質，所述存儲介質上存儲有計算機程序，所述計算機程序被處理器執行時實現如上文所述的語音識別模型微調方法的步驟。

32、此外，為實現上述目的，本申請還提供一種計算機程序產品，所述計算機程序產品包括計算機程序，所述計算機程序被處理器執行時實現如上文所述的語音識別模型微調方法的步驟。

33、本申請提出了一種語音識別模型微調方法，在語音識別模型微調方法中，首先將第一訓練音頻數據輸入到預設的語音識別模型，通過所述語音識別模型預測輸出所述第一訓練音頻數據中每個字詞單元的詞表分布信息和所述第一訓練音頻數據對應的第一識別文本，反映了模型當前的預測能力，再根據各所述字詞單元的詞表分布信息與預設的記憶集合中對應字詞單元的詞表分布信息之間的分布相似度，確定記憶損失參數，其中，所述記憶集合用于表征在歷史預測中正確分類的字詞單元的詞表分布信息，本申請技術方案中引入了記憶損失參數來衡量當前預測能力與歷史預測中正確分類的字詞單元分布情況之間的誤差，然后根據所述第一識別文本和所述第一訓練音頻數據對應的真實標簽，確定所述語音識別模型的分類損失參數，再根據所述記憶損失參數和所述分類損失參數，確定目標損失參數，其中的目標損失參數結合了記憶損失參數和分類損失參數，不僅考慮了第一識別文本相對于真實標簽的誤差，還考慮了第一識別文本與記憶集合中正確分類的字詞單元的誤差，然后，基于所述目標本文檔來自技高網...

【技術保護點】

1.一種語音識別模型微調方法，其特征在于，所述語音識別模型微調方法包括：

2.如權利要求1所述的語音識別模型微調方法，其特征在于，所述根據各所述字詞單元的詞表分布信息與預設的記憶集合中對應字詞單元的記憶分布信息之間的分布相似度，確定記憶損失參數的步驟包括：

3.如權利要求1所述的語音識別模型微調方法，其特征在于，在所述將第一訓練音頻數據輸入到預設的語音識別模型的步驟之前，所述方法還包括：

4.如權利要求3所述的語音識別模型微調方法，其特征在于，所述基于標記過的字詞單元對應的詞表分布信息構建記憶集合的步驟包括：

5.如權利要求1所述的語音識別模型微調方法，其特征在于，在所述通過所述語音識別模型預測輸出所述第一訓練音頻數據中每個字詞單元的詞表分布信息和所述第一訓練音頻數據對應的第一識別文本的步驟之后，所述方法還包括：

6.如權利要求5所述的語音識別模型微調方法，其特征在于，所述基于預測正確的字詞單元的詞表分布信息更新所述記憶集合的步驟包括：

7.如權利要求6所述的語音識別模型微調方法，其特征在于，其特征在于，所述

8.一種電子設備，其特征在于，所述設備包括：存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述計算機程序配置為實現如權利要求1至7中任一項所述的語音識別模型微調方法的步驟。

9.一種存儲介質，其特征在于，所述存儲介質為計算機可讀存儲介質，所述存儲介質上存儲有計算機程序，所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述的語音識別模型微調方法的步驟。

10.一種計算機程序產品，包括計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1至7任一項所述的方法。

...

【技術特征摘要】

1.一種語音識別模型微調方法，其特征在于，所述語音識別模型微調方法包括：

3.如權利要求1所述的語音識別模型微調方法，其特征在于，在所述將第一訓練音頻數據輸入到預設的語音識別模型的步驟之前，所述方法還包括：

4.如權利要求3所述的語音識別模型微調方法，其特征在于，所述基于標記過的字詞單元對應的詞表分布信息構建記憶集合的步驟包括：

6.如權利要求5所述的語音識別模型微...

【專利技術屬性】
技術研發人員：趙偉偉，姜迪，
申請(專利權)人：深圳前海微眾銀行股份有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術

語音識別模型微調方法、電子設備、存儲介質及程序產品技術

語音識別模型微調方法、電子設備、存儲介質及程序產品技術