語音識別方法、裝置、計算機設備及存儲介質制造方法及圖紙

技術編號：44512783 閱讀：1 留言：0更新日期：2025-03-07 13:08

本申請實施例屬于語音處理領域，涉及一種語音識別方法、裝置、計算機設備及存儲介質，所述方法包括下述步驟：獲取多語言語音信號信息，并對多語言語音信號信息進行預處理，得到標準語音信號信息；對標準語音信號信息進行特征提取，得到聲學特征向量序列；基于聲學特征向量序列訓練聲紋嵌入模型；獲取多語言語音數(shù)據(jù)，并將多語言語音數(shù)據(jù)輸入至聲紋嵌入模型中，得到聲紋特征向量；基于聲紋特征向量構建語言聲紋數(shù)據(jù)庫；基于聲紋嵌入模型對待識別語音信息進行特征提取，得到待識別聲紋特征向量；將待識別聲紋特征向量和語言聲紋數(shù)據(jù)庫進行對比匹配，得到語音識別結果。本申請能夠實現(xiàn)對待識別語音信息的語音對象進行準確識別。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本申請涉及語音處理，具體涉及數(shù)字醫(yī)療領域，尤其涉及一種語音識別方法、裝置、計算機設備及存儲介質。

技術介紹

1、在數(shù)字醫(yī)療領域，聲紋識別技術正逐步展現(xiàn)出其巨大的應用潛力，特別是在遠程醫(yī)療咨詢、患者身份認證以及疾病輔助診斷等方面。然而，不同語言在語音信號的音素、韻律、語調等方面存在的顯著差異，為跨語言聲紋識別帶來了嚴峻的挑戰(zhàn)。

2、傳統(tǒng)的單一語言聲紋特征提取方法，往往難以直接應用于多語言場景。這是因為不同語言的語音特性存在顯著差異，如音素的分布、韻律的變化以及語調的起伏等，這些差異導致傳統(tǒng)的特征提取方法在多語言環(huán)境下難以保持穩(wěn)定的識別性能。

3、此外，更為復雜的是，在實際應用中，說話人的語音可能夾雜多種語言，或者出現(xiàn)語碼轉換現(xiàn)象。這種復雜的語言環(huán)境進一步增加了跨語言聲紋識別的難度。例如，在遠程醫(yī)療咨詢中，患者可能會使用自己的母語或混合使用多種語言來描述癥狀，此時輸出的語音信息難以被有效識別，因此無法有效確定患者的真實身份，給患者的有效聲紋識別帶來一定的困難。

技術實現(xiàn)思路

1、本申請實施例的目的在于提出一種語音識別方法、裝置、計算機設備及存儲介質，以解決無法對待識別語音的語音對象進行準確識別的問題。

2、為了解決上述技術問題，本申請實施例提供一種語音識別方法，采用了如下所述的技術方案：

3、獲取多語言語音信號信息，并對所述多語言語音信號信息進行預處理，得到標準語音信號信息；

4、對所述標準語音信號信息進行特征提取，得到聲學特征向量序列；

5、基于所述聲學特征向量序列訓練聲紋嵌入模型；

6、獲取多語言語音數(shù)據(jù)，并將所述多語言語音數(shù)據(jù)輸入至所述聲紋嵌入模型中，得到聲紋特征向量；

7、基于所述聲紋特征向量構建語言聲紋數(shù)據(jù)庫；

8、基于所述聲紋嵌入模型對待識別語音信息進行特征提取，得到待識別聲紋特征向量；

9、將所述待識別聲紋特征向量和所述語言聲紋數(shù)據(jù)庫進行對比匹配，得到語音識別結果。

10、進一步的，所述獲取多語言語音信號信息，并對所述多語言語音信號信息進行預處理，得到標準語音信號信息的步驟，具體包括：

11、獲取信號信息提取標識，根據(jù)所述信號信息提取標識從數(shù)據(jù)庫中提取所述多語言語音信號信息；

12、對所述多語言語音信號信息進行語音活動檢測，得到有效語音信號信息；

13、對所述有效語音信號信息進行降噪處理，得到降噪語音信號信息；

14、根據(jù)預設語音分段規(guī)則對所述降噪語音信號信息進行語音分段，得到所述標準語音信號信息。

15、進一步的，所述對所述標準語音信號信息進行特征提取，得到聲學特征向量序列的步驟，具體包括：

16、對所述標準語音信號信息進行單元劃分，得到語言音素單元；

17、對所述語言音素單元進行特征提取，得到單元聲學特征向量；

18、將所述單元聲學特征向量按照所述標準語音信號信息的對應順序進行拼接，得到所述聲學特征向量序列。

19、進一步的，所述基于所述聲學特征向量序列訓練聲紋嵌入模型的步驟，具體包括：

20、獲取初始模型提取標識，根據(jù)所述初始模型提取標識從數(shù)據(jù)庫中提取初始聲紋嵌入模型；

21、將所述聲學特征向量序列輸入至所述初始聲紋嵌入模型，得到初始聲紋特征向量；

22、對所述初始聲紋特征向量進行對比損失計算，并根據(jù)計算的損失值對所述初始聲紋嵌入模型進行優(yōu)化，以得到優(yōu)化后的聲紋嵌入模型。

23、進一步的，所述獲取多語言語音數(shù)據(jù)，并將所述多語言語音數(shù)據(jù)輸入至所述聲紋嵌入模型中，得到聲紋特征向量的步驟，具體包括：

24、獲取語音數(shù)據(jù)提取標識，并根據(jù)所述語音數(shù)據(jù)提取標識從預設語料庫中提取所述多語言語音數(shù)據(jù)；

25、對所述多語言語音數(shù)據(jù)進行預處理，得到多語言語音片段；

26、將所述多語言語音片段輸入至所述聲紋嵌入模型中，得到所述聲紋特征向量。

27、進一步的，所述基于所述聲紋特征向量構建語言聲紋數(shù)據(jù)庫的步驟，具體包括：

28、獲取所述多語言語音數(shù)據(jù)對應的語言標簽，根據(jù)所述語言標簽對所述聲紋特征向量進行分類，得到聲紋特征向量庫；

29、根據(jù)預設聚類算法對所述聲紋特征向量庫中的聲紋特征向量進行聚類，得到聲紋特征向量簇；

30、以所述聲紋特征向量簇的簇中心作為語音對象的聲紋特征向量代表，構建語音對象聲紋字典；

31、將所述聲紋特征向量庫和所述語音對象聲紋字典進行合并，得到所述語言聲紋數(shù)據(jù)庫。

32、進一步的，所述將所述待識別聲紋特征向量和所述語言聲紋數(shù)據(jù)庫進行對比匹配，得到語音識別結果的步驟，具體包括：

33、計算所述待識別聲紋特征向量和所述語言聲紋數(shù)據(jù)庫中的特征向量的相似度，得到相似度結果；

34、將所述相似度結果進行排序，并選取排序最高的相似度結果作為對比相似度值；

35、判斷所述對比相似度值是否超過預設相似度閾值；

36、若所述對比相似度值超過所述預設相似度閾值，則將所述待識別語音信息確定為所述相似度結果對應的語音對象，并將該語音對象作為所述語音識別結果輸出。

37、為了解決上述技術問題，本申請實施例還提供一種語音識別裝置，采用了如下所述的技術方案：

38、信息獲取模塊，用于獲取多語言語音信號信息，并對所述多語言語音信號信息進行預處理，得到標準語音信號信息；

39、序列提取模塊，用于對所述標準語音信號信息進行特征提取，得到聲學特征向量序列；

40、模型訓練模塊，用于基于所述聲學特征向量序列訓練聲紋嵌入模型；

41、模型輸出模塊，用于獲取多語言語音數(shù)據(jù)，并將所述多語言語音數(shù)據(jù)輸入至所述聲紋嵌入模型中，得到聲紋特征向量；

42、數(shù)據(jù)庫構建模塊，用于基于所述聲紋特征向量構建語言聲紋數(shù)據(jù)庫；

43、特征提取模塊，用于基于所述聲紋嵌入模型對待識別語音信息進行特征提取，得到待識別聲紋特征向量；

44、結果識別模塊，用于將所述待識別聲紋特征向量和所述語言聲紋數(shù)據(jù)庫進行對比匹配，得到語音識別結果。

45、為了解決上述技術問題，本申請實施例還提供一種計算機設備，采用了如下所述的技術方案：

46、一種計算機設備，包括存儲器和處理器，所述存儲器中存儲有計算機可讀指令，所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如以上任一項所述的語音識別方法的步驟。

47、為了解決上述技術問題，本申請實施例還提供一種計算機可讀存儲介質，采用了如下所述的技術方案：

48、一種計算機可讀存儲介質，所述計算機可讀存儲介質上存儲有計算機可讀指令，所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如以上任一項所述的語音識別方法的步驟。

49、與現(xiàn)有技術相比，本申請實施例主要有以下有益效果：本實施例本文檔來自技高網(wǎng)...

【技術保護點】

1.一種語音識別方法，其特征在于，包括下述步驟：

2.根據(jù)權利要求1所述的語音識別方法，其特征在于，所述獲取多語言語音信號信息，并對所述多語言語音信號信息進行預處理，得到標準語音信號信息的步驟，具體包括：

3.根據(jù)權利要求1所述的語音識別方法，其特征在于，所述對所述標準語音信號信息進行特征提取，得到聲學特征向量序列的步驟，具體包括：

4.根據(jù)權利要求1所述的語音識別方法，其特征在于，所述基于所述聲學特征向量序列訓練聲紋嵌入模型的步驟，具體包括：

5.根據(jù)權利要求1所述的語音識別方法，其特征在于，所述獲取多語言語音數(shù)據(jù)，并將所述多語言語音數(shù)據(jù)輸入至所述聲紋嵌入模型中，得到聲紋特征向量的步驟，具體包括：

6.根據(jù)權利要求1所述的語音識別方法，其特征在于，所述基于所述聲紋特征向量構建語言聲紋數(shù)據(jù)庫的步驟，具體包括：

7.根據(jù)權利要求1所述的語音識別方法，其特征在于，所述將所述待識別聲紋特征向量和所述語言聲紋數(shù)據(jù)庫進行對比匹配，得到語音識別結果的步驟，具體包括：

8.一種語音識別裝置，其特征在于，包括：</p>

9.一種計算機設備，其特征在于，包括存儲器和處理器，所述存儲器中存儲有計算機可讀指令，所述處理器執(zhí)行所述計算機可讀指令時實現(xiàn)如權利要求1至7中任一項所述的語音識別方法的步驟。

10.一種計算機可讀存儲介質，其特征在于，所述計算機可讀存儲介質上存儲有計算機可讀指令，所述計算機可讀指令被處理器執(zhí)行時實現(xiàn)如權利要求1至7中任一項所述的語音識別方法的步驟。

...

【技術特征摘要】

1.一種語音識別方法，其特征在于，包括下述步驟：

3.根據(jù)權利要求1所述的語音識別方法，其特征在于，所述對所述標準語音信號信息進行特征提取，得到聲學特征向量序列的步驟，具體包括：

4.根據(jù)權利要求1所述的語音識別方法，其特征在于，所述基于所述聲學特征向量序列訓練聲紋嵌入模型的步驟，具體包括：

6.根據(jù)權利要求...

【專利技術屬性】
技術研發(fā)人員：伍漢誠，魏韜，王少軍，
申請(專利權)人：平安科技深圳有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術