當(dāng)前位置: 首頁 > 專利查詢>中國農(nóng)業(yè)銀行股份有限公司專利>正文

一種語音處理方法、裝置及介質(zhì)制造方法及圖紙

技術(shù)編號：44494628 閱讀：3 留言：0更新日期：2025-03-04 18:01

本申請實施例提供了一種語音處理方法、裝置及介質(zhì)。在具體執(zhí)行該方法時，包括：針對包含背景噪聲和混響語音信息的語音信息，首先采用多目標(biāo)深度神經(jīng)網(wǎng)絡(luò)對語音信息進(jìn)行降噪處理。然后對降噪處理后的語音信息進(jìn)行去混響處理，得到純凈的語音信息。即本申請實施例通過兩段式的方式，去除背景噪聲和混響語音信息，相對于直接從含噪語音的頻譜特征中直接映射出純凈語音的頻譜特征的方式，能夠顯著改善顯著獲取的純凈語音信息的質(zhì)量和可懂度，進(jìn)而改善溝通效果，提升用戶使用體驗。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)涉及計算機，尤其涉及一種語音處理方法、裝置及介質(zhì)。

技術(shù)介紹

1、銀行網(wǎng)點等封閉空間的人員，往往使用對講機等進(jìn)行溝通交流。當(dāng)說話者與話筒保持一定距離，由于封閉空間的物理結(jié)構(gòu)，會造成聲音反射，產(chǎn)生混響語音。話筒接收到的語音為原始語音(也稱為純凈語音信息)以及純凈語音信息之上的混響語音的集合?；祉懻Z音的存在，顯著降低了純凈語音信息的質(zhì)量和可懂度。這不僅影響了普通客戶的溝通效果，對于聽力障礙的客戶而言更是帶來了極大的不便。

技術(shù)實現(xiàn)思路

1、本申請實施例提供了一種語音處理方法、裝置及介質(zhì)，能夠減少混響語音，提高原始語音的質(zhì)量和可懂度，提升客戶的溝通效果。

2、為實現(xiàn)上述目的，本專利技術(shù)實施例提供如下技術(shù)方案：

3、第一方面，本申請?zhí)峁┝艘环N語音處理方法，該方法包括：

4、獲取目標(biāo)語音信息，所述目標(biāo)語音信息包括混響語音信息、背景噪聲和純凈語音信息；

5、對所述目標(biāo)語音信息進(jìn)行降噪處理，得到已降噪語音信息，所述已降噪語音信息包括所述混響語音信息和所述純凈語音信息；

6、對所述已降噪語音信息進(jìn)行去混響處理，得到所述純凈語音信息。

7、可選地，所述對所述目標(biāo)語音信息進(jìn)行降噪處理，得到已降噪語音信息，包括：

8、利用語音處理模型的多目標(biāo)深度神經(jīng)網(wǎng)絡(luò)對所述目標(biāo)語音信息進(jìn)行降噪處理，得到所述已降噪語音信息；

9、所述對所述已降噪語音信息進(jìn)行去混響處理，得到所述純凈語音信息，包括：

11、其中，所述語音處理模型的輸入為目標(biāo)語音信息，輸出為純凈語音信息，所述語音處理模型為基于包括背景噪聲信息、混響語音信息和純凈語音信息等組成的訓(xùn)練集訓(xùn)練后的模型。

12、可選地，所述利用語音處理模型的多目標(biāo)深度神經(jīng)網(wǎng)絡(luò)對所述目標(biāo)語音信息進(jìn)行降噪處理包括：

13、將所述目標(biāo)語音信息輸入至所述多目標(biāo)深度神經(jīng)網(wǎng)絡(luò)，獲取初步已降噪語音信息的irm和幅度譜；

14、將所述初步已降噪語音信息的irm與所述目標(biāo)語音信息進(jìn)行卷積處理；

15、將卷積處理后的信息與所述初步已降噪語音信息的幅度譜輸入多層感知器mlp，得到所述已降噪語音信息。

16、可選地，所述多目標(biāo)深度神經(jīng)網(wǎng)絡(luò)的代價函數(shù)與最小均方誤差相關(guān)。

17、可選地，所述去混響處理網(wǎng)絡(luò)，包括去混響預(yù)處理模塊、雙向長短期記憶網(wǎng)絡(luò)blstm和逆傅里葉變換idft模塊，所述利用所述語音處理模型的去混響處理網(wǎng)絡(luò)對所述已降噪語音信息進(jìn)行去混響處理，得到所述純凈語音信息，包括：

18、將所述已降噪語音信息的幅度譜輸入所述去混響預(yù)處理網(wǎng)絡(luò)，得到所述已降噪語音信息的歸一化功率譜；所述歸一化功率譜的幅度譜為對數(shù)函數(shù)壓縮后的幅度譜，且幅度譜的均值為0，方差為1；

19、將已降噪語音信息的歸一化功率譜輸入所述blstm，得到純凈語音信息的歸一化頻譜；對純凈語音信息的歸一化頻譜進(jìn)行恢復(fù)處理，獲取所述純凈語音信息的幅度譜；

20、將所述純凈語音信息的幅度譜輸入逆傅里葉變換idft，基于所述純凈語音信息的相位信息，獲取所述純凈語音信息的時域信息。

21、可選地，所述idft的代價函數(shù)為：

22、

23、其中，表示元素級相乘，||?||2表示l2正規(guī)化，s--原始語音信息，ifft為傅里葉變換，和rc分別表示兩段式系統(tǒng)處理后對應(yīng)的增強語音幅度譜和純凈語音的相位信息，c表示監(jiān)督式學(xué)習(xí)系統(tǒng)的參數(shù)。

24、第二方面，本申請實施例提供了一種語音處理裝置，所述裝置包括：

25、獲取單元，用于獲取目標(biāo)語音信息，所述目標(biāo)語音信息包括混響語音信息、背景噪聲和純凈語音信息；

26、降噪單元，用于對所述目標(biāo)語音信息進(jìn)行降噪處理，得到已降噪語音信息，所述已降噪語音信息包括所述混響語音信息和所述純凈語音信息；

27、去混響單元，用于對所述已降噪語音信息進(jìn)行去混響處理，得到所述純凈語音信息。

28、可選地，所述降噪單元具體用于：

29、利用語音處理模型的多目標(biāo)深度神經(jīng)網(wǎng)絡(luò)對所述目標(biāo)語音信息進(jìn)行降噪處理，得到所述已降噪語音信息；

30、所述去混響單元具體用于：利用所述語音處理模型的去混響處理網(wǎng)絡(luò)對所述已降噪語音信息進(jìn)行去混響處理，得到所述純凈語音信息；

31、其中，所述語音處理模型的輸入為目標(biāo)語音信息，輸出為純凈語音信息，所述語音處理模型為基于包括背景噪聲信息、混響語音信息和純凈語音信息等組成的訓(xùn)練集訓(xùn)練后的模型。

32、可選地，所述降噪單元具體用于：

33、將所述目標(biāo)語音信息輸入至所述多目標(biāo)深度神經(jīng)網(wǎng)絡(luò)，獲取初步已降噪語音信息的irm和幅度譜；

34、將所述初步已降噪語音信息的irm與所述目標(biāo)語音信息進(jìn)行卷積處理；

35、將卷積處理后的信息與所述初步已降噪語音信息的幅度譜輸入多層感知器mlp，得到所述已降噪語音信息。

36、第三方面，本申請實施例提供了一種計算機存儲介質(zhì)，用于存儲計算機程序，計算機程序被執(zhí)行時，用于實現(xiàn)如第一方面的任一項所述的方法。

37、第四方面，本申請實施例提供了一種包含指令的計算機程序產(chǎn)品，當(dāng)其在至少一個計算設(shè)備上運行時，使得至少一個計算設(shè)備實現(xiàn)如第一方面任一項所述的方法。

38、綜上所述，本申請實施例提供了一種語音處理方法、裝置及介質(zhì)。在具體執(zhí)行該方法時，包括：針對包含背景噪聲和混響語音信息的語音信息，首先采用多目標(biāo)深度神經(jīng)網(wǎng)絡(luò)對語音信息進(jìn)行降噪處理。然后對降噪處理后的語音信息進(jìn)行去混響處理，得到純凈的語音信息。即本申請實施例通過兩段式的方式，去除背景噪聲和混響語音信息，相對于直接從含噪語音的頻譜特征中直接映射出純凈語音的頻譜特征的方式，能夠顯著改善顯著獲取的純凈語音信息的質(zhì)量和可懂度，進(jìn)而改善溝通效果，提升用戶使用體驗。

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點】

1.一種語音處理方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述方法，其特征在于，所述對所述目標(biāo)語音信息進(jìn)行降噪處理，得到已降噪語音信息，包括：

3.根據(jù)權(quán)利要求2所述方法，其特征在于，所述利用語音處理模型的多目標(biāo)深度神經(jīng)網(wǎng)絡(luò)對所述目標(biāo)語音信息進(jìn)行降噪處理包括：

4.根據(jù)權(quán)利要求3所述方法，其特征在于，所述多目標(biāo)深度神經(jīng)網(wǎng)絡(luò)的代價函數(shù)與最小均方誤差相關(guān)。

5.根據(jù)權(quán)利要求2所述方法，其特征在于，所述去混響處理網(wǎng)絡(luò)，包括去混響預(yù)處理模塊、雙向長短期記憶網(wǎng)絡(luò)BLSTM和逆傅里葉變換IDFT模塊，所述利用所述語音處理模型的去混響處理網(wǎng)絡(luò)對所述已降噪語音信息進(jìn)行去混響處理，得到所述純凈語音信息，包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，所述IDFT的代價函數(shù)為：

7.一種語音處理裝置，其特征在于，所述裝置包括：

8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述降噪單元具體用于：

9.根據(jù)權(quán)利要求8所述的裝置，其特征在于，所述降噪單元具體用于：

10.一種計算機存儲介質(zhì)

...

【技術(shù)特征摘要】

1.一種語音處理方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述方法，其特征在于，所述對所述目標(biāo)語音信息進(jìn)行降噪處理，得到已降噪語音信息，包括：

4.根據(jù)權(quán)利要求3所述方法，其特征在于，所述多目標(biāo)深度神經(jīng)網(wǎng)絡(luò)的代價函數(shù)與最小均方誤差相關(guān)。

5.根據(jù)權(quán)利要求2所述方法，其特征在于，所述去混響處理網(wǎng)絡(luò)，包括去混響預(yù)處理模塊、雙向長短期記憶網(wǎng)絡(luò)blstm和逆傅里葉變換idft...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：王小軍，冀夢杰，
申請(專利權(quán))人：中國農(nóng)業(yè)銀行股份有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)

一種語音處理方法、裝置及介質(zhì)制造方法及圖紙

一種語音處理方法、裝置及介質(zhì)制造方法及圖紙