System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及音質評估,尤其涉及一種語音音質評估方法、模型訓練方法、裝置及存儲介質。
技術介紹
1、在語音信號處理任務中,比如波束形成、語音降噪、語音編解碼、語音合成、語音傳輸等,通常最后都會用語音質量評估指標來說明處理后的效果,語音評估一般分為主觀評估和客觀評估。
2、主觀評估依賴評價人員的經驗與標準,存在較大差異性,評分過程耗時長,需要大量的人工資源,不適用于大規模語音質量評估,并且分結果可能受環境噪聲和其他無關因素的影響,準確性受限。而目前的客觀評估一般進行無參考音的客觀評估,準確性較低。
技術實現思路
1、本申請提供了一種語音音質評估方法、模型訓練方法、裝置及存儲介質,以解決如何提高客觀語音音質評估的準確性的問題。
2、第一方面,本申請提供了一種語音音質評估方法,所述方法包括:
3、對語音數據進行無參考音的客觀質量評估,得到初步評分值;
4、對所述語音數據進行頻域特征提取,得到所述語音數據的頻域特征,以及對所述語音數據進行時域特征提取,得到所述語音數據的時域特征;
5、將所述初步評分值、所述頻域特征和所述時域特征輸入預設的神經網絡模型,得到所述語音數據的客觀評分值。
6、可選地,所述頻域特征包括mel頻率倒譜系數,對所述語音數據進行頻域特征提取,得到所述語音數據的頻域特征,包括:
7、利用高通濾波器對所述語音數據進行預加重處理,得到目標語音信號;
8、基于窗函數對所述目標語音信號進行
9、分別對每一幀所述加窗后信號進行時頻域轉換,得到目標頻譜數據;
10、基于mel濾波器組提取出所述目標頻譜數據的所述mel頻率倒譜系數。
11、可選地,所述時域特征包括線性預測系數,對所述語音數據進行時域特征提取,得到所述語音數據的時域特征,包括:
12、對所述語音數據進行分幀和加窗處理,得到n幀分幀加窗后信號;
13、對所述n幀分幀加窗后信號進行信號自相關處理,確定所述分幀加窗后信號之間的線性關系;
14、基于所述線性關系確定所述線性預測系數。
15、可選地,將所述初步評分值、所述頻域特征和所述時域特征輸入預設的神經網絡模型,得到所述語音數據的客觀評分值,包括:
16、將所述初步評分值、所述頻域特征和所述時域特征合并成多維向量;
17、將所述多維向量輸入所述神經網絡模型,得到所述客觀評分值。
18、可選地,所述神經網絡模型為循環神經網絡模型。
19、第二方面,本申請提供了一種語音音質評估模型訓練方法,所述方法包括:
20、獲取訓練數據和所述訓練數據對應的目標訓練評分;其中,所述目標訓練評分為基于所述訓練數據得到的主觀評分值;
21、對所述訓練數據進行無參考音的客觀質量評估,得到初步評分值;
22、對所述訓練數據進行頻域特征提取,得到所述訓練數據的頻域特征,以及對所述訓練數據進行時域特征提取,得到所述訓練數據的時域特征;
23、將所述初步評分值、所述頻域特征和所述時域特征輸入待訓練模型,得到所述訓練數據的客觀評分值;
24、判斷所述客觀評分值與所述目標訓練評分做差得到的差值數據是否小于預設差值;若否,將所述差值數據反饋至所述待訓練模型,以使所述待訓練模型迭代訓練參數,并在所述訓練參數迭代后重復執行所述將所述初步評分值、所述頻域特征和所述時域特征輸入待訓練模型,得到所述訓練數據的目標訓練評分,至所述判斷所述客觀評分值與所述目標訓練評分做差得到的差值數據是否小于預設差值的步驟,直至所述差值數據小于所述預設差值;若是,將所述待訓練模型作為訓練得到的如第一方面任一項所述的神經網絡模型。
25、第三方面,本申請提供了一種語音音質評估裝置,所述裝置包括:
26、第一評估模塊,用于對語音數據進行無參考音的客觀質量評估,得到初步評分值;
27、第一提取模塊,用于對所述語音數據進行頻域特征提取,得到所述語音數據的頻域特征,以及對所述語音數據進行時域特征提取,得到所述語音數據的時域特征;
28、第二評估模塊,用于將所述初步評分值、所述頻域特征和所述時域特征輸入預設的神經網絡模型,得到所述語音數據的客觀評分值。
29、第四方面,本申請提供了一種語音音質評估模型訓練裝置,所述裝置包括:
30、獲取模塊,用于獲取訓練數據和所述訓練數據對應的目標訓練評分;其中,所述目標訓練評分為基于所述訓練數據得到的主觀評分值;
31、第三評估模塊,用于對所述訓練數據進行無參考音的客觀質量評估,得到初步評分值;
32、第二提取模塊,用于對所述訓練數據進行頻域特征提取,得到所述訓練數據的頻域特征,以及對所述訓練數據進行時域特征提取,得到所述訓練數據的時域特征;
33、第四評估模塊,用于將所述初步評分值、所述頻域特征和所述時域特征輸入待訓練模型,得到所述訓練數據的客觀評分值;
34、訓練模塊,用于判斷所述客觀評分值與所述目標訓練評分做差得到的差值數據是否小于預設差值;若否,將所述差值數據反饋至所述待訓練模型,以使所述待訓練模型迭代訓練參數,并在所述訓練參數迭代后重復執行所述將所述初步評分值、所述頻域特征和所述時域特征輸入待訓練模型,得到所述訓練數據的目標訓練評分,至所述判斷所述客觀評分值與所述目標訓練評分做差得到的差值數據是否小于預設差值的步驟,直至所述差值數據小于所述預設差值;若是,將所述待訓練模型作為訓練得到的如第一方面任一項所述的神經網絡模型。
35、第五方面,本申請提供了一種電子裝置,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
36、存儲器,用于存放計算機程序;
37、處理器,用于執行存儲器上所存放的程序時,實現第一方面任一項實施例所述的語音音質評估方法或第二方面實施例所述的語音音質評估模型訓練方法。
38、第六方面,本申請提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現如第一方面任一項實施例所述的語音音質評估方法或第二方面實施例所述的語音音質評估模型訓練方法。
39、本申請實施例提供的上述技術方案與現有技術相比具有如下優點:本申請實施例提供的該方法,對語音數據進行無參考音的客觀質量評估,得到初步評分值;對所述語音數據進行頻域特征提取,得到所述語音數據的頻域特征,以及對所述語音數據進行時域特征提取,得到所述語音數據的時域特征;將所述初步評分值、所述頻域特征和所述時域特征輸入預設的神經網絡模型,得到所述語音數據的客觀評分值。該方法,首先對語音數據進行無參考音的客觀質量評估,得到初步評分值,再對語音數據進行特征提取,分別得到頻域特征和時域特征,將初步評分值、頻域特征和時域特征輸入預先訓本文檔來自技高網...
【技術保護點】
1.一種語音音質評估方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述頻域特征包括Mel頻率倒譜系數,對所述語音數據進行頻域特征提取,得到所述語音數據的頻域特征,包括:
3.根據權利要求1所述的方法,其特征在于,所述時域特征包括線性預測系數,對所述語音數據進行時域特征提取,得到所述語音數據的時域特征,包括:
4.根據權利要求1所述的方法,其特征在于,將所述初步評分值、所述頻域特征和所述時域特征輸入預設的神經網絡模型,得到所述語音數據的客觀評分值,包括:
5.根據權利要求1-4任一項所述的方法,其特征在于,所述神經網絡模型為循環神經網絡模型。
6.一種語音音質評估模型訓練方法,其特征在于,所述方法包括:
7.一種語音音質評估裝置,其特征在于,所述裝置包括:
8.一種語音音質評估模型訓練裝置,其特征在于,所述裝置包括:
9.一種電子裝置,其特征在于,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
...【技術特征摘要】
1.一種語音音質評估方法,其特征在于,所述方法包括:
2.根據權利要求1所述的方法,其特征在于,所述頻域特征包括mel頻率倒譜系數,對所述語音數據進行頻域特征提取,得到所述語音數據的頻域特征,包括:
3.根據權利要求1所述的方法,其特征在于,所述時域特征包括線性預測系數,對所述語音數據進行時域特征提取,得到所述語音數據的時域特征,包括:
4.根據權利要求1所述的方法,其特征在于,將所述初步評分值、所述頻域特征和所述時域特征輸入預設的神經網絡模型,得到所述語音數據的客觀評分值,包括:
5.根據權利要求1-4任一項所述的方法,其特征在于,所述...
【專利技術屬性】
技術研發人員:陳國明,許國軍,
申請(專利權)人:立訊精密科技南京有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。