當(dāng)前位置: 首頁 > 專利查詢>北京字跳網(wǎng)絡(luò)技術(shù)有限公司專利>正文

基于神經(jīng)網(wǎng)絡(luò)的語音丟包補(bǔ)償方法和裝置制造方法及圖紙

技術(shù)編號：41583339 閱讀：18 留言：0更新日期：2024-06-06 23:58

本公開實(shí)施例提供了一種基于神經(jīng)網(wǎng)絡(luò)的語音丟包補(bǔ)償方法和裝置。該方法的一具體實(shí)施方式包括：獲取預(yù)先訓(xùn)練得到的用于進(jìn)行語音丟包補(bǔ)償?shù)纳窠?jīng)網(wǎng)絡(luò)；接收待處理音頻和所述待處理音頻對應(yīng)的丟幀位置信息；將基于所述待處理音頻和所述待處理音頻對應(yīng)的丟幀位置信息生成的輸入特征，輸入所述神經(jīng)網(wǎng)絡(luò)，得到所述待處理音頻對應(yīng)的丟包補(bǔ)償后的音頻。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本公開實(shí)施例涉及計算機(jī)，尤其涉及一種基于神經(jīng)網(wǎng)絡(luò)的語音丟包補(bǔ)償方法和裝置。

技術(shù)介紹

1、隨著互聯(lián)網(wǎng)技術(shù)和通訊技術(shù)的發(fā)展，音頻流傳輸已經(jīng)成為了網(wǎng)絡(luò)通信的一個非常重要的部分。實(shí)踐中，由于各種因素，比如網(wǎng)絡(luò)擁堵、帶寬限制、硬件故障等等，音頻數(shù)據(jù)包在傳輸過程中可能會丟失，這會對語音通信的質(zhì)量產(chǎn)生嚴(yán)重影響，造成用戶體驗下降。因此，對音頻丟包進(jìn)行修補(bǔ)恢復(fù)是亟需解決的問題。

技術(shù)實(shí)現(xiàn)思路

1、本公開的實(shí)施例描述了一種基于神經(jīng)網(wǎng)絡(luò)的語音丟包補(bǔ)償方法和裝置，通過該方法訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)，可以更加準(zhǔn)確的進(jìn)行語音丟包補(bǔ)償。

2、根據(jù)第一方面，提供了一種訓(xùn)練用于進(jìn)行語音丟包補(bǔ)償?shù)纳窠?jīng)網(wǎng)絡(luò)的方法，其中，待訓(xùn)練神經(jīng)網(wǎng)絡(luò)包括編碼器層、中間層和解碼器層，上述中間層連接于上述編碼器層和上述解碼器層之間，上述方法包括：獲取訓(xùn)練樣本集，其中，各訓(xùn)練樣本包括樣本丟包音頻、及其對應(yīng)的樣本丟幀位置信息和樣本未丟包音頻；基于樣本丟包音頻及其對應(yīng)的樣本丟幀位置信息，生成輸入特征；將上述輸入特征輸入上述待訓(xùn)練神經(jīng)網(wǎng)絡(luò)；將上述中間層輸出的特征輸入預(yù)先訓(xùn)練的基頻預(yù)測網(wǎng)絡(luò)，由上述基頻預(yù)測網(wǎng)絡(luò)輸出預(yù)測基頻；基于上述預(yù)測基頻以及基于樣本未丟包音頻計算得到的真實(shí)基頻，調(diào)整上述編碼器層和上述中間層的網(wǎng)絡(luò)參數(shù)。

3、在一個實(shí)施例中，上述待訓(xùn)練神經(jīng)網(wǎng)絡(luò)為u-net結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)，其中，上述中間層為上述u-net結(jié)構(gòu)中的瓶頸層。由此，可以通過u-net結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)語音丟包補(bǔ)償。

4、在一個實(shí)施例中，上述基頻

5、在一個實(shí)施例中，上述中間層輸出的特征包括樣本丟幀位置信息對應(yīng)的丟幀位置所對應(yīng)幀的特征，上述基頻預(yù)測網(wǎng)絡(luò)輸出的預(yù)測基頻包括丟幀位置所對應(yīng)幀的基頻。

6、在一個實(shí)施例中，上述基于樣本丟包音頻及其對應(yīng)的樣本丟幀位置信息，生成輸入特征，包括：對上述樣本丟包音頻進(jìn)行子帶分解得到多個子帶；基于上述多個子帶轉(zhuǎn)換到時頻域的轉(zhuǎn)換結(jié)果和上述樣本丟幀位置信息，生成輸入特征。由此，可以將樣本丟包音頻分解為多個子帶進(jìn)行處理，從而大幅度降低了計算復(fù)雜度。

7、在一個實(shí)施例中，上述編碼器層包括多個編碼器，各編碼器包括門控卷積層和時頻空洞卷積層，上述時頻空洞卷積層用于通過時間維度和頻率維度的空洞卷積來提取特征。由此，可以有效提高卷積層的感受野。

8、在一個實(shí)施例中，上述解碼器層包括多個解碼器，各解碼器包括并行的第一分支和第二分支，上述第一分支用于預(yù)測音頻的實(shí)部，上述第二分支用于預(yù)測音頻的虛部；上述待訓(xùn)練神經(jīng)網(wǎng)絡(luò)基于上述編碼器層輸出的預(yù)測音頻的實(shí)部和虛部，輸出樣本預(yù)測音頻；以及，上述方法還包括：將上述樣本預(yù)測音頻輸入預(yù)先訓(xùn)練的至少一個判別器，由各判別器輸出針對上述樣本預(yù)測音頻的判別結(jié)果；基于至少一個判別結(jié)果、上述樣本預(yù)測音頻和上述樣本未丟包音頻，計算損失，以及基于上述損失調(diào)整上述待訓(xùn)練神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。由此，可以采用生成對抗結(jié)構(gòu)gan來訓(xùn)練待訓(xùn)練神經(jīng)網(wǎng)絡(luò)。

9、在一個實(shí)施例中，上述至少一個判別器中包括用于判別上述樣本預(yù)測音頻為真實(shí)音頻的概率的第一判別器和用于判別上述樣本預(yù)測音頻的音頻質(zhì)量的第二判別器。由此，可以通過使用多個判別器提高生成器的準(zhǔn)確度。

10、在一個實(shí)施例中，上述方法還包括：將上述待訓(xùn)練神經(jīng)網(wǎng)絡(luò)輸出的樣本預(yù)測音頻和其對應(yīng)的樣本未丟包音頻分別輸入預(yù)先訓(xùn)練的語音識別模型；獲取上述樣本預(yù)測音頻和其對應(yīng)的樣本未丟包音頻在上述語音識別模型中的編碼層特征；基于所獲取的兩個編碼層特征的差異損失，調(diào)整上述待訓(xùn)練神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)。由此，可以通過預(yù)先訓(xùn)練的語音識別模型調(diào)整待訓(xùn)練神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)參數(shù)，提高待訓(xùn)練神經(jīng)網(wǎng)絡(luò)的準(zhǔn)確度。

11、根據(jù)第二方面，提供了一種基于神經(jīng)網(wǎng)絡(luò)的語音丟包補(bǔ)償方法，包括：獲取根據(jù)第一方面中任一項的方法訓(xùn)練得到的用于進(jìn)行語音丟包補(bǔ)償?shù)纳窠?jīng)網(wǎng)絡(luò)；接收待處理音頻和上述待處理音頻對應(yīng)的丟幀位置信息；將基于上述待處理音頻和上述待處理音頻對應(yīng)的丟幀位置信息生成的輸入特征，輸入上述神經(jīng)網(wǎng)絡(luò)，得到上述待處理音頻對應(yīng)的丟包補(bǔ)償后的音頻。

12、根據(jù)第三方面，一種訓(xùn)練用于進(jìn)行語音丟包補(bǔ)償?shù)纳窠?jīng)網(wǎng)絡(luò)的裝置，其中，待訓(xùn)練神經(jīng)網(wǎng)絡(luò)包括編碼器層、中間層和解碼器層，上述中間層連接于上述編碼器層和上述解碼器層之間，上述裝置包括：獲取單元，配置為，獲取訓(xùn)練樣本集，其中，各訓(xùn)練樣本包括樣本丟包音頻、及其對應(yīng)的樣本丟幀位置信息和樣本未丟包音頻；生成單元，配置為，基于樣本丟包音頻及其對應(yīng)的樣本丟幀位置信息，生成輸入特征；第一輸入單元，配置為，將上述輸入特征輸入上述待訓(xùn)練神經(jīng)網(wǎng)絡(luò)；第二輸入單元，配置為，將上述中間層輸出的特征輸入預(yù)先訓(xùn)練的基頻預(yù)測網(wǎng)絡(luò)，由上述基頻預(yù)測網(wǎng)絡(luò)輸出預(yù)測基頻；調(diào)整單元，配置為，基于上述預(yù)測基頻以及基于樣本未丟包音頻計算得到的真實(shí)基頻，調(diào)整上述編碼器層和上述中間層的網(wǎng)絡(luò)參數(shù)。

13、根據(jù)第四方面，一種基于神經(jīng)網(wǎng)絡(luò)的語音丟包補(bǔ)償裝置，包括：模型獲取單元，配置為，獲取根據(jù)第一方面中任一項的方法訓(xùn)練得到的用于進(jìn)行語音丟包補(bǔ)償?shù)纳窠?jīng)網(wǎng)絡(luò)；接收單元，配置為，接收待處理音頻和上述待處理音頻對應(yīng)的丟幀位置信息；特征輸入單元，配置為，將基于上述待處理音頻和上述待處理音頻對應(yīng)的丟幀位置信息生成的輸入特征，輸入上述神經(jīng)網(wǎng)絡(luò)，得到上述待處理音頻對應(yīng)的丟包補(bǔ)償后的音頻。

14、根據(jù)第五方面，提供了一種計算機(jī)程序產(chǎn)品，包括計算機(jī)程序，上述計算機(jī)程序被處理器執(zhí)行時實(shí)現(xiàn)如第一方面中任一項上述的方法。

15、根據(jù)第六方面，提供了一種計算機(jī)可讀存儲介質(zhì)，其上存儲有計算機(jī)程序，當(dāng)上述計算機(jī)程序在計算機(jī)中執(zhí)行時，令上述計算機(jī)執(zhí)行第一方面中任一項上述的方法。

16、根據(jù)第七方面，提供了一種電子設(shè)備，包括存儲器和處理器，上述存儲器中存儲有可執(zhí)行代碼，上述處理器執(zhí)行上述可執(zhí)行代碼時，實(shí)現(xiàn)第一方面中任一項上述的方法。

17、根據(jù)本公開實(shí)施例提供的基于神經(jīng)網(wǎng)絡(luò)的語音丟包補(bǔ)償方法和裝置，首先，需要訓(xùn)練神經(jīng)網(wǎng)絡(luò)，其中，待訓(xùn)練神經(jīng)網(wǎng)絡(luò)可以包括編碼器層、中間層和解碼器層，該中間層連接于編碼器層和解碼器層之間。所使用的訓(xùn)練樣本包括樣本丟包音頻、及其對應(yīng)的樣本丟幀位置信息和樣本未丟包音頻。在訓(xùn)練過程中，可以基于樣本丟包音頻及其對應(yīng)的樣本丟幀位置信息生成輸入特征，并將該輸入特征輸入待訓(xùn)練神經(jīng)網(wǎng)絡(luò)。而后，可以將中間層輸出的特征輸入預(yù)先訓(xùn)練的基頻預(yù)測網(wǎng)絡(luò)，由該基頻預(yù)測網(wǎng)絡(luò)輸出預(yù)測基頻。然后，基于預(yù)測基頻以及基于樣本未丟包音頻計算得到的真實(shí)基頻，調(diào)整編碼器層和中間層的網(wǎng)絡(luò)參數(shù)。由此，可以使編碼器層和中間層的輸出更加準(zhǔn)確，進(jìn)而使訓(xùn)練得到神經(jīng)網(wǎng)絡(luò)可以更加準(zhǔn)確的進(jìn)行語音丟包補(bǔ)償。

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于神經(jīng)網(wǎng)絡(luò)的語音丟包補(bǔ)償方法，包括：

2.一種訓(xùn)練用于進(jìn)行語音丟包補(bǔ)償?shù)纳窠?jīng)網(wǎng)絡(luò)的方法，其中，待訓(xùn)練神經(jīng)網(wǎng)絡(luò)包括編碼器層、中間層和解碼器層，所述中間層連接于所述編碼器層和所述解碼器層之間，所述方法包括：

3.根據(jù)權(quán)利要求2所述的方法，其中，所述待訓(xùn)練神經(jīng)網(wǎng)絡(luò)為U-Net結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)，其中，所述中間層為所述U-Net結(jié)構(gòu)中的瓶頸層。

4.根據(jù)權(quán)利要求2所述的方法，其中，所述基頻預(yù)測網(wǎng)絡(luò)包括雙向長短期記憶網(wǎng)絡(luò)。

5.根據(jù)權(quán)利要求2所述的方法，其中，所述中間層輸出的特征包括樣本丟幀位置信息對應(yīng)的丟幀位置所對應(yīng)幀的特征，所述基頻預(yù)測網(wǎng)絡(luò)輸出的預(yù)測基頻包括丟幀位置所對應(yīng)幀的基頻。

6.根據(jù)權(quán)利要求2所述的方法，其中，所述基于樣本丟包音頻及其對應(yīng)的樣本丟幀位置信息，生成輸入特征，包括：

7.根據(jù)權(quán)利要求2所述的方法，其中，所述編碼器層包括多個編碼器，各編碼器包括門控卷積層和時頻空洞卷積層，所述時頻空洞卷積層用于通過時間維度和頻率維度的空洞卷積來提取特征。

8.根據(jù)權(quán)利要求2所述的方法，其中，所述解

9.根據(jù)權(quán)利要求8所述的方法，其中，所述至少一個判別器中包括用于判別所述樣本預(yù)測音頻為真實(shí)音頻的概率的第一判別器和用于判別所述樣本預(yù)測音頻的音頻質(zhì)量的第二判別器。

10.根據(jù)權(quán)利要求2所述的方法，其中，所述方法還包括：

11.一種訓(xùn)練用于進(jìn)行語音丟包補(bǔ)償?shù)纳窠?jīng)網(wǎng)絡(luò)的裝置，其中，待訓(xùn)練神經(jīng)網(wǎng)絡(luò)包括編碼器層、中間層和解碼器層，所述中間層連接于所述編碼器層和所述解碼器層之間，所述裝置包括：

12.一種基于神經(jīng)網(wǎng)絡(luò)的語音丟包補(bǔ)償裝置，包括：

13.一種計算機(jī)可讀存儲介質(zhì)，其上存儲有計算機(jī)程序，當(dāng)所述計算機(jī)程序在計算機(jī)中執(zhí)行時，令所述計算機(jī)執(zhí)行權(quán)利要求1-10中任一項所述的方法。

14.一種電子設(shè)備，包括存儲器和處理器，所述存儲器中存儲有可執(zhí)行代碼，所述處理器執(zhí)行所述可執(zhí)行代碼時，實(shí)現(xiàn)權(quán)利要求1-10中任一項所述的方法。

...

【技術(shù)特征摘要】

1.一種基于神經(jīng)網(wǎng)絡(luò)的語音丟包補(bǔ)償方法，包括：

3.根據(jù)權(quán)利要求2所述的方法，其中，所述待訓(xùn)練神經(jīng)網(wǎng)絡(luò)為u-net結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)，其中，所述中間層為所述u-net結(jié)構(gòu)中的瓶頸層。

4.根據(jù)權(quán)利要求2所述的方法，其中，所述基頻預(yù)測網(wǎng)絡(luò)包括雙向長短期記憶網(wǎng)絡(luò)。

6.根據(jù)權(quán)利要求2所述的方法，其中，所述基于樣本丟包音頻及其對應(yīng)的樣本丟幀位置信息，生成輸入特征，包括：

8.根據(jù)權(quán)利要求2所述的方法，其中，所述解碼器層包括多個...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：夏咸軍，張子晗，肖益劍，
申請(專利權(quán))人：北京字跳網(wǎng)絡(luò)技術(shù)有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)