本發(fā)明專利技術(shù)實施例公開了一種音頻處理方法、裝置及存儲介質(zhì)。該方案可以獲取待處理音頻信號,待處理音頻信號包括截幅失真部分,獲取預(yù)先訓(xùn)練完成的目標(biāo)序列生成模型,其中目標(biāo)序列生成模型為對失真音頻信號樣本訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型,且目標(biāo)序列生成模型包括非因果膨脹卷積層,將待處理音頻信號輸入至目標(biāo)序列生成模型,以使非因果膨脹卷積層依據(jù)截幅失真部分前后的音頻信號對截幅失真部分進行修復(fù),得到修復(fù)后的音頻信號。本申請實施例所提供的方案可以針對待修復(fù)的截幅失真的音頻,通過預(yù)測模型進行音頻信號修復(fù),從而提升音頻音質(zhì)。
【技術(shù)實現(xiàn)步驟摘要】
音頻處理方法、裝置及存儲介質(zhì)
本專利技術(shù)涉及數(shù)據(jù)處理
,具體涉及一種音頻處理方法、裝置及存儲介質(zhì)。
技術(shù)介紹
隨著Internet技術(shù)不斷發(fā)展,如短視頻,直播平臺的興起,個人制作的音頻信號得到更多的傳播,而這些音頻由于錄制環(huán)境,設(shè)備等,較容易產(chǎn)生截幅失真的現(xiàn)象。原因是由于電路和音響單元對輸入的音頻信號的幅度有限制,在通過硬件電路錄制音頻的過程中,需要將音頻信號的最大幅度限制在電路和音響單元的允許范圍內(nèi)。因此,當(dāng)音頻數(shù)據(jù)的幅度超過電路和音響單元的允許范圍時,將會產(chǎn)生截幅失真,所造成的失真損害了音頻的音質(zhì)。在現(xiàn)有的技術(shù)當(dāng)中,傳統(tǒng)的音頻截幅失真修復(fù)方法重點放在音頻信號處理上,如利用曲線擬合,基于AR(AutoRegressive,自回歸)模型以及最小均方誤差的算法,此種修復(fù)方法存在以下的一些局限性。比如截幅失真持續(xù)時間較小時效果較好,若持續(xù)時間較長,其效果不是很理想,并且對語音音頻的處理效果較好,但對音樂來說則效果較差。
技術(shù)實現(xiàn)思路
本專利技術(shù)實施例提供一種音頻處理方法、裝置及存儲介質(zhì),可以針對待修復(fù)的截幅失真的音頻,通過預(yù)測模型進行音頻信號修復(fù),從而提升音頻音質(zhì)。本專利技術(shù)實施例提供一種音頻處理方法,包括:獲取待處理音頻信號,所述待處理音頻信號包括截幅失真部分;獲取預(yù)先訓(xùn)練完成的目標(biāo)序列生成模型,其中所述目標(biāo)序列生成模型為對失真音頻信號樣本訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型,且所述目標(biāo)序列生成模型包括非因果膨脹卷積層;將所述待處理音頻信號輸入至所述目標(biāo)序列生成模型,以使所述非因果膨脹卷積層依據(jù)所述截幅失真部分前后的音頻信號對所述截幅失真部分進行修復(fù),得到修復(fù)后的音頻信號。本專利技術(shù)實施例還提供一種音頻處理裝置,包括:第一獲取單元,用于獲取待處理音頻信號,所述待處理音頻信號包括截幅失真部分;第二獲取單元,用于獲取預(yù)先訓(xùn)練完成的目標(biāo)序列生成模型,其中所述目標(biāo)序列生成模型為對失真音頻信號樣本訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型,且所述目標(biāo)序列生成模型包括非因果膨脹卷積層;修復(fù)單元,用于將所述待處理音頻信號輸入至所述目標(biāo)序列生成模型,以使所述非因果膨脹卷積層依據(jù)所述截幅失真部分前后的音頻信號對所述截幅失真部分進行修復(fù),得到修復(fù)后的音頻信號。本專利技術(shù)實施例還提供一種存儲介質(zhì),所述存儲介質(zhì)存儲有多條指令,所述指令適于處理器進行加載,以執(zhí)行本專利技術(shù)實施例所提供的任一音頻處理方法。本專利技術(shù)實施例提供的音頻處理方案,可以獲取待處理音頻信號,待處理音頻信號包括截幅失真部分,獲取預(yù)先訓(xùn)練完成的目標(biāo)序列生成模型,其中目標(biāo)序列生成模型為對失真音頻信號樣本訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型,且目標(biāo)序列生成模型包括非因果膨脹卷積層,將待處理音頻信號輸入至目標(biāo)序列生成模型,以使非因果膨脹卷積層依據(jù)截幅失真部分前后的音頻信號對截幅失真部分進行修復(fù),得到修復(fù)后的音頻信號。本申請實施例所提供的方案可以針對待修復(fù)的截幅失真的音頻,通過預(yù)測模型進行音頻信號修復(fù),從而提升音頻音質(zhì)。附圖說明為了更清楚地說明本專利技術(shù)實施例中的技術(shù)方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術(shù)的一些實施例,對于本領(lǐng)域技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1a是本專利技術(shù)實施例提供的音頻處理方法的第一流程示意圖;圖1b是本專利技術(shù)實施例提供的音頻處理方法的第二流程示意圖;圖1c是本專利技術(shù)實施例提供的現(xiàn)有模型結(jié)構(gòu)示意圖;圖1d是本專利技術(shù)實施例提供的因果膨脹卷積層的結(jié)構(gòu)示意圖;圖2a是本專利技術(shù)實施例提供的音頻處理裝置的第一種結(jié)構(gòu)示意圖;圖2b是本專利技術(shù)實施例提供的音頻處理裝置的第二種結(jié)構(gòu)示意圖;圖3是本專利技術(shù)實施例提供的服務(wù)器的結(jié)構(gòu)示意圖。具體實施方式下面將結(jié)合本專利技術(shù)實施例中的附圖,對本專利技術(shù)實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本專利技術(shù)一部分實施例,而不是全部的實施例。基于本專利技術(shù)中的實施例,本領(lǐng)域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本專利技術(shù)保護的范圍。在本文中提及“實施例”意味著,結(jié)合實施例描述的特定特征、結(jié)構(gòu)或特性可以包含在本專利技術(shù)的至少一個實施例中。在說明書中的各個位置出現(xiàn)該短語并不一定均是指相同的實施例,也不是與其它實施例互斥的獨立的或備選的實施例。本領(lǐng)域技術(shù)人員顯式地和隱式地理解的是,本文所描述的實施例可以與其它實施例相結(jié)合。本專利技術(shù)實施例提供一種音頻處理方法,該音頻處理方法的執(zhí)行主體可以是本專利技術(shù)實施例提供的音頻處理裝置,或者集成了該音頻處理裝置的服務(wù)器,其中該音頻處理裝置可以采用硬件或者軟件的方式實現(xiàn)。如圖1a所示,圖1a是本專利技術(shù)實施例提供的音頻處理方法的第一流程示意圖,該音頻處理方法的具體流程可以如下:101、獲取待處理音頻信號,待處理音頻信號包括截幅失真部分。在一實施例中,上述待處理音頻信號包括截幅失真部分,因此可以在獲取到待處理音頻信號之后,提取該信號中的截幅失真部分。比如先將包含截幅失真的待處理音頻信號輸入到檢測系統(tǒng)當(dāng)中,首先可以先對其進行全局掃描得到峰值大小,然后根據(jù)實際截幅類型選擇適當(dāng)?shù)亩秳又担渲校瑪?shù)字截幅抖動值為零,模擬截幅則根據(jù)其截幅程度選擇合適值,最后由檢測系統(tǒng)得出截幅失真起始點以及終點信息,根據(jù)上述截幅失真起始點以及終點信息即可得到待處理音頻信號的截幅失真數(shù)據(jù)。102、獲取預(yù)先訓(xùn)練完成的目標(biāo)序列生成模型,其中目標(biāo)序列生成模型為對失真音頻信號樣本訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型,且目標(biāo)序列生成模型包括非因果膨脹卷積層。具體的,上述目標(biāo)序列生成模型的訓(xùn)練過程包括:獲取原始音頻信號樣本,并對所述原始音頻信號樣本進行截幅失真處理得到失真音頻信號樣本,獲得包括非因果膨脹卷積層的預(yù)設(shè)序列生成模型,將所述失真音頻信號樣本輸入至所述預(yù)設(shè)序列生成模型,以使所述非因果膨脹卷積層依據(jù)所述失真音頻信號樣本中失真樣本點前后的音頻信號對所述失真樣本點進行修復(fù),得到預(yù)測音頻信號樣本,將所述預(yù)測音頻信號樣本與所述原始音頻信號樣本進行比對,依據(jù)比對結(jié)果調(diào)整所述預(yù)設(shè)序列生成模型的模型參數(shù),以得到由調(diào)整后的模型參數(shù)所表示的目標(biāo)序列生成模型。具體的,上述原始音頻信號樣本為正常音頻信號,也即未發(fā)生截幅失真的音頻信號,上述失真音頻信號樣本為對原始音頻信號樣本進行截幅失真處理得到信號,在本申請實施例中可以通過預(yù)設(shè)算法來進行截幅失真處理。其中,截幅失真處理仿照音頻文件的生成過程中的截幅操作,對原始音頻信號樣本的峰值進行截幅,從而在峰值處多個連續(xù)的采樣點幅值都相同。在一實施例中,可以在上述截幅失真處理過后,檢測生成的失真音頻信號樣本是否包含截幅失真,具體可以獲取失真音頻信號樣本源文件中某一峰值對應(yīng)的采樣點,失真音頻信號樣本源文件中某一峰值對應(yīng)的采樣點為多個連續(xù)采樣點,且這多個連續(xù)采樣點的長度大于某一閾值,則確定上述失真音頻信號樣本的源文件中包含截幅失真。其中,在對原始音頻信號樣本進行截幅失真處理時也本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種音頻處理方法,其特征在于,包括:/n獲取待處理音頻信號,所述待處理音頻信號包括截幅失真部分;/n獲取預(yù)先訓(xùn)練完成的目標(biāo)序列生成模型,其中所述目標(biāo)序列生成模型為對失真音頻信號樣本訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型,且所述目標(biāo)序列生成模型包括非因果膨脹卷積層;/n將所述待處理音頻信號輸入至所述目標(biāo)序列生成模型,以使所述非因果膨脹卷積層依據(jù)所述截幅失真部分前后的音頻信號對所述截幅失真部分進行修復(fù),得到修復(fù)后的音頻信號。/n
【技術(shù)特征摘要】
1.一種音頻處理方法,其特征在于,包括:
獲取待處理音頻信號,所述待處理音頻信號包括截幅失真部分;
獲取預(yù)先訓(xùn)練完成的目標(biāo)序列生成模型,其中所述目標(biāo)序列生成模型為對失真音頻信號樣本訓(xùn)練得到的神經(jīng)網(wǎng)絡(luò)模型,且所述目標(biāo)序列生成模型包括非因果膨脹卷積層;
將所述待處理音頻信號輸入至所述目標(biāo)序列生成模型,以使所述非因果膨脹卷積層依據(jù)所述截幅失真部分前后的音頻信號對所述截幅失真部分進行修復(fù),得到修復(fù)后的音頻信號。
2.如權(quán)利要求1所述的音頻處理方法,其特征在于,所述目標(biāo)序列生成模型的訓(xùn)練過程包括:
獲取原始音頻信號樣本,并對所述原始音頻信號樣本進行截幅失真處理得到失真音頻信號樣本;
獲得包括非因果膨脹卷積層的預(yù)設(shè)序列生成模型;
將所述失真音頻信號樣本輸入至所述預(yù)設(shè)序列生成模型,以使所述非因果膨脹卷積層依據(jù)所述失真音頻信號樣本中失真樣本點前后的音頻信號對所述失真樣本點進行修復(fù),得到預(yù)測音頻信號樣本;
將所述預(yù)測音頻信號樣本與所述原始音頻信號樣本進行比對,依據(jù)比對結(jié)果調(diào)整所述預(yù)設(shè)序列生成模型的模型參數(shù),以得到由調(diào)整后的模型參數(shù)所表示的目標(biāo)序列生成模型。
3.如權(quán)利要求2所述的音頻處理方法,其特征在于,對所述原始音頻信號樣本進行截幅失真處理得到失真音頻信號樣本的步驟,包括:
獲取所述原始音頻信號樣本的時域波形,并根據(jù)所述時域波形判斷所述原始音頻信號樣本是否存在截幅失真;
若不存在,則在所述原始音頻信號樣本當(dāng)中選取目標(biāo)幅值,以及根據(jù)所述目標(biāo)幅值生成失真樣本點,以得到失真音頻信號樣本。
4.如權(quán)利要求3所述的音頻處理方法,其特征在于,根據(jù)所述預(yù)設(shè)幅值生成失真樣本點的步驟,包括:
基于預(yù)設(shè)公式對所述原始音頻信號樣本中的預(yù)設(shè)幅值進行截幅失真處理,其中所述預(yù)設(shè)公式為:
其中,s(t)表示原始音頻信號樣本中的樣本點;M表示目標(biāo)幅值,且所述目標(biāo)幅值為所述原始音頻信號樣本s的最大幅值;β表示閾值。
5.如權(quán)利要求2所述的音頻處理方法,其特征在于,將所述預(yù)測音頻信號樣本與所述原始音頻信號樣本進行比對,依據(jù)比對結(jié)果調(diào)整所述預(yù)設(shè)序列生成模型的模型參數(shù)的步驟,包括:
計算所述預(yù)測音頻信號樣本與所述原始音頻信號樣本的最小均方...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:陳洲旋,
申請(專利權(quán))人:騰訊音樂娛樂科技深圳有限公司,
類型:發(fā)明
國別省市:廣東;44
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。