【技術實現步驟摘要】
音頻數據處理方法、裝置、設備以及介質
[0001]本申請涉及音頻處理
,尤其涉及一種音頻數據處理方法、裝置、設備以及介質。
技術介紹
[0002]隨著音視頻業務應用的迅速推廣普及,用戶使用音頻業務應用分享日常音樂錄音的頻率日益增加。例如,當用戶聽著伴唱唱歌,通過具有錄音功能的設備(例如手機或者接入麥克風的聲卡設備)進行錄音時,該用戶可能處在嘈雜的環境中,或者使用的設備過于簡易,這就導致該設備所錄制的音樂錄音信號除了包括用戶的歌聲(人聲信號)、伴唱(音樂信號)之外,還可能會引入嘈雜環境中的噪聲信號、設備中的電子噪聲信號等。若是直接將未處理的音樂錄音信號分享至音頻業務應用,會導致其余用戶在音頻業務應用中播放音樂錄音信號時很難聽清用戶的歌聲,因此需要對所錄制的音樂錄音信號進行降噪處理。
[0003]目前的降噪算法需要明確噪聲類型和信號類型,如基于人聲和噪聲從信號相關性、頻譜分布特征上具有一定的特征距離,通過一些統計降噪或者深度學習降噪的方法進行噪聲抑制。然而,音樂信號的類型較多(例如,古典音樂、民族音樂、搖滾音樂等),有些音樂類型與一些環境噪聲類型相似,或者一些音樂頻譜特征與一些噪聲比較接近,采用上述降噪算法對音樂錄音信號進行降噪處理時,可能會將音樂信號誤判為噪聲信號進行抑制,或者將噪聲信號誤判別音樂信號進行保留,造成音樂錄音信號的降噪效果并不理想。
技術實現思路
[0004]本申請實施例提供一種音頻數據處理方法、裝置、設備以及介質,可以提升錄音音頻的降噪效果。
[0005]本申請實施 ...
【技術保護點】
【技術特征摘要】
1.一種音頻數據處理方法,其特征在于,包括:獲取錄音音頻;所述錄音音頻包括背景基準音頻分量、語音音頻分量以及環境噪聲分量;獲取所述錄音音頻對應的待匹配音頻指紋,根據所述待匹配音頻指紋在音頻數據庫中獲取與所述錄音音頻相匹配的原型音頻;根據所述原型音頻從所述錄音音頻中獲取候選語音音頻;所述候選語音音頻包括所述語音音頻分量和所述環境噪聲分量;將所述錄音音頻與所述候選語音音頻之間的差值,確定為所述錄音音頻中所包含的所述背景基準音頻分量;對所述候選語音音頻進行環境噪聲降噪處理,得到所述候選語音音頻對應的降噪語音音頻,將所述降噪語音音頻與所述背景基準音頻分量進行合并,得到降噪后的錄音音頻。2.根據權利要求1所述的方法,其特征在于,所述獲取所述錄音音頻對應的待匹配音頻指紋,根據所述待匹配音頻指紋在音頻數據庫中獲取與所述錄音音頻相匹配的原型音頻,包括:將所述錄音音頻劃分為M個錄音數據幀,對所述M個錄音數據幀中的第i個錄音數據幀進行頻域變換,得到所述第i個錄音數據幀對應的功率譜數據;i和M均為正整數,且i小于或等于M;將所述第i個錄音數據幀對應的功率譜數據劃分為N個頻譜帶,根據所述N個頻譜帶中的峰值信號,構建所述第i個錄音數據幀對應的子指紋信息;N為正整數;按照所述M個錄音數據幀在所述錄音音頻中的時間順序,對所述M個錄音數據幀分別對應的子指紋信息進行組合,得到所述錄音音頻對應的待匹配音頻指紋;獲取所述音頻數據庫對應的音頻指紋庫,根據所述待匹配音頻指紋在所述音頻指紋庫中進行指紋檢索,根據指紋檢索結果在所述音頻數據庫中確定與所述錄音音頻相匹配的原型音頻。3.根據權利要求2所述的方法,其特征在于,所述根據所述待匹配音頻指紋在所述音頻指紋庫中進行指紋檢索,根據指紋檢索結果在所述音頻數據庫中確定與所述錄音音頻相匹配的原型音頻,包括:將所述待匹配音頻指紋中所包含的M個子指紋信息映射為M個待匹配哈希值,獲取所述M個待匹配哈希值分別對應的錄音時間;一個待匹配哈希值所對應的錄音時間用于表征該待匹配哈希值對應的子指紋信息在所述錄音音頻中出現的時間;若所述M個待匹配哈希值中的第p個待匹配哈希值與所述音頻指紋庫所包含的第一哈希值相匹配,則獲取所述第p個待匹配哈希值對應的錄音時間與所述第一哈希值對應的時間信息之間的第一時間差;p為小于或等于M的正整數;若所述M個待匹配哈希值中的第q個待匹配哈希值與所述音頻指紋庫所包含的第二哈希值相匹配,則獲取所述第q個待匹配哈希值對應的錄音時間與所述第二哈希值對應的時間信息之間的第二時間差;q為小于或等于M的正整數;當所述第一時間差和所述第二時間差滿足數值閾值,且所述第一哈希值和所述第二哈希值屬于相同的音頻指紋時,將所述第一哈希值所屬的音頻指紋確定為所述指紋檢索結果,將所述指紋檢索結果所對應的音頻數據確定為所述錄音音頻對應的原型音頻。
4.根據權利要求1所述的方法,其特征在于,所述根據所述原型音頻從所述錄音音頻中獲取候選語音音頻,包括:獲取所述錄音音頻對應的錄音功率譜數據,對所述錄音功率譜數據進行歸一化處理,得到第一頻譜特征;獲取所述原型音頻對應的原型功率譜數據,對所述原型功率譜數據進行歸一化處理,得到第二頻譜特征,將所述第一頻譜特征和所述第二頻譜特征組合為輸入特征;將所述輸入特征輸入至第一深度網絡模型,通過所述第一深度網絡模型輸出針對所述錄音音頻的第一頻點增益;根據所述第一頻點增益和所述錄音功率譜數據,獲取所述錄音音頻中所包含的候選語音音頻。5.根據權利要求4所述的方法,其特征在于,所述將所述輸入特征輸入至第一深度網絡模型,通過所述第一深度網絡模型輸出第一頻點增益,包括:將所述輸入特征輸入至第一深度網絡模型,根據所述第一深度網絡模型中的特征提取網絡層,獲取所述輸入特征對應的時序分布特征;根據所述第一深度網絡模型中的全連接網絡層,獲取所述時序分布特征對應的目標特征向量,通過所述第一深度網絡模型中的激活層,輸出所述第一頻點增益。6.根據權利要求4所述的方法,其特征在于,所述第一頻點增益包括T個頻點分別對應的語音增益,所述錄音功率譜數據包括所述T個頻點分別對應的能量值,T個語音增益與T個能量值一一對應;T為大于1的正整數;所述根據所述第一頻點增益和所述錄音功率譜數據,獲取所述錄音音頻中所包含的候選語音音頻,包括:根據所述第一頻點增益中的所述T個頻點分別對應的語音增益,對所述錄音功率譜數據中屬于相同頻點的能量值進行加權,得到所述T個頻點分別對應的加權能量值;根據所述T個頻點分別對應的加權能量值,確定所述錄音音頻對應的加權錄音頻域信號;對所述加權錄音頻域信號進行時域變換,得到所述錄音音頻中所包含的所述候選語音音頻。7.根據權利要求1所述的方法,其特征在于,所述對所述候選語音音頻進行環境噪聲降噪處理,得到所述候選語音音頻對應的降噪語音音頻,包括:獲取所述候選語音音頻對應的語音功率譜數據,將所述語音功率譜數據輸入至第二深度網絡模型,通過所述第二深度網絡模型輸出針對所述候選語音音頻的第二頻點增益;根據所述第二頻點增益與所述語音功率譜數據,獲取所述候選語音音頻對應的加權語音頻域信號;對所述加權語音頻域信號進行時域變換,得到所述候選語音音頻對應的所述降噪語音音頻。8.根據權利要求1所述的方法,其特征在于,還包括...
【專利技術屬性】
技術研發人員:梁俊斌,
申請(專利權)人:騰訊科技深圳有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。