音頻編解碼方法及其裝置制造方法及圖紙

技術編號：44514802 閱讀：3 留言：0更新日期：2025-03-07 13:10

本公開實施例提供了一種音頻編解碼方法及其裝置，涉及人工智能領域。一種音頻編碼方法包括：獲得音頻信號的時頻譜；使用第一人工智能AI網絡，基于所述音頻信號的時頻譜，提取時域方向和頻域方向的特征；基于所述時域方向和頻域方向的特征對所述音頻信號進行編碼。可選地，由電子設備執行的上述方法可以使用人工智能模型來執行。

全部詳細技術資料下載

【技術實現步驟摘要】

本公開涉及音頻編解碼領域，具體而言，本公開涉及一種音頻編解碼方法、裝置、電子設備以及計算機可讀存儲介質。

技術介紹

1、音頻編碼由于網絡帶寬和存儲限制在數據流量快速增長的時代變得越來越重要。有損音頻壓縮旨在可接受的失真條件下，通過將音頻壓縮為緊湊的比特流表示來降低音頻信號的比特率。

2、近年來，深度神經網絡已被引入到音頻編解碼中。然而，目前大部分基于深度學習的音頻編解碼方案所獲得的比特流仍包含較多冗余信息，因此，需要進一步提高音頻編解碼效率。

技術實現思路

1、本公開的目的旨在至少能解決現有音頻編解碼方式中的技術缺陷之一，以更好的滿足音頻編解碼需求。為了實現該目的，本公開提出的技術方案如下：

2、根據本公開實施例的第一方面，提供了一種音頻編碼方法，所述音頻編碼方法包括：獲得音頻信號的時頻譜；使用第一人工智能ai網絡，基于所述音頻信號的時頻譜，提取時域方向和頻域方向的特征；基于所述時域方向和頻域方向的特征對所述音頻信號進行編碼。

3、可選地，所述第一ai網絡包括至少一個卷積模塊、至少一個頻域特征提取模塊以及至少一個時域特征提取模塊；使用第一ai網絡，基于所述音頻信號的時頻譜，提取時域方向和頻域方向的特征，包括：基于所述時頻譜，使用所述至少一個卷積模塊進行卷積處理，獲得所述音頻信號的第一特征；基于所述第一特征，使用所述至少一個頻域特征提取模塊，獲得所述音頻信號的頻域方向的特征；基于所述頻域方向的特征，使用所述至少一個時域特征提取模塊，獲得所述音頻信號

4、可選地，基于所述時頻譜，使用所述至少一個卷積模塊進行卷積處理，獲得所述音頻信號的第一特征，包括：利用所述至少一個卷積模塊的卷積層中的第一卷積核分別對所述時頻譜的實部特征和虛部特征進行卷積運算，得到第一卷積特征和第二卷積特征；利用所述卷積層中的第二卷積核分別對所述時頻譜的實部特征和虛部特征進行卷積運算，得到第三卷積特征和第四卷積特征；基于所述第一卷積特征和所述第四卷積特征，得到所述第一特征的實部特征；基于所述第二卷積特征和所述第三卷積特征，得到所述第一特征的虛部特征。

5、可選地，所述至少一個卷積模塊中的每一個為復數卷積塊，所述卷積層為復數卷積層。

6、可選地，基于所述第一特征，使用所述至少一個頻域特征提取模塊，獲得所述音頻信號的頻域方向的特征，包括：利用所述至少一個頻域特征提取模塊的第一自注意力網絡分別對所述第一特征的實部特征和虛部特征進行特征提取，得到第一頻率相關特征和第二頻率相關特征；利用所述至少一個頻域特征提取模塊的第二自注意力網絡分別對所述第一特征的實部特征和虛部特征進行特征提取，得到第三頻率相關特征和第四頻率相關特征；基于所述第一頻率相關特征和所述第四頻率相關特征，得到所述頻域方向的特征的實部特征；基于所述第二頻率相關特征和所述第三頻率相關特征，得到所述頻域方向的特征的虛部特征。

7、可選地，所述第一自注意力網絡和所述第二自注意力網絡使用多頭自注意力網絡。

8、可選地，基于所述頻域方向的特征，使用所述至少一個時域特征提取模塊，獲得所述音頻信號的時域方向和頻域方向的特征，包括：利用所述至少一個時域特征提取模塊的第一長短期記憶網絡分別對所述頻域方向的特征的實部特征和虛部特征進行特征提取，得到第一時間相關特征和第二時間相關特征；利用所述至少一個時域特征提取模塊的第二長短期記憶網絡分別對所述頻域方向的特征的實部特征和虛部特征進行特征提取，得到第三時間相關特征和第四時間相關特征；基于所述第一時間相關特征和所述第四時間相關特征，得到所述時域方向和頻域方向的特征的實部特征；基于所述第二時間相關特征和所述第三時間相關特征，得到所述時域方向和頻域方向的特征的虛部特征。

9、可選地，基于所述時域方向和頻域方向的特征對所述音頻信號進行編碼，包括：對所述時域方向和頻域方向的特征進行基于目標比特率的量化，得到所述時域方向和頻域方向的特征的量化特征；從碼書中確定與所述量化特征對應的索引值；將所述索引值編碼為比特流。

10、根據本公開實施例的第二方面，提供了一種音頻解碼方法，所述音頻解碼方法包括：從比特流獲取音頻信號的時域方向和頻域方向的特征；使用第二人工智能ai網絡，基于所述時域方向和頻域方向的特征，獲得所述音頻信號的時頻譜；基于所述音頻信號的時頻譜，獲得所述音頻信號。

11、可選地，所述第二ai網絡包括至少一個時域特征提取模塊、至少一個轉置卷積模塊以及至少一個頻域特征提取模塊；使用第二人工智能ai網絡，基于所述時域方向和頻域方向的特征，獲得所述音頻信號的時頻譜，包括：基于所述時域方向和頻域方向的特征，使用所述至少一個時域特征提取模塊，獲得所述音頻信號的頻域方向的特征；基于所述頻域方向的特征，使用所述至少一個頻域特征提取模塊，獲得所述音頻信號的第一特征；基于所述第一特征，使用所述至少一個轉置卷積模塊進行轉置卷積運算，獲得所述音頻信號的時頻譜。

12、可選地，基于所述時域方向和頻域方向的特征，使用所述至少一個時域特征提取模塊，獲得所述音頻信號的頻域方向的特征，包括：利用所述至少一個時域特征提取模塊的第一長短期記憶網絡分別對所述時域方向和頻域方向的特征的實部特征和虛部特征進行特征提取，得到第一時間相關特征和第二時間相關特征；利用所述至少一個時域特征提取模塊的第二長短期記憶網絡分別對所述時域方向和頻域方向的特征的實部特征和虛部特征進行特征提取，得到第三時間相關特征和第四時間相關特征；基于所述第一時間相關特征和所述第四時間相關特征，得到所述頻域方向的特征的實部特征；基于所述第二時間相關特征和所述第三時間相關特征，得到所述頻域方向的特征的虛部特征。

13、可選地，基于所述頻域方向的特征，使用所述至少一個頻域特征提取模塊，獲得所述音頻信號的第一特征，包括：利用所述至少一個頻域特征提取模塊的第一自注意力網絡分別對所述頻域方向的特征的實部特征和虛部特征進行特征提取，得到第一頻率相關特征和第二頻率相關特征；利用所述至少一個頻域特征提取模塊的第二自注意力網絡分別對所述頻域方向的特征的實部特征和虛部特征進行特征提取，得到第三頻率相關特征和第四頻率相關特征；基于所述第一頻率相關特征和所述第四頻率相關特征，得到所述第一特征的實部特征；基于所述第二頻率相關特征和所述第三頻率相關特征，得到所述第一特征的虛部特征。

14、可選地，所述第一自注意力網絡和所述第二自注意力網絡使用多頭自注意力網絡。

15、可選地，基于所述第一特征，使用所述至少一個轉置卷積模塊進行轉置卷積運算，獲得所述音頻信號的時頻譜，包括：利用所述至少一個轉置卷積模塊的卷積層中的第一卷積核分別對所述第一特征的實部特征和虛部特征進行轉置卷積運算，得到第一卷積特征和第二卷積特征；利用所述卷積層中的第二卷積核分別對所述第一特征的實部特征和虛部特征進行轉置卷積運算，得到第三卷積特征和第四卷積特征；基于所述第一卷積特征和所述第四卷積特征，得到所述時頻譜的本文檔來自技高網...

【技術保護點】

1.一種音頻編碼方法，其特征在于，所述音頻編碼方法包括：

2.根據權利要求1所述的音頻編碼方法，其特征在于，所述第一AI網絡包括至少一個卷積模塊、至少一個頻域特征提取模塊以及至少一個時域特征提取模塊；

3.根據權利要求2所述的音頻編碼方法，其特征在于，基于所述時頻譜，使用所述至少一個卷積模塊進行卷積處理，獲得所述音頻信號的第一特征，包括：

4.根據權利要求3所述的音頻編碼方法，其特征在于，所述至少一個卷積模塊中的每一個為復數卷積塊，所述卷積層為復數卷積層。

5.根據權利要求2所述的音頻編碼方法，其特征在于，基于所述第一特征，使用所述至少一個頻域特征提取模塊，獲得所述音頻信號的頻域方向的特征，包括：

6.根據權利要求5所述的音頻編碼方法，其特征在于，所述第一自注意力網絡和所述第二自注意力網絡使用多頭自注意力網絡。

7.根據權利要求2所述的音頻編碼方法，其特征在于，基于所述頻域方向的特征，使用所述至少一個時域特征提取模塊，獲得所述音頻信號的時域方向和頻域方向的特征，包括：

8.根據權利要求1所述的音頻

9.一種音頻解碼方法，其特征在于，所述音頻解碼方法包括：

10.根據權利要求9所述的音頻解碼方法，其特征在于，所述第二AI網絡包括至少一個時域特征提取模塊、至少一個轉置卷積模塊以及至少一個頻域特征提取模塊；

11.根據權利要求10所述的音頻解碼方法，其特征在于，基于所述時域方向和頻域方向的特征，使用所述至少一個時域特征提取模塊，獲得所述音頻信號的頻域方向的特征，包括：

12.根據權利要求10所述的音頻解碼方法，其特征在于，基于所述頻域方向的特征，使用所述至少一個頻域特征提取模塊，獲得所述音頻信號的第一特征，包括：

13.根據權利要求12所述的音頻解碼方法，其特征在于，所述第一自注意力網絡和所述第二自注意力網絡使用多頭自注意力網絡。

14.根據權利要求10所述的音頻解碼方法，其特征在于，基于所述第一特征，使用所述至少一個轉置卷積模塊進行轉置卷積運算，獲得所述音頻信號的時頻譜，包括：

15.根據權利要求14所述的音頻解碼方法，其特征在于，所述至少一個轉置卷積模塊的每一個是復數轉置卷積模塊，所述卷積層是復數卷積層。

16.根據權利要求9所述的音頻解碼方法，其特征在于，從比特流獲取音頻信號的時域方向和頻域方向的特征，包括：

17.根據權利要求9所述的音頻解碼方法，還包括：

18.一種電子設備，包括：

19.一種存儲指令的計算機可讀存儲介質，其特征在于，當所述指令被至少一個處理器運行時，促使所述至少一個處理器執行如權利要求1到17中的任一權利要求所述的方法。

...

【技術特征摘要】

1.一種音頻編碼方法，其特征在于，所述音頻編碼方法包括：

2.根據權利要求1所述的音頻編碼方法，其特征在于，所述第一ai網絡包括至少一個卷積模塊、至少一個頻域特征提取模塊以及至少一個時域特征提取模塊；

4.根據權利要求3所述的音頻編碼方法，其特征在于，所述至少一個卷積模塊中的每一個為復數卷積塊，所述卷積層為復數卷積層。

6.根據權利要求5所述的音頻編碼方法，其特征在于，所述第一自注意力網絡和所述第二自注意力網絡使用多頭自注意力網絡。

8.根據權利要求1所述的音頻編碼方法，其特征在于，基于所述時域方向和頻域方向的特征對所述音頻信號進行編碼，包括：

9.一種音頻解碼方法，其特征在于，所述音頻解碼方法包括：

10.根據權利要求9所述的音頻解碼方法，其特征在于，所述第二ai網絡包括至少一...

【專利技術屬性】
技術研發人員：汝家偉，王立眾，賈懋珅，溫亮，
申請(專利權)人：北京三星通信技術研究有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術