本發明專利技術涉及一種用于對音頻信號進行編碼的方法,這些音頻信號在階數高于0的高保真立體聲表示的n個聲道中的每一個聲道中在時間上形成一系列樣本幀(t?1,t),該方法包括:?針對要編碼的當前幀,確定指示要對該當前幀的信號應用的解相關處理操作的活動或非活動模式的二進制值,并且將該值編碼到比特流中;?在模式被確定為活動的情況下,將解相關處理信息編碼到該比特流中;?根據為該當前幀確定的模式和為前一幀確定的模式,生成輸出信號以將其編碼到該比特流中。本發明專利技術還涉及一種對應的解碼方法,并且涉及實施相應的編碼方法和解碼方法的編碼設備和解碼設備。
【技術實現步驟摘要】
【國外來華專利技術】
本專利技術涉及空間化聲音數據的編碼/解碼,尤其是在立體混響背景下(下文也表示為“高保真立體聲(ambisonic)”)。
技術介紹
1、目前在移動電話中使用的編碼器/解碼器(下文稱為“編解碼器”)是單聲道的(用于在單一揚聲器上呈現的單個信號聲道)。3gpp?evs(代表“增強型語音服務”)編解碼器允許提供“超hd”(也稱為“高清加”或hd+語音)音質,其中,為以32khz或48khz采樣的信號提供swb(代表“超寬帶”)音頻帶或者為以48khz采樣的信號提供fb(代表“全帶”);音頻帶寬的范圍在swb模式(9.6kbit/s至128kbit/s)下為從14.4khz至16khz,并且在fb模式(16.4kbit/s至128kbit/s)下為20khz以上。
2、由運營商提供的會話服務的下一質量演變應該由沉浸式服務(這些沉浸式服務使用如配備有多個麥克風的智能手機等終端)、或者遠程呈現或360°視頻類型的空間化音頻會議或視頻會議設備、或者甚至具有比簡單的2d立體聲呈現更加沉浸式的3d空間化聲音呈現的“實時”音頻內容共享設備組成。隨著音頻頭戴式耳機在移動電話上的使用日益廣泛以及先進的音頻設備(如3d麥克風、具有聲學天線的語音助手、虛擬現實頭戴式耳機等附件)的出現,捕獲并呈現空間化聲音場景以提供沉浸式通信體驗如今已經足夠普遍。
3、在這方面,未來的標準3gpp“ivas”(代表“沉浸式語音和音頻服務”)包括通過接受至少以下所列的空間化聲音格式(及其組合)作為編解碼器的輸入格式來將evs編解碼器擴展為沉浸式的:p>4、-立體聲或5.1類型的基于聲道的格式,其中,每個聲道供應一個揚聲器(例如,立體聲中的l和r或5.1中的l、r、ls、rs和c);
5、-基于對象的格式,其中,聲音對象被描述為與描述該對象的屬性(空間中的位置、源空間寬度等)的元數據相關聯的音頻信號(通常是單聲道的),
6、-基于場景的格式,該格式描述了給定點的聲場,該聲場通常由球形麥克風捕獲或在球諧函數域中合成。
7、通過示例性實施例,下文中的重點通常是以基于場景的(或高保真立體聲)格式對聲音進行編碼(其中,下文中關于本專利技術呈現的至少某些方面還可以應用于除了基于場景的格式之外的格式)。
8、高保真立體聲是錄制(聲學意義上的“編碼”)空間化聲音以及進行再現(聲學意義上的“解碼”)的方法。高保真立體聲麥克風(1階)包括布置在球面網格(例如正四面體的頂點)上的至少四個振膜艙(典型地為心型或亞心型)。與這些振膜艙相關聯的音頻聲道被稱為“a格式”。該格式被轉換成“b格式”,其中,聲場分解為以w、x、y、z表示的四個分量(球諧函數),這四個分量與四個重合的虛擬麥克風相對應。分量w與聲場的全向捕獲相對應,而更具方向性的分量x、y和z可以被認為是沿著三個空間正交軸定向的壓力梯度麥克風。高保真立體聲系統在錄音和呈現分開并且分離的意義上是一種靈活的系統。其允許對任何給定配置的揚聲器(例如,雙耳、5.1類型“環繞”聲或7.1.4類型的全向聲(具有仰角))進行(聲學意義上的)解碼。高保真立體聲方法可以一般化為四個以上b格式聲道,并且這種一般化表示通常被稱為“hoa”(代表“高階高保真立體聲”)。將聲音分解成更多的球諧函數改善了在揚聲器上呈現時的空間精準度。
9、m階高保真立體聲信號包括k=(m+1)2個分量,并且在1階(如果m=1)時(通常被稱為foa(代表一階高保真立體聲))有四個分量w、x、y和z被恢復。還存在稱為“平面”的高保真立體聲變體(w、x、y),該“平面”高保真立體聲變體對在通常是水平面的平面上定義的聲音進行分解。在這種情況下,分量的數量是k=2m+1個聲道。為了便于閱讀,1階高保真立體聲(4個聲道:w、x、y、z)、1階平面高保真立體聲(3個聲道:w、x、y)、更高階高保真立體聲在下文中均以“高保真立體聲”表示,所呈現的處理操作無論類型、平面或其他方面以及高保真立體聲分量的數量如何都是適用的。
10、在下文中,“高保真立體聲信號”將指具有一定數量的高保真立體聲分量的預定順序的b格式信號。這還包括混合情況,其中,例如,在2階時,僅存在8個聲道(而不是9個)——更確切地,在2階時,存在4個1階聲道(w、x、y、z),通常會加上5個聲道(通常表示為r、s、t、u、v),并且其中一個高階聲道(例如r)可能例如會被忽略。這還包括高保真立體聲信號已經經歷預處理以便在編碼之前將其變換為預處理聲道的情況。
11、要由編碼器/解碼器處理的信號采用連續的聲音樣本塊的形式,下文中稱為“幀”或“子幀”。
12、此外,在下文中,數學符號遵循以下慣例:
13、-標量:s或n(小寫字母用于變量或大寫字母用于常量)
14、-運算符re(.)表示復數的實部
15、-向量:u(小寫字母,粗體)
16、-矩陣:a(大寫字母,粗體)
17、符號和分別指示的轉置和埃爾米特轉置(轉置和共軛)。
18、在長度為l的時間間隔i=0,…,l-1內定義的一維離散時間信號s(i)用以下行向量表示
19、
20、這也可以寫成:以避免使用圓括號。
21、-在長度為l的時間間隔i=0,…,l-1內定義并具有k個維度的多維度離散時間信號用以下大小為l×k的矩陣表示:
22、
23、這也可以寫成:以避免使用圓括號。
24、此外,此處沒有提起從現有高保真立體聲技術中已知的關于高保真立體聲分量(包括acn(代表“高保真立體聲聲道數量”)、sid(代表“單一指數命名”)、fuma(代表“弗斯-馬哈姆(furse-malham)”))的階數以及高保真立體聲分量(sn3d、n3d、maxn)的歸一化的慣例。更多細節可以見于例如可在線獲得的資源:
25、https://en.wikipedia.org/wiki/ambisonic_data_exchange_formats
26、按照慣例,高保真立體聲信號的第一分量通常對應于全向分量w。
27、用于對高保真立體聲信號進行編碼的最簡單的方法在于使用單聲道編碼器,并且將單聲道編碼器單獨應用于各個聲道中的每一個,同時潛在地根據聲道分配不同的比特。此處該方法被稱為“多單聲道”。多單聲道方法可以擴展到多立體聲編碼(其中,聲道對由立體聲編解碼器單獨編碼)或者更一般地擴展到使用相同核心編解碼器的多個相似實例。輸入信號被劃分為聲道(一個單聲道或若干聲道)。這些聲道根據預定分布和二進制分配被單獨編碼。在解碼時,根據輸入信號的慣例對解碼后的聲道進行重新組合。
28、多單聲道或多立體聲編碼的質量取決于所使用的核心編碼和解碼而變化,并且通常只有在非常高的速率下才能令人滿意。例如,在多單聲道的情況下,evs編碼在速率為至少每聲道(單聲道)48kbit/s時可以被判定為準透明(從感知的角度來看);因此,對于1階高保真立體聲信號,最低速率為4×48=1本文檔來自技高網
...
【技術保護點】
1.一種用于對音頻信號進行編碼的方法,這些音頻信號在作為階數高于0的高保真立體聲表示的n個聲道中的每一個聲道中在時間上形成一系列樣本幀(t-1,t),該方法包括:
2.如權利要求1所述的方法,其中,對指示活動或非活動模式的該二進制值的確定是根據用于在解相關處理之前和之后對信號進行編碼的至少一個增益標準來執行的。
3.如權利要求2所述的方法,其中,該編碼增益由以下對數值定義:
4.如權利要求1所述的方法,其中,對指示活動或非活動模式的該二進制值的確定是根據應用該解相關處理的旋轉矩陣之間的幀間距離的標準來執行的。
5.如權利要求4所述的方法,其中,這些旋轉矩陣被表示為雙四元數,旋轉矩陣之間的該幀間距離使用當前幀的四元數與前一幀的四元數之間的標量積來表示。
6.如權利要求1所述的方法,其中,對指示活動或非活動模式的該二進制值的確定是根據該當前幀的應用該解相關處理的旋轉矩陣與恒等矩陣之間的距離標準來執行的。
7.如權利要求6所述的方法,其中,這些旋轉矩陣被表示為雙四元數,該當前幀的旋轉矩陣與恒等矩陣之間的距離以該當前幀的四元數與單位四元數之間的標量積的形式表示。
8.一種用于對音頻信號進行解碼的方法,這些音頻信號在作為階數高于0的高保真立體聲表示的n個聲道中的每一個聲道中在時間上形成一系列樣本幀(t-1,t),該方法包括:
9.一種編碼設備,該編碼設備包括用于實施根據權利要求1至7中任一項所述的編碼方法的步驟的處理電路。
10.一種解碼設備,該解碼設備包括用于實施如權利要求8所述的解碼方法的步驟的處理電路。
11.一種由處理器可讀的存儲介質,該存儲介質存儲了存儲器中包括指令的計算機程序,這些指令用于執行根據權利要求1至7之一所述的編碼方法或如權利要求8所述的解碼方法。
...
【技術特征摘要】
【國外來華專利技術】
1.一種用于對音頻信號進行編碼的方法,這些音頻信號在作為階數高于0的高保真立體聲表示的n個聲道中的每一個聲道中在時間上形成一系列樣本幀(t-1,t),該方法包括:
2.如權利要求1所述的方法,其中,對指示活動或非活動模式的該二進制值的確定是根據用于在解相關處理之前和之后對信號進行編碼的至少一個增益標準來執行的。
3.如權利要求2所述的方法,其中,該編碼增益由以下對數值定義:
4.如權利要求1所述的方法,其中,對指示活動或非活動模式的該二進制值的確定是根據應用該解相關處理的旋轉矩陣之間的幀間距離的標準來執行的。
5.如權利要求4所述的方法,其中,這些旋轉矩陣被表示為雙四元數,旋轉矩陣之間的該幀間距離使用當前幀的四元數與前一幀的四元數之間的標量積來表示。
6.如權利要求1所述的方法,其中,對指示活動或非活動模式的該二進制值的確定是根據該...
【專利技術屬性】
技術研發人員:S·拉戈特,A·勒福特,
申請(專利權)人:奧蘭治,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。