System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 欧洲无码一区二区三区在线观看,亚洲av无码成h人动漫无遮挡,亚洲国产无套无码av电影
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當(dāng)前位置: 首頁 > 專利查詢>南京大學(xué)專利>正文

    一種基于自動編碼器和球諧展開的HRTF重建裝置及方法制造方法及圖紙

    技術(shù)編號:44483072 閱讀:3 留言:0更新日期:2025-03-04 17:49
    本發(fā)明專利技術(shù)公開了一種基于自動編碼器和球諧展開的HRTF重建裝置及方法。其裝置包括:變分自動編碼器,用于根據(jù)耳部圖片獲得耳廓特征的編碼表示;球諧系數(shù)展開模塊,用于將HRTF使用球諧函數(shù)展開成球諧系數(shù);預(yù)測模塊,用于根據(jù)變分自動編碼器輸出的圖片編碼表示預(yù)測HRTF球諧展開系數(shù);重建模塊,用于將預(yù)測模塊預(yù)測的球諧展開系數(shù)重建為HRTF幅度,然后根據(jù)聽者的頭部寬度進(jìn)行HRTF相位的個性化,從而獲得完整的HRTF。本發(fā)明專利技術(shù)使用球諧函數(shù)對HRTF進(jìn)行降維表示,降維后能夠使模型訓(xùn)練更容易,并且理論上可以使用預(yù)測的球諧展開系數(shù)得到全空間的HRTF。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)屬于聲學(xué),提出了一種基于自動編碼器和球諧展開的hrtf重建裝置及方法。


    技術(shù)介紹

    1、頭相關(guān)傳遞函數(shù)(head?related?transfer?function,hrtf)是自由場情況下從聲源到雙耳的頻域聲學(xué)傳輸函數(shù),它表征了聲源發(fā)出的直達(dá)聲波經(jīng)由頭部、耳廓、軀干等生理結(jié)構(gòu)的散射和反射后到達(dá)人耳的過程,雙耳聲壓含有itd、ild等各種聲源定位的因素,聽覺系統(tǒng)綜合利用這些因素從而對聲源進(jìn)行定位。不同個體由于生理參數(shù)的差異,導(dǎo)致其hrtf的不同,在使用耳機(jī)進(jìn)行音頻重放的過程中使用個體的hrtf處理后會具有更好的沉浸感。

    2、通常獲取個體hrtf需要在全消聲室或者半消聲室里進(jìn)行測量,這往往需要多個揚(yáng)聲器,以及人坐在固定位置保持靜止不動,且測量過程持續(xù)半個小時左右,因此hrtf測量很難大規(guī)模進(jìn)行。

    3、近年來,數(shù)據(jù)資源與計算機(jī)計算水平持續(xù)發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的方法在hrtf個性化領(lǐng)域得到廣泛應(yīng)用,人們提出使用人體的生理參數(shù)或者耳部圖片與hrtf進(jìn)行映射,只采集生理參數(shù)或者耳部圖片就能獲得個性化的hrtf,這使整個過程得到了簡化。但是這種方法存在著人體參數(shù)測量過程困難且誤差較大,導(dǎo)致計算出的hrtf與實際情況偏差較大,以及預(yù)測的hrtf與真實的hrtf峰值和谷點(diǎn)頻率存在差異,無法準(zhǔn)確反映個體的聽覺特性,從而影響渲染得到的音頻質(zhì)量。


    技術(shù)實現(xiàn)思路

    1、為了解決上述現(xiàn)有技術(shù)中存在的缺陷,本專利技術(shù)提供了一種基于變分自動編碼器和球諧展開的hrtf重建裝置及方法,可以從耳部的深度圖片預(yù)測得到hrtf球諧展開系數(shù),進(jìn)一步重建獲得個性化的hrtf。

    2、本專利技術(shù)裝置采用的技術(shù)方案為:

    3、一種基于自動編碼器和球諧展開的hrtf重建裝置,包括:變分自動編碼器,用于根據(jù)耳部圖片獲得耳廓特征的編碼表示;球諧系數(shù)展開模塊,用于將hrtf使用球諧函數(shù)展開成球諧系數(shù);預(yù)測模塊,用于根據(jù)所述變分自動編碼器輸出的圖片編碼表示預(yù)測hrtf球諧展開系數(shù);重建模塊,用于將所述預(yù)測模塊預(yù)測的球諧展開系數(shù)重建為hrtf幅度,然后根據(jù)聽者的頭部寬度進(jìn)行hrtf相位的個性化,從而獲得完整的hrtf。

    4、進(jìn)一步地,所述變分自動編碼器包括編碼器模塊和解碼器模塊,所述編碼器模塊是將輸入樣本映射到概率分布的概率模型,用于導(dǎo)出耳部深度圖片的緊湊編碼表示;所述解碼器模塊,用于從耳部深度圖片的緊湊編碼表示中對耳部圖片進(jìn)行重構(gòu)。

    5、進(jìn)一步地,所述預(yù)測模塊由神經(jīng)網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)將需要處理的每個頻率映射到一個嵌入向量中,將編碼后的頻率信息與耳部圖片編碼信息拼接在一起,拼接后的編碼被輸入到一維卷積神經(jīng)網(wǎng)絡(luò)的多個層中,逐步提取和分析數(shù)據(jù)中的重要特征;所述預(yù)測模塊采用真實的球諧展開系數(shù)與預(yù)測的球諧展開系數(shù)之間的均方誤差作為訓(xùn)練的損失函數(shù)。

    6、本專利技術(shù)還提供一種基于自動編碼器和球諧展開的hrtf重建裝置的方法,該方法包括如下步驟:

    7、(1)利用hrtf數(shù)據(jù)庫中的3d頭部網(wǎng)格,獲得每個頭部網(wǎng)格對應(yīng)的耳部深度圖片;對hrtf數(shù)據(jù)庫中每個個體的hrtf使用球諧函數(shù)進(jìn)行展開,獲得對應(yīng)的球諧展開系數(shù),將耳部深度圖片與對應(yīng)球諧展開系數(shù)結(jié)合構(gòu)建成數(shù)據(jù)集;

    8、(2)構(gòu)建所述變分自動編碼器,所述變分自動編碼器包括編碼器模塊和解碼器模塊;

    9、(3)利用步驟(1)得到的耳部深度圖片訓(xùn)練所述變分自動編碼器,利用所述編碼器模塊獲得耳部深度圖片的緊湊編碼表示;

    10、(4)構(gòu)建根據(jù)圖片編碼預(yù)測hrtf球諧展開系數(shù)的神經(jīng)網(wǎng)絡(luò)模型;

    11、(5)使用步驟(3)獲得的耳部深度圖片的緊湊編碼表示和對應(yīng)步驟(1)中獲得的hrtf球諧展開系數(shù),對步驟(4)中的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,得到訓(xùn)練好的權(quán)重;

    12、(6)將待測試的耳部深度圖片輸入所述編碼器模塊,獲得耳部深度圖片的緊湊編碼表示,之后將該緊湊編碼表示輸入步驟(5)訓(xùn)練好的模型中,獲得預(yù)測的球諧展開系數(shù),經(jīng)過球諧逆變換重建得到預(yù)測的hrtf;

    13、(7)對預(yù)測的hrtf進(jìn)行插值并補(bǔ)充相位信息,獲得完整的hrtf譜,并經(jīng)過傅里葉逆變換轉(zhuǎn)換為頭相關(guān)沖擊響應(yīng)hrir。

    14、進(jìn)一步地,步驟(2)中,所述編碼器模塊是將輸入樣本映射到概率分布的概率模型,所述編碼器模塊將輸入的耳部深度圖片映射到概率分布p(z∣x),即給定輸入數(shù)據(jù)x的潛在變量z的分布,這個分布由其均值μ和對數(shù)方差σ參數(shù)化,作為編碼器模塊的輸出。

    15、進(jìn)一步地,步驟(3)中,訓(xùn)練所述變分自動編碼器的方法具體如下:將步驟(1)得到的耳部深度圖片輸入編碼器模塊,獲得編碼圖片的緊湊表示,然后將圖片的緊湊編碼表示輸入解碼器模塊重構(gòu)原始輸入,再將解碼器模塊的輸出圖片與原始輸入圖片進(jìn)行比較,計算二者的差異作為代價函數(shù),經(jīng)過優(yōu)化訓(xùn)練盡量減小圖片重構(gòu)的損失。

    16、進(jìn)一步地,步驟(5)中,所述深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練方法具體如下:先將頻率映射到一個嵌入向量中,然后將頻率編碼信息和步驟(3)獲得的耳部圖片緊湊編碼表示信息進(jìn)行拼接;將拼接得到的編碼信息輸入卷積神經(jīng)網(wǎng)絡(luò)中,預(yù)測出當(dāng)前頻率下對應(yīng)耳部的hrtf球諧展開系數(shù);將預(yù)測的球諧系數(shù)與實際的球諧系數(shù)進(jìn)行比較,計算均方誤差并饋給模型進(jìn)行優(yōu)化訓(xùn)練。

    17、進(jìn)一步地,步驟(7)中,補(bǔ)充相位信息的具體方法如下:首先獲得目標(biāo)聽者的頭部寬度數(shù)據(jù);然后從包含人體測量特征的數(shù)據(jù)庫中,選擇與目標(biāo)聽者頭部寬度最接近的個體,從該個體的hrtf中提取相位譜;再將提取的相位譜與預(yù)測的hrtf幅度譜合成復(fù)數(shù)的hrtf頻譜。

    18、與目前現(xiàn)有技術(shù)相比,本專利技術(shù)的優(yōu)勢在于:

    19、(1)本方案使用耳部深度圖片進(jìn)行hrtf的預(yù)測,耳部深度圖片相較生理參數(shù)能夠提供更多信息,并且避免了人體參數(shù)測量過程中出現(xiàn)的誤差。

    20、(2)本方案使用球諧函數(shù)對hrtf進(jìn)行降維表示,降維后能夠使模型訓(xùn)練更容易,并且理論上可以使用預(yù)測的球諧展開系數(shù)得到全空間的hrtf。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于自動編碼器和球諧展開的HRTF重建裝置,其特征在于,該裝置包括:

    2.根據(jù)權(quán)利要求1所述的一種基于自動編碼器和球諧展開的HRTF重建裝置,其特征在于,所述變分自動編碼器包括編碼器模塊和解碼器模塊,所述編碼器模塊是將輸入樣本映射到概率分布的概率模型,用于導(dǎo)出耳部深度圖片的緊湊編碼表示;所述解碼器模塊,用于從耳部深度圖片的緊湊編碼表示中對耳部圖片進(jìn)行重構(gòu)。

    3.根據(jù)權(quán)利要求1所述的一種基于自動編碼器和球諧展開的HRTF重建裝置,其特征在于,所述預(yù)測模塊由神經(jīng)網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)將需要處理的每個頻率映射到一個嵌入向量中,將編碼后的頻率信息與耳部圖片編碼信息拼接在一起,拼接后的編碼被輸入到一維卷積神經(jīng)網(wǎng)絡(luò)的多個層中,逐步提取和分析數(shù)據(jù)中的重要特征;所述預(yù)測模塊采用真實的球諧展開系數(shù)與預(yù)測的球諧展開系數(shù)之間的均方誤差作為訓(xùn)練的損失函數(shù)。

    4.利用如權(quán)利要求1所述一種基于自動編碼器和球諧展開的HRTF重建裝置的方法,其特征在于,該方法包括如下步驟:

    5.根據(jù)權(quán)利要求4所述的方法,其特征在于,步驟(2)中,所述編碼器模塊是將輸入樣本映射到概率分布的概率模型,所述編碼器模塊將輸入的耳部深度圖片映射到概率分布p(z∣x),即給定輸入數(shù)據(jù)x的潛在變量z的分布,這個分布由其均值μ和對數(shù)方差σ參數(shù)化,作為編碼器模塊的輸出。

    6.根據(jù)權(quán)利要求4所述的方法,其特征在于,步驟(3)中,訓(xùn)練所述變分自動編碼器的方法具體如下:

    7.根據(jù)權(quán)利要求4所述的方法,其特征在于,步驟(5)中,所述深度神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練方法具體如下:

    8.根據(jù)權(quán)利要求4所述的方法,其特征在于,步驟(7)中,補(bǔ)充相位信息的具體方法如下:首先獲得目標(biāo)聽者的頭部寬度數(shù)據(jù);然后從包含人體測量特征的數(shù)據(jù)庫中,選擇與目標(biāo)聽者頭部寬度最接近的個體,從該個體的HRTF中提取相位譜;再將提取的相位譜與預(yù)測的HRTF幅度譜合成復(fù)數(shù)的HRTF頻譜。

    ...

    【技術(shù)特征摘要】

    1.一種基于自動編碼器和球諧展開的hrtf重建裝置,其特征在于,該裝置包括:

    2.根據(jù)權(quán)利要求1所述的一種基于自動編碼器和球諧展開的hrtf重建裝置,其特征在于,所述變分自動編碼器包括編碼器模塊和解碼器模塊,所述編碼器模塊是將輸入樣本映射到概率分布的概率模型,用于導(dǎo)出耳部深度圖片的緊湊編碼表示;所述解碼器模塊,用于從耳部深度圖片的緊湊編碼表示中對耳部圖片進(jìn)行重構(gòu)。

    3.根據(jù)權(quán)利要求1所述的一種基于自動編碼器和球諧展開的hrtf重建裝置,其特征在于,所述預(yù)測模塊由神經(jīng)網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)將需要處理的每個頻率映射到一個嵌入向量中,將編碼后的頻率信息與耳部圖片編碼信息拼接在一起,拼接后的編碼被輸入到一維卷積神經(jīng)網(wǎng)絡(luò)的多個層中,逐步提取和分析數(shù)據(jù)中的重要特征;所述預(yù)測模塊采用真實的球諧展開系數(shù)與預(yù)測的球諧展開系數(shù)之間的均方誤差作為訓(xùn)練的損失函數(shù)。

    4.利用如權(quán)利要求1所述一種基于自動編碼器和球諧展開的hrt...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:呂朋博劉嘉偉林志斌陳鍇陶建成鄒海山盧晶
    申請(專利權(quán))人:南京大學(xué)
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产亚洲3p无码一区二区| 日韩少妇无码喷潮系列一二三| 国产精品无码A∨精品影院| 亚洲美日韩Av中文字幕无码久久久妻妇| 潮喷失禁大喷水aⅴ无码| 狠狠久久精品中文字幕无码| 国产精品无码无片在线观看| 精品无码久久久久国产动漫3d| 综合无码一区二区三区| 99久久国产热无码精品免费| 亚洲AV永久无码精品一百度影院| 亚洲国产成人精品无码久久久久久综合| 亚洲桃色AV无码| 免费无码午夜福利片| 99精品一区二区三区无码吞精| 国产精品无码无卡在线播放| 亚洲最大av无码网址| 国产精品无码素人福利不卡| 中文字幕av无码一二三区电影| 夜夜添无码试看一区二区三区| 亚洲国产精品无码久久SM| 免费无遮挡无码视频网站| 成在人线av无码免费高潮水 | 国产精品无码专区在线播放| 日韩欧精品无码视频无删节| 久久亚洲AV无码精品色午夜 | 国产在线精品无码二区二区| 中文无码热在线视频| 在线看无码的免费网站| 亚洲综合无码一区二区| 国产成人AV一区二区三区无码 | 亚洲AV无码国产精品色| 色欲狠狠躁天天躁无码中文字幕| 久久亚洲精品无码播放| 亚洲AV永久无码精品一区二区国产| 国产精品久久无码一区二区三区网| 18禁无遮拦无码国产在线播放| 69天堂人成无码麻豆免费视频| 日韩丰满少妇无码内射| 国产精品无码aⅴ嫩草| 国产精品亚洲а∨无码播放不卡|