System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及計算機聽覺,具體涉及一種基于參數高效微調的多任務聲學場景分類方法。
技術介紹
1、聲信號是人與自然交互的重要方式,它可以傳達聲源事件的潛在信息,因此,聲信號的應用是推動計算機聽覺發展的巨大動力。聲學場景分類作為計算機聽覺的重要研究課題,通過分析環境聲來對環境分類。其在醫療健康、取證分析、智能監測、異常檢測等眾多前景領域大放異彩。相較于聲紋識別、語音識別等聽覺任務,聲學場景分類的數據集少且分布不平衡,這導致算法容易過擬合。此外,從不同城市采用不同設備采集的數據集,其同一場景的特征分布存在偏差,這使模型存在僅對單一設備的聲學場景分類效果好的問題。因此,提取出更具判別力、魯棒性和緊湊性的聲學特征至關重要。
2、設計適合聲學場景分類的專屬網絡難度極高,而集成算法不僅模型參數多,還受嵌入策略和超參數的制約。即便嵌入后再進行模型壓縮,量化過程中又會引入新的噪聲,模型精度反而下降。與此同時,微調預訓練模型這一流行的遷移學習范式,雖然避免了設計專屬網絡的復雜過程,但卻耗費了巨大的參數資源。
技術實現思路
1、本專利技術為了解決如何利用數字音頻間的共性,通過基干任務的特征映射空間完成低代價且高精度的聲學場景分類任務以及其他聽覺任務的問題。
2、為解決上述技術問題本專利技術是通過以下技術方案實現的:
3、方案一、本專利技術提出了一種基于參數高效微調的多任務聲學場景分類方法,所述多任務聲學場景分類方法包括以下步驟:
4、步驟1、基于promp
5、步驟2、將所述參數高效微調模塊dsc-adapter嵌入到聲紋識別網絡cam++中,構造多任務聲學場景分類網絡mt-eptnet。
6、進一步的,提供一種優選實施方式,步驟1中基于prompt技術設計高表征的參數高效微調模塊dsc-adapter的方法為:
7、步驟1.1、設計逐通道下采樣卷積對輸入特征圖x進行降維,用于提取局部特征;
8、步驟1.2、選用relu激活函數對步驟1.1所述的經過下采樣卷積的數據進行處理;
9、步驟1.3、設計逐點上采樣卷積將數據映射為原有維度,引入殘差連接,并設計比例因子對最終的輸出特征進行調整,即,完成對參數高效微調的多任務聲學場景的分類。
10、進一步的,提供一種優選實施方式,步驟2中構造多任務聲學場景分類網絡mt-eptnet包括以下步驟:
11、步驟2.1、將聲紋識別cam++網絡作為主干網絡,并將已訓練好的聲紋識別網絡cam++的權重參數進行凍結;
12、步驟2.2、將構造的參數高效微調模塊dsc-adapter嵌入到cam++結構的前端殘差模塊中,獲得最優的前端嵌入策略;
13、步驟2.3、基于得到最優前端嵌入策略,將參數高效微調模塊dsc-adapter嵌入到cam++結構后端d-tdnn中,完成構建mt-eptnet完成聲學場景分類任務;
14、步驟2.4、更新參數高效微調模塊dsc-adapter中的參數使構建的最優策略網絡mt-eptnet實現聲學場景的分類任務。
15、進一步的,提供一種優選實施方式,步驟2.1具體包括:
16、步驟2.1中的cam++的結構包括前端殘差模塊和后端密集時延神經網絡d-tdnn;所述殘差模塊包括帶殘差連接的兩個3×3的二維卷積,d-tdnn包含多個d-tdnn層,每個d-tdnn層包括一個前饋神經網絡fnn、相互并行的時延神經網絡tdnn與關注上下文信息的多粒度池化模塊cam。
17、進一步的,提供一種優選實施方式,步驟2.2中獲得最優的前端嵌入策略的方法為:
18、通過將參數高效微調模塊dsc-adapter嵌入到兩個卷積模塊的中間、參數高效微調模塊dsc-adapter嵌入到整個殘差模塊的末尾、參數高效微調模塊dsc-adapter與第一個卷積模塊并行、參數高效微調模塊dsc-adapter與第二個模塊并行、參數高效微調模塊dsc-adapter與整個殘差模塊并行;從上述五種前端嵌入策略中任意一種獲得最優的前端嵌入策略方案。
19、進一步的,提供一種優選實施方式,步驟2.3將參數高效微調模塊dsc-adapter嵌入到cam++結構后端d-tdnn中的方法為:
20、通過將參數高效微調模塊dsc-adapter嵌入到d-tdnn的末尾、將參數高效微調模塊dsc-adapter與整個d-tdnn并行、將參數高效微調模塊dsc-adapter嵌入到tdnn末尾、將參數高效微調模塊dsc-adapter嵌入到cam末尾,上述任意一種方式均能實現參數高效微調模塊dsc-adapter嵌入到cam++結構后端d-tdnn中。
21、方案二、計算機設備,包括存儲器和處理器,所述存儲器中存儲有計算機程序,當所述處理器運行所述存儲器存儲的計算機程序時,所述處理器執行方案一中任意一項所述的一種基于參數高效微調的多任務聲學場景分類方法。
22、方案三、計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機程序,所述計算機程序被處理器執行時實現方案一中任一項所述的一種基于參數高效微調的多任務聲學場景分類方法的步驟。
23、方案四、計算機程序產品,作為計算機程序,當所述計算機程序被執行時,實現方案一所述的一種基于參數高效微調的多任務聲學場景分類方法。
24、本專利技術的有益之處在于:
25、本專利技術通過設計輕量級的深度可分離卷積適配器dsc-adapter并將其嵌入到預訓練聲紋識別網絡cam++中,構建了高效的多任務聲學場景分類網絡mt-eptnet。dsc-adapter具備優異的可遷移性,能夠捕捉不同任務間的特征差異并靈活適應目標任務,僅需微調dsc-adapter的少量參數,便可使凍結的預訓練模型高效執行下游聲學場景分類和其他聽覺任務。通過優化預訓練網絡中的殘差塊與多粒度池化塊,dsc-adapter增強了對輸入特征頻移的不變性,精細地捕捉局部和全局的上下文特征,從而提高了模型的分類精度和魯棒性。
26、本專利技術相比傳統的模型微調,本專利技術在保證高精度的同時顯著減少了大量參數資源的消耗。
27、本專利技術能充分利用豐富且優質的源域特征以及不同聽覺任務間的共性,不僅克服了由于數據集少且分布不平衡導致的模型泛化性差的問題,還避免了設計復雜專屬網絡和嵌入策略帶來的資源消耗及性能瓶頸。
28、本專利技術所述的方法簡化了復雜網絡的開發流程,并保證了模型在多任務場景中的高效性和穩定性,具備廣闊的應用和推廣前景。
29、本專利技術還適用于多任務場景中復雜網絡的開發流程領域中。
本文檔來自技高網...【技術保護點】
1.一種基于參數高效微調的多任務聲學場景分類方法,其特征在于,所述多任務聲學場景分類方法包括以下步驟:
2.根據權利要求1所述的基于參數高效微調的多任務聲學場景分類方法,其特征在于,步驟1中基于Prompt技術設計高表征的參數高效微調模塊Dsc-adapter的方法為:
3.根據權利要求1所述的基于參數高效微調的多任務聲學場景分類方法,其特征在于,步驟2中構造多任務聲學場景分類網絡MT-EPTNet包括以下步驟:
4.根據權利要求3所述的基于參數高效微調的多任務聲學場景分類方法,其特征在于,步驟2.1具體包括:
5.根據權利要求4所述的基于參數高效微調的多任務聲學場景分類方法,其特征在于,步驟2.2中獲得最優的前端嵌入策略的方法為:
6.根據權利要求4所述的基于參數高效微調的多任務聲學場景分類方法,其特征在于,步驟2.3將參數高效微調模塊Dsc-adapter嵌入到CAM++結構后端D-TDNN中的方法為:
7.計算機設備,包括存儲器和處理器,其特征在于,所述存儲器中存儲有計算機程序,當所述處理器運行所述存儲
8.計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質用于儲存計算機程序,所述計算機程序執行權利要求1至6中任一項所述的方法。
9.計算機程序產品,作為計算機程序,其特征在于,當所述計算機程序被執行時,實現權利要求1所述的方法。
...【技術特征摘要】
1.一種基于參數高效微調的多任務聲學場景分類方法,其特征在于,所述多任務聲學場景分類方法包括以下步驟:
2.根據權利要求1所述的基于參數高效微調的多任務聲學場景分類方法,其特征在于,步驟1中基于prompt技術設計高表征的參數高效微調模塊dsc-adapter的方法為:
3.根據權利要求1所述的基于參數高效微調的多任務聲學場景分類方法,其特征在于,步驟2中構造多任務聲學場景分類網絡mt-eptnet包括以下步驟:
4.根據權利要求3所述的基于參數高效微調的多任務聲學場景分類方法,其特征在于,步驟2.1具體包括:
5.根據權利要求4所述的基于參數高效微調的多任務聲學場景分類方法,其特征在于,步驟2.2中獲得最優的...
【專利技術屬性】
技術研發人員:錢清,鄧明森,岳毅,況藝琳,吳炳祥,冉龍文,
申請(專利權)人:貴州財經大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。