基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法技術(shù)

技術(shù)編號：44492702 閱讀：3 留言：0更新日期：2025-03-04 17:58

發(fā)明專利技術(shù)公開了一種基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，包括下列步驟：首先采集環(huán)境聲音音頻樣本；接著對音頻樣本進行預(yù)處理，提取對數(shù)梅爾譜特征；然后將對數(shù)梅爾譜特征依次輸入注意力卷積網(wǎng)絡(luò)，并采用由特征損失和交叉熵損失確定的區(qū)分性損失函數(shù)監(jiān)督注意力卷積網(wǎng)絡(luò)訓練；最后將待測音頻樣本的對數(shù)梅爾譜特征輸入訓練后的注意力卷積網(wǎng)絡(luò)，得到待測樣本的聲音辨識結(jié)果。本發(fā)明專利技術(shù)方法設(shè)計一個并聯(lián)架構(gòu)的注意力卷積網(wǎng)絡(luò)，并定義一種區(qū)分性損失函數(shù)監(jiān)督注意力卷積網(wǎng)絡(luò)的訓練。本發(fā)明專利技術(shù)方法可以有效提取音頻樣本中的全局與局部時頻信息，并具有更佳的類內(nèi)緊湊性和類間分離性。與傳統(tǒng)方法相比，本發(fā)明專利技術(shù)方法具有更優(yōu)的聲音辨識性能。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)涉及音頻信號處理與模式識別，具體涉及一種基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法。

技術(shù)介紹

1、聲音事件檢測的目標是準確辨識音頻記錄中的各類目標聲音事件。它在機器監(jiān)聽相關(guān)的許多領(lǐng)域都有應(yīng)用，例如交通監(jiān)控、智能會議室、自動輔助駕駛和多媒體分析。

2、目前，聲音事件檢測的分類器可分為深度模型和淺層模型。淺層模型泛化能力較弱，在不同環(huán)境下的穩(wěn)定性較差，且特征提取能力有限，無法捕捉到音頻數(shù)據(jù)中的復(fù)雜特征。深度模型主要包括卷積循環(huán)神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)。卷積循環(huán)神經(jīng)網(wǎng)絡(luò)可以進行復(fù)雜環(huán)境下的音頻識別，但需要大量的訓練數(shù)據(jù)，計算資源需求高，且在數(shù)據(jù)量不足時容易出現(xiàn)過擬合現(xiàn)象；循環(huán)神經(jīng)網(wǎng)絡(luò)無法有效捕捉長期依賴關(guān)系，導(dǎo)致辨識準確率降低；卷積神經(jīng)網(wǎng)絡(luò)主要關(guān)注局部特征的提取，在聲音識別時容易導(dǎo)致信息丟失。

3、因此，在沒有大量樣本數(shù)據(jù)作為支撐，并且要求分類器在不同環(huán)境下具有較強的穩(wěn)定性時，需要提出一種可以重點關(guān)注核心特征但不丟失其他局部特征的卷積神經(jīng)網(wǎng)絡(luò)。同時，為了保證分類器具有更高的準確性，應(yīng)保證音頻具有更強的類內(nèi)緊湊性和類間分離性。

技術(shù)實現(xiàn)思路

1、本專利技術(shù)的目的是為解決現(xiàn)有卷積神經(jīng)網(wǎng)絡(luò)在進行音頻識別時，數(shù)據(jù)多樣性、識別準確性方面存在的缺陷，提供一種基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法。本專利技術(shù)首先通過集成交叉熵損失函數(shù)和特征損失函數(shù)得到區(qū)分性表征損失函數(shù)，并將其應(yīng)用在注意力卷積網(wǎng)絡(luò)的訓練中。本專利技術(shù)在能較好的理解輸入音頻

2、本專利技術(shù)的目的可以通過采取如下技術(shù)方案達到：

3、一種基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，所述聲音辨識方法包括以下步驟：

4、s1、采集音頻樣本：將拾音器放置在待測區(qū)域內(nèi)，采集該待測區(qū)域的聲音得到音頻樣本；

5、s2、提取對數(shù)梅爾譜特征：對每個采集得到的音頻樣本進行預(yù)加重、分幀和加窗處理，通過快速傅里葉變換得到音頻樣本的線性頻譜，經(jīng)濾波器組和對數(shù)運算后得到音頻樣本的對數(shù)梅爾譜特征；

6、s3、搭建注意力卷積網(wǎng)絡(luò)：搭建由并聯(lián)的卷積變換模塊和注意力變換模塊組成的注意力卷積網(wǎng)絡(luò)；

7、s4、訓練注意力卷積網(wǎng)絡(luò)：在區(qū)分性損失函數(shù)的監(jiān)督下，將訓練音頻樣本的對數(shù)梅爾譜特征作為輸入，訓練注意力卷積網(wǎng)絡(luò)；

8、s5、辨識待測樣本的聲音類別：將待測樣本的對數(shù)梅爾譜特征作為注意力卷積網(wǎng)絡(luò)的輸入，得到待測樣本的聲音辨識結(jié)果。

9、進一步地，所述步驟s1中采集音頻樣本的過程如下：

10、s1.1、將拾音器放置在待測區(qū)域內(nèi)，采集待測區(qū)域的環(huán)境聲音；

11、s1.2、設(shè)置采樣參數(shù)，其中，采樣頻率為16khz，量化精度為16bits，聲道數(shù)為單聲道。

12、進一步地，所述步驟s2中提取對數(shù)梅爾譜特征的過程如下：

13、s2.1、采用一階高通濾波器對音頻樣本進行預(yù)加重處理，濾波器的傳遞函數(shù)為h(z)=1-az-1，其中a是濾波器的預(yù)加權(quán)系數(shù)，取值為0.95，預(yù)加重可以提高音頻質(zhì)量，提取到較純凈的原始音頻信號；

14、s2.2、將預(yù)加重后的音頻樣本切分成短時幀，幀長為256個采樣點，幀移為128個采樣點，然后將短時幀與漢明窗函數(shù)相乘得到加窗后的短時音頻幀，漢明窗函數(shù)的時域表達式為：,0,其中t為幀長；

15、s2.3、對加窗的短時音頻幀進行離散傅里葉變換，得到該幀的線性譜；

16、s2.4、采用梅爾濾波器將線性頻譜轉(zhuǎn)化為梅爾譜，再對梅爾譜取對數(shù)得到對數(shù)梅爾譜；

17、s2.5、將所有短時幀的對數(shù)梅爾譜排列成一個特征矩陣mij，特征矩陣的行數(shù)i表示幀的編號，特征矩陣的列數(shù)j表示短時幀的特征維度。

18、進一步地，所述注意力卷積網(wǎng)絡(luò)包括卷積變換模塊、注意力變換模塊和模塊融合。

19、所述卷積變換模塊對輸入特征進行藍圖可分卷積、然后進行批歸一化和全局歸一化處理，其中批歸一化對輸入的不同類音頻特征進行歸一化，有助于加速收斂，減少訓練時間，全局歸一化對輸入的同類音頻進行歸一化，避免同類音頻之間的平均值和方差的影響。

20、進一步地，所述步驟s3中搭建注意力卷積網(wǎng)絡(luò)的過程如下：

21、s3.1、對輸入的特征矩陣mij進行預(yù)處理得到不重疊的特征子圖，同時作為卷積變換模塊和注意力變換模塊的輸入；

22、s3.2、構(gòu)建卷積變換模塊，卷積變換模塊對每個特征維度上的輸入特征進行藍圖可分卷積操作和批歸一化操作，再使用relu函數(shù)和全局響應(yīng)歸一化操作進行變換；

23、s3.3、構(gòu)建注意力變換模塊，獨立學習不同特征維度并計算注意力權(quán)重的分支稱為注意力頭，計算每個注意力頭的輸出權(quán)重矩陣，然后采用全連接層進行線性變換，并計算每個輸入樣本與同類別其他樣本之間的距離，用于衡量類內(nèi)緊湊性，計算每個輸入樣本與不同類別樣本之間的距離，用于衡量類間分離性，較好的類內(nèi)緊湊性和類間分離性可以大幅度提高聲音辨識的準確度。

24、s3.4、將注意力變換模塊和卷積變換模塊融合，使用區(qū)分性損失函數(shù)監(jiān)督訓練。

25、進一步地，所述步驟s3.1中預(yù)處理過程如下：

26、s3.1.1、對每個特征維度獨立地進行卷積操作，生成與輸入特征維度數(shù)相同的輸出特征矩陣。

27、s3.1.2、對輸出特征矩陣進行深度可分卷積操作，得到變換后的特征矩陣，再采用relu函數(shù)對特征矩陣進行變換，深度可分卷積操作可以降低參數(shù)數(shù)量，提高計算速度，并改善網(wǎng)絡(luò)的泛化能力；

28、s3.1.3、計算所有變換后特征矩陣的均值和方差，使用均值和方差對每個樣本的特征矩陣進行歸一化處理，歸一化處理公式為，

29、其中表示歸一化后的特征元素,表示輸入特征矩陣里的特征元素，為輸入樣本特征元素的平均值，為輸入樣本特征元素的標準差；

30、s3.1.4、將歸一化后的特征矩陣進行縮放和平移，并將每個特征維度上的特征矩陣進行拼接，使得每個特征維度上的特征矩陣具有相似的分布；?s3.1.5、將拼接后的特征矩陣劃分為相同大小且不重疊的特征子矩陣，再將特征子矩陣分別輸入卷積變換模塊和注意力變換模塊。

31、進一步地，所述步驟s3.1.2中深度可分卷積操作過程如下：

32、先對輸入的每個特征維度上的特征矩陣應(yīng)用空間卷積，生成多個特征維度的中間特征矩陣；再對多個維度的中間特征矩陣進行逐點卷積，將不同特征維度的信息整合在一起，輸出整合后的特征矩陣。

33、深度可分卷積將標準卷積過程分解為空間卷積和逐點卷積兩步，可以大幅減少參數(shù)量和計算量，加快模型訓練速度，同時降低過擬合的風險。

34、進一步地，所述步驟s3.2中藍圖可分卷積操作過程如下：

35、將輸入特征矩陣和卷積核劃分為多組，在每個組內(nèi)獨立地進行卷積操作，然后將各組的卷積結(jié)果合本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，其特征在于，所述聲音辨識方法包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，其特征在于，所述步驟S1中采集音頻樣本的過程如下：

3.根據(jù)權(quán)利要求1所述的基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，其特征在于，所述步驟S2中提取對數(shù)梅爾譜特征的過程如下：

4.根據(jù)權(quán)利要求1所述的基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，其特征在于，所述步驟S3中搭建注意力卷積網(wǎng)絡(luò)的過程如下：

5.根據(jù)權(quán)利要求4所述的基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，其特征在于，所述步驟S3.1中預(yù)處理過程如下：

6.根據(jù)權(quán)利要求4所述的基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，其特征在于，所述步驟S3.3中計算每個注意力頭的注意力和輸出權(quán)重矩陣過程如下：

7.根據(jù)權(quán)利要求4所述的基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，其特征在于，所述步驟S3.4中注意力變換模塊和卷積變換模塊融合過程如下：

...

【技術(shù)特征摘要】

1.一種基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，其特征在于，所述聲音辨識方法包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，其特征在于，所述步驟s1中采集音頻樣本的過程如下：

3.根據(jù)權(quán)利要求1所述的基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，其特征在于，所述步驟s2中提取對數(shù)梅爾譜特征的過程如下：

4.根據(jù)權(quán)利要求1所述的基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，其特征在于，所述步驟s3中搭建注意力卷積網(wǎng)絡(luò)的過程如下：

5.根據(jù)權(quán)利要求4所述的基于區(qū)分性表征損失與注意力卷積網(wǎng)絡(luò)的聲音辨識方法，其特征在于，所...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：周永靖，李艷雄，申橋縉，
申請(專利權(quán))人：華南理工大學，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)