System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及語音識別,尤其涉及一種基于大核卷積和線性自注意力的語音識別方法。
技術(shù)介紹
1、語音識別技術(shù)作為自然語言處理領(lǐng)域的重要分支,近年來得到了廣泛的研究和應(yīng)用。語音識別系統(tǒng)的主要任務(wù)是將輸入的語音信號轉(zhuǎn)換為對應(yīng)的文本內(nèi)容,應(yīng)用場景包括智能語音助手、語音輸入法、自動語音翻譯等。傳統(tǒng)的語音識別系統(tǒng)通常采用基于隱馬爾可夫模型和深度神經(jīng)網(wǎng)絡(luò)的混合模型架構(gòu),但這些方法在處理復雜語音信號、捕捉長距離依賴特征時存在一定的局限性。
技術(shù)實現(xiàn)思路
1、鑒于現(xiàn)有技術(shù)的上述缺點、不足,本專利技術(shù)提供一種基于大核卷積和線性自注意力的語音識別方法。
2、為了達到上述目的,本專利技術(shù)采用的主要技術(shù)方案包括:
3、本專利技術(shù)實施例提供一種基于大核卷積和線性自注意力的語音識別方法,包括:
4、s1、對預(yù)先獲取的語音信號進行預(yù)處理得到相應(yīng)的聲學信號;
5、s2、將所述聲學信號輸入至訓練的lkcovlformer模型,得到與所述語音信號對應(yīng)的語音文本;
6、其中,訓練的lkcovlformer模型是采用訓練數(shù)據(jù)集對預(yù)先創(chuàng)建的lkcovlformer模型進行訓練得到的;
7、所述訓練數(shù)據(jù)集包括:多段第一聲學信號以及分別與每一段第一聲學信號一一對應(yīng)的預(yù)先標注的語音文本;多段第一聲學信號是由預(yù)先獲取的用于訓練的多段語音信號分別進行預(yù)處理得到的;
8、所述lkcovlformer模型包括n層循環(huán)堆疊模塊;
9、其中每一層循
10、優(yōu)選地,在s1之前還包括:
11、s0、采用訓練數(shù)據(jù)集對預(yù)先創(chuàng)建的lkcovlformer模型進行訓練,得到訓練的lkcovlformer模型。
12、優(yōu)選地,其中,所述聲學信號為80維的fbank特征信號。
13、優(yōu)選地,
14、每一層循環(huán)堆疊模塊中的第一前饋模塊,用于對輸入該層循環(huán)堆疊模塊的輸入數(shù)據(jù)進行初步特征提取處理,得到初步特征數(shù)據(jù);
15、每一層循環(huán)堆疊模塊中的第一殘差模塊,用于對輸入該層循環(huán)堆疊模塊的輸入數(shù)據(jù)和初步特征數(shù)據(jù)進行殘差處理,得到第一殘差結(jié)果;
16、每一層循環(huán)堆疊模塊中的線性自注意力模塊,用于采用線性復雜自注意力機制對第一殘差結(jié)果進行處理,得到線性自注意力處理結(jié)果;
17、每一層循環(huán)堆疊模塊中的第二殘差模塊,用于對所述第一殘差結(jié)果和所述線性自注意力處理結(jié)果進行殘差處理,得到第二殘差結(jié)果;
18、每一層循環(huán)堆疊模塊中的大核卷積模塊,用于對第二殘差結(jié)果進行大核卷積處理,得到大核卷積處理結(jié)果;
19、每一層循環(huán)堆疊模塊中的第三殘差模塊,用于對所述第二殘差結(jié)果和所述大核卷積處理結(jié)果進行殘差處理,得到第三殘差結(jié)果;
20、每一層循環(huán)堆疊模塊中的第二前饋模塊,用于對第三殘差結(jié)果進行增強特征表示處理,得到第二前饋模塊處理結(jié)果;
21、每一層循環(huán)堆疊模塊中的第四殘差模塊,用于對所述第三殘差結(jié)果和所述第二前饋模塊處理結(jié)果進行殘差處理,得到第四殘差結(jié)果;
22、每一層循環(huán)堆疊模塊中的層標準化模塊,用于對第四殘差結(jié)果進行歸一化處理,得到下一層循環(huán)堆疊模塊的輸入數(shù)據(jù)。
23、優(yōu)選地,
24、所述大核卷積模塊包括:
25、深度卷積單元,用于對輸入的第二殘差結(jié)果的每個通道分別進行卷積操作,以提取第二殘差結(jié)果中的局部空間特征;
26、深度及擴展卷積單元,與所述深度卷積單元連接,用于在提取的局部空間特征的基礎(chǔ)上,應(yīng)用擴展卷積操作,通過增加卷積核的采樣間隔以擴大感受野,從而捕捉第二殘差結(jié)果中的長距離依賴特征;
27、點卷積單元,與所述深度及擴展卷積單元連接,用于通過1×1卷積操作,對深度及擴展卷積單元的輸出結(jié)果進行通道融合,以整合不同通道間的特征信息,并獲得通道融合特征;
28、其中,所述大核卷積處理結(jié)果為經(jīng)過所述深度卷積單元、深度及擴展卷積單元和點卷積單元依次處理后得到的融合特征圖,該融合特征圖同時包含第二殘差結(jié)果的局部空間特征、長距離依賴特征以及通道融合特征。
29、優(yōu)選地,其中,線性自注意力模塊,采用線性復雜自注意力機制對第一殘差結(jié)果進行處理的過程中,所使用的自注意力公式為:
30、
31、y為線性自注意力處理結(jié)果;
32、q、k、v分別為查詢矩陣、鍵矩陣和值矩陣;
33、為核函數(shù)映射;
34、為歸一化對角矩陣;其中1為全1向量。
35、優(yōu)選地,
36、其中,深度及擴展卷積單元中分別根據(jù)公式(1)和公式(2)調(diào)整擴展卷積的卷積核的大小和擴展率;
37、所述公式(1)為:
38、kt=kmin+σ(wk·x)×(kmax-kmin);
39、其中,kmin為深度及擴展卷積單元中卷積核的最小尺寸;
40、kmax為深度及擴展卷積單元中卷積核的最大尺寸;
41、σ()為sigmoid激活函數(shù);
42、wk為預(yù)設(shè)的第一可訓練參數(shù)矩陣;
43、x為輸入深度及擴展卷積單元的數(shù)據(jù);
44、所述公式(2)為:
45、dt=dmin+tanh(wd·x)×(dmax-dmin);
46、其中,dmax為預(yù)設(shè)的擴展率的最大值;
47、dmin為預(yù)設(shè)的擴展率的最小值;
48、tanh()為tanh激活函數(shù);
49、wd為第二可訓練參數(shù)矩陣。
50、優(yōu)選地,所述s0具體包括:
51、采用所述訓練數(shù)據(jù)集中的每一段第一聲學信號以及對應(yīng)的預(yù)先標注的語音文本,對所述lkcovlformer模型進行訓練,直至與該語音識別模型所對應(yīng)的預(yù)先設(shè)定的回歸損失函數(shù)收斂,得到訓練的lkcovlformer模型;
52、在所述lkcovlformer模型訓練的過程中采用adamw優(yōu)化算法,最小化預(yù)先設(shè)定的回歸損失函數(shù),并更新所述lkcovlformer模型中的所有權(quán)重參數(shù)。
53、優(yōu)選地,
54、在所述lkcovlformer模型訓練的過程中,第t次迭代的學習率通過公式(3)計算得到;
55、所述公式(3)為:
56、
57、其中,yt為第t次迭代的學習率;
58、y0為初始學習率;
59、gi為第t次迭代的梯度值;
60、∈為預(yù)先設(shè)定的常數(shù)。
61、優(yōu)選地,其中,6≤n≤12。
62、本專利技術(shù)的有益效果是:
63、本專利技術(shù)的一種基于大核卷積和線性自注意力的語音識別方法,該方法采用一種新的混合架構(gòu)模型lkc本文檔來自技高網(wǎng)...
【技術(shù)保護點】
1.一種基于大核卷積和線性自注意力的語音識別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于大核卷積和線性自注意力的語音識別方法,其特征在于,在S1之前還包括:
3.根據(jù)權(quán)利要求2所述的基于大核卷積和線性自注意力的語音識別方法,其特征在于,其中,所述聲學信號為80維的Fbank特征信號。
4.根據(jù)權(quán)利要求2所述的基于大核卷積和線性自注意力的語音識別方法,其特征在于,
5.根據(jù)權(quán)利要求4所述的基于大核卷積和線性自注意力的語音識別方法,其特征在于,
6.根據(jù)權(quán)利要求5所述的基于大核卷積和線性自注意力的語音識別方法,其特征在于,其中,線性自注意力模塊,采用線性復雜自注意力機制對第一殘差結(jié)果進行處理的過程中,所使用的自注意力公式為:
7.根據(jù)權(quán)利要求6所述的基于大核卷積和線性自注意力的語音識別方法,其特征在于,
8.根據(jù)權(quán)利要求7所述的基于大核卷積和線性自注意力的語音識別方法,其特征在于,所述S0具體包括:
9.根據(jù)權(quán)利要求7所述的基于大核卷積和線性自注意力的語音識別方法,其特征在于,<
...【技術(shù)特征摘要】
1.一種基于大核卷積和線性自注意力的語音識別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的基于大核卷積和線性自注意力的語音識別方法,其特征在于,在s1之前還包括:
3.根據(jù)權(quán)利要求2所述的基于大核卷積和線性自注意力的語音識別方法,其特征在于,其中,所述聲學信號為80維的fbank特征信號。
4.根據(jù)權(quán)利要求2所述的基于大核卷積和線性自注意力的語音識別方法,其特征在于,
5.根據(jù)權(quán)利要求4所述的基于大核卷積和線性自注意力的語音識別方法,其特征在于,
6.根據(jù)權(quán)利要求5所述的基于大核卷積和...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:謝志華,吳慧娟,陳翔,范義,王婷婷,趙鑫,魏文奇,張海波,邢紅穎,
申請(專利權(quán))人:國網(wǎng)甘肅省電力公司張掖供電公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。