System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 成人午夜亚洲精品无码网站,国产综合无码一区二区辣椒 ,无码AV片在线观看免费
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>華僑大學專利>正文

    基于偏移和卷積自適應的非母語中文語音識別方法與系統技術方案

    技術編號:43938919 閱讀:17 留言:0更新日期:2025-01-07 21:30
    本發明專利技術公開了基于偏移和卷積自適應的非母語中文語音識別方法與系統,涉及語音識別技術領域,方法包括以下步驟:選擇預訓練模型,添加TBA模塊和卷積自適應模塊構成非母語中文語音識別模型;利用訓練好的非母語中文語音識別模型實現非母語中文語音識別;TBA模塊根據語音幀生成重要性權重和偏置項,并輸出偏置向量到前饋層;卷積自適應模塊將表示向量轉換為特征加權向量。本發明專利技術結合TBA和卷積自適應模塊,提高了模型對語音token重要性的理解以及有效提取編碼知識,這種技術組合不僅增強了模型的識別準確性,還提升了其在多語言環境或全球化應用中的適應性,在非母語中文語音識別任務中展現出顯著的有益效果。

    【技術實現步驟摘要】

    本專利技術涉及語音識別,尤其涉及基于偏移和卷積自適應的非母語中文語音識別方法與系統


    技術介紹

    1、針對現有非母語口音數據稀缺、并且目前大多數模型的訓練數據是以母語為主的標準發音,導致模型對非母語學習者的不同口音缺乏適應性。低資源語音識別是指在數據資源有限的情況下進行的語音識別研究。通常涉及到非主流語言或方言,其標注數據稀缺,難以用于訓練強大的語音識別系統。?在這種背景下,研究者們嘗試使用各種技術,如遷移學習、多任務學習、自監督學習等來提高系統的性能。例如,預訓練模型如?wav2vec?2.0?和hubert?已經在多語言環境中顯示出其對低資源語音識別的顯著改進。

    2、在低資源口音語音識別任務中,自監督預訓練模型的微調可以帶來性能提升。然而,傳統的微調方法在計算資源上成本較高,且難以適應多任務學習場景,如個性化?asr。為了解決這些問題,自適應微調方法應運而生。自適應微調通過在預訓練編碼器的各層之間插入輕量級的自適應模塊,并僅更新這些模塊的參數,從而避免了對編碼器參數的大規模修改。


    技術實現思路

    1、本專利技術的目的在于解決現有技術中的問題。

    2、本專利技術解決其技術問題所采用的技術方案是:提供一種基于偏移和卷積自適應的非母語中文語音識別方法,包括以下步驟:

    3、選擇預訓練模型構建非母語中文語音識別模型;

    4、采用選擇性訓練的方式訓練非母語中文語音識別模型;

    5、利用訓練好的非母語中文語音識別模型實現非母語中文語音識別;</p>

    6、所述非母語中文語音識別模型包括依次連接的預處理層、transformer編碼器和全連接層;

    7、預處理層將輸入的原始語音信號轉換為特征向量;

    8、transformer編碼器包括多個依次連接的編碼器層,每個編碼器層包括依次連接的自注意力子層、tba模塊、前饋層和卷積自適應模塊;自注意力子層將輸入信號轉換為語音幀,第一個編碼器層的自注意力子層的輸入信號為預處理層輸出的特征向量,其它編碼器層的自注意力子層的輸入信號為前一個編碼器層輸出的特征加權向量;tba模塊根據語音幀生成重要性權重和偏置項,并輸出偏置向量到前饋層;前饋層將偏置向量轉換為表示向量;卷積自適應模塊將表示向量轉換為特征加權向量;

    9、全連接層基于最后一個編碼器層輸出的特征加權向量輸出一個轉換向量,通過轉換向量得到預測文本。

    10、優選的,所述選擇預訓練模型構建非母語中文語音識別模型,包括以下步驟:

    11、選擇預訓練語音模型wav2vec2.0作為預訓練模型;

    12、在預訓練語音模型wav2vec2.0的自注意力子層和前饋層之間插入tba模塊,在前饋層之后添加卷積自適應模塊和全連接層;

    13、所述tba模塊包括一個可訓練的偏置向量和一個線性層;所述卷積自適應模塊包括層歸一化、三個一維卷積和壓縮激發模塊。

    14、優選的,所述自注意力子層將輸入信號轉換為語音幀,具體為:輸入信號經過自注意力子層后的輸出,通過殘差連接再與輸入信號相加,再進行層歸一化,得到語音幀,表示第i個語音幀片段,表示語音幀片段數量。

    15、優選的,所述tba模塊根據語音幀生成重要性權重和偏置項并輸出偏置向量到前饋層,具體為:

    16、語音幀輸入到tba模塊,線性層生成相應語音幀的重要性權重,表示為:

    17、;

    18、其中,為第個語音幀的權重,取值為1,2,…;

    19、由語音幀的重要性權重與偏置向量進行加權,生成偏置項,表示為:

    20、;

    21、其中,表示哈達瑪積;

    22、將偏置項與語音幀進行殘差連接得到上下文相關的偏置向量,表示為:

    23、。

    24、優選的,所述卷積自適應模塊將表示向量轉換為特征加權向量,包括以下步驟:

    25、表示向量對齊后進入卷積自適應模塊,進行層歸一化后得到;

    26、將依次輸入到三個一維卷積層,得到卷積表示向量,計算公式如下所示:

    27、;

    28、其中,、、分別表示第一至第三一維卷積層的操作;

    29、卷積表示向量輸入到壓縮激發模塊,得到特征加權向量。

    30、優選的,所述壓縮激發模塊獲得特征加權向量的過程,包括以下步驟:

    31、對輸入的卷積表示向量進行全局平均池化,得到一個包含所有語音幀且所有通道的全局池化向量,表示為:

    32、;

    33、其中,是語音幀的數量,是語音幀通道維度,為在第個通道上的特征值;

    34、對全局池化向量進行兩個全連接層的變換,得到一個全局變換向量,表示為:

    35、;

    36、其中,和分別表示sigmoid激活函數和relu激活函數,和分別表示兩個全連接層的權重矩陣;

    37、對卷積表示向量和全局變換向量進行相乘得到特征加權向量。

    38、優選的,所述采用選擇性訓練的方式訓練非母語中文語音識別模型,具體為:只訓練tba模塊和卷積自適應層的參數,同時凍結預訓練模型的參數;

    39、訓練所采用的優化函數表示為:

    40、;

    41、;

    42、;

    43、其中,是tba模塊和卷積自適應層的參數,是訓練后的最優參數,是損失函數,是訓練數據集的大小,是第個語音樣本經過模型后輸出的轉換向量,是第個語音樣本的標簽序列,是由推導而來的條件概率,是學習率。

    44、優選的,所述利用訓練好的非母語中文語音識別模型實現非母語中文語音識別,包括以下步驟:

    45、將待識別的原始語音信號輸入到訓練好的非母語中文語音識別模型,得到轉換向量;

    46、根據預先設置的詞與向量轉換表,由轉換向量推導出候選字符序列的概率,選擇概率最大的字符序列作為預測文本,表示為:

    47、;

    48、其中,表示預測文本,是根據轉換向量推導出來的條件概率。

    49、本專利技術還提供一種基于偏移和卷積自適應的非母語中文語音識別系統,包括:

    50、模型構建模塊,選擇預訓練模型構建非母語中文語音識別模型;

    51、模型訓練模塊,采用選擇性訓練的方式訓練非母語中文語音識別模型;

    52、語音識別模塊,利用訓練好的非母語中文語音識別模型實現非母語中文語音識別;

    53、所述非母語中文語音識別模型包括依次連接的預處理層、transformer編碼器和全連接層;

    54、預處理層將輸入的原始語音信號轉換為特征向量;

    55、transformer編碼器包括多個依次連接的編碼器層,每個編碼器層包括依次連接的自注意力子層、tba模塊、前饋層和卷積自適應模塊;自注意力子層將輸入信號轉換為語音幀,第一個編碼器層的自注意力子層的輸入信號為預處理層輸出的特征向量,其它編碼器層的自注意力子層的輸入信號為前一個編碼器本文檔來自技高網...

    【技術保護點】

    1.一種基于偏移和卷積自適應的非母語中文語音識別方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的基于偏移和卷積自適應的非母語中文語音識別方法,其特征在于,所述選擇預訓練模型構建非母語中文語音識別模型,包括以下步驟:

    3.根據權利要求2所述的基于偏移和卷積自適應的非母語中文語音識別方法,其特征在于,所述自注意力子層將輸入信號轉換為語音幀,具體為:輸入信號經過自注意力子層后的輸出,通過殘差連接再與輸入信號相加,再進行層歸一化,得到語音幀,表示第i個語音幀片段,表示語音幀片段數量。

    4.根據權利要求2所述的基于偏移和卷積自適應的非母語中文語音識別方法,其特征在于,所述TBA模塊根據語音幀生成重要性權重和偏置項并輸出偏置向量到前饋層,具體為:

    5.根據權利要求2所述的基于偏移和卷積自適應的非母語中文語音識別方法,其特征在于,所述卷積自適應模塊將表示向量轉換為特征加權向量,包括以下步驟:

    6.根據權利要求5所述的基于偏移和卷積自適應的非母語中文語音識別方法,其特征在于,所述壓縮激發模塊獲得特征加權向量的過程,包括以下步驟

    7.根據權利要求5所述的基于偏移和卷積自適應的非母語中文語音識別方法,其特征在于,所述采用選擇性訓練的方式訓練非母語中文語音識別模型,具體為:只訓練TBA模塊和卷積自適應層的參數,同時凍結預訓練模型的參數;

    8.根據權利要求1所述的基于偏移和卷積自適應的非母語中文語音識別方法,其特征在于,所述利用訓練好的非母語中文語音識別模型實現非母語中文語音識別,包括以下步驟:

    9.一種基于偏移和卷積自適應的非母語中文語音識別系統,其特征在于,包括:

    ...

    【技術特征摘要】

    1.一種基于偏移和卷積自適應的非母語中文語音識別方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的基于偏移和卷積自適應的非母語中文語音識別方法,其特征在于,所述選擇預訓練模型構建非母語中文語音識別模型,包括以下步驟:

    3.根據權利要求2所述的基于偏移和卷積自適應的非母語中文語音識別方法,其特征在于,所述自注意力子層將輸入信號轉換為語音幀,具體為:輸入信號經過自注意力子層后的輸出,通過殘差連接再與輸入信號相加,再進行層歸一化,得到語音幀,表示第i個語音幀片段,表示語音幀片段數量。

    4.根據權利要求2所述的基于偏移和卷積自適應的非母語中文語音識別方法,其特征在于,所述tba模塊根據語音幀生成重要性權重和偏置項并輸出偏置向量到前饋層,具體為:

    5.根據權利要求2所述的基于偏移和卷...

    【專利技術屬性】
    技術研發人員:周浩王華珍陳建國馬賀陽戴朝
    申請(專利權)人:華僑大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 激情射精爆插热吻无码视频| 日韩一区二区三区无码影院| 久久精品国产亚洲AV无码麻豆| 天堂Aⅴ无码一区二区三区| 国产精品ⅴ无码大片在线看| 性色AV一区二区三区无码| 亚洲av无码一区二区三区观看| 国产丰满乱子伦无码专区| 精品久久久无码人妻字幂| 精品人妻无码一区二区色欲产成人 | 无码人妻精品中文字幕| 国产精品无码久久久久久久久久| 亚洲av无码专区国产乱码在线观看 | 久久午夜夜伦鲁鲁片免费无码| 亚洲AV无码乱码精品国产| 精品久久久无码人妻中文字幕| 成人无码精品1区2区3区免费看| 亚洲成a人无码亚洲成av无码| 黄A无码片内射无码视频| 亚洲精品无码久久久久YW| 日韩精品久久无码人妻中文字幕| 自拍偷在线精品自拍偷无码专区 | 国产精品无码成人午夜电影| 国精品无码一区二区三区在线蜜臀| 亚洲日韩国产二区无码| 亚洲中文久久精品无码1| 亚洲av无码不卡| 无码人妻久久久一区二区三区 | 激情无码人妻又粗又大| 国产做无码视频在线观看| 亚洲日韩AV无码一区二区三区人| 未满十八18禁止免费无码网站 | 人妻丰满熟妇AV无码片| 国产V亚洲V天堂无码| 亚洲AV无码一区二区三区系列 | av无码国产在线看免费网站| 无码一区二区三区在线| 18禁超污无遮挡无码免费网站国产 | 亚洲爆乳AAA无码专区| 无码国产精成人午夜视频不卡| 少妇无码AV无码专区线|