基于說話人語音微動作的說話人識別方法技術

技術編號：43287349 閱讀：13 留言：0更新日期：2024-11-12 16:08

本發(fā)明專利技術涉及電子數(shù)字數(shù)據(jù)處理技術領域，具體涉及一種基于說話人語音微動作的說話人識別方法，包括：語音流經(jīng)過預處理后提取Fbank特征分別送入教師網(wǎng)絡和學生網(wǎng)絡中，得到各自對應的特征嵌入；將教師網(wǎng)絡和學生網(wǎng)絡分別得到的特征嵌入送入loss函數(shù)中并進行反向傳播；學生網(wǎng)絡正常迭代，教師網(wǎng)絡通過EMA滑動平均的方法進行迭代；將經(jīng)過ECAPA?TDNN聲紋模型提取得到的聲紋特征信息與通過口音數(shù)據(jù)訓練得到的說話人語音微動作信息進行特征聚合和分類，進行說話人識別；本發(fā)明專利技術利用數(shù)據(jù)增強等方法提升模型的泛化性能，避免擬合在信道特征當中，且不需要人工標注，并通過引入新的特征來幫助說話人驗證模型取得在更大人群中識別說話人的能力。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本專利技術涉及電子數(shù)字數(shù)據(jù)處理，尤其涉及一種基于說話人語音微動作的說話人識別方法。

技術介紹

1、目前文本無關的說話人識別技術往往依靠的是聲紋識別技術，這項技術能夠從語音中提取出文本不相關的說話人的聲音特征。說話人的微動作，最典型也最好捕捉的微動作之一就是說話人的口音情況，因此利用口音識別可以達成語音微動作識別。口音是受到很多如地域、母語、以及教育水平等多因素影響的一種在某個語言中的特定發(fā)音方式。口音分類技術可以很好的幫助語音識別(asr)或者語音助手等任務，除此之外，其還可以幫助進行說話人識別任務、對于衡量發(fā)音標準程度等。

2、在計算機技術發(fā)展的新世紀，隨著機器學習和深度學習的崛起，深度神經(jīng)網(wǎng)絡如cnn以及rnn等網(wǎng)絡被應用于說話人驗證上。從最開始的gmm-ubm等機器學習方法開始，說話人驗證方法經(jīng)歷了gmm和dnn網(wǎng)絡提取的i-vector方法以及使用dnn-ubm提取的i-vector方法。這些方法都通過對信號進行頻譜處理以及統(tǒng)計量的計算等方法通過人工設計特征讓學習算法提取說話人驗證所需要的信息。隨后出現(xiàn)了使用dnn的d-vector方法，該方法提取了一段語音的幀級別特征，并通過平均等方法提取一段音頻的特征。隨后使用了x-vector進行說話人驗證的方法將幀級別的特征進一步通過可學習的參數(shù)進行聚合，得到了一段語音的特征。以上的方法最終轉(zhuǎn)變?yōu)榱薳capa-tdnn的方法。這個方法已經(jīng)在各類數(shù)據(jù)集上去的了領先的成果，且廣泛應用在實際的語音識別應用當中。

3、但是采用上述方法，機器學習的數(shù)據(jù)泛化能力很差，

技術實現(xiàn)思路

1、本專利技術的目的在于提供一種基于說話人語音微動作的說話人識別方法，在廣泛收集了數(shù)據(jù)的情況下，利用數(shù)據(jù)增強等方法提升模型的泛化性能，避免擬合在信道特征當中，且不需要人工標注，并通過引入新的特征來幫助說話人驗證模型取得在更大人群中識別說話人的能力。

2、為實現(xiàn)上述目的，本專利技術提供了一種基于說話人語音微動作的說話人識別方法，包括：

3、語音流經(jīng)過預處理后提取fbank特征分別送入教師網(wǎng)絡和學生網(wǎng)絡中，得到各自對應的特征嵌入；

4、將教師網(wǎng)絡和學生網(wǎng)絡分別得到的特征嵌入送入loss函數(shù)中并進行反向傳播；

5、學生網(wǎng)絡正常迭代，教師網(wǎng)絡通過ema滑動平均的方法進行迭代；

6、將經(jīng)過ecapa-tdnn聲紋模型提取得到的聲紋特征信息與通過口音數(shù)據(jù)訓練得到的說話人語音微動作信息進行特征聚合和分類，進行說話人識別。

7、其中，所述教師網(wǎng)絡和所述學生網(wǎng)絡具有同樣的結構以及超參數(shù)，所述教師網(wǎng)絡和所述學生網(wǎng)絡的區(qū)別在于模型中的參數(shù)不同。

8、其中，所述教師網(wǎng)絡和所述學生網(wǎng)絡的運行過程包括：

9、語音流經(jīng)過切分以及數(shù)據(jù)增強后提取fbank特征送入口音通用聲學模型和標準普通話聲學模型中；

10、將口音通用聲學模型和標準普通話聲學模型提取出的聲音特征進行融合；

11、對融合后聲音特征進行特征對比編碼，并將特征映射回原始數(shù)據(jù)空間。

12、其中，所述口音通用聲學模型和所述標準普通話聲學模型采用uni-asr模型。

13、其中，所述口音通用聲學模型的數(shù)據(jù)集包括口音普通話數(shù)據(jù)集、aishell-1數(shù)據(jù)集與aishell-2數(shù)據(jù)集，所述口音普通話數(shù)據(jù)集是在網(wǎng)絡上通過爬蟲收集到的帶有口音普通話，以及其帶有的視頻字幕或者文案內(nèi)容可以作為其語音轉(zhuǎn)錄，所述aishell-1數(shù)據(jù)集與所述aishell-2數(shù)據(jù)集總時長大于1100小時。

14、其中，所述標準普通話聲學模型的數(shù)據(jù)集采用在網(wǎng)上收集的廣播數(shù)據(jù)，在經(jīng)過背景音樂分離以及切除廣告之后進行asr得到標注，一共收集2100小時的音頻，經(jīng)過數(shù)據(jù)清洗得到1750小時以上的有效數(shù)據(jù)。

15、其中，所述將口音通用聲學模型和標準普通話聲學模型提取出的聲音特征進行融合的具體步驟包括：

16、將口音通用聲學模型和標準普通話聲學模型輸出的特征在通道維度進行拼合，將拼合后的特征通過一個全局最大池化和全局平均池化，之后通過一個瓶頸層，將其的維度壓縮之后空戰(zhàn)，得到注意力參數(shù)，并將其和原本的拼合之后的特征進行卷積。

17、本專利技術的一種基于說話人語音微動作的說話人識別方法，借助于口音識別的框架以及對比學習的框架完成，借助這個框架提出語音微動作和聲紋特征融合的說話人驗證方法，在廣泛收集了數(shù)據(jù)的情況下，利用數(shù)據(jù)增強等方法提升模型的泛化性能，避免擬合在信道特征當中，且不需要人工標注，通過模型的設計以及對特征的選用使得模型能夠關注更長時間在音素以及音素以上到詞匯級別的特征，本專利技術的模型最終用于說話人驗證上可以通過引入新的特征來幫助模型取得更好的說話人識別成績，本專利技術的方法能夠幫助說話人驗證模型在數(shù)百萬到千萬級別的人數(shù)上發(fā)揮作用。

本文檔來自技高網(wǎng)...

【技術保護點】

1.一種基于說話人語音微動作的說話人識別方法，其特征在于，包括：

2.如權利要求1所述的一種基于說話人語音微動作的說話人識別方法，其特征在于，

3.如權利要求2所述的一種基于說話人語音微動作的說話人識別方法，其特征在于，

4.如權利要求3所述的一種基于說話人語音微動作的說話人識別方法，其特征在于，

5.如權利要求4所述的一種基于說話人語音微動作的說話人識別方法，其特征在于，

6.如權利要求5所述的一種基于說話人語音微動作的說話人識別方法，其特征在于，

7.如權利要求6所述的一種基于說話人語音微動作的說話人識別方法，其特征在于，

【技術特征摘要】

1.一種基于說話人語音微動作的說話人識別方法，其特征在于，包括：

2.如權利要求1所述的一種基于說話人語音微動作的說話人識別方法，其特征在于，

3.如權利要求2所述的一種基于說話人語音微動作的說話人識別方法，其特征在于，

4.如權利要求3所述的一種基于說話人語音微動...

【專利技術屬性】
技術研發(fā)人員：丁卓，劉叔弢，邵曦，
申請(專利權)人：南京龍垣信息科技有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術