System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及語音處理,具體涉及一種基于最大化編碼空間的無監督說話人驗證方法。
技術介紹
1、隨著互聯網和人工智能的發展,身份驗證方式發生了重大變化,傳統的身份認證存在各種不足已無法滿足人們對認證系統的安全和便捷的需求,而說話人驗證系統相對具有無接觸采集和成本低廉等優勢,因此,為了滿足了滿足人們對安全、高效且無需接觸身份驗證方式的需求,進一步研究聲紋識別技術具有重要的現實意義和應用價值。聲紋識別技術能提取語音中的說話人身份信息,被廣泛應用于安全認證、語音助手、智能家居、醫療、設備監測等領域。說話人驗證(speaker?verification,sv)是聲紋識別
的一個重要研究方向,它能夠在語音交互過程中利用已有的身份的注冊語音,在不限定說話內容的條件下,驗證待識別語音是否為同一個說話人的語音。這在如語音喚醒、安全認證等需要身份驗證的應用場景具有重要研究價值。
2、說話人驗證需要解決的核心問題是目標說話人提取(tse),即如何使用深度神經網絡提取最具有說話人身份表征的信息并應用于后端判別。現有的挑戰是訓練數據和測試數據之間的不匹配往往導致模型的性能下降,為了解決這個問題,研究者們提出了許多設計,例如研究者們采用兩階段的方法進行模型訓練,首先使用無監督的方式預訓練說話人模型,其中包括對比學習和聚類算法,通過這些方式生生成偽標簽,然后使用偽標簽進行監督式微調,然而這種方法較為依賴數據集的先驗信息,這在測試環境不可知的情況下會受到影響。本專利技術設計能夠完全避免這個問題,并且可以利用無標注的語音更新模型,提高模型對新環
3、然后受限于難以獲取大量的標注數據,再加上現有的方法短板,如無監督損失中的分類冗余和噪聲帶來的影響等,模型評估準確率達到了瓶頸。特征空間的編碼率能夠有效反映每個批量樣本中的不同類別,最大化特征空間的編碼率能有效解決分類冗余問題;噪聲的影響會貫穿整個模型的訓練過程,可以通過在后端重新對提取的說話人嵌入打分,進行樣本篩選,這樣本最小化噪聲樣本帶來的影響。
技術實現思路
1、針對上述問題中存在的不足之處本專利技術提供一種基于最大化編碼空間的無監督說話人驗證方法。
2、本專利技術提供一種基于最大化編碼空間的無監督說話人驗證方法,包括以下步驟:
3、步驟一:獲取若干說話人的音頻和對應說話人的身份數據,所述數據在不同的場景中錄制或下載獲取;
4、步驟二:對步驟一中獲取的原始數據進行處理預處理;將所有音頻根據場景不同劃分為源域數據和目標域數據,源域數據用于預訓練,目標域數據用于微調模型和實驗評估;
5、步驟三:基于cam++網絡結構,使用源域數據集對網絡進行監督式預訓練,得到預訓練模型;
6、步驟四:使用基于dino的教師-學生框架微調模型,使用步驟三得到的預訓練模型同時初始化教師模型和學生模型;
7、步驟五:對于步驟三中用于微調的每一條語音數據,隨機切分為2段等長的互不重疊的語音片段,并將它們同時輸入步驟四中的教師模型和學生模型,得到不同的說話人嵌入向量;
8、步驟六:對步驟五得到的說話人嵌入向量計算余弦相似性得分,通過與置信度閾值的比較選擇是否篩選樣本;
9、步驟七:獲得步驟六中篩選后的說話人嵌入向量,計算mse損失,余弦損失和編碼率損失;
10、步驟八:加權步驟七中的三種損失,計算梯度并回傳,固定教師模型的參數,只更新學生模型的參數;
11、步驟九:對于更新后的學生模型,將步驟三中的用于評估的每一條語音輸入到學生模型中,得到完整的說化人向量;
12、步驟十:將步驟九中的說話人向量輸入至線性分類層然后用余弦相似性分析即可得到說話人分類結果;
13、進一步的,步驟三的具體過程為:首先所有音頻處理成3秒長的序列,設置采樣率為16000,那么每段序列包含48000個點,然后使用80組濾波器對每段序列進行fbank特征提取,那么每段音頻序列變成了形狀為[80,298]的二維數組,包含了時頻信息,經過預訓練的模型能夠將每一條語音轉化為192維度的說話人嵌入向量。
14、進一步的,步驟四的具體內容為,使用預訓練模型初始化的教師模型為ft,使用預訓練模型初始化的學生模型為fs。
15、進一步的,步驟五的具體過程為:假設用于微調模型的語音組成的一個批量大小為n,其中批量的樣本表示為集合x={x1,x2…,xi,…,xn},對于每個樣本xi,將其切分為時長2秒的不重疊的片段xi1和xi2,將它們分別輸入到如權利要求3定義的教師模型ft和學生模型fs中,得到不同的說話人嵌入和
16、
17、進一步的,步驟六的具體過程為,使用如權利要求4得到的說話人嵌入計算相似性得分:
18、
19、通過比較相似性得分與置信度閾值α的大小來選擇是否保留樣本:
20、
21、其中save表示保留樣本,pass表示拋棄樣本。
22、進一步的,步驟七中篩選后的樣本數量會小于或者等于所述步驟六中的樣本數量;計算mse損失:
23、
24、計算余弦損失:
25、
26、計算編碼率損失:
27、
28、其中i∈r1×192×192表示單位矩陣,d表示說話人特征的維度192,ε表示變換尺寸并且ε>0,zi∈r2×n×192是學生模型的輸出,是zi的轉置矩陣。
29、進一步的,步驟八中的損失加權可以表示為:
30、l=lmse+lcs+ltcr;
31、加權后的損失經過學生模型回傳,計算梯度,只更新學生模型的參數,重復前述的步驟四到步驟八即可微調模型。
32、進一步的,步驟九和步驟十用于提取評估集中的每條語音的說話人嵌入向量(192維)表示。
33、本專利技術與現有的技術相比有如下優點:
34、與傳統的監督式說話人驗證技術相比,本專利技術提出的最大化編碼空間的無監督說話人驗證方法結合了無監督學習和少樣本學習的思想,并且使用了樣本篩選的方法進行后端處理。在指標評價方面,本專利技術提出的方法在vox1和cnceleb的兩個評測集上的等錯誤率(eer)相比監督式的基線模型cam++分別降低了4.3%和5.9%。
本文檔來自技高網...【技術保護點】
1.一種基于最大化編碼空間的無監督說話人驗證方法,其特征在于,包括以下步驟;
2.根據權利要求1所述的基于最大化編碼空間的無監督說話人驗證方法,其特征在于:所述步驟三的具體過程為:首先所有音頻處理成3秒長的序列,設置采樣率為16000,那么每段序列包含48000個點,然后使用80組濾波器對每段序列進行FBank特征提取,那么每段音頻序列變成了形狀為[80,298]的二維數組,包含了時頻信息,經過預訓練的模型能夠將每一條語音轉化為192維度的說話人嵌入向量。
3.根據權利要求1所述的基于最大化編碼空間的無監督說話人驗證方法,其特征在于:所述步驟四的具體內容為,使用預訓練模型初始化的教師模型為ft,使用預訓練模型初始化的學生模型為fs。
4.根據權利要求3所述的基于最大化編碼空間的無監督說話人驗證方法,其特征在于:所述步驟五的具體過程為:用于微調模型的語音組成的一個批量大小為N,其中批量的樣本表示為集合X={x1,x2…,xi,…,xN},對于每個樣本xi,將其切分為時長2秒的不重疊的片段xi1和xi2,將它們分別輸入到教師模型ft和學生模型fs中
5.根據權利要求4所述的基于最大化編碼空間的無監督說話人驗證方法,其特征在于:所述步驟六的具體過程為,使用說話人嵌入計算相似性得分:
6.根據權利要求5所述的基于最大化編碼空間的無監督說話人驗證方法,其特征在于:所述步驟七中篩選后的樣本數量會小于或者等于所述步驟六中的樣本數量;計算MSE損失:
7.根據權利要求6所述的基于最大化編碼空間的無監督說話人驗證方法,其特征在于:所述步驟八中的損失加權可以表示為:
8.根據權利要求1所述的基于最大化編碼空間的無監督說話人驗證方法,其特征在于:所述步驟九和步驟十用于提取評估集中的每條語音的說話人嵌入向量表示。
...【技術特征摘要】
1.一種基于最大化編碼空間的無監督說話人驗證方法,其特征在于,包括以下步驟;
2.根據權利要求1所述的基于最大化編碼空間的無監督說話人驗證方法,其特征在于:所述步驟三的具體過程為:首先所有音頻處理成3秒長的序列,設置采樣率為16000,那么每段序列包含48000個點,然后使用80組濾波器對每段序列進行fbank特征提取,那么每段音頻序列變成了形狀為[80,298]的二維數組,包含了時頻信息,經過預訓練的模型能夠將每一條語音轉化為192維度的說話人嵌入向量。
3.根據權利要求1所述的基于最大化編碼空間的無監督說話人驗證方法,其特征在于:所述步驟四的具體內容為,使用預訓練模型初始化的教師模型為ft,使用預訓練模型初始化的學生模型為fs。
4.根據權利要求3所述的基于最大化編碼空間的無監督說話人驗證方法,其特征在于:所述步驟五的具體過程為:用于微調模型的語音組成的一個批量...
【專利技術屬性】
技術研發人員:孫成立,張佳豪,郭橋生,鄒采榮,向丹,梁瑞宇,王青云,孫淼,郭智華,康良軍,陳飛龍,彭建坤,丁碧云,
申請(專利權)人:廣州航海學院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。