System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及人工智能,尤其涉及一種音頻識別方法、系統、電子設備及存儲介質。
技術介紹
1、隨著人工智能和深度學習的發展,通過音頻識別得到說話人人數估計結果已被廣泛應用于語音分離和說話人分離等眾多說話人相關的任務中。因此,如何高效精準地實現音頻識別,以得到說話人人數估計結果是目前業界亟待研究的重要課題。
2、相關技術中,通常需要采集多通道音頻信號,以基于多通道音頻信號提取幅度譜和相位譜,然后利用深度神經網絡(deep?neural?network,dnn)模型分別提取幅度特征和相位特征并進行拼接,最后將拼接后的特征送入神經網絡全連接層進行分類,而此種方式需要配置多個音頻設備進行多通道音頻信號采集,才能實現音頻識別,得到說話人人數估計結果,因而導致硬件配置成本高、適應性差。
技術實現思路
1、本專利技術提供一種音頻識別方法、系統、電子設備及存儲介質,用以解決現有技術中硬件配置成本高、適應性差的缺陷,實現在保障說話人數目估計的準確性的同時,降低配置成本,提高音頻識別的適應性。
2、本專利技術提供一種音頻識別方法,包括:
3、將單一通道的待識別音頻的聲學特征輸入至音頻識別模型中的轉換點檢測器,得到所述待識別音頻中的說話人轉換點對應的時間戳向量;
4、將所述聲學特征和所述說話人轉換點對應的時間戳向量輸入至所述音頻識別模型中的片段檢測器,得到所述待識別音頻中單一說話人的音頻片段和多個說話人的重疊音頻片段;
5、根據所述單一說話人的音
6、其中,所述音頻識別模型是基于樣本數據集進行迭代訓練得到的,所述樣本數據集包含樣本音頻的聲學特征和所述樣本音頻中的說話人數目標簽。
7、根據本專利技術提供的一種音頻識別方法,所述根據所述單一說話人的音頻片段對應的聲紋特征和所述多個說話人的重疊音頻片段對應的聲紋特征,確定輸入信息,包括:
8、將所述單一說話人的音頻片段對應的聲紋特征和所述多個說話人的重疊音頻片段對應的聲紋特征,輸入至所述音頻識別模型中的長時建模單元,得到所述待識別音頻對應的長時聲紋特征;所述長時建模單元用于對所述單一說話人的音頻片段對應的聲紋特征和所述多個說話人的重疊音頻片段對應的聲紋特征進行拼接和聲紋特征編碼;
9、根據所述長時聲紋特征,獲取所述輸入信息。
10、根據本專利技術提供的一種音頻識別方法,所述根據所述長時聲紋特征,獲取所述輸入信息,包括:
11、計算所述長時聲紋特征中每兩個元素之間的相似性,得到所述長時聲紋特征的相似度矩陣;
12、根據所述相似度矩陣,獲取所述輸入信息。
13、根據本專利技術提供的一種音頻識別方法,所述單一說話人的音頻片段對應的聲紋特征是將所述單一說話人的音頻片段輸入至所述音頻識別模型中的第一聲紋編碼器進行聲紋編碼得到的;
14、所述多個說話人的重疊音頻片段對應的聲紋特征是將所述多個說話人的重疊音頻片段輸入至所述音頻識別模型中的第二聲紋編碼器進行聲紋編碼得到的;
15、所述第一聲紋編碼器和所述第二聲紋編碼器均是基于殘差網絡構建形成;所述殘差網絡的最后一層的池化層為統計池化層。
16、根據本專利技術提供的一種音頻識別方法,所述音頻識別模型是基于如下步驟訓練得到的:
17、根據所述樣本數據集,分別對初始識別模型中的第一初始聲紋編碼器和第二初始聲紋編碼器進行迭代訓練,得到第一聲紋編碼器和第二聲紋編碼器;
18、根據所述第一聲紋編碼器和所述第二聲紋編碼器,對所述初始識別模型進行更新,得到預訓練識別模型;
19、隨機調整所述樣本音頻中各說話人的音頻片段的順序,得到預處理的樣本音頻;
20、根據所述預處理的樣本音頻的聲學特征、所述樣本音頻的聲學特征和所述說話人數目標簽,對所述預訓練識別模型進行分階段訓練,得到所述音頻識別模型。
21、根據本專利技術提供的一種音頻識別方法,所述根據所述預處理的樣本音頻的聲學特征、所述樣本音頻的聲學特征和所述說話人數目標簽,對所述預訓練識別模型進行分階段訓練,得到所述音頻識別模型,包括:
22、根據所述預處理的樣本音頻的聲學特征和所述說話人數目標簽,對所述預訓練識別模型中的待訓練網絡模型進行迭代訓練,得到第一識別模型;所述待訓練網絡模型為除所述第一聲紋編碼器和所述第二聲紋編碼器之外的網絡模型;
23、根據所述樣本音頻的聲學特征和所述說話人數目標簽對所述第一識別模型中的所述待訓練網絡模型進行迭代訓練,得到第二識別模型;
24、聯合所述預處理的樣本音頻的聲學特征、所述樣本音頻的聲學特征和所述說話人數目標簽,對所述第二識別模型中的所述待訓練網絡模型進行迭代訓練,得到所述音頻識別模型。
25、根據本專利技術提供的一種音頻識別方法,所述樣本音頻是基于如下步驟獲取的:
26、采集單一通道的原始音頻;
27、對所述原始音頻進行預處理,得到所述樣本音頻;所述預處理包括剔除對話音頻的時長小于預設時長的音頻片段和/或剔除說話時長占比值小于預設占比值的音頻片段。
28、本專利技術還提供一種音頻識別系統,包括:
29、第一檢測單元,用于將單一通道的待識別音頻的聲學特征輸入至音頻識別模型中的轉換點檢測器,得到所述待識別音頻中的說話人轉換點對應的時間戳向量;
30、第二檢測單元,用于將所述聲學特征和所述說話人轉換點對應的時間戳向量輸入至所述音頻識別模型中的片段檢測器,得到所述待識別音頻中單一說話人的音頻片段和多個說話人的重疊音頻片段;
31、識別單元,用于根據所述單一說話人的音頻片段對應的聲紋特征和所述多個說話人的重疊音頻片段對應的聲紋特征,確定輸入信息,并將所述輸入信息輸入至所述音頻識別模型中的估計器,得到所述待識別音頻中的說話人數目;
32、其中,所述音頻識別模型是基于樣本數據集進行迭代訓練得到的,所述樣本數據集包含樣本音頻的聲學特征和所述樣本音頻中的說話人數目標簽。
33、本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述任一種所述音頻識別方法。
34、本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述音頻識別方法。
35、本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述音頻識別方法。
36、本專利技術提供的音頻識別方法、系統、電子設備及存儲介質,通過將單一通道的待識別音頻的聲學特征輸入至經過迭代訓練的音頻識別模型中,該模型首先利用轉換點檢測器確定說話人轉換點的時間戳向量,隨本文檔來自技高網...
【技術保護點】
1.一種音頻識別方法,其特征在于,包括:
2.根據權利要求1所述的音頻識別方法,其特征在于,所述根據所述單一說話人的音頻片段對應的聲紋特征和所述多個說話人的重疊音頻片段對應的聲紋特征,確定輸入信息,包括:
3.根據權利要求2所述的音頻識別方法,其特征在于,所述根據所述長時聲紋特征,獲取所述輸入信息,包括:
4.根據權利要求1-3任一項所述的音頻識別方法,其特征在于,所述單一說話人的音頻片段對應的聲紋特征是將所述單一說話人的音頻片段輸入至所述音頻識別模型中的第一聲紋編碼器進行聲紋編碼得到的;
5.根據權利要求1-3任一項所述的音頻識別方法,其特征在于,所述音頻識別模型是基于如下步驟訓練得到的:
6.根據權利要求5所述的音頻識別方法,其特征在于,所述根據所述預處理的樣本音頻的聲學特征、所述樣本音頻的聲學特征和所述說話人數目標簽,對所述預訓練識別模型進行分階段訓練,得到所述音頻識別模型,包括:
7.根據權利要求1-3任一項所述的音頻識別方法,其特征在于,所述樣本音頻是基于如下步驟獲取的:
8.一種音頻識
9.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1至7任一項所述音頻識別方法。
10.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述音頻識別方法。
...【技術特征摘要】
1.一種音頻識別方法,其特征在于,包括:
2.根據權利要求1所述的音頻識別方法,其特征在于,所述根據所述單一說話人的音頻片段對應的聲紋特征和所述多個說話人的重疊音頻片段對應的聲紋特征,確定輸入信息,包括:
3.根據權利要求2所述的音頻識別方法,其特征在于,所述根據所述長時聲紋特征,獲取所述輸入信息,包括:
4.根據權利要求1-3任一項所述的音頻識別方法,其特征在于,所述單一說話人的音頻片段對應的聲紋特征是將所述單一說話人的音頻片段輸入至所述音頻識別模型中的第一聲紋編碼器進行聲紋編碼得到的;
5.根據權利要求1-3任一項所述的音頻識別方法,其特征在于,所述音頻識別模型是基于如下步驟訓練得到的:
6.根據權利要求5所述...
【專利技術屬性】
技術研發人員:徐海濤,吳華鑫,高天,方昕,潘嘉,高建清,
申請(專利權)人:科大訊飛股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。