System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国产精品白浆无码流出,色欲AV无码一区二区三区,亚洲AV无码一区二区三区久久精品
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    音頻識別方法、系統、電子設備及存儲介質技術方案

    技術編號:44047240 閱讀:9 留言:0更新日期:2025-01-15 01:26
    本發明專利技術提供一種音頻識別方法、系統、電子設備及存儲介質,該方法包括:將單一通道的待識別音頻的聲學特征輸入至音頻識別模型中的轉換點檢測器,得到待識別音頻中的說話人轉換點對應的時間戳向量;將聲學特征和說話人轉換點對應的時間戳向量輸入至音頻識別模型中的片段檢測器,得到待識別音頻中單一說話人的音頻片段和多個說話人的重疊音頻片段;根據單一說話人的音頻片段對應的聲紋特征和多個說話人的重疊音頻片段對應的聲紋特征,確定輸入信息,并將輸入信息輸入至音頻識別模型中的估計器,得到待識別音頻中的說話人數目。本發明專利技術實現在保障說話人數目估計的準確性的同時,降低配置成本,提高音頻識別的適應性。

    【技術實現步驟摘要】

    本專利技術涉及人工智能,尤其涉及一種音頻識別方法、系統、電子設備及存儲介質。


    技術介紹

    1、隨著人工智能和深度學習的發展,通過音頻識別得到說話人人數估計結果已被廣泛應用于語音分離和說話人分離等眾多說話人相關的任務中。因此,如何高效精準地實現音頻識別,以得到說話人人數估計結果是目前業界亟待研究的重要課題。

    2、相關技術中,通常需要采集多通道音頻信號,以基于多通道音頻信號提取幅度譜和相位譜,然后利用深度神經網絡(deep?neural?network,dnn)模型分別提取幅度特征和相位特征并進行拼接,最后將拼接后的特征送入神經網絡全連接層進行分類,而此種方式需要配置多個音頻設備進行多通道音頻信號采集,才能實現音頻識別,得到說話人人數估計結果,因而導致硬件配置成本高、適應性差。


    技術實現思路

    1、本專利技術提供一種音頻識別方法、系統、電子設備及存儲介質,用以解決現有技術中硬件配置成本高、適應性差的缺陷,實現在保障說話人數目估計的準確性的同時,降低配置成本,提高音頻識別的適應性。

    2、本專利技術提供一種音頻識別方法,包括:

    3、將單一通道的待識別音頻的聲學特征輸入至音頻識別模型中的轉換點檢測器,得到所述待識別音頻中的說話人轉換點對應的時間戳向量;

    4、將所述聲學特征和所述說話人轉換點對應的時間戳向量輸入至所述音頻識別模型中的片段檢測器,得到所述待識別音頻中單一說話人的音頻片段和多個說話人的重疊音頻片段;

    5、根據所述單一說話人的音頻片段對應的聲紋特征和所述多個說話人的重疊音頻片段對應的聲紋特征,確定輸入信息,并將所述輸入信息輸入至所述音頻識別模型中的估計器,得到所述待識別音頻中的說話人數目;

    6、其中,所述音頻識別模型是基于樣本數據集進行迭代訓練得到的,所述樣本數據集包含樣本音頻的聲學特征和所述樣本音頻中的說話人數目標簽。

    7、根據本專利技術提供的一種音頻識別方法,所述根據所述單一說話人的音頻片段對應的聲紋特征和所述多個說話人的重疊音頻片段對應的聲紋特征,確定輸入信息,包括:

    8、將所述單一說話人的音頻片段對應的聲紋特征和所述多個說話人的重疊音頻片段對應的聲紋特征,輸入至所述音頻識別模型中的長時建模單元,得到所述待識別音頻對應的長時聲紋特征;所述長時建模單元用于對所述單一說話人的音頻片段對應的聲紋特征和所述多個說話人的重疊音頻片段對應的聲紋特征進行拼接和聲紋特征編碼;

    9、根據所述長時聲紋特征,獲取所述輸入信息。

    10、根據本專利技術提供的一種音頻識別方法,所述根據所述長時聲紋特征,獲取所述輸入信息,包括:

    11、計算所述長時聲紋特征中每兩個元素之間的相似性,得到所述長時聲紋特征的相似度矩陣;

    12、根據所述相似度矩陣,獲取所述輸入信息。

    13、根據本專利技術提供的一種音頻識別方法,所述單一說話人的音頻片段對應的聲紋特征是將所述單一說話人的音頻片段輸入至所述音頻識別模型中的第一聲紋編碼器進行聲紋編碼得到的;

    14、所述多個說話人的重疊音頻片段對應的聲紋特征是將所述多個說話人的重疊音頻片段輸入至所述音頻識別模型中的第二聲紋編碼器進行聲紋編碼得到的;

    15、所述第一聲紋編碼器和所述第二聲紋編碼器均是基于殘差網絡構建形成;所述殘差網絡的最后一層的池化層為統計池化層。

    16、根據本專利技術提供的一種音頻識別方法,所述音頻識別模型是基于如下步驟訓練得到的:

    17、根據所述樣本數據集,分別對初始識別模型中的第一初始聲紋編碼器和第二初始聲紋編碼器進行迭代訓練,得到第一聲紋編碼器和第二聲紋編碼器;

    18、根據所述第一聲紋編碼器和所述第二聲紋編碼器,對所述初始識別模型進行更新,得到預訓練識別模型;

    19、隨機調整所述樣本音頻中各說話人的音頻片段的順序,得到預處理的樣本音頻;

    20、根據所述預處理的樣本音頻的聲學特征、所述樣本音頻的聲學特征和所述說話人數目標簽,對所述預訓練識別模型進行分階段訓練,得到所述音頻識別模型。

    21、根據本專利技術提供的一種音頻識別方法,所述根據所述預處理的樣本音頻的聲學特征、所述樣本音頻的聲學特征和所述說話人數目標簽,對所述預訓練識別模型進行分階段訓練,得到所述音頻識別模型,包括:

    22、根據所述預處理的樣本音頻的聲學特征和所述說話人數目標簽,對所述預訓練識別模型中的待訓練網絡模型進行迭代訓練,得到第一識別模型;所述待訓練網絡模型為除所述第一聲紋編碼器和所述第二聲紋編碼器之外的網絡模型;

    23、根據所述樣本音頻的聲學特征和所述說話人數目標簽對所述第一識別模型中的所述待訓練網絡模型進行迭代訓練,得到第二識別模型;

    24、聯合所述預處理的樣本音頻的聲學特征、所述樣本音頻的聲學特征和所述說話人數目標簽,對所述第二識別模型中的所述待訓練網絡模型進行迭代訓練,得到所述音頻識別模型。

    25、根據本專利技術提供的一種音頻識別方法,所述樣本音頻是基于如下步驟獲取的:

    26、采集單一通道的原始音頻;

    27、對所述原始音頻進行預處理,得到所述樣本音頻;所述預處理包括剔除對話音頻的時長小于預設時長的音頻片段和/或剔除說話時長占比值小于預設占比值的音頻片段。

    28、本專利技術還提供一種音頻識別系統,包括:

    29、第一檢測單元,用于將單一通道的待識別音頻的聲學特征輸入至音頻識別模型中的轉換點檢測器,得到所述待識別音頻中的說話人轉換點對應的時間戳向量;

    30、第二檢測單元,用于將所述聲學特征和所述說話人轉換點對應的時間戳向量輸入至所述音頻識別模型中的片段檢測器,得到所述待識別音頻中單一說話人的音頻片段和多個說話人的重疊音頻片段;

    31、識別單元,用于根據所述單一說話人的音頻片段對應的聲紋特征和所述多個說話人的重疊音頻片段對應的聲紋特征,確定輸入信息,并將所述輸入信息輸入至所述音頻識別模型中的估計器,得到所述待識別音頻中的說話人數目;

    32、其中,所述音頻識別模型是基于樣本數據集進行迭代訓練得到的,所述樣本數據集包含樣本音頻的聲學特征和所述樣本音頻中的說話人數目標簽。

    33、本專利技術還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述任一種所述音頻識別方法。

    34、本專利技術還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述音頻識別方法。

    35、本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執行時實現如上述任一種所述音頻識別方法。

    36、本專利技術提供的音頻識別方法、系統、電子設備及存儲介質,通過將單一通道的待識別音頻的聲學特征輸入至經過迭代訓練的音頻識別模型中,該模型首先利用轉換點檢測器確定說話人轉換點的時間戳向量,隨本文檔來自技高網...

    【技術保護點】

    1.一種音頻識別方法,其特征在于,包括:

    2.根據權利要求1所述的音頻識別方法,其特征在于,所述根據所述單一說話人的音頻片段對應的聲紋特征和所述多個說話人的重疊音頻片段對應的聲紋特征,確定輸入信息,包括:

    3.根據權利要求2所述的音頻識別方法,其特征在于,所述根據所述長時聲紋特征,獲取所述輸入信息,包括:

    4.根據權利要求1-3任一項所述的音頻識別方法,其特征在于,所述單一說話人的音頻片段對應的聲紋特征是將所述單一說話人的音頻片段輸入至所述音頻識別模型中的第一聲紋編碼器進行聲紋編碼得到的;

    5.根據權利要求1-3任一項所述的音頻識別方法,其特征在于,所述音頻識別模型是基于如下步驟訓練得到的:

    6.根據權利要求5所述的音頻識別方法,其特征在于,所述根據所述預處理的樣本音頻的聲學特征、所述樣本音頻的聲學特征和所述說話人數目標簽,對所述預訓練識別模型進行分階段訓練,得到所述音頻識別模型,包括:

    7.根據權利要求1-3任一項所述的音頻識別方法,其特征在于,所述樣本音頻是基于如下步驟獲取的:

    8.一種音頻識別系統,其特征在于,包括:

    9.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1至7任一項所述音頻識別方法。

    10.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述音頻識別方法。

    ...

    【技術特征摘要】

    1.一種音頻識別方法,其特征在于,包括:

    2.根據權利要求1所述的音頻識別方法,其特征在于,所述根據所述單一說話人的音頻片段對應的聲紋特征和所述多個說話人的重疊音頻片段對應的聲紋特征,確定輸入信息,包括:

    3.根據權利要求2所述的音頻識別方法,其特征在于,所述根據所述長時聲紋特征,獲取所述輸入信息,包括:

    4.根據權利要求1-3任一項所述的音頻識別方法,其特征在于,所述單一說話人的音頻片段對應的聲紋特征是將所述單一說話人的音頻片段輸入至所述音頻識別模型中的第一聲紋編碼器進行聲紋編碼得到的;

    5.根據權利要求1-3任一項所述的音頻識別方法,其特征在于,所述音頻識別模型是基于如下步驟訓練得到的:

    6.根據權利要求5所述...

    【專利技術屬性】
    技術研發人員:徐海濤吳華鑫,高天,方昕,潘嘉高建清,
    申請(專利權)人:科大訊飛股份有限公司,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 潮喷无码正在播放| 亚洲AV无码专区国产乱码不卡| 亚洲色无码专区在线观看| 亚洲Av无码国产情品久久| 中文无码字慕在线观看| 久久人妻内射无码一区三区| 无码精品A∨在线观看免费| 中文有码vs无码人妻| 最新亚洲人成无码网www电影| 国产精品ⅴ无码大片在线看| HEYZO无码综合国产精品| 亚洲精品无码久久久久去q| 特级无码毛片免费视频| 无码人妻丰满熟妇啪啪网站| 亚洲AV无码成人精品区日韩| 国产午夜无码精品免费看动漫| 无套内射在线无码播放| 亚洲成a人无码亚洲成www牛牛| 亚州AV综合色区无码一区| 国产精品免费无遮挡无码永久视频| 国产产无码乱码精品久久鸭| 少妇爆乳无码专区| 成人无码精品1区2区3区免费看| 国产亚洲美日韩AV中文字幕无码成人| 久久久久久精品无码人妻| AV无码精品一区二区三区宅噜噜| 国产成人亚洲精品无码AV大片| 成人无码AV一区二区| 日韩AV片无码一区二区不卡| 日韩精品无码一本二本三本| 无码国模国产在线无码精品国产自在久国产| 久久精品亚洲中文字幕无码麻豆| 久久久久久亚洲av成人无码国产| 亚洲中文字幕无码爆乳app| 亚洲αⅴ无码乱码在线观看性色| 国产乱子伦精品无码码专区| 亚洲精品无码MV在线观看| 亚洲午夜无码久久久久小说| 精品久久久无码中文字幕天天| 亚洲中文字幕无码一去台湾| AV无码精品一区二区三区|