System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及語音命令詞識別,特別是涉及一種語音命令詞識別方法、系統、終端及介質。
技術介紹
1、語音識別是一種將人類語音轉換成文本或命令的技術,廣泛應用于各類終端設備中。語音命令詞識別技術是其中一個重要技術分支,專注于識別和理解人類語音中的命令。通過語音命令詞識別技術,用戶可以方便地使用語音控制家中的各種智能設備,包括智能音箱、智能燈具、智能電視等。由于終端設備的內存資源與計算資源有限,其運行的語音命令詞識別系統不僅要滿足識別的高準確率,還必須滿足占用內存小、計算量低的要求。隨著深度學習理論與技術的逐漸完善,基于神經網絡模型的語音命令詞識別系統憑借其優異性能成為目前主流技術方案。
2、然而,高性能的卷積神經網絡模型往往參數量過大,同時又伴隨著大量卷積所需的浮點乘加計算,因而難以達到對語音命令詞識別系統的輕量化要求。
3、二值化神經網絡模型是一種在內存占用以及計算成本方面極具優勢的卷積神經網絡,其利用二值化方法大幅壓縮網絡參數量的同時,還可將傳統卷積所需的浮點乘加運算簡化為同或運算以及計數器運算,顯著減少了計算量。二值化神經網絡模型極低的參數規模與計算復雜度,可以有效滿足語音命令詞識別的輕量化需求。但是,二值化方法將不可避免地造成網絡中的嚴重信息損失與訓練困難問題,從而不可避免的導致命令詞識別準確率明顯下降。
4、因此,現有語音命令詞識別系統無法在滿足內存和計算量的同時達到很高的性能,導致識別率較低以及誤報率較高,難以滿足使用需求。
技術實現思路
1
2、為實現上述目的及其他相關目的,本申請的第一方面提供一種語音命令詞識別方法,所述語音命令詞識別方法包括:將獲取到的待識別語音裁剪為多個待識別語音段;對每個待識別語音段分別進行對數梅爾頻譜特征提取,生成每個待識別語音段的聲學特征數據;將各聲學特征數據分別輸入基于二值時頻殘差網絡訓練獲得的語音命令詞分類模型,生成每個待識別語音段的命令詞分類結果;對各待識別語音段的命令詞分類結果進行平滑處理,確定所述待識別語音數據中的目標命令詞。
3、于本申請的第一方面的一些實施例中,所述二值時頻殘差網絡包括:頻域卷積層、批量歸一化層、激活函數、多個時域卷積層、全局平均池化層以及全連接層;其中,將聲學特征數據輸入基于所述二值時頻殘差網絡訓練獲得的語音命令詞分類模型,生成對應的待識別語音段的命令詞分類結果的方式包括:通過所述頻域卷積層對輸入的聲學特征數據執行二維卷積操作,提取該聲學特征數據中的頻域特征,并通過所述批量歸一化層以及所述激活函數,生成對應的多通道頻域特征數據;通過各時域卷積層提取所述多通道頻域特征數據中的時域特征,生成對應的多通道時域特征數據;通過所述全局平均池化層以及所述全連接層,根據輸入的所述多通道時域特征數據,生成并輸出對應的命令詞分類結果。
4、于本申請的第一方面的一些實施例中,每個時域卷積層包括:第一類型二值時頻殘差塊,包括:第一時域特征提取單元、第一變維單元以及第一激活函數;用于通過所述第一時域特征提取單元對輸入數據進行時域特征提取,并通過所述第一變維單元對輸入數據進行變維,將兩個單元的輸出數據相加后再通過所述第一激活函數,生成第一多通道時域特征數據;第二類型二值時頻殘差塊,連接所述第一類型二值時頻殘差塊,包括:第二時域特征提取單元以及第二激活函數;通過所述第二時域特征提取單元對輸入數據進行時域特征提取,并將輸出數據與原輸入數據相加后再通過所述第二激活函數,生成第二多通道時域特征數據,以供最終生成待識別語音段的多通道時域特征數據。
5、于本申請的第一方面的一些實施例中,所述第一時域特征提取單元以及所述第二時域特征提取單元包括相同的時域卷積網絡結構,該時域網絡結構包括:頻域求和函數、第一符號函數、第一二值卷積層、批量歸一化層、第二符號函數、第二二值卷積層以及頻域復制層;其中,所述第一時域特征提取單元以及所述第二時域特征提取單元對輸入數據進行時域特征提取的方式包括:通過所述頻域求和函數對輸入數據執行頻域求和操作,生成多通道一維特征數據;通過所述第一符號函數對所述多通道一維特征數據執行二值化操作,生成二值化多通道一維特征數據;通過所述第一二值卷積層對所述二值化多通道一維特征數據執行二值時域卷積操作,并通過所述批量歸一化層,生成多通道一維時域特征數據;通過所述第二符號函數對所述多通道一維時域特征數據執行二值化操作,生成二值化多通道一維時域特征數據;通過所述第二二值卷積層以及所述頻域復制層對所述二值化多通道一維時域特征數據執行變維操作,生成多通道二維時域特征數據。
6、于本申請的第一方面的一些實施例中,所述第一變維單元包括:符號函數、二值卷積層、批量歸一化層以及激活函數,用于對輸入數據進行變維,使輸入數據與所述第一時域特征提取單元的輸出數據維數一致。
7、于本申請的第一方面的一些實施例中,基于二值時頻殘差網絡訓練獲得所述語音命令詞分類模型的方式包括:獲取多個預設時間長度的語音訓練樣本,并對每個語音訓練樣本分別進行對數梅爾頻譜特征提取,生成每個語音訓練樣本的聲學特征樣本數據;將構建的二值時頻殘差網絡中的各二值卷積層替換為全精度卷積層,生成對應的時頻殘差網絡,并基于各聲學特征樣本數據訓練該時頻殘差網絡,獲得收斂的時頻殘差網絡;根據已收斂的時頻殘差網絡的網絡參數,初始化所述二值時頻殘差網絡,并基于各聲學特征樣本數據訓練所述二值時頻殘差網絡;采用線性漸進梯度近似函數計算所述二值時頻殘差網絡的損失函數值,并更新其網絡參數,獲得收斂的二值時頻殘差網絡,以生成語音命令詞分類模型。
8、于本申請的第一方面的一些實施例中,將獲取到的待識別語音裁剪為多個待識別語音段的方式包括:根據預設的裁剪窗口的窗長和窗移,按照時間順序,使用所述裁剪窗口按照所述窗移在所述待識別語音上移動,并將每次移動位于所述裁剪窗口的語音進行裁剪處理,以裁剪出多個待識別語音段。
9、于本申請的第一方面的一些實施例中,對各待識別語音段的命令詞分類結果進行平滑處理,確定所述待識別語音數據中的目標命令詞的方式包括:根據所述待識別語音對應的時間順序,將各待識別語音段劃分為多個待識別語音段組;分別對每個待識別語音段組中各待識別語音段的命令詞分類結果進行累加并取平均值,獲得各待識別語音段組的命令詞分類結果;根據各待識別語音段組的命令詞分類結果,獲取其中概率值最大的命令詞,并將該命令詞與預設的識別閾值進行比較,當該命令詞的概率值大于預設的識別閾值時,確定該命令詞為待識別語音的目標命令詞。
10、于本申請的第一方面的一些實施例中,對待識別語音段進行對數梅爾頻譜特征提取,生成該待識別語音段的聲學特征數據的方式包括:對待識別語音段執行重采樣操作,并對重采樣后的語音數據執行分幀加窗操作,生成若干幀語音數據;對每一幀的語音數據分別本文檔來自技高網...
【技術保護點】
1.一種語音命令詞識別方法,其特征在于,包括:
2.根據權利要求1所述的語音命令詞識別方法,其特征在于,所述二值時頻殘差網絡包括:頻域卷積層、批量歸一化層、激活函數,多個時域卷積層、全局平均池化層以及全連接層;
3.根據權利要求2所述的語音命令詞識別方法,其特征在于,每個時域卷積層包括:
4.根據權利要求3所述的語音命令詞識別方法,其特征在于,所述第一時域特征提取單元以及所述第二時域特征提取單元包括相同的時域卷積網絡結構,該時域網絡結構包括:頻域求和函數、第一符號函數、第一二值卷積層、批量歸一化層、第二符號函數、第二二值卷積層以及頻域復制層;
5.根據權利要求3所述的語音命令詞識別方法,其特征在于,所述第一變維單元包括:符號函數、二值卷積層、批量歸一化層以及激活函數,用于對輸入數據進行變維,使輸入數據與所述第一時域特征提取單元的輸出數據維數一致。
6.根據權利要求1所述的語音命令詞識別方法,其特征在于,基于二值時頻殘差網絡訓練獲得所述語音命令詞分類模型的方式包括:
7.根據權利要求1所述的語音命令詞識別方法,
8.根據權利要求1所述的語音命令詞識別方法,其特征在于,對各待識別語音段的命令詞分類結果進行平滑處理,確定所述待識別語音數據中的目標命令詞的方式包括:
9.根據權利要求1所述的語音命令詞識別方法,其特征在于,對待識別語音段進行對數梅爾頻譜特征提取,生成該待識別語音段的聲學特征數據的方式包括:
10.一種語音命令詞識別系統,其特征在于,包括:
11.一種語音命令詞識別終端,其特征在于,包括:處理器及存儲器;
12.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1至9中任一項所述語音命令詞識別方法。
...【技術特征摘要】
1.一種語音命令詞識別方法,其特征在于,包括:
2.根據權利要求1所述的語音命令詞識別方法,其特征在于,所述二值時頻殘差網絡包括:頻域卷積層、批量歸一化層、激活函數,多個時域卷積層、全局平均池化層以及全連接層;
3.根據權利要求2所述的語音命令詞識別方法,其特征在于,每個時域卷積層包括:
4.根據權利要求3所述的語音命令詞識別方法,其特征在于,所述第一時域特征提取單元以及所述第二時域特征提取單元包括相同的時域卷積網絡結構,該時域網絡結構包括:頻域求和函數、第一符號函數、第一二值卷積層、批量歸一化層、第二符號函數、第二二值卷積層以及頻域復制層;
5.根據權利要求3所述的語音命令詞識別方法,其特征在于,所述第一變維單元包括:符號函數、二值卷積層、批量歸一化層以及激活函數,用于對輸入數據進行變維,使輸入數據與所述第一時域特征提取單元的輸出數據維數一致。
6.根據權利要求1所...
【專利技術屬性】
技術研發人員:王嘯,方超,吳侃,楊海,汪志偉,張廣潔,程志航,吳平平,吳淑君,
申請(專利權)人:芯原微電子南京有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。