一種基于語音識別的對話交互方法及裝置制造方法及圖紙

技術編號：44299673 閱讀：7 留言：0更新日期：2025-02-18 20:18

本申請屬于智能交互技術領域，公開了一種基于語音識別的對話交互方法及裝置，該方法包括：獲取音頻數據，并對音頻數據進行預處理，得到短時信號；提取短時信號中的音頻特征信息；將音頻特征信息輸入全協方差的高斯混合模型，得到真人可能性評分；若真人可能性評分大于預設閾值，則將音頻數據轉換為文本數據對文本數據進行意圖識別、實體識別和情感識別，得到識別結果；根據識別結果在對應的行業數據庫中匹配對答文本；將對答文本轉換為語音數據，并播放語音數據。本申請能夠捕捉到短時信號的多樣性和復雜性，提高音頻識別的魯棒性和準確性，避免對話引擎與非人對話，節省計算資源。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及智能交互，尤其涉及一種基于語音識別的對話交互方法及裝置。

技術介紹

1、隨著人工智能技術的發展，智能對話引擎的應用也越來越廣泛，現有的對話引擎通常是在獲取到用戶的語音信息后，基于端到端的語音識別模型、語音識別引擎speechbrain等將語音轉寫為文本，再采用正則表達式、梅爾頻譜能量特征(mfb)、bilstm-crf(雙向長短期記憶網絡和條件隨機場)、多任務學習等算法識別用戶輸入文本的意圖，并根據識別結果在對應的知識庫中找到對答策略，將對答策略轉換為音頻后播放給用戶聽。

2、然而，現有的對話引擎都重點關注對語音的轉換準確度和對語音文本的識別準確度、提高對答效果，但事實上，對話引擎所接收到的用戶語音不一定是真人發出的，也可能是用戶的智能ai系統發出的，這就會導致對話引擎會和另一個交互系統進行對話，不僅會影響對話引擎對于用戶的個性標簽構建，降低后續對話效果，還會浪費對話引擎的計算資源。

技術實現思路

1、本申請提供了一種基于語音識別的對話交互方法及裝置，能夠捕捉到短時信號的多樣性和復雜性，提高音頻識別的魯棒性和準確性，避免對話引擎與非人對話，節省計算資源。

2、第一方面，本申請實施例提供了一種基于語音識別的對話交互方法，包括：

3、獲取音頻數據，并對音頻數據進行預處理，得到短時信號；

4、提取短時信號中的音頻特征信息；音頻特征信息包括信號能量曲線、共振峰曲線、短時過零率、頻域特征參數、倒譜特征參數和諧波特征參數；

6、若真人可能性評分大于預設閾值，則將音頻數據轉換為文本數據；

7、對文本數據進行意圖識別、實體識別和情感識別，得到識別結果；

8、根據識別結果在對應的行業數據庫中匹配對答文本；

9、將對答文本轉換為語音數據，并播放語音數據。

10、進一步的，該方法還包括：

11、獲取文本數據中的目標語句，并輸入自編碼模型，得到編碼語句；

12、計算編碼語句的重構誤差；判斷重構誤差是否小于預設連貫閾值；

13、若否，則提取目標語句中的各個單詞，將相鄰的兩個單詞組成單詞向量；計算各個單詞向量中兩個單詞的拼音相似度；

14、將拼音相似度低于預設相似閾值的單詞向量作為問題向量；

15、對文本數據中的各個語句重復上述步驟，記錄問題向量的向量數量；令向量數量除以單詞向量的數量，得到口誤量化評分；

16、根據口誤量化評分更新真人可能性評分。

17、進一步的，該方法還包括：

18、檢測音頻數據中的停頓位置，根據停頓位置得到文本數據的斷句位置；判斷斷句位置是否符合語法，并記錄不符合語法的斷句位置的斷句數量；令斷句數量除以停頓位置的數量，得到語法問題量化評分；

19、根據語法問題量化評分更新真人可能性評分。

20、進一步的，該方法還包括：

21、提取文本數據的單詞和各個單詞對應的詞義；

22、獲取用戶標簽，判斷用戶標簽中是否有相同詞義的標準單詞；

23、若有，則判斷文本數據的單詞和標準單詞是否一致；

24、記錄與標準單詞一致的第一單詞數量和不一致的第二單詞數量；

25、令第一單詞數量除以第二單詞數量，得到用詞習慣評分；

26、根據用詞習慣評分更新真人可能性評分。

27、進一步的，該方法還包括：

28、在對音頻數據進行預處理之前，判斷音頻數據是否為噪音；

29、若音頻數據為噪音或者在播放完畢語音數據后，開始計時；

30、在計時的時長達到預設響應閾值時，回復預設結束語音，并結束對話。進一步的，該方法還包括：

31、接收對話結束指令或者結束對話后，獲取歷史用戶輸入文本；

32、提取歷史用戶輸入文本的單詞和各個單詞對應的詞義；

33、將相同詞義的單詞分為一個詞組，并計算各個單詞的詞頻；

34、將各個詞組中詞頻最大且詞頻大于預設標準閾值的單詞作為標準單詞；將標準單詞和對應的詞頻、詞義放入用戶標簽。

35、進一步的，該方法還包括：

36、在對音頻數據進行預處理之前，提取音頻數據的基頻和語速；

37、基于基頻和語速在用戶聲學特征庫中進行匹配；

38、若有匹配，則將音頻數據轉換為文本數據；否則對音頻數據進行預處理。

39、第二方面，本申請實施例提供了一種基于語音識別的對話交互裝置，包括：

40、預處理模塊，用于獲取音頻數據，并對音頻數據進行預處理，得到短時信號；

41、特征提取模塊，用于提取短時信號中的音頻特征信息；音頻特征信息包括信號能量曲線、共振峰曲線、短時過零率、頻域特征參數、倒譜特征參數和諧波特征參數；

42、輸入模塊，用于將音頻特征信息輸入全協方差的高斯混合模型，得到真人可能性評分；

43、轉換模塊，用于在真人可能性評分大于預設閾值時，將音頻數據轉換為文本數據；

44、識別模塊，用于對文本數據進行意圖識別、實體識別和情感識別，得到識別結果；

45、匹配模塊，用于根據識別結果在對應的行業數據庫中匹配對答文本；

46、播放模塊，用于將對答文本轉換為語音數據，并播放語音數據。

47、進一步的，該裝置還包括：

48、語句編碼模塊，用于獲取文本數據中的目標語句，并輸入自編碼模型，得到編碼語句。

49、重構誤差模塊，用于計算編碼語句的重構誤差；判斷重構誤差是否小于預設連貫閾值。

50、單詞向量模塊，用于提取目標語句中的各個單詞，將相鄰的兩個單詞組成單詞向量。

51、拼音相似模塊，用于計算各個單詞向量中兩個單詞的拼音相似度。

52、問題向量模塊，用于將拼音相似度低于預設相似閾值的單詞向量作為問題向量。

53、問題數量模塊，用于對文本數據中的各個語句重復上述步驟，記錄問題向量的向量數量。

54、口誤量化模塊，用于令向量數量除以單詞向量的數量，得到口誤量化評分。

55、口誤更新模塊，用于根據口誤量化評分更新真人可能性評分。

56、進一步的，該裝置還包括：

57、停頓檢測模塊，用于檢測音頻數據中的停頓位置，根據停頓位置得到文本數據的斷句位置。

58、語法模塊，用于判斷斷句位置是否符合語法，并記錄不符合語法的斷句位置的斷句數量；

59、語法量化模塊，用于令斷句數量除以停頓位置的數量，得到語法問題量化評分。

60、語法更新模塊，用于根據語法問題量化評分更新真人可能性評分。

61、進一步的，該裝置還包括：

62、第一提取模塊，用于提取文本數據的單詞和各個單詞對本文檔來自技高網...

【技術保護點】

1.一種基于語音識別的對話交互方法，其特征在于，包括：

2.根據權利要求1所述的基于語音識別的對話交互方法，其特征在于，還包括：

3.根據權利要求1所述的基于語音識別的對話交互方法，其特征在于，還包括：

4.根據權利要求1所述的基于語音識別的對話交互方法，其特征在于，還包括：

5.根據權利要求4所述的基于語音識別的對話交互方法，其特征在于，還包括：

6.根據權利要求5所述的基于語音識別的對話交互方法，其特征在于，還包括：

7.根據權利要求1所述的基于語音識別的對話交互方法，其特征在于，還包括：

8.一種基于語音識別的對話交互裝置，其特征在于，包括：

9.一種計算機設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，其特征在于，所述處理器執行所述計算機程序時實現如權利要求1至7中任一項所述基于語音識別的對話交互方法的步驟。

10.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述基于語音識別的對話交互方法的步驟。

...

【技術特征摘要】

1.一種基于語音識別的對話交互方法，其特征在于，包括：

2.根據權利要求1所述的基于語音識別的對話交互方法，其特征在于，還包括：

3.根據權利要求1所述的基于語音識別的對話交互方法，其特征在于，還包括：

4.根據權利要求1所述的基于語音識別的對話交互方法，其特征在于，還包括：

5.根據權利要求4所述的基于語音識別的對話交互方法，其特征在于，還包括：

6.根據權利要求5所述的基于語音識別的對話交互方法，其特征在于，還包括：

7.根據權利...

【專利技術屬性】
技術研發人員：劉嗣平，湯丁青，
申請(專利權)人：廣州九四智能科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術