一種基于人工智能的語音識別系統(tǒng)及方法技術(shù)方案

技術(shù)編號：44458343 閱讀：6 留言：0更新日期：2025-02-28 19:05

本發(fā)明專利技術(shù)公開了一種基于人工智能的語音識別系統(tǒng)及方法，涉及人工智能技術(shù)領(lǐng)域，包括控制中心，所述控制中心連接有數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)分析模塊以及綜合識別模塊；通過數(shù)據(jù)采集模塊采集用戶語音數(shù)據(jù)和樣本數(shù)據(jù)；在數(shù)據(jù)處理模塊對用戶語音數(shù)據(jù)和樣本數(shù)據(jù)進(jìn)行處理，獲得用戶連續(xù)音頻信號和樣本連續(xù)音頻信號，并根據(jù)樣本連續(xù)音頻信號構(gòu)建特征濾波器組，獲得樣本特征信號頻譜和用戶特征信號頻譜；數(shù)據(jù)分析模塊根據(jù)樣本特征信號頻譜構(gòu)建循環(huán)語音識別模型；綜合識別模塊根據(jù)所獲得的循環(huán)語音識別模型對用戶特征信號頻譜進(jìn)行循環(huán)識別，獲得交互文本數(shù)據(jù)；將語音數(shù)據(jù)精確轉(zhuǎn)化為文本數(shù)據(jù)，便于存儲，大大提高語音識別的準(zhǔn)確率和實時性。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)涉及人工智能，具體是一種基于人工智能的語音識別系統(tǒng)及方法。

技術(shù)介紹

1、人工智能是一門研究如何使計算機能夠以人類智能方式思考和行動的科學(xué)和
它致力于開發(fā)和構(gòu)建能夠感知、理解、學(xué)習(xí)、推理和決策的智能系統(tǒng)，使計算機具備類似人類的認(rèn)知能力和智能水平。

2、語音識別系統(tǒng)是一種人工智能技術(shù)，旨在將人類的語音輸入轉(zhuǎn)換為文本或命令。這種系統(tǒng)的目標(biāo)是能夠準(zhǔn)確識別和理解人類的語音，以便執(zhí)行相應(yīng)的指令或進(jìn)行進(jìn)一步的語義分析。語音識別系統(tǒng)的基本原理是通過將語音信號轉(zhuǎn)換為數(shù)字信號，然后使用特定的算法和模型來識別和解析這些數(shù)字信號。但同時也存在一些缺點：處理復(fù)雜語音或特殊口音時，容易產(chǎn)生識別錯誤；背景噪音會對語音信號的清晰度和準(zhǔn)確性造成很大干擾，導(dǎo)致系統(tǒng)的識別能力下降；對于復(fù)雜的語義和上下文分析，系統(tǒng)可能會出現(xiàn)識別錯誤或解釋錯誤的情況；對于不同的語音和口音，系統(tǒng)的訓(xùn)練和適應(yīng)性也面臨挑戰(zhàn)；因此，通過人工智能對語音識別存在的缺點進(jìn)行改進(jìn)，具有重要的理論和現(xiàn)實意義。

3、如何利用人工智能技術(shù)，對采集的語音數(shù)據(jù)進(jìn)行處理，獲得特征信號頻譜，并根據(jù)特征信號頻譜構(gòu)建循環(huán)語音識別模型，通過對循環(huán)語音識別模型進(jìn)行循環(huán)識別，獲得交互文本數(shù)據(jù)，是我們需要解決的問題，為此，現(xiàn)提供一種基于人工智能的語音識別系統(tǒng)及方法。

技術(shù)實現(xiàn)思路

1、本專利技術(shù)的目的在于提供一種基于人工智能的語音識別系統(tǒng)及方法。

2、本專利技術(shù)的目的可以通過以下技術(shù)方案實現(xiàn)：

3、一種基于人工智

4、所述數(shù)據(jù)采集模塊采集用戶語音數(shù)據(jù)和樣本數(shù)據(jù)的過程包括：

5、設(shè)置采集端口，所述采集端口包括若干語音捕獲點；

6、所述采集端口用于采集用戶的聲音數(shù)據(jù)，通過語音捕獲點對采集端口采集的聲音數(shù)據(jù)進(jìn)行捕獲，獲得用戶語音數(shù)據(jù)、樣本數(shù)據(jù)和語音時長。

7、所述數(shù)據(jù)處理模塊對用戶語音數(shù)據(jù)和樣本數(shù)據(jù)進(jìn)行處理的過程包括：

8、對獲得的樣本語音數(shù)據(jù)進(jìn)行數(shù)據(jù)切分，獲得樣本音頻信號、樣本采樣頻率以及樣本語音片段，對獲得的用戶語音數(shù)據(jù)進(jìn)行數(shù)據(jù)切分，獲得用戶音頻信號、用戶采樣頻率以及用戶語音片段；

9、將所獲得的樣本音頻信號與樣本語音片段進(jìn)行對應(yīng)匹配，并將匹配成功的樣本音頻信號與樣本語音片段相關(guān)聯(lián)；在樣本語音時長內(nèi)對樣本語音片段進(jìn)行組合，獲得樣本語音片段組，根據(jù)樣本語音片段組內(nèi)的樣本語音片段相關(guān)聯(lián)的樣本音頻信號生成樣本片段組波形圖。

10、獲得樣本連續(xù)音頻信號和用戶連續(xù)音頻信號的過程包括：

11、根據(jù)所獲得的樣本采樣頻率對樣本音頻信號進(jìn)行信號分幀，獲得幀信號，并將所獲得的幀信號的長度標(biāo)記為幀長度；

12、根據(jù)所獲得的樣本語音片段設(shè)置信號窗，將所獲得的信號窗的長度標(biāo)記為信號窗長度；

13、將獲得的信號窗長度和幀長度標(biāo)記在樣本片段組波形圖中，根據(jù)信號窗長度對樣本片段組波形圖中的波形進(jìn)行分段，獲得信號窗段，并將含有信號窗段的樣本片段組波形圖的幀長度進(jìn)行移動重疊，獲得樣本連續(xù)音頻信號；

14、根據(jù)所獲得的用戶音頻信號、用戶采樣頻率以及用戶語音片段重復(fù)獲得樣本連續(xù)音頻信號的過程，獲得用戶連續(xù)音頻信號。

15、構(gòu)建特征濾波器組的過程包括：

16、對樣本連續(xù)音頻信號中的每一幀信號分別進(jìn)行快速傅里葉變換，獲得樣本幀信號頻譜，根據(jù)所獲得的樣本幀信號頻譜生成樣本幀信號頻譜圖；

17、根據(jù)所獲得的樣本采樣頻率設(shè)置特征頻率范圍，根據(jù)所獲得的特征頻率范圍獲得線性頻率，將所獲得的線性頻率映射至樣本幀信號頻譜圖中，獲得頻率索引，并根據(jù)所獲得的頻率索引構(gòu)建m個三角濾波器；

18、將幀信號頻譜中的每一幀信號通過m個三角濾波器進(jìn)行特征濾波處理，獲得特征頻譜系數(shù)，并對獲得的特征頻譜系數(shù)進(jìn)行特征排序，獲得樣本特征信號頻譜。

19、構(gòu)建循環(huán)語音識別模型的過程包括：

20、根據(jù)所獲得的樣本特征信號頻譜創(chuàng)建樣本音頻信號對應(yīng)的序列標(biāo)簽，根據(jù)所獲得的樣本語音片段組將序列標(biāo)簽組合成序列標(biāo)簽集；

21、根據(jù)所獲得的樣本片段組波形圖和樣本語音片段的數(shù)目設(shè)置第一循環(huán)條件；

22、將所獲得的樣本特征信號頻譜標(biāo)記為輸入序列，對獲得的輸入序列進(jìn)行長度劃分，獲得輸入子序列，根據(jù)所獲得的輸入子序列設(shè)置初始隱藏序列；

23、設(shè)置輸入門、中轉(zhuǎn)門和輸出門；

24、通過輸入門上傳輸入子序列，對獲得的輸入子序列進(jìn)行信息篩選，獲得輸入信息，將所獲得的輸入信息上傳至中轉(zhuǎn)門，在中轉(zhuǎn)門中對輸入信息進(jìn)行信息摘取，獲得留存信息，將獲得的留存信息上傳至輸出門，通過輸出門將獲得的留存信息與初始隱藏序列進(jìn)行信息融合，獲得輸出序列；

25、將獲得的輸出序列作為下一循環(huán)的初始隱藏序列，重復(fù)獲得輸出序列的過程，直至滿足第一循環(huán)條件，并對獲得的輸出序列進(jìn)行統(tǒng)計，獲得輸出列集合。

26、獲得交互文本數(shù)據(jù)的過程包括：

27、將所獲得的用戶連續(xù)音頻信號輸入特征濾波器組，獲得用戶特征信號頻譜，將獲得的用戶特征信號頻譜上傳至循環(huán)語音識別模型進(jìn)行循環(huán)識別，獲得用戶輸出序列和用戶輸出列集合；

28、對獲得的用戶輸出列集合進(jìn)行集合劃分，獲得訓(xùn)練集和驗證集；

29、在訓(xùn)練集中任選一個用戶輸出序列作為預(yù)訓(xùn)練序列，將獲得的預(yù)訓(xùn)練序列作為初始隱藏序列上傳至循環(huán)語音識別模型中，進(jìn)行循環(huán)識別，獲得預(yù)測輸出列；

30、重復(fù)獲得預(yù)測輸出列的過程，根據(jù)所獲得的預(yù)測輸出列構(gòu)建訓(xùn)練輸出集，將所獲得訓(xùn)練輸出集與驗證集進(jìn)行序列匹配，將序列匹配成功的預(yù)測輸出列標(biāo)記為交互文本數(shù)據(jù)。

31、基于上述一種基于人工智能的語音識別系統(tǒng)，本專利技術(shù)還提供了一種基于人工智能的語音識別方法，包括以下步驟：

32、步驟一：采集用戶語音數(shù)據(jù)和樣本數(shù)據(jù)；

33、步驟二：對采集的用戶語音數(shù)據(jù)和樣本數(shù)據(jù)進(jìn)行處理，獲得用戶連續(xù)音頻信號和樣本連續(xù)音頻信號，并根據(jù)樣本連續(xù)音頻信號構(gòu)建特征濾波器組，獲得樣本特征信號頻譜和用戶特征信號頻譜；

34、步驟三：根據(jù)所獲得的樣本特征信號頻譜構(gòu)建循環(huán)語音識別模型；

35、步驟四：根據(jù)所獲得的循環(huán)語音識別模型對用戶特征信號頻譜進(jìn)行循環(huán)識別，獲得交互文本數(shù)據(jù)。

36、與現(xiàn)有技術(shù)相比，本專利技術(shù)的有益效果是：對采集的用戶語音數(shù)據(jù)和樣本數(shù)據(jù)進(jìn)行處理，并根據(jù)樣本音頻信號、樣本采樣頻率以及樣本語音片段獲得樣本連續(xù)音頻信號；根據(jù)用戶音頻信號、用戶采樣頻率、用戶語音片段獲得用戶連續(xù)音頻信號；

37、對樣本連續(xù)音頻信號進(jìn)行快速傅里葉變換，獲得幀信號頻譜，根據(jù)所獲得的幀信號頻譜構(gòu)建特征濾波器組，將所獲得的幀信號頻譜中的每一幀信號通過m個三角濾波器進(jìn)行特征濾波處理，獲得樣本特征信號頻譜和用戶特征信號頻譜；

38、根據(jù)樣本本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點】

1.一種基于人工智能的語音識別系統(tǒng)，包括控制中心，其特征在于，所述控制中心連接有數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊、數(shù)據(jù)分析模塊以及綜合識別模塊；

2.根據(jù)權(quán)利要求1所述的一種基于人工智能的語音識別系統(tǒng)，其特征在于，所述數(shù)據(jù)采集模塊采集用戶語音數(shù)據(jù)和樣本數(shù)據(jù)的過程包括：

3.根據(jù)權(quán)利要求2所述的一種基于人工智能的語音識別系統(tǒng)，其特征在于，所述數(shù)據(jù)處理模塊對用戶語音數(shù)據(jù)和樣本數(shù)據(jù)進(jìn)行處理的過程包括：

4.根據(jù)權(quán)利要求3所述的一種基于人工智能的語音識別系統(tǒng)，其特征在于，獲得樣本連續(xù)音頻信號和用戶連續(xù)音頻信號的過程包括：

5.根據(jù)權(quán)利要求4所述的一種基于人工智能的語音識別系統(tǒng)，其特征在于，構(gòu)建特征濾波器組的過程包括：

6.根據(jù)權(quán)利要求5所述的一種基于人工智能的語音識別系統(tǒng)，其特征在于，構(gòu)建循環(huán)語音識別模型的過程包括：

7.根據(jù)權(quán)利要求6所述的一種基于人工智能的語音識別系統(tǒng)，其特征在于，獲得交互文本數(shù)據(jù)的過程包括：

8.根據(jù)權(quán)利要求1至7任一項所述的一種基于人工智能的語音識別系統(tǒng)的語音識別方法，其特征在于，包括以下步驟：

...

【技術(shù)特征摘要】

4.根據(jù)權(quán)利要求3所述的一種基于人工智能的語音識別系統(tǒng)，其特征在于，獲得...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：黃燕青，陳露，徐玲玲，
申請(專利權(quán))人：合肥謙慎智能科技有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

暫無相關(guān)專利

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)