一種語音喚醒的交互響應方法和系統(tǒng)技術方案

技術編號：44498592 閱讀：8 留言：0更新日期：2025-03-04 18:06

一種語音喚醒的交互響應方法和系統(tǒng)，主要用于檢測語音交互系統(tǒng)喚醒之后用戶是否有發(fā)話。將喚醒之后的給定時間窗口分成不同的區(qū)域，在不同的區(qū)域，采用不同的技術手段進行處理；其中，在喚醒詞檢測后緊鄰的時間區(qū)域誤觸發(fā)區(qū)域內(nèi)檢測是否存在用戶發(fā)話，并判斷所述發(fā)話是否與所述喚醒詞的尾音存在混淆；在誤觸發(fā)區(qū)域之后的正常發(fā)話檢測區(qū)域檢測是否存在用戶發(fā)話；在所述正常發(fā)話檢測區(qū)域之后的盲區(qū)檢測區(qū)域檢測是否存在用戶發(fā)話，在所述盲區(qū)檢測區(qū)域沒有檢測到發(fā)話內(nèi)容的情況下，對所述盲區(qū)檢測區(qū)域進行基頻計算，如果基頻計算能夠獲得存在一定時長的發(fā)話，則也認為檢測到發(fā)話。采用本發(fā)明專利技術所述的方法和系統(tǒng)，可以大大降低誤檢和漏檢的比例。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本專利技術屬于智能語音交互，特別涉及一種語音喚醒的交互響應方法和系統(tǒng)。

技術介紹

1、隨著社會和電子信息技術的發(fā)展，人工智能產(chǎn)品成為了人民生活當中不可或缺的必需品，如智能音箱、智能汽車、智能電視、智能空調(diào)等。其它很多設備以及應用也都快速的朝著智能化的方向發(fā)展。同時，用戶對人工智能產(chǎn)品的功能需求也是豐富多樣，要求滿足基礎功能之外，還兼具影音娛樂、生活服務、互連等需求。

2、隨著智能應用的豐富和ai技術的發(fā)展，消費者對智能產(chǎn)品的認識也不斷的升級，對產(chǎn)品體驗也從單一功能向更多的智能場景進行轉變，由此，對產(chǎn)品的諸多功能需要重新定義。與此同時，人工智能、5g、人機交互設備與操作系統(tǒng)等技術的大幅度進步推動著智能應用的快速發(fā)展，以滿足用戶不斷上升的認識和需求。

3、在智能語音設備與人進行交互過程中，語音喚醒是一個基礎的能力，用于開啟與智能設備的交互。語音喚醒的目的就是將智能設備從休眠狀態(tài)激活至運行狀態(tài)，所以喚醒詞說出之后，能立刻被檢測出來，用戶的體驗才會更好。如蘋果公司的“hey，siri”，百度的“小度小度”，都是已有的喚醒詞。

4、一般情況下，在用戶喚醒之后，系統(tǒng)會給用戶一個應答，比如說“在呢”之類的應答語。但如果在用戶喚醒之后，用戶立馬就說話，這可能會導致用戶發(fā)話與系統(tǒng)播報重疊起來，從而影響交互體驗和效果。

5、現(xiàn)有技術中，有一種交互形式是用戶語音喚醒之后，系統(tǒng)檢測用戶是否有立即說語音指令，也即“一次說”的交互。系統(tǒng)會在喚醒之后，檢測用戶是否有后續(xù)的立即發(fā)話，以此作為依據(jù)，來決定是否播報歡

6、依據(jù)說明書附圖圖1，現(xiàn)有技術中通用的做法，是在喚醒之后的一個給定時間窗口內(nèi)(如400ms)，通過語音端點檢測來檢測用戶在所述給定窗口內(nèi)是否有發(fā)話。這可能會導致兩個問題：其一，檢測發(fā)話的過程中，容易受到喚醒詞發(fā)話尾音的影響；其二，檢測發(fā)話的過程中，在400ms的后半部分容易漏檢。這樣就使得檢測效果不佳，容易發(fā)生漏檢或誤檢。

技術實現(xiàn)思路

1、為解決現(xiàn)有技術中的上述缺陷，本專利技術提出一種新的檢測喚醒之后用戶是否有發(fā)話的方法，將喚醒之后的給定時間窗口分成不同的區(qū)域，在不同的區(qū)域，采用不同的技術手段進行處理，以改善語音喚醒的交互響應。

2、本專利技術提供一種語音喚醒的交互響應方法，包括以下步驟：

3、獲取用戶發(fā)話；

4、檢測所述用戶發(fā)話中是否包含喚醒詞；

5、檢測到喚醒詞后，在喚醒詞后的檢測區(qū)域內(nèi)檢測是否存在用戶發(fā)話；

6、其中，所述在檢測區(qū)域內(nèi)檢測包括在正常發(fā)話檢測區(qū)域內(nèi)檢測是否存在用戶發(fā)話；

7、若在所述檢測區(qū)域內(nèi)未檢測到用戶發(fā)話，則播放歡迎語；

8、所述在檢測區(qū)域內(nèi)檢測還包括：

9、在喚醒詞檢測后緊鄰的時間區(qū)域誤觸發(fā)區(qū)域內(nèi)檢測是否存在用戶發(fā)話，如果檢測到發(fā)話，則進一步判斷所述發(fā)話是否與所述喚醒詞的尾音存在混淆；如果存在混淆，則認為未檢測到發(fā)話；

10、和/或

11、在所述正常發(fā)話檢測區(qū)域之后的盲區(qū)檢測區(qū)域檢測是否存在用戶發(fā)話，在所述盲區(qū)檢測區(qū)域沒有檢測到發(fā)話內(nèi)容的情況下，對所述盲區(qū)檢測區(qū)域進行基頻計算，如果基頻計算能夠獲得存在一定時長的發(fā)話，則也認為檢測到發(fā)話。

12、進一步的，在所述檢測區(qū)域內(nèi)檢測用戶發(fā)話采用喚醒模型。

13、進一步的，采用相關性分析方法判斷所述發(fā)話是否與所述喚醒詞的尾音存在混淆。

14、本專利技術提供一種語音喚醒的交互響應系統(tǒng)，所述系統(tǒng)包括：

15、獲取模塊，用于獲取用戶的發(fā)話；

16、喚醒詞檢測模塊，用于檢測所述獲取單元獲取的用戶發(fā)話中是否存在喚醒詞；

17、用戶發(fā)話檢測模塊，用于檢測用戶在喚醒詞后的第二發(fā)話；

18、其中，所述用戶發(fā)話檢測模塊包括正常發(fā)話檢測模塊，并包括誤觸發(fā)檢測模塊和/或盲區(qū)檢測模塊；

19、所述誤觸發(fā)檢測模塊，用于在所述喚醒詞后緊鄰的一段時間內(nèi)檢測是否存在所述第二發(fā)話，若檢測到了所述第二發(fā)話，則需進一步判斷所述第二發(fā)話是否與所述喚醒詞的尾音存在混淆；

20、所述正常發(fā)話檢測模塊，用于在所述喚醒詞后或所述誤觸發(fā)檢測后的一段時間內(nèi)檢測是否存在所述第二發(fā)話；

21、所述盲區(qū)檢測模塊，用于在所述正常發(fā)話檢測后的一段時間內(nèi)檢測是否存在所述第二發(fā)話，若仍未檢測到第二發(fā)話，則對該時間段進行基頻檢測，判斷是否存在用戶發(fā)話；

22、語音輸出模塊，用于在系統(tǒng)喚醒后，所述用戶發(fā)話檢測模塊未檢測到所述第二發(fā)話時，輸出歡迎語。

23、進一步的，所述用戶發(fā)話檢測模塊在檢測所述第二發(fā)話時，采用喚醒模型進行檢測。

24、進一步的，所述誤觸發(fā)檢測模塊采用相關性分析方法判斷所述第二發(fā)話是否與所述喚醒詞的尾音存在混淆。

25、本專利技術提供一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，該程序被處理器執(zhí)行時實現(xiàn)實施所述方法的步驟。

26、本專利技術提供一種電子設備，包括：

27、一個或多個處理器；以及

28、與所述一個或多個處理器關聯(lián)的存儲器，所述存儲器用于存儲程序指令，所述程序指令在被所述一個或多個處理器讀取執(zhí)行時，執(zhí)行所述方法的步驟。

29、本專利技術與現(xiàn)有技術相比，具有以下優(yōu)點和積極效果：本專利技術提供的方法，可以有效的改善現(xiàn)有技術中存在的問題，使用正常交互過程中的實際數(shù)據(jù)進行驗證，誤檢的比例在0.01％以下，漏檢在實際過程沒有發(fā)生。

本文檔來自技高網(wǎng)...

【技術保護點】

1.一種語音喚醒的交互響應方法，包括以下步驟：

2.根據(jù)權利要求1所述的方法，其特征在于，

3.根據(jù)權利要求1所述的方法，其特征在于，

4.一種語音喚醒的交互響應系統(tǒng)，所述系統(tǒng)包括：

5.根據(jù)權利要求4所述的系統(tǒng)，其特征在于，

6.根據(jù)權利要求4所述的系統(tǒng)，其特征在于，

7.一種計算機可讀存儲介質(zhì)，其上存儲有計算機程序，該程序被處理器執(zhí)行時實現(xiàn)實施權利要求1-3中任意一項所述方法的步驟。

8.一種電子設備，包括：

【技術特征摘要】

1.一種語音喚醒的交互響應方法，包括以下步驟：

2.根據(jù)權利要求1所述的方法，其特征在于，

3.根據(jù)權利要求1所述的方法，其特征在于，

4.一種語音喚醒的交互響應系統(tǒng)，所述系統(tǒng)包括：

5.根據(jù)權利要求4...

【專利技術屬性】
技術研發(fā)人員：趙茂祥，李全忠，蒲瑤，何國濤，
申請(專利權)人：普強時代珠海橫琴信息技術有限公司，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術