System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本專利技術屬于智能語音交互,特別涉及一種語音喚醒的交互響應方法和系統(tǒng)。
技術介紹
1、隨著社會和電子信息技術的發(fā)展,人工智能產(chǎn)品成為了人民生活當中不可或缺的必需品,如智能音箱、智能汽車、智能電視、智能空調(diào)等。其它很多設備以及應用也都快速的朝著智能化的方向發(fā)展。同時,用戶對人工智能產(chǎn)品的功能需求也是豐富多樣,要求滿足基礎功能之外,還兼具影音娛樂、生活服務、互連等需求。
2、隨著智能應用的豐富和ai技術的發(fā)展,消費者對智能產(chǎn)品的認識也不斷的升級,對產(chǎn)品體驗也從單一功能向更多的智能場景進行轉變,由此,對產(chǎn)品的諸多功能需要重新定義。與此同時,人工智能、5g、人機交互設備與操作系統(tǒng)等技術的大幅度進步推動著智能應用的快速發(fā)展,以滿足用戶不斷上升的認識和需求。
3、在智能語音設備與人進行交互過程中,語音喚醒是一個基礎的能力,用于開啟與智能設備的交互。語音喚醒的目的就是將智能設備從休眠狀態(tài)激活至運行狀態(tài),所以喚醒詞說出之后,能立刻被檢測出來,用戶的體驗才會更好。如蘋果公司的“hey,siri”,百度的“小度小度”,都是已有的喚醒詞。
4、一般情況下,在用戶喚醒之后,系統(tǒng)會給用戶一個應答,比如說“在呢”之類的應答語。但如果在用戶喚醒之后,用戶立馬就說話,這可能會導致用戶發(fā)話與系統(tǒng)播報重疊起來,從而影響交互體驗和效果。
5、現(xiàn)有技術中,有一種交互形式是用戶語音喚醒之后,系統(tǒng)檢測用戶是否有立即說語音指令,也即“一次說”的交互。系統(tǒng)會在喚醒之后,檢測用戶是否有后續(xù)的立即發(fā)話,以此作為依據(jù),來決定是否播報歡
6、依據(jù)說明書附圖圖1,現(xiàn)有技術中通用的做法,是在喚醒之后的一個給定時間窗口內(nèi)(如400ms),通過語音端點檢測來檢測用戶在所述給定窗口內(nèi)是否有發(fā)話。這可能會導致兩個問題:其一,檢測發(fā)話的過程中,容易受到喚醒詞發(fā)話尾音的影響;其二,檢測發(fā)話的過程中,在400ms的后半部分容易漏檢。這樣就使得檢測效果不佳,容易發(fā)生漏檢或誤檢。
技術實現(xiàn)思路
1、為解決現(xiàn)有技術中的上述缺陷,本專利技術提出一種新的檢測喚醒之后用戶是否有發(fā)話的方法,將喚醒之后的給定時間窗口分成不同的區(qū)域,在不同的區(qū)域,采用不同的技術手段進行處理,以改善語音喚醒的交互響應。
2、本專利技術提供一種語音喚醒的交互響應方法,包括以下步驟:
3、獲取用戶發(fā)話;
4、檢測所述用戶發(fā)話中是否包含喚醒詞;
5、檢測到喚醒詞后,在喚醒詞后的檢測區(qū)域內(nèi)檢測是否存在用戶發(fā)話;
6、其中,所述在檢測區(qū)域內(nèi)檢測包括在正常發(fā)話檢測區(qū)域內(nèi)檢測是否存在用戶發(fā)話;
7、若在所述檢測區(qū)域內(nèi)未檢測到用戶發(fā)話,則播放歡迎語;
8、所述在檢測區(qū)域內(nèi)檢測還包括:
9、在喚醒詞檢測后緊鄰的時間區(qū)域誤觸發(fā)區(qū)域內(nèi)檢測是否存在用戶發(fā)話,如果檢測到發(fā)話,則進一步判斷所述發(fā)話是否與所述喚醒詞的尾音存在混淆;如果存在混淆,則認為未檢測到發(fā)話;
10、和/或
11、在所述正常發(fā)話檢測區(qū)域之后的盲區(qū)檢測區(qū)域檢測是否存在用戶發(fā)話,在所述盲區(qū)檢測區(qū)域沒有檢測到發(fā)話內(nèi)容的情況下,對所述盲區(qū)檢測區(qū)域進行基頻計算,如果基頻計算能夠獲得存在一定時長的發(fā)話,則也認為檢測到發(fā)話。
12、進一步的,在所述檢測區(qū)域內(nèi)檢測用戶發(fā)話采用喚醒模型。
13、進一步的,采用相關性分析方法判斷所述發(fā)話是否與所述喚醒詞的尾音存在混淆。
14、本專利技術提供一種語音喚醒的交互響應系統(tǒng),所述系統(tǒng)包括:
15、獲取模塊,用于獲取用戶的發(fā)話;
16、喚醒詞檢測模塊,用于檢測所述獲取單元獲取的用戶發(fā)話中是否存在喚醒詞;
17、用戶發(fā)話檢測模塊,用于檢測用戶在喚醒詞后的第二發(fā)話;
18、其中,所述用戶發(fā)話檢測模塊包括正常發(fā)話檢測模塊,并包括誤觸發(fā)檢測模塊和/或盲區(qū)檢測模塊;
19、所述誤觸發(fā)檢測模塊,用于在所述喚醒詞后緊鄰的一段時間內(nèi)檢測是否存在所述第二發(fā)話,若檢測到了所述第二發(fā)話,則需進一步判斷所述第二發(fā)話是否與所述喚醒詞的尾音存在混淆;
20、所述正常發(fā)話檢測模塊,用于在所述喚醒詞后或所述誤觸發(fā)檢測后的一段時間內(nèi)檢測是否存在所述第二發(fā)話;
21、所述盲區(qū)檢測模塊,用于在所述正常發(fā)話檢測后的一段時間內(nèi)檢測是否存在所述第二發(fā)話,若仍未檢測到第二發(fā)話,則對該時間段進行基頻檢測,判斷是否存在用戶發(fā)話;
22、語音輸出模塊,用于在系統(tǒng)喚醒后,所述用戶發(fā)話檢測模塊未檢測到所述第二發(fā)話時,輸出歡迎語。
23、進一步的,所述用戶發(fā)話檢測模塊在檢測所述第二發(fā)話時,采用喚醒模型進行檢測。
24、進一步的,所述誤觸發(fā)檢測模塊采用相關性分析方法判斷所述第二發(fā)話是否與所述喚醒詞的尾音存在混淆。
25、本專利技術提供一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)實施所述方法的步驟。
26、本專利技術提供一種電子設備,包括:
27、一個或多個處理器;以及
28、與所述一個或多個處理器關聯(lián)的存儲器,所述存儲器用于存儲程序指令,所述程序指令在被所述一個或多個處理器讀取執(zhí)行時,執(zhí)行所述方法的步驟。
29、本專利技術與現(xiàn)有技術相比,具有以下優(yōu)點和積極效果:本專利技術提供的方法,可以有效的改善現(xiàn)有技術中存在的問題,使用正常交互過程中的實際數(shù)據(jù)進行驗證,誤檢的比例在0.01%以下,漏檢在實際過程沒有發(fā)生。
本文檔來自技高網(wǎng)...【技術保護點】
1.一種語音喚醒的交互響應方法,包括以下步驟:
2.根據(jù)權利要求1所述的方法,其特征在于,
3.根據(jù)權利要求1所述的方法,其特征在于,
4.一種語音喚醒的交互響應系統(tǒng),所述系統(tǒng)包括:
5.根據(jù)權利要求4所述的系統(tǒng),其特征在于,
6.根據(jù)權利要求4所述的系統(tǒng),其特征在于,
7.一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)實施權利要求1-3中任意一項所述方法的步驟。
8.一種電子設備,包括:
【技術特征摘要】
1.一種語音喚醒的交互響應方法,包括以下步驟:
2.根據(jù)權利要求1所述的方法,其特征在于,
3.根據(jù)權利要求1所述的方法,其特征在于,
4.一種語音喚醒的交互響應系統(tǒng),所述系統(tǒng)包括:
5.根據(jù)權利要求4...
【專利技術屬性】
技術研發(fā)人員:趙茂祥,李全忠,蒲瑤,何國濤,
申請(專利權)人:普強時代珠海橫琴信息技術有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。