本發(fā)明專(zhuān)利技術(shù)公開(kāi)了一種基于鼠標(biāo)的語(yǔ)音識(shí)別人機(jī)交互裝置及其方法,包括集成語(yǔ)音采集功能的鼠標(biāo)和集成語(yǔ)音識(shí)別功能鼠標(biāo)驅(qū)動(dòng)程序,鼠標(biāo)內(nèi)集成有控制語(yǔ)音識(shí)別啟動(dòng)、停止的語(yǔ)音按鍵、采集語(yǔ)音的專(zhuān)用麥克風(fēng)、語(yǔ)音編解碼芯片、指示識(shí)別狀態(tài)的專(zhuān)用LED指示燈,鼠標(biāo)通訊用的USB?HUB芯片或者RF芯片和鼠標(biāo)傳統(tǒng)功能的鼠標(biāo)芯片。所述鼠標(biāo)驅(qū)動(dòng)程序包括離線命令詞語(yǔ)音識(shí)別模塊、離線隨意語(yǔ)音轉(zhuǎn)寫(xiě)模塊、在線隨意語(yǔ)音轉(zhuǎn)寫(xiě)模塊、語(yǔ)音識(shí)別引擎自動(dòng)選擇模塊、語(yǔ)義理解模塊和計(jì)算機(jī)操作控制模塊。本發(fā)明專(zhuān)利技術(shù)的有益效果是通過(guò)本發(fā)明專(zhuān)利技術(shù)可以在鼠標(biāo)傳統(tǒng)功能基礎(chǔ)上充分發(fā)揮多種語(yǔ)音識(shí)別交互技術(shù)的優(yōu)勢(shì)特點(diǎn),降低人機(jī)交互的復(fù)雜度,提高人機(jī)交互效率。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)涉及計(jì)算機(jī)輸入輸出設(shè)備,尤其涉及。
技術(shù)介紹
鼠標(biāo)專(zhuān)利技術(shù)到現(xiàn)在已經(jīng)有幾十年歷史,其作為一種計(jì)算機(jī)的人機(jī)交互設(shè)備被廣泛應(yīng)用,現(xiàn)在市場(chǎng)上的鼠標(biāo)基本功能是用來(lái)控制光標(biāo)移動(dòng),和實(shí)現(xiàn)一些簡(jiǎn)單按鍵功能,例如左鍵、右鍵、滾輪等,這些嚴(yán)重限制了鼠標(biāo)的人機(jī)交互能力,所以人們開(kāi)始設(shè)計(jì)一些具備更多功能的鼠標(biāo)。具備語(yǔ)音識(shí)別能力的鼠標(biāo)一直是人們夢(mèng)想的,在很多專(zhuān)利技術(shù)專(zhuān)利里面也提出相關(guān)設(shè)計(jì)方案。主要概況起來(lái)有三大類(lèi):一是利用語(yǔ)音識(shí)別技術(shù)來(lái)實(shí)現(xiàn)鼠標(biāo)的功能,解決一些殘疾人無(wú)法用手操作鼠標(biāo)的問(wèn)題,該方案不是提升鼠標(biāo)功能,是替代鼠標(biāo)操作方式。二是在鼠標(biāo)上集成語(yǔ)音識(shí)別處理模塊,依賴(lài)鼠標(biāo)上的語(yǔ)音識(shí)別處理模塊實(shí)現(xiàn)語(yǔ)音識(shí)別,從而達(dá)到語(yǔ)音控制計(jì)算機(jī)和鼠標(biāo)的目的,由于語(yǔ)音識(shí)別模塊本身計(jì)算能力限制,不能實(shí)現(xiàn)復(fù)雜的語(yǔ)音識(shí)別算法,在識(shí)別準(zhǔn)確率率和識(shí)別范圍方面都受到嚴(yán)重限制,在識(shí)別結(jié)果的二次處理方面也未提及,這也嚴(yán)重限制了用戶的語(yǔ)音交互效果。三是利用語(yǔ)音識(shí)別技術(shù)跟其它交互技術(shù)融合解決人機(jī)交互問(wèn)題,例如:基于視覺(jué)跟蹤和語(yǔ)音識(shí)別結(jié)合的方案(專(zhuān)利號(hào):ZL200710039996.7),在該專(zhuān)利里重點(diǎn)提到了如何利用視覺(jué)跟蹤和語(yǔ)音識(shí)別結(jié)合實(shí)現(xiàn)鼠標(biāo)控制的功能,語(yǔ)音識(shí)別也僅限制于“左鍵單機(jī)”、“右鍵單機(jī)”、“左鍵雙擊”等基本的功能,語(yǔ)音識(shí)別率也不是很高,只有86%,其在語(yǔ)音識(shí)別方面的研宄不夠深入,具體如何應(yīng)用語(yǔ)音識(shí)別方面更沒(méi)有詳細(xì)介紹。
技術(shù)實(shí)現(xiàn)思路
本專(zhuān)利技術(shù)要解決的技術(shù)問(wèn)題是現(xiàn)有的鼠標(biāo)集成語(yǔ)音技術(shù)功能單一、識(shí)別準(zhǔn)確率低、識(shí)別范圍窄、人機(jī)交互的復(fù)雜度較高,交互效率較低,為此提供。本專(zhuān)利技術(shù)的技術(shù)方案是:一種基于鼠標(biāo)的語(yǔ)音識(shí)別人機(jī)交互裝置,它包括語(yǔ)音采集功能的鼠標(biāo)和集成語(yǔ)音識(shí)別處理能力的鼠標(biāo)驅(qū)動(dòng)程序,所述鼠標(biāo)內(nèi)集成有鼠標(biāo)芯片、語(yǔ)音識(shí)別按鍵、麥克風(fēng)、語(yǔ)音編解碼模塊和LED指示燈,所述鼠標(biāo)芯片和語(yǔ)音編解碼模塊通過(guò)USB HUB芯片/RF芯片與計(jì)算機(jī)內(nèi)的鼠標(biāo)驅(qū)動(dòng)程序通信,所述鼠標(biāo)驅(qū)動(dòng)程序包括離線命令詞語(yǔ)音識(shí)別模塊、離線隨意語(yǔ)音轉(zhuǎn)寫(xiě)模塊、在線隨意語(yǔ)音轉(zhuǎn)寫(xiě)模塊、語(yǔ)音識(shí)別引擎自動(dòng)選擇模塊、語(yǔ)義理解模塊和計(jì)算機(jī)操作控制模塊。一種基于鼠標(biāo)的語(yǔ)音識(shí)別人機(jī)交互的方法,它包括以下步驟:(1)、在鼠標(biāo)內(nèi)集成的麥克風(fēng)實(shí)時(shí)采集語(yǔ)音信息,采集到的語(yǔ)音通過(guò)語(yǔ)音編解碼模塊處理后上傳至計(jì)算機(jī),計(jì)算機(jī)內(nèi)安裝的鼠標(biāo)驅(qū)動(dòng)程序?qū)崟r(shí)接收語(yǔ)音信息;(2)、鼠標(biāo)驅(qū)動(dòng)程序同時(shí)檢測(cè)鼠標(biāo)上的語(yǔ)音識(shí)別按鍵,當(dāng)按鍵按下時(shí),鼠標(biāo)驅(qū)動(dòng)程序啟動(dòng)錄音功能,LED指不燈殼,松開(kāi)語(yǔ)音識(shí)別按鍵時(shí),錄音結(jié)束;(3)、在啟動(dòng)錄音功能同時(shí)啟動(dòng)語(yǔ)音識(shí)別引擎自動(dòng)選擇模塊,根據(jù)特定的邏輯完成離線命令詞模塊、離線隨意語(yǔ)音轉(zhuǎn)寫(xiě)識(shí)別模塊、在線隨意語(yǔ)音轉(zhuǎn)寫(xiě)模塊之間的自動(dòng)選擇,具體選擇邏輯如下:首先判斷是否有文本輸入的光標(biāo)聚焦,如無(wú),則直接啟動(dòng)離線命令詞識(shí)別模塊,如有,判斷是否計(jì)算機(jī)在線,離線時(shí),啟動(dòng)離線隨意語(yǔ)音轉(zhuǎn)寫(xiě)模塊,在線時(shí),啟動(dòng)在線隨意語(yǔ)音轉(zhuǎn)寫(xiě)模塊;如果有文本輸入光標(biāo)聚焦時(shí),啟動(dòng)離線命令詞語(yǔ)音識(shí)別模塊,同時(shí)啟動(dòng)在線或者離線隨意語(yǔ)音轉(zhuǎn)寫(xiě)模塊,獲得兩個(gè)識(shí)別結(jié)果返回值,再判斷離線命令詞語(yǔ)音識(shí)別模塊返回的置信度,根據(jù)置信度判斷,當(dāng)置信度高于設(shè)定的預(yù)值時(shí),則將離線命令詞語(yǔ)音識(shí)別模塊返回值作為我們的結(jié)果,并完成計(jì)算機(jī)控制操作;當(dāng)置信度低于設(shè)定的預(yù)值時(shí),則將在線或者離線隨意語(yǔ)音轉(zhuǎn)寫(xiě)作為我們的結(jié)果,并完成文本輸入;(4)、在完成錄音和語(yǔ)音識(shí)別引擎自動(dòng)選擇模塊選擇后,將錄音信息提交給離線命令詞語(yǔ)音識(shí)別模塊,返回識(shí)別結(jié)果,LED燈熄滅;(5)、對(duì)識(shí)別結(jié)果進(jìn)行置信度判斷,判斷置信度是否達(dá)到我們?cè)O(shè)置的門(mén)限,如果高于門(mén)限值,啟動(dòng)語(yǔ)義理解模塊對(duì)識(shí)別結(jié)果進(jìn)行分析處理,根據(jù)分析結(jié)果啟動(dòng)計(jì)算機(jī)控制模塊完成計(jì)算機(jī)控制操作;(6)、如果低于設(shè)置的門(mén)限值,啟動(dòng)文本輸入功能,完成信息輸入,如果沒(méi)有文本輸入光標(biāo)聚焦,放棄識(shí)別結(jié)果,不做任何操作。上述方案中鼠標(biāo)和計(jì)算機(jī)之間是有線或無(wú)線連接。本專(zhuān)利技術(shù)的有益效果是提供了既具備傳統(tǒng)鼠標(biāo)功能又實(shí)現(xiàn)高性能語(yǔ)音識(shí)別功能的鼠標(biāo)產(chǎn)品。集成了多種語(yǔ)音識(shí)別功能,通過(guò)語(yǔ)音命令詞控制計(jì)算機(jī),識(shí)別準(zhǔn)確率達(dá)到95%以上,通過(guò)在線語(yǔ)音識(shí)別實(shí)現(xiàn)隨意文本輸入,識(shí)別范圍大幅擴(kuò)大,識(shí)別準(zhǔn)確率平均超過(guò)85%。通過(guò)該專(zhuān)利技術(shù)可以大大降低語(yǔ)音識(shí)別應(yīng)用的使用門(mén)檻,并成為計(jì)算機(jī)輸入輸出方式的重要補(bǔ)充。通過(guò)本專(zhuān)利技術(shù)可以充分發(fā)揮語(yǔ)音識(shí)別交互技術(shù)的優(yōu)勢(shì)特點(diǎn),降低人機(jī)交互的復(fù)雜度,提高人機(jī)交互效率。【附圖說(shuō)明】圖1是本專(zhuān)利技術(shù)整體示意圖; 圖2是本專(zhuān)利技術(shù)硬件框圖; 圖3是本專(zhuān)利技術(shù)鼠標(biāo)驅(qū)動(dòng)程序框圖; 圖4是本專(zhuān)利技術(shù)鼠標(biāo)驅(qū)動(dòng)程序流程圖。【具體實(shí)施方式】下面結(jié)合附圖對(duì)本專(zhuān)利技術(shù)做進(jìn)一步說(shuō)明。如圖1所示,本專(zhuān)利技術(shù)包括鼠標(biāo)和鼠標(biāo)驅(qū)動(dòng)程序兩大部分,首先鼠標(biāo)和鼠標(biāo)驅(qū)動(dòng)程序保留傳統(tǒng)鼠標(biāo)要求的構(gòu)成和功能,鼠標(biāo)和計(jì)算機(jī)之間可以是有線或無(wú)線連接。在此基礎(chǔ)上,本專(zhuān)利技術(shù)對(duì)其進(jìn)行了創(chuàng)新設(shè)計(jì)。鼠標(biāo)上,本專(zhuān)利技術(shù)增加了語(yǔ)音控制按鍵、聲音采集麥克風(fēng)、音頻編解碼模塊以及LED指示燈。在鼠標(biāo)驅(qū)動(dòng)程序上,本專(zhuān)利技術(shù)增加了離線命令詞語(yǔ)音識(shí)別模塊、離線隨意語(yǔ)音轉(zhuǎn)寫(xiě)模塊、在線隨意語(yǔ)音轉(zhuǎn)寫(xiě)模塊、語(yǔ)音識(shí)別引擎自動(dòng)選擇模塊、語(yǔ)義理解模塊和計(jì)算機(jī)操作控制模塊等。如圖2所示,本專(zhuān)利技術(shù)硬件包括語(yǔ)音按鍵、鼠標(biāo)芯片、LED指示燈、鼠標(biāo)其它功能鍵、采集語(yǔ)音麥克風(fēng)、語(yǔ)音編解碼芯片、USB HUB芯片/RF芯片等部分組成。語(yǔ)音按鍵:用來(lái)啟動(dòng)語(yǔ)音識(shí)別的專(zhuān)用按鍵,按下該按鍵,開(kāi)始采集語(yǔ)音,松開(kāi)按鍵結(jié)束語(yǔ)音采集。鼠標(biāo)芯片:主要用來(lái)實(shí)現(xiàn)鼠標(biāo)傳統(tǒng)功能,檢測(cè)鼠標(biāo)移動(dòng),檢查各按鍵,控制指示燈,并跟驅(qū)動(dòng)程序之間進(jìn)行數(shù)據(jù)交互。LED指示燈:主要功能是指示識(shí)別狀態(tài),開(kāi)始語(yǔ)音采集,指示燈亮,返回識(shí)別結(jié)果,指示燈滅。鼠標(biāo)其它功能鍵:主要指左鍵、右鍵、滾輪等。采集語(yǔ)音麥克風(fēng):本方案中可以采用駐極體麥克風(fēng)或者硅麥作為采集語(yǔ)音麥克風(fēng)。音頻編解碼模塊:主要用來(lái)實(shí)現(xiàn)音頻模數(shù)轉(zhuǎn)換和壓縮編碼功能。USB HUB芯片/RF芯片:根據(jù)鼠標(biāo)是USB有線鼠標(biāo)還是RF無(wú)線鼠標(biāo)進(jìn)行適當(dāng)選擇,實(shí)現(xiàn)鼠標(biāo)跟計(jì)算機(jī)之間的通訊問(wèn)題。如果3所示,本專(zhuān)利技術(shù)的鼠標(biāo)驅(qū)動(dòng)程序處理語(yǔ)音數(shù)據(jù)框圖,鼠標(biāo)收到音頻數(shù)據(jù)后,首先啟動(dòng)識(shí)別引擎自動(dòng)選擇模塊,判斷啟動(dòng)哪個(gè)語(yǔ)音識(shí)別模塊最合適用戶的需求,再啟動(dòng)語(yǔ)義理解模塊分析用戶意圖,最后啟動(dòng)計(jì)算機(jī)控制模塊完成計(jì)算機(jī)控制或文本輸入。離線命令詞識(shí)別模塊:指針對(duì)預(yù)置的特點(diǎn)詞語(yǔ)的語(yǔ)音識(shí)別。離線命令詞識(shí)別的優(yōu)點(diǎn)是:占用資源低,識(shí)別速度快,識(shí)別準(zhǔn)確率高,不依賴(lài)網(wǎng)絡(luò)。缺點(diǎn)是:識(shí)別范圍小,要求用戶嚴(yán)格按照命令詞說(shuō)語(yǔ)音。離線隨意語(yǔ)音轉(zhuǎn)寫(xiě)模塊:指針對(duì)特定范圍的隨意語(yǔ)音識(shí)別轉(zhuǎn)寫(xiě),不依賴(lài)網(wǎng)絡(luò)工作。優(yōu)點(diǎn)是,不依賴(lài)網(wǎng)絡(luò),用戶可以隨意說(shuō)口語(yǔ),不限制用戶當(dāng)前第1頁(yè)1 2 本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】
一種基于鼠標(biāo)的語(yǔ)音識(shí)別人機(jī)交互裝置,其特征是它包括具有語(yǔ)音采集功能的鼠標(biāo)和集成語(yǔ)音識(shí)別處理能力的鼠標(biāo)驅(qū)動(dòng)程序,所述鼠標(biāo)內(nèi)集成有鼠標(biāo)芯片、語(yǔ)音識(shí)別按鍵、麥克風(fēng)、語(yǔ)音編解碼模塊和LED指示燈,所述鼠標(biāo)芯片和語(yǔ)音編解碼模塊通過(guò)USB?HUB芯片/RF芯片與計(jì)算機(jī)內(nèi)的鼠標(biāo)驅(qū)動(dòng)程序通信,所述鼠標(biāo)驅(qū)動(dòng)程序包括離線命令詞語(yǔ)音識(shí)別模塊、離線隨意語(yǔ)音轉(zhuǎn)寫(xiě)模塊、在線隨意語(yǔ)音轉(zhuǎn)寫(xiě)模塊、語(yǔ)音識(shí)別引擎自動(dòng)選擇模塊、語(yǔ)義理解模塊和計(jì)算機(jī)操作控制模塊。
【技術(shù)特征摘要】
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:徐敏,
申請(qǐng)(專(zhuān)利權(quán))人:徐敏,
類(lèi)型:發(fā)明
國(guó)別省市:安徽;34
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。