多模態指令交互方法、系統、計算設備及存儲介質技術方案

技術編號：44532040 閱讀：4 留言：0更新日期：2025-03-07 13:21

本申請公開一種基于虛擬人物的多模態指令交互方法、系統、計算設備及存儲介質，所述方法包括獲取用戶姿態數據并進行識別，獲取姿態數據對應的第一操作指令；獲取用戶的語音數據并進行識別獲取用戶的意圖數據，根據意圖數據獲取對應的第二操作指令；將第一操作指令和第二操作指令進行時間戳對齊，并計算其在語義空間的相似度，用加權平均的方法對第一操作指令和第二操作指令進行融合并進行動態調整，得到優先級最高的指令作為最終操作指令控制虛擬場景中的物體移動。本申請將手勢指令和語音指令進行了深度融合，極大地拓展了用戶與虛擬環境的交互空間，突破傳統單一交互模式的局限，為用戶提供更加自然、高效、智能的沉浸式體驗。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及計算機，具體涉及一種基于虛擬人物的多模態指令交互方法、系統、計算設備及存儲介質。

技術介紹

1、近年來，隨著深度學習、知識圖譜等人工智能的快速發展，xr領域的人機交互技術正迎來新的突破機遇。一些企業紛紛布局xr交互新方案，這些方案集成了先進的計算機視覺、自然語言理解、知識推理等ai技術，初步實現了多通道、多模態的交互融合,為用戶帶來更加沉浸和智能的體驗,雖然獨立的語音或手勢控制系統已相對成熟,但這些方案往往忽略了人類溝通中非言語手勢和語音指令的協同作用。在多模態交互環境，特別是虛擬現實(vr)、增強現實(ar)和混合現實(mr)等應用中，單一的交互方式難以提供自然、高效的用戶體驗。因此需要一種能夠理解和處理結合語音與手勢的指令交互系統。在虛擬和虛擬加現實環境中，自然和高效的人機交互對于用戶體驗至關重要，用戶在這些沉浸式環境中需要能夠直觀且迅速地與虛擬物體和界面進行交互，以實現真正的沉浸感和操作便利性。

2、現有的單一交互方式的局限在于只支持單一的語音或手勢控制，這種方式存在諸多局限性。單一交互模式往往無法滿足復雜場景中的多樣化需求。例如，現有的智能助手利用nlp和技術，實現與用戶的語音交互，但在復雜任務和特定領域應用中仍存在局限，它們對多輪對話的上下文理解和精準指令解析能力有限。現有智能家居系統的語音交互功能通常依賴于預定義的指令集，靈活性和智能性不足，難以處理復雜和多樣化的用戶需求。現有vr交互系統的語音和手勢識別準確性有待提高，尤其是在噪音環境和復雜指令下的表現不盡如人意。同時，系統的指令解析和執行

3、另外，現有技術在處理多模態輸入(語音、文本、手勢)時，缺乏統一的框架和高效的融合算法，導致系統在多種輸入方式下的表現不一致，影響用戶體驗。現有智能系統在處理復雜和多步驟任務時，難以準確理解用戶意圖并執行相應操作。對多輪對話和上下文的管理能力有限，導致用戶需要重復輸入和確認。

技術實現思路

1、針對上述技術問題，本專利技術提供一種多模態指令交互方法、系統、計算設備及存儲介質，突破了傳統單一交互模式的局限，為用戶提供更加自然、高效、智能的沉浸式體驗。

2、本專利技術的第一實施例提供一種多模態指令交互方法，所述方法包括：獲取用戶姿態數據，并對姿態數據進行識別，獲取姿態數據對應的第一操作指令；獲取用戶的語音數據，并對語音數據進行識別獲取用戶的意圖數據，根據所述意圖數據獲取對應的第二操作指令；將第一操作指令和第二操作指令進行時間戳對齊，并計算第一操作指令和第二操作指令在語義空間的相似度，用加權平均的方法對第一操作指令和第二操作指令進行融合并進行動態調整，得到優先級最高的指令作為最終操作指令；根據最終操作指令控制虛擬場景中的物體移動。

3、可選地，所述獲取用戶姿態數據，并對姿態數據進行識別，獲取姿態數據對應的第一操作指令的步驟包括：通過xr設備進入虛擬環境，利用xr設備的深度相機實時采集用戶的手部圖像和關節點位置數據；通過深度學習算法對用戶的手勢進行語義分類，識別出對應的手勢指令；根據預先定義的映射關系將手勢指令轉化為對應的第一操作指令。

4、可選地，所述獲取用戶的語音數據，并對語音數據進行識別獲取用戶的意圖數據，根據所述意圖數據獲取對應的第二操作指令的步驟包括：獲取用戶的語音數據并通過聲學模型轉寫為文本信息；對文本信息進行語義解析，獲取用戶的意圖數據；根據預先定義的映射關系將所述意圖數據轉化為對應的第二操作指令。

5、可選地，所述獲取用戶姿態數據，并對姿態數據進行識別，獲取姿態數據對應的第一操作指令的步驟包括：通過xr設備進入虛擬環境，利用xr設備的姿態傳感器和視線追蹤器捕捉用戶頭部的方位角度和視線焦點；通過深度學習算法對用戶頭部的方位角度和視線焦點進行語義分類，識別出對應的頭部指令；根據預先定義的映射關系將頭部指令轉化為對應的第三操作指令。

6、可選地，所述識別出對應的手勢指令的步驟后還包括：用戶通過觸覺手套或手柄控制器感知馬達振動，通過馬達振動提示用戶手勢已被識別，不同的振動模式通過用戶xr設備的顯示器生成不同的反饋信號用來區分不同的手勢。

7、可選地，所述方法還包括：用戶xr設備的顯示器通過馬達振動生成的反饋信號用于提示用戶開始或停止獲取用戶的語音數據；用戶xr設備的顯示器通過馬達振動生成的反饋信號還用于提示用戶所述第二操作指令已被執行。

8、本專利技術的第二實施例提供一種多模態指令交互系統，所述系統包括：數據獲取模塊，用于獲取用戶姿態數據和語音數據；數據識別模塊，用于對姿態數據進行識別，獲取姿態數據對應的第一操作指令；對語音數據進行識別獲取用戶的意圖數據，根據所述意圖數據獲取對應的第二操作指令；策略確定模塊，用于將第一操作指令和第二操作指令進行時間戳對齊，并計算第一操作指令和第二操作指令在語義空間的相似度，用加權平均的方法對第一操作指令和第二操作指令進行融合并進行動態調整，得到優先級最高的指令作為最終操作指令；執行模塊，用于根據最終操作指令控制虛擬場景中的物體移動。

9、可選地，所述數據獲取模塊包括xr設備，通過所述xr設備進入虛擬環境，利用xr設備的深度相機實時采集用戶的手部圖像和關節點位置數據或者利用xr設備的姿態傳感器和視線追蹤器捕捉用戶頭部的方位角度和視線焦點；

10、所述數據識別模塊包括深度學習算法模型，通過深度學習算法模型對用戶的手勢進行語義分類或者分類，識別出對應的手勢指令或頭部指令，根據預先定義的映射關系將手勢指令或頭部指令轉化為對應的第一操作指令或第三操作指令。

11、可選地，所述數據獲取模塊還包括音頻采集設備，所述音頻采集設備用于獲取用戶的語音數據。

12、可選地，所述系統還包括觸覺反饋裝置，所述觸覺反饋裝置包括馬達或力反饋控制器。

13、本專利技術的第三實施例提供一種計算設備，包括存儲器和處理器，所述存儲器用于存儲計算機可執行指令，所述處理器用于執行所述計算機可執行指令，該計算機可執行指令被處理器執行時實現上述任一項所述多模態指令交互方法的步驟。

14、本專利技術的第四實施例提供一種計算機可讀存儲介質，其存儲有計算機可執行指令，該計算機可執行指令被處理器執行時實現上述任一項所述多模態指令交互方法的步驟。

15、本專利技術實施例提供的技術方案中，分別獲取用戶的姿態數據和語音數據進行識別，獲取對應的操作指令，將不同的操作指令進行時間戳對齊，并進行融合和動態調整得到優先級最高的指令作為最終操作指令，根據最終操作指令控制虛擬場景中的物體移動，相比于現有技術，本專利技術將手勢指令和語音指令兩種常用的交互通道進行了深度融合，并針對xr場景的特點對算法和策略進行了優化，極大地拓展了用戶與虛擬環境的交互空間，突破傳統單一交互模式的局限，為用戶提供更加自然、高效、智能的沉浸式體驗。

本文檔來自技高網...

【技術保護點】

1.一種多模態指令交互方法，其特征在于，所述方法包括：

2.根據權利要求1所述的多模態指令交互方法，其特征在于，所述獲取用戶姿態數據，并對姿態數據進行識別，獲取姿態數據對應的第一操作指令的步驟包括：

3.根據權利要求1所述的多模態指令交互方法，其特征在于，所述獲取用戶的語音數據，并對語音數據進行識別獲取用戶的意圖數據，根據所述意圖數據獲取對應的第二操作指令的步驟包括：

4.根據權利要求1所述的多模態指令交互方法，其特征在于，所述獲取用戶姿態數據，并對姿態數據進行識別，獲取姿態數據對應的第一操作指令的步驟包括：

5.根據權利要求2所述的多模態指令交互方法，其特征在于，所述識別出對應的手勢指令的步驟后還包括：

6.根據權利要求5所述的多模態指令交互方法，其特征在于，所述方法還包括：

7.一種多模態指令交互系統，其特征在于，所述系統包括：

8.根據權利要求7所述的多模態指令交互系統，其特征在于，所述數據獲取模塊包括XR設備，通過所述XR設備進入虛擬環境，利用XR設備的深度相機實時采集用戶的手部圖像和關節

9.根據權利要求8所述的多模態指令交互系統，其特征在于，所述數據獲取模塊還包括音頻采集設備，所述音頻采集設備用于獲取用戶的語音數據。

10.根據權利要求7所述的多模態指令交互系統，其特征在于，所述系統還包括觸覺反饋裝置，所述觸覺反饋裝置包括馬達或力反饋控制器。

11.一種計算設備，包括存儲器和處理器，所述存儲器用于存儲計算機可執行指令，所述處理器用于執行所述計算機可執行指令，該計算機可執行指令被處理器執行時實現權利要求1至6任一項所述多模態指令交互方法的步驟。

12.一種計算機可讀存儲介質，其存儲有計算機可執行指令，該計算機可執行指令被處理器執行時實現權利要求1至6任一項所述多模態指令交互方法的步驟。

...

【技術特征摘要】

1.一種多模態指令交互方法，其特征在于，所述方法包括：

5.根據權利要求2所述的多模態指令交互方法，其特征在于，所述識別出對應的手勢指令的步驟后還包括：

6.根據權利要求5所述的多模態指令交互方法，其特征在于，所述方法還包括：

7.一種多模態指令交互系統，其特征在于，所述系統包括：

8.根據權利要求7所述的多模態指令交互系...

【專利技術屬性】
技術研發人員：董鑫鑫，楊柳，張邦禹，范小林，
申請(專利權)人：深圳元想視界科技集團有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術