System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及人機交互,尤其涉及一種操作意圖識別方法、交互方法及相關裝置。
技術介紹
1、人機交互是指人類與設備之間進行信息交流和互動的過程。在很多應用場景(比如智能座艙場景)中,人機交互方式多為語音交互方式(比如通過語音打開空調、關閉車窗等)。
2、可以理解的是,在進行語音交互時,需要對用戶的語音進行語音識別,然而,受諸多因素(比如環境噪聲)影響,通過語音識別無法準確識別出用戶的操作意圖。可以理解的是,無法準確識別出用戶的操作意圖會導致交互準確性低下,進而嚴重影響用戶體驗。
技術實現思路
1、有鑒于此,本申請提供了一種操作意圖識別方法、交互方法及相關裝置,用于解決目前的方案無法準確識別出用戶的操作意圖,進而導致交互準確性低下,從而影響用戶體驗的問題,其技術方案如下:
2、本申請第一方面提供一種操作意圖識別方法,包括:
3、獲取目標用戶的多模態數據,所述多模態數據包括手部圖像數據和語音數據;
4、根據所述目標用戶的多模態數據,獲取手指端點三維坐標、手指指向向量弧度、目標操作以及操作置信度;
5、根據所述操作置信度,確定所述目標用戶是否有操作意圖;
6、若所述目標用戶有操作意圖,則根據所述手指端點三維坐標和所述手指指向向量弧度,確定所述目標操作對應的操作對象,以得到包含所述目標操作以及所述目標操作對應的操作對象的操作意圖識別結果。
7、在一種可能的實現方式中,所述手部圖像數據包括手部rgb圖像和所述手部r
8、在一種可能的實現方式中,獲取目標用戶的手部圖像數據,包括:
9、利用圖像采集設備采集包含所述目標用戶的手部的rgb圖像以及所述rgb圖像對應的深度圖;
10、利用預先訓練得到的第一手部檢測模型對采集的rgb圖像進行手部檢測,得到采集的rgb圖像中手部區域的位置信息,其中,所述第一手部檢測模型采用標注出手部區域的訓練圖像訓練得到;
11、根據所述手部區域的位置信息,從采集的rgb圖像中提取出手部區域,得到手部rgb圖像;
12、根據所述手部區域的位置信息,從采集的rgb圖像對應的深度圖中提取出手部區域,得到所述手部rgb圖像對應的手部深度圖。
13、在一種可能的實現方式中,所述第一手部檢測模型采用標注出手部區域的訓練圖像,同時輔以預先訓練得到的第二手部檢測模型訓練得到,所述第二手部檢測模型的規模大于所述第一手部檢測模型的規模;
14、所述第一手部檢測模型的訓練目標為:使利用所述第一手部檢測模型對所述訓練圖像進行手部檢測得到的手部區域趨近于利用所述第二手部檢測模型對所述訓練圖像進行手部檢測得到的手部區域,以及使利用所述第一手部檢測模型對所述訓練圖像進行手部檢測得到的手部區域趨近于所述訓練圖像標注的手部區域。
15、在一種可能的實現方式中,所述根據所述目標用戶的多模態數據,獲取手指端點三維坐標、手指指向向量弧度、目標操作以及操作置信度,包括:
16、利用預先訓練得到的多模態信息識別模型,對所述目標用戶的多模態數據進行信息識別,得到手指端點三維坐標、手指指向向量弧度、目標操作以及操作置信度;
17、其中,所述多模態信息識別模型采用標注有手指端點三維坐標、手指指向向量弧度、目標操作以及操作置信度的訓練多模態數據訓練得到,所述訓練多模態數據包括訓練手部圖像數據和訓練語音數據。
18、在一種可能的實現方式中,所述利用預先訓練得到的多模態信息識別模型,對所述目標用戶的多模態數據進行信息識別,得到手指端點三維坐標、手指指向向量弧度、目標操作以及操作置信度,包括:
19、利用預先訓練得到的多模態信息識別模型,對所述目標用戶的手部圖像數據和語音數據分別提取特征,得到圖像特征和語音特征;
20、利用所述多模態信息識別模型,將所述圖像特征與所述語音特征融合,得到融合后特征;
21、利用所述多模態信息識別模型,以所述融合后特征為依據,預測手指端點三維坐標、手指指向向量弧度、目標操作以及操作置信度。
22、在一種可能的實現方式中,所述手指端點三維坐標和所述手指指向向量弧度均為相機坐標系下的數據;
23、所述根據所述手指端點三維坐標和所述手指指向向量弧度,確定所述目標操作對應的操作對象,包括:
24、將所述相機坐標系下的手指端點三維坐標轉換為世界坐標系下的手指端點三維坐標;
25、將所述相機坐標系下的手指指向向量弧度轉換為世界坐標系下的手指指向方向向量;
26、根據各候選操作對象的位置信息以及所述世界坐標系下的手指端點三維坐標和手指指向方向向量,從所述各候選操作對象中確定所述目標操作對應的操作對象。
27、在一種可能的實現方式中,所述根據各候選操作對象的位置信息以及所述世界坐標系下的手指端點三維坐標和手指指向方向向量,從所述各候選操作對象中確定所述目標操作對應的操作對象,包括:
28、針對每個候選操作對象:根據該候選操作對象的位置信息、該候選操作對象所在平面的法向量以及所述世界坐標系下的手指端點三維坐標和手指指向方向向量,確定目標射線與該候選操作對象是否相交,其中,所述目標射線為以所述世界坐標系下的手指端點三維坐標為射線起點,以所述世界坐標系下的手指指向方向向量所指示的方向為射線方向的射線;
29、將與所述目標射線相交的候選操作對象確定為所述目標操作對應的操作對象。
30、本申請第二方面提供一種交互方法,包括:
31、采用上述任一項所述的操作意圖識別方法進行操作意圖識別,得到包含目標操作以及所述目標操作對應的操作對象的操作意圖識別結果;
32、控制所述目標操作對應的操作對象執行所述目標操作。
33、本申請第三方面提供一種操作意圖識別裝置,包括:多模態數據獲取模塊、手部信息及操作信息獲取模塊、操作意圖確定模塊和操作對象確定模塊;
34、所述多模態數據獲取模塊,用于獲取目標用戶的多模態數據,所述多模態數據包括手部圖像數據和語音數據;
35、所述手部信息及操作信息獲取模塊,用于根據所述目標用戶的多模態數據,獲取手指端點三維坐標、手指指向向量弧度、目標操作以及操作置信度;
36、所述操作意圖確定模塊,用于根據所述操作置信度,確定所述目標用戶是否有操作意圖;
37、所述操作對象確定模塊,用于當所述目標用戶有操作意圖時,根據所述手指端點三維坐標和所述手指指向向量弧度,確定所述目標操作對應的操作對象,以得到包含所述目標操作以及所述目標操作對應的操作對象的操作意圖識別結果。
38、本申請第四方面提供一種電子設備,包括至少一個處理器和與所述處理器連接的存儲器,其中:
39、所述存儲器用于存儲計算機程序;
40、所述處理器用于執行所述計算機程序,以使所述電子設備能本文檔來自技高網...
【技術保護點】
1.一種操作意圖識別方法,其特征在于,包括:
2.根據權利要求1所述的操作意圖識別方法,其特征在于,所述手部圖像數據包括手部RGB圖像和所述手部RGB圖像對應的手部深度圖。
3.根據權利要求2所述的操作意圖識別方法,其特征在于,獲取目標用戶的手部圖像數據,包括:
4.根據權利要求3所述的操作意圖識別方法,其特征在于,所述第一手部檢測模型采用標注出手部區域的訓練圖像,同時輔以預先訓練得到的第二手部檢測模型訓練得到,所述第二手部檢測模型的規模大于所述第一手部檢測模型的規模;
5.根據權利要求1所述的操作意圖識別方法,其特征在于,所述根據所述目標用戶的多模態數據,獲取手指端點三維坐標、手指指向向量弧度、目標操作以及操作置信度,包括:
6.根據權利要求5所述的操作意圖識別方法,其特征在于,所述利用預先訓練得到的多模態信息識別模型,對所述目標用戶的多模態數據進行信息識別,得到手指端點三維坐標、手指指向向量弧度、目標操作以及操作置信度,包括:
7.根據權利要求1所述的操作意圖識別方法,其特征在于,所述手指端點三維坐標和所
8.根據權利要求7所述的操作意圖識別方法,其特征在于,所述根據各候選操作對象的位置信息以及所述世界坐標系下的手指端點三維坐標和手指指向方向向量,從所述各候選操作對象中確定所述目標操作對應的操作對象,包括:
9.一種交互方法,其特征在于,包括:
10.一種操作意圖識別裝置,其特征在于,包括:多模態數據獲取模塊、手部信息及操作信息獲取模塊、操作意圖確定模塊和操作對象確定模塊;
11.一種電子設備,其特征在于,包括至少一個處理器和與所述處理器連接的存儲器,其中:
12.一種計算機存儲介質,其特征在于,所述存儲介質承載有一個或多個計算機程序,當所述一個或多個計算機程序被電子設備執行時,能夠使所述電子設備實現如權利要求1~8中任意一項所述的操作意圖識別方法的步驟,或者,實現如權利要求9所述的交互方法的步驟。
13.一種計算機程序產品,其特征在于,包括計算機可讀指令,當所述計算機可讀指令在電子設備上運行時,使得所述電子設備實現如權利要求1~8中任意一項所述的操作意圖識別方法的步驟,或者,實現如權利要求9所述的交互方法的步驟。
...【技術特征摘要】
1.一種操作意圖識別方法,其特征在于,包括:
2.根據權利要求1所述的操作意圖識別方法,其特征在于,所述手部圖像數據包括手部rgb圖像和所述手部rgb圖像對應的手部深度圖。
3.根據權利要求2所述的操作意圖識別方法,其特征在于,獲取目標用戶的手部圖像數據,包括:
4.根據權利要求3所述的操作意圖識別方法,其特征在于,所述第一手部檢測模型采用標注出手部區域的訓練圖像,同時輔以預先訓練得到的第二手部檢測模型訓練得到,所述第二手部檢測模型的規模大于所述第一手部檢測模型的規模;
5.根據權利要求1所述的操作意圖識別方法,其特征在于,所述根據所述目標用戶的多模態數據,獲取手指端點三維坐標、手指指向向量弧度、目標操作以及操作置信度,包括:
6.根據權利要求5所述的操作意圖識別方法,其特征在于,所述利用預先訓練得到的多模態信息識別模型,對所述目標用戶的多模態數據進行信息識別,得到手指端點三維坐標、手指指向向量弧度、目標操作以及操作置信度,包括:
7.根據權利要求1所述的操作意圖識別方法,其特征在于,所述手指端點三維坐標和所述手指指向向量弧度均為相...
【專利技術屬性】
技術研發人員:邵博,沙文,王旭,陳葉瀚森,林垠,殷兵,殷保才,華磊,
申請(專利權)人:科大訊飛股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。