System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于交互控制,具體涉及一種基于大語言模型輔助的交互控制方法及系統。
技術介紹
1、人機交互控制(human-machine?interaction,?hmi)是指人與計算機系統或機器之間的相互作用和通信,涉及用戶界面、用戶體驗以及人與機器之間交互方式等多個方面。
2、隨著計算機科學、人工智能和傳感技術的不斷突破,人機交互控制領域經歷了從簡單的命令行界面到復雜的多模塊態交互的演變。在這個背景下,人機交互控制技術正日益成為人們日常生活和工作中不可或缺的一部分。它不僅改變了我們與機器的互動方式,還極大地提升了操作效率和用戶體驗。
3、目前人機交互控制大部分還是需要用戶去操作,例如:通過鼠標鍵盤來輸入控制指令等人工操作,而對于部分用戶存在操作困難時,往往無法順利完成交互操作。隨著自然語言、計算機視覺等技術的發展,大語言模型能夠處理多種自然語言任務,如文本分類、問答、對話等,計算機視覺技術能夠完成圖像的識別任務。
4、而現有技術中,未能將自然語言識別技術和視覺技術應用到人機交互控制中,來降低用戶的操作困難。
技術實現思路
1、本專利技術的目的是提供一種基于大語言模型輔助的交互控制方法及系統,用以解決現有技術未能將自然語言識別技術和視覺技術應用到人機交互控制中的問題。
2、為了實現上述目的,本專利技術采用以下技術方案:
3、第一方面,本專利技術提供了一種基于大語言模型輔助的交互控制方法,所述方法包括:
4、獲取操
5、對交互界面的圖像信息進行識別和文本轉化,得到交互界面的自然語言描述;
6、基于自然語言描述構建交互界面的交互操作命令集;
7、獲取用戶的自然語言,基于大語言模型對用戶的自然語言進行意圖識別,得到用戶的操作意圖;
8、根據用戶的操作意圖從交互界面的交互操作命令集中匹配出交互操作命令,以交互操作命令控制操作工具對操作對象執行交互操作。
9、優選地,對交互界面的圖像信息進行識別和文本轉化,得到交互界面的自然語言描述,包括:
10、基于機器視覺目標檢測算法對交互界面的圖像信息進行特征提取,得到區域特征和網格特征,并提取區域特征對應的第一位置編碼和網格特征對應的第二位置編碼;
11、基于自注意力機制構建圖像描述模型,以區域特征和第一位置編碼與網格特征和第二位置編碼作為圖像描述模型的輸入,所述圖像描述模型輸出交互界面的圖像信息對應的文本描述,以交互界面的圖像信息對應的文本描述作為交互界面的自然語言描述。
12、優選地,所述圖像描述模型包括:兩個編碼單元和一個解碼單元;
13、其中一個編碼單元用于以區域特征和第一位置編碼為輸入,基于自注意力機制對區域特征和第一位置編碼進行編碼,輸出區域特征編碼;
14、另一個編碼單元用于以網格特征和第二位置編碼為輸入,基于自注意力機制對網格特征和第二位置編碼進行編碼,輸出網格特征編碼;
15、解碼單元用于以區域特征編碼和網格特征編碼為輸入,對區域特征編碼和網格特征編碼進行融合解碼,輸出交互界面的圖像信息對應的文本描述。
16、優選地,第一個編碼單元包括依次相連的第一注意力模塊、第一前饋網絡模塊、第二注意力模塊和第二前饋網絡模塊;第二個編碼單元包括依次相連的第三注意力模塊、第三前饋網絡模塊、第四注意力模塊和第四前饋網絡模塊。
17、優選地,所述方法還包括:基于兩個編碼單元分別對區域特征和第一位置編碼以及網格特征和第二位置編碼進行編碼,得到區域特征編碼和網格特征編碼,包括:
18、基于區域特征和第一位置編碼構建第一注意力模塊的三元組矩陣,以及基于網格特征和第二位置編碼構建第三注意力模塊的三元組矩陣;
19、基于第一注意力模塊的三元組矩陣計算第一注意力模塊的注意力輸出,以第一注意力模塊的注意力輸出作為第一前饋網絡模塊的輸入,所述第一前饋網絡輸出第一特征輸出;
20、基于第三注意力模塊的三元組矩陣計算第三注意力模塊的注意力輸出,以第三注意力模塊的注意力輸出作為第三前饋網絡模塊的輸入,所述第三前饋網絡輸出第二特征輸出;
21、將第二特征輸出融入到第一特征輸出中,基于經融入第二特征輸出的第一特征輸出構建第二注意力模塊的三元組矩陣;
22、基于第二注意力模塊的三元組矩陣計算第二注意力模塊的注意力輸出,以第二注意力模塊的注意力輸出作為第二前饋網絡的輸入,所述第二前饋網絡輸出區域特征編碼;
23、將第一特征輸出融入到第二特征輸出中,基于經融入第一特征輸出的第二特征輸出構建第四注意力模塊的三元組矩陣;
24、基于第四注意力模塊的三元組矩陣計算第四注意力模塊的注意力輸出,以第四注意力模塊的注意力輸出作為第四前饋網絡的輸入,所述第四前饋網絡輸出網格特征編碼。
25、優選地,第一注意力模塊的三元組矩陣、第二注意力模塊的三元組矩陣、第三注意力模塊的三元組矩陣和第四注意力模塊的三元組矩陣均包括:查詢矩陣、鍵矩陣和值矩陣;第一注意力模塊、第二注意力模塊、第三注意力模塊和第四注意力模塊在分別計算各自的注意力輸出時,均采用相同的計算方法,所述計算方法包括:
26、將查詢矩陣、鍵矩陣和值矩陣輸入至注意力函數,得到輸出矩陣;
27、計算輸出矩陣與查詢矩陣之間的相似度,得到相似性矩陣;
28、對相似性矩陣進行線性變換,得到第一線性矩陣;
29、對第一線性矩陣進行非線性變換,得到非線性矩陣;
30、對輸出矩形進行線性變換,得到第二線性矩陣;
31、將非線性矩陣與第二線性矩陣進行相乘,得到注意力輸出矩陣。
32、優選地,基于自然語言描述構建交互界面的交互操作命令集,包括:
33、收集交互界面中的元素以及各元素對應的交互命令;
34、定義交互命令的結構;
35、提取自然語言描述中的文本特征;
36、將自然語言描述中的文本特征映射到交互命令的結構中,得到交互界面的交互操作命令集。
37、優選地,所述方法還包括:以自然語言描述中的文本特征作為樣本輸入,以交互界面的交互操作命令集為標簽,對神經網絡模型進行訓練,得到訓練好的神經網絡模型,以訓練好的神經網絡模型作為操作指令預測模型。
38、優選地,根據用戶的操作意圖從交互界面的交互操作命令集中匹配出交互操作命令,包括:
39、提取用戶的操作意圖的意圖特征;
40、將意圖特征輸入至操作指令預測模型,得到交互操作命令。
41、第二方面,本專利技術提供了一種基于大語言模型輔助的交互控制系統,所述系統用于實現上述的基于大語言模型輔助的交互控制方法,所述系統包括:
42、數據獲取模塊,用于獲取操作對象的交互界面的圖像信息;
43、文本轉換模塊,用于對交互界本文檔來自技高網...
【技術保護點】
1.一種基于大語言模型輔助的交互控制方法,其特征在于,所述方法包括:
2.根據權利要求1所述的基于大語言模型輔助的交互控制方法,其特征在于,對交互界面的圖像信息進行識別和文本轉化,得到交互界面的自然語言描述,包括:
3.根據權利要求2所述的基于大語言模型輔助的交互控制方法,其特征在于,所述圖像描述模型包括:兩個編碼單元和一個解碼單元;
4.根據權利要求3所述的基于大語言模型輔助的交互控制方法,其特征在于,第一個編碼單元包括依次相連的第一注意力模塊、第一前饋網絡模塊、第二注意力模塊和第二前饋網絡模塊;第二個編碼單元包括依次相連的第三注意力模塊、第三前饋網絡模塊、第四注意力模塊和第四前饋網絡模塊。
5.根據權利要求4所述的基于大語言模型輔助的交互控制方法,其特征在于,所述方法還包括:基于兩個編碼單元分別對區域特征和第一位置編碼以及網格特征和第二位置編碼進行編碼,得到區域特征編碼和網格特征編碼,包括:
6.根據權利要求5所述的基于大語言模型輔助的交互控制方法,其特征在于,第一注意力模塊的三元組矩陣、第二注意力模塊的三元組矩陣、
7.根據權利要求1所述的基于大語言模型輔助的交互控制方法,其特征在于,基于自然語言描述構建交互界面的交互操作命令集,包括:
8.根據權利要求7所述的基于大語言模型輔助的交互控制方法,其特征在于,所述方法還包括:以自然語言描述中的文本特征作為樣本輸入,以交互界面的交互操作命令集為標簽,對神經網絡模型進行訓練,得到訓練好的神經網絡模型,以訓練好的神經網絡模型作為操作指令預測模型。
9.根據權利要求8所述的基于大語言模型輔助的交互控制方法,其特征在于,根據用戶的操作意圖從交互界面的交互操作命令集中匹配出交互操作命令,包括:
10.一種基于大語言模型輔助的交互控制系統,所述系統用于實現權利要求1-9中任一項所述的基于大語言模型輔助的交互控制方法,其特征在于,所述系統包括:
...【技術特征摘要】
1.一種基于大語言模型輔助的交互控制方法,其特征在于,所述方法包括:
2.根據權利要求1所述的基于大語言模型輔助的交互控制方法,其特征在于,對交互界面的圖像信息進行識別和文本轉化,得到交互界面的自然語言描述,包括:
3.根據權利要求2所述的基于大語言模型輔助的交互控制方法,其特征在于,所述圖像描述模型包括:兩個編碼單元和一個解碼單元;
4.根據權利要求3所述的基于大語言模型輔助的交互控制方法,其特征在于,第一個編碼單元包括依次相連的第一注意力模塊、第一前饋網絡模塊、第二注意力模塊和第二前饋網絡模塊;第二個編碼單元包括依次相連的第三注意力模塊、第三前饋網絡模塊、第四注意力模塊和第四前饋網絡模塊。
5.根據權利要求4所述的基于大語言模型輔助的交互控制方法,其特征在于,所述方法還包括:基于兩個編碼單元分別對區域特征和第一位置編碼以及網格特征和第二位置編碼進行編碼,得到區域特征編碼和網格特征編碼,包括:
6.根據權利要求5所述的基于大語言模型輔助的交互控制方法,其特征在于,第一注意力模塊的三元組矩陣、第...
【專利技術屬性】
技術研發人員:吳翔,
申請(專利權)人:奇墨科技廣州有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。