一種大語言模型交互方法和裝置制造方法及圖紙

技術編號：39802350 閱讀：14 留言：0更新日期：2023-12-22 02:33

本發明專利技術公開了一種大語言模型交互方法和裝置，該方法提出一種新的規劃者

全部詳細技術資料下載

【技術實現步驟摘要】
一種大語言模型交互方法和裝置

[0001]本專利技術涉及強化學習與自然語言處理領域，尤其涉及一種大語言模型交互方法和裝置
。

技術介紹

[0002]大語言模型是一種人工智能模型，旨在理解和生成人類語言
。
它們在大量的文本數據上進行訓練，包含數十億的參數，從而可以學習到語言數據中的復雜模式
。
大語言模型在近幾年取得了巨大的成功，
OpenAI
發布的
ChatGPT
更是引發了社會各界的廣泛關注
。
[0003]部分研究借助大語言模型的通識知識和推理能力來輔助智能體的決策與規劃，但是在智能體完成任務期間如何合理
、
高效地與大語言模型進行通信仍然是一個未被解決的開放課題
。
例如谷歌團隊提出的
SayCan
方法雖然借助大語言模型相比傳統方法更好地解決了機械臂運動控制問題，但該方法要求智能體在每個時刻都與大語言模型進行通信，由于大語言模型包含數十億的參數量，智能體每次與大語言模型通信都會花費大量的時間與計算資源，如果智能體在執行任務過程中的每一步都與大語言模型通信，開銷是非常大的
。
另外，當智能體遭遇意料之外的情況時，如果未及時求助于大語言模型，可能會導致安全性問題；例如智能體執行“去隔壁房間拿一杯水并返回”的任務時，一陣風吹過，將房門意外關上，如果機器人繼續執行前進的動作，則會對自身和門造成損傷
。
而當大語言模型出錯時，如果沒有良好的糾錯機制，

【技術保護點】

【技術特征摘要】
1.
一種大語言模型交互方法，其特征在于，包括以下步驟：（1）執行者與環境交互后，將當前采集到的觀測數據發送給協調者；（2）協調者根據接收到的觀測數據采用最優通信策略判斷是否需要與規劃者通信，若協調者需要與規劃者通信，則協調者將觀測數據轉化為標準形式數據，并將該標準形式數據發送給規劃者；若協調者不需要與規劃者通信，則協調者將當前高級指令重新發送給執行者，并跳至步驟（4）；（3）規劃者接收到標準形式數據后，基于該標準形式數據生成執行動作所對應的新的高級指令，并將其發送給執行者；（4）執行者接收到高級指令后，根據當前的觀測數據并調用與該高級指令對應的底層控制邏輯以執行對應的執行動作
。2.
根據權利要求1所述的大語言模型交互方法，其特征在于，所述觀測數據包括傳感器數據
、
文本數據和圖像數據
。3.
根據權利要求1所述的大語言模型交互方法，其特征在于，所述最優通信策略具體包括：協調者決定每一時刻是否需要與規劃者通信以通過最少的通信次數使得執行者完成任務，將該過程定義為強化學習過程，該強化學習過程具體包括：對應于每個時刻的狀態，協調者有兩種不同的動作
?
堅持執行當前計劃或向規劃者請求新計劃，在環境給予的獎勵基礎上，引入無效通信懲罰作為累積通信獎勵；其中狀態為執行者采集到的觀測數據；通過最大化累積通信獎勵以獲取協調者的最優通信策略
。4.
根據權利要求3所述的大語言模型交互方法，其特征在于，所述累積通信獎勵的表達式為：；其中，為
t
時刻的累積通信獎勵，為
t
時刻由環境給予的獎勵，為示性函數，為
t
時刻協調者的動作，
ask
表示協調者需要與規劃者通信，
not ask
表示協調者不需要與規劃者通信，為
t
時刻規劃者返回的...

【專利技術屬性】
技術研發人員：胡斌，趙晨陽，張璞，周子豪，劉斌，
申請(專利權)人：之江實驗室，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術