本發明專利技術公開了一種大語言模型交互方法和裝置,該方法提出一種新的規劃者
【技術實現步驟摘要】
一種大語言模型交互方法和裝置
[0001]本專利技術涉及強化學習與自然語言處理領域,尤其涉及一種大語言模型交互方法和裝置
。
技術介紹
[0002]大語言模型是一種人工智能模型,旨在理解和生成人類語言
。
它們在大量的文本數據上進行訓練,包含數十億的參數,從而可以學習到語言數據中的復雜模式
。
大語言模型在近幾年取得了巨大的成功,
OpenAI
發布的
ChatGPT
更是引發了社會各界的廣泛關注
。
[0003]部分研究借助大語言模型的通識知識和推理能力來輔助智能體的決策與規劃,但是在智能體完成任務期間如何合理
、
高效地與大語言模型進行通信仍然是一個未被解決的開放課題
。
例如谷歌團隊提出的
SayCan
方法雖然借助大語言模型相比傳統方法更好地解決了機械臂運動控制問題,但該方法要求智能體在每個時刻都與大語言模型進行通信,由于大語言模型包含數十億的參數量,智能體每次與大語言模型通信都會花費大量的時間與計算資源,如果智能體在執行任務過程中的每一步都與大語言模型通信,開銷是非常大的
。
另外,當智能體遭遇意料之外的情況時,如果未及時求助于大語言模型,可能會導致安全性問題;例如智能體執行“去隔壁房間拿一杯水并返回”的任務時,一陣風吹過,將房門意外關上,如果機器人繼續執行前進的動作,則會對自身和門造成損傷
。
而當大語言模型出錯時,如果沒有良好的糾錯機制,同樣也會導致任務無法完成,甚至出現安全性問題
。
[0004]常見的基于大語言模型指導的智能體系統,將整個控制過程分成一個基于大語言模型的專門在邏輯層面提供高級指令的規劃者和一個基于預訓練或預設的專門處理底層運動控制的執行者兩部分
。
而本專利技術在原有的框架基礎上,增加了協調者作為規劃者和執行者之間的中介,以判斷是否需要與規劃者通信
。
協調者使用強化學習的方式最大化累積通信獎勵
——
即通過最少的通信次數使智能體完成任務,以解決上述提到的智能體(執行者)與大語言模型(規劃者)的通信問題
。
技術實現思路
[0005]本專利技術的目的在于針對現有技術中的不足,提供一種大語言模型交互方法和裝置
。
[0006]本專利技術的目的是通過以下技術方案來實現的:本專利技術實施例第一方面提供了一種大語言模型交互方法,包括以下步驟:(1)執行者與環境交互后,將當前采集到的觀測數據發送給協調者;(2)協調者根據接收到的觀測數據采用最優通信策略判斷是否需要與規劃者通信,若協調者需要與規劃者通信,則協調者將觀測數據轉化為標準形式數據,并將該標準形式數據發送給規劃者;若協調者不需要與規劃者通信,則協調者將當前高級指令重新發送給執行者,并跳至步驟(4);(3)規劃者接收到標準形式數據后,基于該標準形式數據生成執行動作所對應的
新的高級指令,并將其發送給執行者;(4)執行者接收到高級指令后,根據當前的觀測數據并調用與該高級指令對應的底層控制邏輯以執行對應的執行動作
。
[0007]進一步地,所述觀測數據包括傳感器數據
、
文本數據和圖像數據
。
[0008]進一步地,所述最優通信策略具體包括:協調者決定每一時刻是否需要與規劃者通信以通過最少的通信次數使得執行者完成任務,將該過程定義為強化學習過程,該強化學習過程具體包括:對應于每個時刻的狀態,協調者有兩種不同的動作
?
堅持執行當前計劃或向規劃者請求新計劃,在環境給予的獎勵基礎上,引入無效通信懲罰作為累積通信獎勵;其中狀態為執行者采集到的觀測數據;通過最大化累積通信獎勵以獲取協調者的最優通信策略
。
[0009]進一步地,所述累積通信獎勵的表達式為:;其中,為
t
時刻的累積通信獎勵,為
t
時刻由環境給予的獎勵,為示性函數,為
t
時刻協調者的動作,
ask
表示協調者需要與規劃者通信,
not ask
表示協調者不需要與規劃者通信,為
t
時刻規劃者返回的高級指令,為獎勵折扣系數,為無效通信懲罰系數
。
[0010]進一步地,所述最大化累積通信獎勵的訓練方法包括近端策略優化方法
、
最大熵演員
?
評論家方法
、
深度
Q
網絡和優勢演員
?
評論家方法
。
[0011]進一步地,所述執行者包括多個智能體;所述規劃者包括大語言模型以及用戶與大語音模型協同
。
[0012]進一步地,所述高級指令與所述底層控制邏輯一一對應,所述底層控制邏輯與所述執行動作一一對應,所述高級指令與所述執行動作一一對應
。
[0013]本專利技術實施例第二方面提供了一種大語言模型交互裝置,用于實現上述的大語言模型交互方法,包括:規劃者模塊,用于根據接收到的標準形式數據生成執行動作所對應的新的高級指令;協調者模塊,用于根據觀測數據采用最優通信策略判斷是否需要與規劃者通信,若協調者需要與規劃者通信,則協調者將觀測數據轉化為標準形式數據,并將該標準形式數據發送給規劃者;若協調者不需要與規劃者通信,則協調者將當前高級指令重新發送給執行者;和執行者模塊,用于采集觀測數據,并在接收到高級指令后,調用與該高級指令對應的底層控制邏輯以執行對應的執行動作
。
[0014]本專利技術實施例第三方面提供了一種電子設備,包括存儲器和處理器,所述存儲器與所述處理器耦接;其中,所述存儲器用于存儲程序數據,所述處理器用于執行所述程序數據以實現上述的大語言模型交互方法
。
[0015]本專利技術實施例第四方面提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述程序被處理器執行時實現上述的大語言模型交互方法
。
[0016]本專利技術的有益效果是,本專利技術通過提出一種新的交互框架,通過新增一個協調者,
將新增的協調者作為連接大語言模型與智能體的中介,有效降低了通信帶來的時間成本和計算資源成本;同時,引入協調者后,更有助于智能體在面對突發情況時及時求助于大語言模型,以及在大語言模型容易出錯的場景下減少對大語言模型的依賴,提高了智能體的安全性與任務成功率
。
附圖說明
[0017]圖1是強化學習的流程示意圖;圖2是大語言模型交互方法的總體流程示意圖;圖3是單智能體系統中應用大語言模型交互方法的一種實施例的通信示意圖;圖4是多智能體系統中應用大語言模型交互方法的一種實施例的通信示意圖;圖5是多智能體系統中應用大語言模型交互方法的另一種實施例的通信示意圖;圖6是多智能體系統中應用大語言模型交互方法的另一種實施例的通信示意圖;圖7是大語言模型交互方法的有效性在模擬智能工廠的
MiniGrid
...
【技術保護點】
【技術特征摘要】
1.
一種大語言模型交互方法,其特征在于,包括以下步驟:(1)執行者與環境交互后,將當前采集到的觀測數據發送給協調者;(2)協調者根據接收到的觀測數據采用最優通信策略判斷是否需要與規劃者通信,若協調者需要與規劃者通信,則協調者將觀測數據轉化為標準形式數據,并將該標準形式數據發送給規劃者;若協調者不需要與規劃者通信,則協調者將當前高級指令重新發送給執行者,并跳至步驟(4);(3)規劃者接收到標準形式數據后,基于該標準形式數據生成執行動作所對應的新的高級指令,并將其發送給執行者;(4)執行者接收到高級指令后,根據當前的觀測數據并調用與該高級指令對應的底層控制邏輯以執行對應的執行動作
。2.
根據權利要求1所述的大語言模型交互方法,其特征在于,所述觀測數據包括傳感器數據
、
文本數據和圖像數據
。3.
根據權利要求1所述的大語言模型交互方法,其特征在于,所述最優通信策略具體包括:協調者決定每一時刻是否需要與規劃者通信以通過最少的通信次數使得執行者完成任務,將該過程定義為強化學習過程,該強化學習過程具體包括:對應于每個時刻的狀態,協調者有兩種不同的動作
?
堅持執行當前計劃或向規劃者請求新計劃,在環境給予的獎勵基礎上,引入無效通信懲罰作為累積通信獎勵;其中狀態為執行者采集到的觀測數據;通過最大化累積通信獎勵以獲取協調者的最優通信策略
。4.
根據權利要求3所述的大語言模型交互方法,其特征在于,所述累積通信獎勵的表達式為:;其中,為
t
時刻的累積通信獎勵,為
t
時刻由環境給予的獎勵,為示性函數,為
t
時刻協調者的動作,
ask
表示協調者需要與規劃者通信,
not ask
表示協調者不需要與規劃者通信,為
t
時刻規劃者返回的...
【專利技術屬性】
技術研發人員:胡斌,趙晨陽,張璞,周子豪,劉斌,
申請(專利權)人:之江實驗室,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。