"/>
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>之江實驗室專利>正文

    一種大語言模型交互方法和裝置制造方法及圖紙

    技術編號:39802350 閱讀:14 留言:0更新日期:2023-12-22 02:33
    本發明專利技術公開了一種大語言模型交互方法和裝置,該方法提出一種新的規劃者

    【技術實現步驟摘要】
    一種大語言模型交互方法和裝置


    [0001]本專利技術涉及強化學習與自然語言處理領域,尤其涉及一種大語言模型交互方法和裝置


    技術介紹

    [0002]大語言模型是一種人工智能模型,旨在理解和生成人類語言

    它們在大量的文本數據上進行訓練,包含數十億的參數,從而可以學習到語言數據中的復雜模式

    大語言模型在近幾年取得了巨大的成功,
    OpenAI
    發布的
    ChatGPT
    更是引發了社會各界的廣泛關注

    [0003]部分研究借助大語言模型的通識知識和推理能力來輔助智能體的決策與規劃,但是在智能體完成任務期間如何合理

    高效地與大語言模型進行通信仍然是一個未被解決的開放課題

    例如谷歌團隊提出的
    SayCan
    方法雖然借助大語言模型相比傳統方法更好地解決了機械臂運動控制問題,但該方法要求智能體在每個時刻都與大語言模型進行通信,由于大語言模型包含數十億的參數量,智能體每次與大語言模型通信都會花費大量的時間與計算資源,如果智能體在執行任務過程中的每一步都與大語言模型通信,開銷是非常大的

    另外,當智能體遭遇意料之外的情況時,如果未及時求助于大語言模型,可能會導致安全性問題;例如智能體執行“去隔壁房間拿一杯水并返回”的任務時,一陣風吹過,將房門意外關上,如果機器人繼續執行前進的動作,則會對自身和門造成損傷

    而當大語言模型出錯時,如果沒有良好的糾錯機制,同樣也會導致任務無法完成,甚至出現安全性問題

    [0004]常見的基于大語言模型指導的智能體系統,將整個控制過程分成一個基于大語言模型的專門在邏輯層面提供高級指令的規劃者和一個基于預訓練或預設的專門處理底層運動控制的執行者兩部分

    而本專利技術在原有的框架基礎上,增加了協調者作為規劃者和執行者之間的中介,以判斷是否需要與規劃者通信

    協調者使用強化學習的方式最大化累積通信獎勵
    ——
    即通過最少的通信次數使智能體完成任務,以解決上述提到的智能體(執行者)與大語言模型(規劃者)的通信問題


    技術實現思路

    [0005]本專利技術的目的在于針對現有技術中的不足,提供一種大語言模型交互方法和裝置

    [0006]本專利技術的目的是通過以下技術方案來實現的:本專利技術實施例第一方面提供了一種大語言模型交互方法,包括以下步驟:(1)執行者與環境交互后,將當前采集到的觀測數據發送給協調者;(2)協調者根據接收到的觀測數據采用最優通信策略判斷是否需要與規劃者通信,若協調者需要與規劃者通信,則協調者將觀測數據轉化為標準形式數據,并將該標準形式數據發送給規劃者;若協調者不需要與規劃者通信,則協調者將當前高級指令重新發送給執行者,并跳至步驟(4);(3)規劃者接收到標準形式數據后,基于該標準形式數據生成執行動作所對應的
    新的高級指令,并將其發送給執行者;(4)執行者接收到高級指令后,根據當前的觀測數據并調用與該高級指令對應的底層控制邏輯以執行對應的執行動作

    [0007]進一步地,所述觀測數據包括傳感器數據

    文本數據和圖像數據

    [0008]進一步地,所述最優通信策略具體包括:協調者決定每一時刻是否需要與規劃者通信以通過最少的通信次數使得執行者完成任務,將該過程定義為強化學習過程,該強化學習過程具體包括:對應于每個時刻的狀態,協調者有兩種不同的動作
    ?
    堅持執行當前計劃或向規劃者請求新計劃,在環境給予的獎勵基礎上,引入無效通信懲罰作為累積通信獎勵;其中狀態為執行者采集到的觀測數據;通過最大化累積通信獎勵以獲取協調者的最優通信策略

    [0009]進一步地,所述累積通信獎勵的表達式為:;其中,為
    t
    時刻的累積通信獎勵,為
    t
    時刻由環境給予的獎勵,為示性函數,為
    t
    時刻協調者的動作,
    ask
    表示協調者需要與規劃者通信,
    not ask
    表示協調者不需要與規劃者通信,為
    t
    時刻規劃者返回的高級指令,為獎勵折扣系數,為無效通信懲罰系數

    [0010]進一步地,所述最大化累積通信獎勵的訓練方法包括近端策略優化方法

    最大熵演員
    ?
    評論家方法

    深度
    Q
    網絡和優勢演員
    ?
    評論家方法

    [0011]進一步地,所述執行者包括多個智能體;所述規劃者包括大語言模型以及用戶與大語音模型協同

    [0012]進一步地,所述高級指令與所述底層控制邏輯一一對應,所述底層控制邏輯與所述執行動作一一對應,所述高級指令與所述執行動作一一對應

    [0013]本專利技術實施例第二方面提供了一種大語言模型交互裝置,用于實現上述的大語言模型交互方法,包括:規劃者模塊,用于根據接收到的標準形式數據生成執行動作所對應的新的高級指令;協調者模塊,用于根據觀測數據采用最優通信策略判斷是否需要與規劃者通信,若協調者需要與規劃者通信,則協調者將觀測數據轉化為標準形式數據,并將該標準形式數據發送給規劃者;若協調者不需要與規劃者通信,則協調者將當前高級指令重新發送給執行者;和執行者模塊,用于采集觀測數據,并在接收到高級指令后,調用與該高級指令對應的底層控制邏輯以執行對應的執行動作

    [0014]本專利技術實施例第三方面提供了一種電子設備,包括存儲器和處理器,所述存儲器與所述處理器耦接;其中,所述存儲器用于存儲程序數據,所述處理器用于執行所述程序數據以實現上述的大語言模型交互方法

    [0015]本專利技術實施例第四方面提供了一種計算機可讀存儲介質,其上存儲有計算機程序,所述程序被處理器執行時實現上述的大語言模型交互方法

    [0016]本專利技術的有益效果是,本專利技術通過提出一種新的交互框架,通過新增一個協調者,
    將新增的協調者作為連接大語言模型與智能體的中介,有效降低了通信帶來的時間成本和計算資源成本;同時,引入協調者后,更有助于智能體在面對突發情況時及時求助于大語言模型,以及在大語言模型容易出錯的場景下減少對大語言模型的依賴,提高了智能體的安全性與任務成功率

    附圖說明
    [0017]圖1是強化學習的流程示意圖;圖2是大語言模型交互方法的總體流程示意圖;圖3是單智能體系統中應用大語言模型交互方法的一種實施例的通信示意圖;圖4是多智能體系統中應用大語言模型交互方法的一種實施例的通信示意圖;圖5是多智能體系統中應用大語言模型交互方法的另一種實施例的通信示意圖;圖6是多智能體系統中應用大語言模型交互方法的另一種實施例的通信示意圖;圖7是大語言模型交互方法的有效性在模擬智能工廠的
    MiniGrid
    ...

    【技術保護點】

    【技術特征摘要】
    1.
    一種大語言模型交互方法,其特征在于,包括以下步驟:(1)執行者與環境交互后,將當前采集到的觀測數據發送給協調者;(2)協調者根據接收到的觀測數據采用最優通信策略判斷是否需要與規劃者通信,若協調者需要與規劃者通信,則協調者將觀測數據轉化為標準形式數據,并將該標準形式數據發送給規劃者;若協調者不需要與規劃者通信,則協調者將當前高級指令重新發送給執行者,并跳至步驟(4);(3)規劃者接收到標準形式數據后,基于該標準形式數據生成執行動作所對應的新的高級指令,并將其發送給執行者;(4)執行者接收到高級指令后,根據當前的觀測數據并調用與該高級指令對應的底層控制邏輯以執行對應的執行動作
    。2.
    根據權利要求1所述的大語言模型交互方法,其特征在于,所述觀測數據包括傳感器數據

    文本數據和圖像數據
    。3.
    根據權利要求1所述的大語言模型交互方法,其特征在于,所述最優通信策略具體包括:協調者決定每一時刻是否需要與規劃者通信以通過最少的通信次數使得執行者完成任務,將該過程定義為強化學習過程,該強化學習過程具體包括:對應于每個時刻的狀態,協調者有兩種不同的動作
    ?
    堅持執行當前計劃或向規劃者請求新計劃,在環境給予的獎勵基礎上,引入無效通信懲罰作為累積通信獎勵;其中狀態為執行者采集到的觀測數據;通過最大化累積通信獎勵以獲取協調者的最優通信策略
    。4.
    根據權利要求3所述的大語言模型交互方法,其特征在于,所述累積通信獎勵的表達式為:;其中,為
    t
    時刻的累積通信獎勵,為
    t
    時刻由環境給予的獎勵,為示性函數,為
    t
    時刻協調者的動作,
    ask
    表示協調者需要與規劃者通信,
    not ask
    表示協調者不需要與規劃者通信,為
    t
    時刻規劃者返回的...

    【專利技術屬性】
    技術研發人員:胡斌趙晨陽張璞周子豪劉斌
    申請(專利權)人:之江實驗室
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文无码成人免费视频在线观看| 一本大道无码日韩精品影视 | 97无码免费人妻超级碰碰碰碰 | 免费无码国产在线观国内自拍中文字幕 | 亚洲精品人成无码中文毛片| 中文字幕乱码人妻无码久久| 人妻精品久久无码专区精东影业 | 中文字幕人成无码免费视频| 国产午夜激无码av毛片| 秋霞鲁丝片Av无码少妇| 八戒理论片午影院无码爱恋| 精品人妻无码一区二区色欲产成人| 亚洲日韩精品无码专区网址| 本道久久综合无码中文字幕| 久久精品aⅴ无码中文字字幕重口| heyzo专区无码综合| 少妇特殊按摩高潮惨叫无码| 日韩精品无码久久久久久| 曰批全过程免费视频在线观看无码| 人妻丰满熟AV无码区HD| 中文字幕无码免费久久99| 色窝窝无码一区二区三区成人网站| 人妻丰满熟妇aⅴ无码| 中文字幕久无码免费久久| 国产精品午夜无码体验区| 熟妇人妻无码中文字幕老熟妇| 无码福利一区二区三区| 91久久九九无码成人网站| 久久久久亚洲AV无码专区首JN| 午夜不卡无码中文字幕影院| 人妻AV中出无码内射| 中文字幕AV中文字无码亚| 少妇无码太爽了在线播放| 久久中文字幕无码专区| 国产成人AV无码精品| 少妇无码AV无码一区| 无码中文字幕日韩专区视频| 少妇人妻偷人精品无码视频新浪| 无码精品国产一区二区三区免费| 日韩av无码一区二区三区| 在线观看无码不卡AV|