環(huán)境狀態(tài)新穎度評估方法、裝置及存儲介質制造方法及圖紙

技術編號：44514886 閱讀：2 留言：0更新日期：2025-03-07 13:10

本發(fā)明專利技術提供一種環(huán)境狀態(tài)新穎度評估方法、裝置及存儲介質。該環(huán)境狀態(tài)新穎度評估方法包括：基于多組隨機噪聲與當前時刻的環(huán)境狀態(tài)并利用環(huán)境狀態(tài)轉移函數(shù)獲取每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值；環(huán)境狀態(tài)轉移函數(shù)用于根據(jù)當前時刻的環(huán)境狀態(tài)預測下一時刻的低維環(huán)境特征；根據(jù)下一時刻的低維環(huán)境特征真實值和每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值計算平均誤差，并將平均誤差作為環(huán)境狀態(tài)新穎度。本發(fā)明專利技術提供的環(huán)境狀態(tài)新穎度評估方法、裝置及存儲介質，通過多組隨機噪聲求得環(huán)境狀態(tài)特征的平均誤差作為環(huán)境狀態(tài)新穎度，避免單一模型的偶然性和多個并行模型的高能耗，提高環(huán)境狀態(tài)新穎度衡量的準確度。

全部詳細技術資料下載

【技術實現(xiàn)步驟摘要】

本專利技術涉及人工智能，尤其涉及一種環(huán)境狀態(tài)新穎度評估方法、裝置及存儲介質。

技術介紹

1、強化學習是一種基于獎勵信號的學習方法，它可以使智能體在復雜的環(huán)境中學習有效的行為策略。然而，強化學習也面臨著一些挑戰(zhàn)，其中稀疏獎勵就是主要困難之一。

2、對于克服稀疏獎勵問題，最有效的方法就是利用內在獎勵驅動智能體。設計內在獎勵的核心在于如何合理地評估一個狀態(tài)的新穎度，新穎度可以簡單地理解為智能體對該狀態(tài)的熟悉程度，若智能體頻繁訪問同一個狀態(tài)，則對該狀態(tài)的新穎度會逐漸減小，而智能體較少訪問或未曾訪問過的狀態(tài)對應的新穎度則較高。

3、在可數(shù)狀態(tài)環(huán)境中可以簡單地通過對狀態(tài)計數(shù)來衡量該狀態(tài)的新穎度，而在高維狀態(tài)復雜環(huán)境中無法實現(xiàn)對狀態(tài)進行計數(shù)，需要對狀態(tài)新穎度進行評估，但目前的環(huán)境狀態(tài)新穎度評估的準確性難以保證。

技術實現(xiàn)思路

1、本專利技術提供一種環(huán)境狀態(tài)新穎度評估方法、裝置及存儲介質，用以解決現(xiàn)有技術中環(huán)境狀態(tài)新穎度評估的準確性差的技術問題。

2、第一方面，本專利技術提供一種環(huán)境狀態(tài)新穎度評估方法，包括：

3、基于多組隨機噪聲與當前時刻的環(huán)境狀態(tài)并利用環(huán)境狀態(tài)轉移函數(shù)獲取每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值；所述環(huán)境狀態(tài)轉移函數(shù)用于根據(jù)當前時刻的環(huán)境狀態(tài)預測下一時刻的低維環(huán)境特征；

4、根據(jù)下一時刻的低維環(huán)境特征真實值和每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值計算平均誤差，并將所述平均誤差作為環(huán)境狀態(tài)新穎度。

<p>5、在一些實施例中，所述方法還包括：

6、將樣本環(huán)境狀態(tài)數(shù)據(jù)輸入至特征提取網(wǎng)絡，獲得第一時刻對應的第一低維環(huán)境特征和第二時刻對應的第二低維環(huán)境特征；所述特征提取網(wǎng)絡用于對環(huán)境狀態(tài)進行特征提取得到低維環(huán)境特征；所述第一時刻和第二時刻為相鄰的兩個時刻；所述樣本環(huán)境狀態(tài)數(shù)據(jù)包括多組相鄰時刻的環(huán)境狀態(tài)對；

7、基于所述第一低維環(huán)境特征并利用生成網(wǎng)絡預測第二時刻對應的環(huán)境特征，并基于預測結果和所述第二低維環(huán)境特征擬合環(huán)境狀態(tài)轉移函數(shù)；所述生成網(wǎng)絡用于預測輸入的環(huán)境狀態(tài)的下一時刻的低維環(huán)境特征。

8、在一些實施例中，所述獲得第一時刻對應的第一低維環(huán)境特征和第二時刻對應的第二低維環(huán)境特征之后，還包括：

9、將所述第一低維環(huán)境特征和所述第二低維環(huán)境特征輸入至智能體策略預測網(wǎng)絡中，獲得智能體決策預測值；所述智能體策略預測網(wǎng)絡用于基于環(huán)境狀態(tài)預測智能體決策；

10、基于智能體決策真實值和所述智能體決策預測值計算第一損失；

11、基于所述第一損失訓練所述智能體策略預測網(wǎng)絡和所述特征提取網(wǎng)絡。

12、在一些實施例中，所述基于所述第一低維環(huán)境特征并利用生成網(wǎng)絡預測第二時刻對應的環(huán)境特征，包括：

13、根據(jù)所述生成網(wǎng)絡和判別網(wǎng)絡生成條件生成對抗網(wǎng)絡；所述判別網(wǎng)絡用于判別輸入與第二低維環(huán)境特征是否相同，且在輸入與第二低維環(huán)境特征相同的情況下判別結果為真，在輸入與第二低維環(huán)境特征不相同的情況下判別結果為假；

14、固定所述生成網(wǎng)絡的網(wǎng)絡參數(shù)，并將所述第一低維環(huán)境特征、智能體決策真實值以及隨機噪聲輸入至生成網(wǎng)絡中，獲得第二低維環(huán)境特征預測值。

15、在一些實施例中，所述基于預測結果和所述第二低維環(huán)境特征擬合環(huán)境狀態(tài)轉移函數(shù)，包括：

16、標記所述第二低維環(huán)境特征預測值為假，并將所述第二低維環(huán)境特征預測值輸入至判別模塊，得到第一判別結果；

17、標記所述第二低維環(huán)境特征為真，并將所述第二低維環(huán)境特征輸入至判別模塊，得到第二判別結果；

18、基于所述第一判別結果和所述第二判別結果計算第二損失；

19、利用所述第二損失以及不同的隨機噪聲訓練所述判別網(wǎng)絡直至第一判別結果為真。

20、在一些實施例中，所述基于所述第一低維環(huán)境特征并利用生成網(wǎng)絡預測第二時刻對應的環(huán)境特征，還包括：

21、固定所述判別網(wǎng)絡的網(wǎng)絡參數(shù)，并將所述第一低維環(huán)境特征、智能體決策真實值以及隨機噪聲輸入至生成網(wǎng)絡中，獲得第二低維環(huán)境特征預測值。

22、在一些實施例中，所述基于預測結果和所述第二低維環(huán)境特征擬合環(huán)境狀態(tài)轉移函數(shù)，還包括：

23、將所述第二低維環(huán)境特征預測值輸入至判別模塊，得到第三判別結果；

24、基于所述第三判別結果、所述第二低維環(huán)境特征和所述第二低維環(huán)境特征預測值計算第三損失；

25、利用所述第三損失以及不同的隨機噪聲訓練所述生成網(wǎng)絡直至所述第三判別結果為真；

26、將訓練好的生成網(wǎng)絡作為環(huán)境狀態(tài)轉移函數(shù)的模型。

27、第二方面，本專利技術提供一種環(huán)境狀態(tài)新穎度評估裝置，包括預測模塊和計算模塊。

28、預測模塊，用于基于多組隨機噪聲與當前時刻的環(huán)境狀態(tài)并利用環(huán)境狀態(tài)轉移函數(shù)獲取每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值；所述環(huán)境狀態(tài)轉移函數(shù)用于根據(jù)當前時刻的環(huán)境狀態(tài)預測下一時刻的低維環(huán)境特征；

29、計算模塊，用于根據(jù)下一時刻的低維環(huán)境特征真實值和每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值計算平均誤差，并將所述平均誤差作為環(huán)境狀態(tài)新穎度。

30、第三方面，本專利技術提供一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執(zhí)行所述程序時實現(xiàn)如上述第一方面所述的環(huán)境狀態(tài)新穎度評估方法。

31、第四方面，本專利技術還提供一種非暫態(tài)計算機可讀存儲介質，其上存儲有計算機程序，該計算機程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的環(huán)境狀態(tài)新穎度評估方法。

32、第五方面，本專利技術還提供一種計算機程序產品，包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的環(huán)境狀態(tài)新穎度評估方法。

33、本專利技術提供的環(huán)境狀態(tài)新穎度評估方法、裝置及存儲介質，基于多組隨機噪聲與當前時刻的環(huán)境狀態(tài)并利用環(huán)境狀態(tài)轉移函數(shù)獲取每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值；環(huán)境狀態(tài)轉移函數(shù)用于根據(jù)當前時刻的環(huán)境狀態(tài)預測下一時刻的低維環(huán)境特征；根據(jù)下一時刻的低維環(huán)境特征真實值和每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值計算平均誤差，并將平均誤差作為環(huán)境狀態(tài)新穎度。利用多組隨機噪聲輸入，求得環(huán)境狀態(tài)特征的平均誤差作為環(huán)境狀態(tài)新穎度，避免單一模型的偶然性和多個并行模型的高能耗，提高環(huán)境狀態(tài)新穎度衡量的準確度。

本文檔來自技高網(wǎng)...

【技術保護點】

1.一種環(huán)境狀態(tài)新穎度評估方法，其特征在于，包括：

2.根據(jù)權利要求1所述的環(huán)境狀態(tài)新穎度評估方法，其特征在于，所述方法還包括：

3.根據(jù)權利要求2所述的環(huán)境狀態(tài)新穎度評估方法，其特征在于，所述獲得第一時刻對應的第一低維環(huán)境特征和第二時刻對應的第二低維環(huán)境特征之后，還包括：

4.根據(jù)權利要求2所述的環(huán)境狀態(tài)新穎度評估方法，其特征在于，所述基于所述第一低維環(huán)境特征并利用生成網(wǎng)絡預測第二時刻對應的環(huán)境特征，包括：

5.根據(jù)權利要求4所述的環(huán)境狀態(tài)新穎度評估方法，其特征在于，所述基于預測結果和所述第二低維環(huán)境特征擬合環(huán)境狀態(tài)轉移函數(shù)，包括：

6.根據(jù)權利要求4所述的環(huán)境狀態(tài)新穎度評估方法，其特征在于，所述基于所述第一低維環(huán)境特征并利用生成網(wǎng)絡預測第二時刻對應的環(huán)境特征，還包括：

7.根據(jù)權利要求6所述的環(huán)境狀態(tài)新穎度評估方法，其特征在于，所述基于預測結果和所述第二低維環(huán)境特征擬合環(huán)境狀態(tài)轉移函數(shù)，還包括：

8.一種環(huán)境狀態(tài)新穎度評估裝置，其特征在于，包括：

9.一種電子設備，包括存儲器、處理

10.一種非暫態(tài)計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至7任一項所述環(huán)境狀態(tài)新穎度評估方法。

...

【技術特征摘要】

1.一種環(huán)境狀態(tài)新穎度評估方法，其特征在于，包括：

2.根據(jù)權利要求1所述的環(huán)境狀態(tài)新穎度評估方法，其特征在于，所述方法還包括：

6.根據(jù)權利要求4所述的環(huán)境狀態(tài)新穎度評估方法，其特...

【專利技術屬性】
技術研發(fā)人員：關強，徐爽，徐波，
申請(專利權)人：中國科學院自動化研究所，
類型：發(fā)明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關領域技術