本發(fā)明專利技術提供一種環(huán)境狀態(tài)新穎度評估方法、裝置及存儲介質。該環(huán)境狀態(tài)新穎度評估方法包括:基于多組隨機噪聲與當前時刻的環(huán)境狀態(tài)并利用環(huán)境狀態(tài)轉移函數(shù)獲取每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值;環(huán)境狀態(tài)轉移函數(shù)用于根據(jù)當前時刻的環(huán)境狀態(tài)預測下一時刻的低維環(huán)境特征;根據(jù)下一時刻的低維環(huán)境特征真實值和每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值計算平均誤差,并將平均誤差作為環(huán)境狀態(tài)新穎度。本發(fā)明專利技術提供的環(huán)境狀態(tài)新穎度評估方法、裝置及存儲介質,通過多組隨機噪聲求得環(huán)境狀態(tài)特征的平均誤差作為環(huán)境狀態(tài)新穎度,避免單一模型的偶然性和多個并行模型的高能耗,提高環(huán)境狀態(tài)新穎度衡量的準確度。
【技術實現(xiàn)步驟摘要】
本專利技術涉及人工智能,尤其涉及一種環(huán)境狀態(tài)新穎度評估方法、裝置及存儲介質。
技術介紹
1、強化學習是一種基于獎勵信號的學習方法,它可以使智能體在復雜的環(huán)境中學習有效的行為策略。然而,強化學習也面臨著一些挑戰(zhàn),其中稀疏獎勵就是主要困難之一。
2、對于克服稀疏獎勵問題,最有效的方法就是利用內在獎勵驅動智能體。設計內在獎勵的核心在于如何合理地評估一個狀態(tài)的新穎度,新穎度可以簡單地理解為智能體對該狀態(tài)的熟悉程度,若智能體頻繁訪問同一個狀態(tài),則對該狀態(tài)的新穎度會逐漸減小,而智能體較少訪問或未曾訪問過的狀態(tài)對應的新穎度則較高。
3、在可數(shù)狀態(tài)環(huán)境中可以簡單地通過對狀態(tài)計數(shù)來衡量該狀態(tài)的新穎度,而在高維狀態(tài)復雜環(huán)境中無法實現(xiàn)對狀態(tài)進行計數(shù),需要對狀態(tài)新穎度進行評估,但目前的環(huán)境狀態(tài)新穎度評估的準確性難以保證。
技術實現(xiàn)思路
1、本專利技術提供一種環(huán)境狀態(tài)新穎度評估方法、裝置及存儲介質,用以解決現(xiàn)有技術中環(huán)境狀態(tài)新穎度評估的準確性差的技術問題。
2、第一方面,本專利技術提供一種環(huán)境狀態(tài)新穎度評估方法,包括:
3、基于多組隨機噪聲與當前時刻的環(huán)境狀態(tài)并利用環(huán)境狀態(tài)轉移函數(shù)獲取每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值;所述環(huán)境狀態(tài)轉移函數(shù)用于根據(jù)當前時刻的環(huán)境狀態(tài)預測下一時刻的低維環(huán)境特征;
4、根據(jù)下一時刻的低維環(huán)境特征真實值和每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值計算平均誤差,并將所述平均誤差作為環(huán)境狀態(tài)新穎度。
<
p>5、在一些實施例中,所述方法還包括:6、將樣本環(huán)境狀態(tài)數(shù)據(jù)輸入至特征提取網(wǎng)絡,獲得第一時刻對應的第一低維環(huán)境特征和第二時刻對應的第二低維環(huán)境特征;所述特征提取網(wǎng)絡用于對環(huán)境狀態(tài)進行特征提取得到低維環(huán)境特征;所述第一時刻和第二時刻為相鄰的兩個時刻;所述樣本環(huán)境狀態(tài)數(shù)據(jù)包括多組相鄰時刻的環(huán)境狀態(tài)對;
7、基于所述第一低維環(huán)境特征并利用生成網(wǎng)絡預測第二時刻對應的環(huán)境特征,并基于預測結果和所述第二低維環(huán)境特征擬合環(huán)境狀態(tài)轉移函數(shù);所述生成網(wǎng)絡用于預測輸入的環(huán)境狀態(tài)的下一時刻的低維環(huán)境特征。
8、在一些實施例中,所述獲得第一時刻對應的第一低維環(huán)境特征和第二時刻對應的第二低維環(huán)境特征之后,還包括:
9、將所述第一低維環(huán)境特征和所述第二低維環(huán)境特征輸入至智能體策略預測網(wǎng)絡中,獲得智能體決策預測值;所述智能體策略預測網(wǎng)絡用于基于環(huán)境狀態(tài)預測智能體決策;
10、基于智能體決策真實值和所述智能體決策預測值計算第一損失;
11、基于所述第一損失訓練所述智能體策略預測網(wǎng)絡和所述特征提取網(wǎng)絡。
12、在一些實施例中,所述基于所述第一低維環(huán)境特征并利用生成網(wǎng)絡預測第二時刻對應的環(huán)境特征,包括:
13、根據(jù)所述生成網(wǎng)絡和判別網(wǎng)絡生成條件生成對抗網(wǎng)絡;所述判別網(wǎng)絡用于判別輸入與第二低維環(huán)境特征是否相同,且在輸入與第二低維環(huán)境特征相同的情況下判別結果為真,在輸入與第二低維環(huán)境特征不相同的情況下判別結果為假;
14、固定所述生成網(wǎng)絡的網(wǎng)絡參數(shù),并將所述第一低維環(huán)境特征、智能體決策真實值以及隨機噪聲輸入至生成網(wǎng)絡中,獲得第二低維環(huán)境特征預測值。
15、在一些實施例中,所述基于預測結果和所述第二低維環(huán)境特征擬合環(huán)境狀態(tài)轉移函數(shù),包括:
16、標記所述第二低維環(huán)境特征預測值為假,并將所述第二低維環(huán)境特征預測值輸入至判別模塊,得到第一判別結果;
17、標記所述第二低維環(huán)境特征為真,并將所述第二低維環(huán)境特征輸入至判別模塊,得到第二判別結果;
18、基于所述第一判別結果和所述第二判別結果計算第二損失;
19、利用所述第二損失以及不同的隨機噪聲訓練所述判別網(wǎng)絡直至第一判別結果為真。
20、在一些實施例中,所述基于所述第一低維環(huán)境特征并利用生成網(wǎng)絡預測第二時刻對應的環(huán)境特征,還包括:
21、固定所述判別網(wǎng)絡的網(wǎng)絡參數(shù),并將所述第一低維環(huán)境特征、智能體決策真實值以及隨機噪聲輸入至生成網(wǎng)絡中,獲得第二低維環(huán)境特征預測值。
22、在一些實施例中,所述基于預測結果和所述第二低維環(huán)境特征擬合環(huán)境狀態(tài)轉移函數(shù),還包括:
23、將所述第二低維環(huán)境特征預測值輸入至判別模塊,得到第三判別結果;
24、基于所述第三判別結果、所述第二低維環(huán)境特征和所述第二低維環(huán)境特征預測值計算第三損失;
25、利用所述第三損失以及不同的隨機噪聲訓練所述生成網(wǎng)絡直至所述第三判別結果為真;
26、將訓練好的生成網(wǎng)絡作為環(huán)境狀態(tài)轉移函數(shù)的模型。
27、第二方面,本專利技術提供一種環(huán)境狀態(tài)新穎度評估裝置,包括預測模塊和計算模塊。
28、預測模塊,用于基于多組隨機噪聲與當前時刻的環(huán)境狀態(tài)并利用環(huán)境狀態(tài)轉移函數(shù)獲取每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值;所述環(huán)境狀態(tài)轉移函數(shù)用于根據(jù)當前時刻的環(huán)境狀態(tài)預測下一時刻的低維環(huán)境特征;
29、計算模塊,用于根據(jù)下一時刻的低維環(huán)境特征真實值和每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值計算平均誤差,并將所述平均誤差作為環(huán)境狀態(tài)新穎度。
30、第三方面,本專利技術提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如上述第一方面所述的環(huán)境狀態(tài)新穎度評估方法。
31、第四方面,本專利技術還提供一種非暫態(tài)計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的環(huán)境狀態(tài)新穎度評估方法。
32、第五方面,本專利技術還提供一種計算機程序產品,包括計算機程序,所述計算機程序被處理器執(zhí)行時實現(xiàn)如上述第一方面所述的環(huán)境狀態(tài)新穎度評估方法。
33、本專利技術提供的環(huán)境狀態(tài)新穎度評估方法、裝置及存儲介質,基于多組隨機噪聲與當前時刻的環(huán)境狀態(tài)并利用環(huán)境狀態(tài)轉移函數(shù)獲取每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值;環(huán)境狀態(tài)轉移函數(shù)用于根據(jù)當前時刻的環(huán)境狀態(tài)預測下一時刻的低維環(huán)境特征;根據(jù)下一時刻的低維環(huán)境特征真實值和每組隨機噪聲對應的下一時刻的低維環(huán)境特征預測值計算平均誤差,并將平均誤差作為環(huán)境狀態(tài)新穎度。利用多組隨機噪聲輸入,求得環(huán)境狀態(tài)特征的平均誤差作為環(huán)境狀態(tài)新穎度,避免單一模型的偶然性和多個并行模型的高能耗,提高環(huán)境狀態(tài)新穎度衡量的準確度。
本文檔來自技高網(wǎng)...
【技術保護點】
1.一種環(huán)境狀態(tài)新穎度評估方法,其特征在于,包括:
2.根據(jù)權利要求1所述的環(huán)境狀態(tài)新穎度評估方法,其特征在于,所述方法還包括:
3.根據(jù)權利要求2所述的環(huán)境狀態(tài)新穎度評估方法,其特征在于,所述獲得第一時刻對應的第一低維環(huán)境特征和第二時刻對應的第二低維環(huán)境特征之后,還包括:
4.根據(jù)權利要求2所述的環(huán)境狀態(tài)新穎度評估方法,其特征在于,所述基于所述第一低維環(huán)境特征并利用生成網(wǎng)絡預測第二時刻對應的環(huán)境特征,包括:
5.根據(jù)權利要求4所述的環(huán)境狀態(tài)新穎度評估方法,其特征在于,所述基于預測結果和所述第二低維環(huán)境特征擬合環(huán)境狀態(tài)轉移函數(shù),包括:
6.根據(jù)權利要求4所述的環(huán)境狀態(tài)新穎度評估方法,其特征在于,所述基于所述第一低維環(huán)境特征并利用生成網(wǎng)絡預測第二時刻對應的環(huán)境特征,還包括:
7.根據(jù)權利要求6所述的環(huán)境狀態(tài)新穎度評估方法,其特征在于,所述基于預測結果和所述第二低維環(huán)境特征擬合環(huán)境狀態(tài)轉移函數(shù),還包括:
8.一種環(huán)境狀態(tài)新穎度評估裝置,其特征在于,包括:
9.一種電子設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現(xiàn)如權利要求1至7任一項所述環(huán)境狀態(tài)新穎度評估方法。
10.一種非暫態(tài)計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執(zhí)行時實現(xiàn)如權利要求1至7任一項所述環(huán)境狀態(tài)新穎度評估方法。
...
【技術特征摘要】
1.一種環(huán)境狀態(tài)新穎度評估方法,其特征在于,包括:
2.根據(jù)權利要求1所述的環(huán)境狀態(tài)新穎度評估方法,其特征在于,所述方法還包括:
3.根據(jù)權利要求2所述的環(huán)境狀態(tài)新穎度評估方法,其特征在于,所述獲得第一時刻對應的第一低維環(huán)境特征和第二時刻對應的第二低維環(huán)境特征之后,還包括:
4.根據(jù)權利要求2所述的環(huán)境狀態(tài)新穎度評估方法,其特征在于,所述基于所述第一低維環(huán)境特征并利用生成網(wǎng)絡預測第二時刻對應的環(huán)境特征,包括:
5.根據(jù)權利要求4所述的環(huán)境狀態(tài)新穎度評估方法,其特征在于,所述基于預測結果和所述第二低維環(huán)境特征擬合環(huán)境狀態(tài)轉移函數(shù),包括:
6.根據(jù)權利要求4所述的環(huán)境狀態(tài)新穎度評估方法,其特...
【專利技術屬性】
技術研發(fā)人員:關強,徐爽,徐波,
申請(專利權)人:中國科學院自動化研究所,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。