本發明專利技術提供一種強化學習訓練方法及基于強化學習的決策方法,其中,強化學習模型訓練方法,包括如下步驟:獲取多組歷史狀態數據;將每一組歷史狀態數據輸入至強化學習模型,得到初步決策數據;將所述每一組歷史狀態數據和所述初步決策數據輸入至預先建立的貝葉斯神經網絡模型,得到狀態變化量以及獎勵值,所述狀態量變化值為當前狀態數據與下一狀態數據的差值;根據所述每一組歷史狀態數據以及對應的初步決策數據、狀態變化量以及獎勵值更新所述強化學習模型的模型參數。通過實施本發明專利技術,能夠增加強化學習模型訓練樣本量,提高強化學習效果,提高動態決策規劃結果的準確性。
【技術實現步驟摘要】
一種強化學習訓練方法及基于強化學習的決策方法
本專利技術涉及機器學習領域,具體涉及一種強化學習訓練方法及基于強化學習的決策方法。
技術介紹
目前,強化學習是對多個應用場景進行動態決策規劃的一種有效方式,它注重主體在一個環境中應該如何進行行動從而達到最大化累積獎勵。強化學習應用場景一般包括交通、金融、能源、商業管理等多個領域,如對航班艙位管理,通過基于航班的多個狀態數據(如剩余艙位數、艙位銷售量等)使用強化學習對航班艙位進行控制管理。相關技術中,對模型進行強化學習時,需要大量的狀態數據以便于對強化學習模型進行訓練,而實際上,一般用于模型訓練的真實狀態數據是基于真實場景中執行固定決策得到的,表征狀態的數據量有限,導致強化學習模型訓練樣本不足,使得模型的強化學習效果不佳,導致動態決策規劃結果不準確。
技術實現思路
有鑒于此,本專利技術實施例提供了一種強化學習訓練方法及基于強化學習的決策方法,以解決現有技術中動態決策規劃結果不準確的缺陷。根據第一方面,本專利技術實施例提供一種強化學習模型訓練方法,包括如下步驟:獲取多組歷史狀態數據;將每一組歷史狀態數據輸入至強化學習模型,得到初步決策數據;將所述每一組歷史狀態數據和所述初步決策數據輸入至預先建立的貝葉斯神經網絡模型,得到狀態變化量以及獎勵值,所述狀態量變化值為當前狀態數據與下一狀態數據的差值;根據所述每一組歷史狀態數據以及對應的初步決策數據、狀態變化量以及獎勵值更新所述強化學習模型的模型參數??蛇x地,根據所述每一組歷史狀態數據以及對應的初步決策數據、狀態變化量以及獎勵值更新所述強化學習模型的模型參數,包括:將所述每一組歷史狀態數據以及對應的初步決策數據、狀態變化量以及獎勵值組成數據集,得到多個數據集;根據預設比例,將所述多個數據集以及多組歷史數據輸入至強化學習模型,更新所述強化學習模型參數,所述歷史數據包括相鄰狀態數據以及對應的決策數據。根據第二方面,本專利技術實施例提供一種基于強化學習的決策方法,包括如下步驟:獲取任一應用場景的當前狀態數據;將所述當前狀態數據輸入至第一方面或第一方面任一實施方式所述的強化學習訓練方法訓練得到的強化學習模型,得到決策數據。根據第三方面,本專利技術實施例提供一種基于強化學習的航空開艙決策方法,包括如下步驟:獲取當前狀態數據,所述當前狀態數據包括多個平行航班的銷售量、剩余座位量、多個平行航班距離起飛的時間以及多個艙價位數據;將所述當前狀態數據輸入至如第一方面或第一方面任一實施方式所述的強化學習訓練方法訓練得到的強化學習模型,得到決策數據,所述決策數據包括多個平行航班的開艙情況數據??蛇x地,將所述當前狀態數據輸入至如第一方面或第一方面任一實施方式所述方法還包括:將通過所述強化學習模型得到的決策數據輸入至所述預先建立的貝葉斯神經網絡模型,得到狀態變化量以及獎勵值;根據所述每一組當前狀態數據以及對應的決策數據、狀態變化量以及獎勵值更新所述強化學習模型的模型參數。根據第四方面,本專利技術實施例提供一種強化學習模型訓練裝置,包括:歷史數據獲取模塊,用于獲取多組歷史狀態數據;初步決策確定模塊,用于將每一組歷史狀態數據輸入至強化學習模型,得到初步決策數據;貝葉斯神經網絡模塊,用于將所述每一組歷史狀態數據和所述初步決策數據輸入至預先建立的貝葉斯神經網絡模型,得到狀態變化量以及獎勵值,所述狀態量變化值為當前狀態數據與下一狀態數據的差值;參數更新模塊,用于根據所述每一組歷史狀態數據以及對應的初步決策數據、狀態變化量以及獎勵值更新所述強化學習模型的模型參數。根據第五方面,本專利技術實施例提供一種基于強化學習的決策裝置,包括:當前狀態數據獲取模塊,用于獲取任一應用場景的當前狀態數據;決策數據確定模塊,用于將所述當前狀態數據輸入至如第一方面或第一方面任一實施方式所述的強化學習訓練方法訓練得到的強化學習模型,得到決策數據。根據第六方面,本專利技術實施例提供一種基于強化學習的航空開艙決策裝置,包括:航空狀態獲取模塊,用于獲取當前狀態數據,所述當前狀態數據包括多個平行航班的銷售量、剩余座位量、多個平行航班距離起飛的時間以及多個艙價位數據;艙位決策模塊,用于將所述當前狀態數據輸入至如第一方面或第一方面任一實施方式所述的強化學習訓練方法訓練得到的強化學習模型,得到決策數據,所述決策數據包括多個平行航班的開艙情況數據。根據第七方面,本專利技術實施例提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現第一方面或第一方面任一實施方式所述的強化學習模型訓練方法以及第二方面或第二方面任一實施方式所述的基于強化學習的決策方法以及第三方面或第三方面任一實施方式所述的基于強化學習的航空開艙決策方法的步驟。根據第八方面,本專利技術實施例提供一種存儲介質,其上存儲有計算機指令,該指令被處理器執行時實現第一方面或第一方面任一實施方式所述的強化學習模型訓練方法以及第二方面或第二方面任一實施方式所述的基于強化學習的決策方法以及第三方面或第三方面任一實施方式所述的基于強化學習的航空開艙決策方法的步驟。本專利技術技術方案,具有如下優點:本實施例提供的強化學習模型訓練方法,通過BNN貝葉斯神經網絡推斷求出的是神經網絡參數的分布,可以有效的解決過擬合的問題,使得在數據中出現的決策不多的情況下依然可以學到執行所有策略的狀態數據;并且貝葉斯神經網絡學習的是狀態的變化量而不是整個輸入狀態到輸出下一個狀態的完整映射,因此貝葉斯神經網絡可以通過很少的數據構建出效果較好的虛擬環境,強化學習模型可以在由貝葉斯神經網絡構建的虛擬環境中進行學習,比如,貝葉斯神經網絡可以根據強化學習模型的輸入(歷史狀態數據)以及輸出(初步決策數據),得到狀態變化量以及獎勵值,以供強化學習模型進行參數更新,也即針對任意一個歷史狀態數據,由于強化學習模型在不同學習階段給出的初步決策數據不同,那么針對貝葉斯神經網絡得到的狀態變化量以及獎勵值也會不同,因此,能夠得到更多表征狀態的數據量,增加了強化學習模型訓練樣本量,提高了強化學習效果,提高了動態決策規劃結果的準確性。附圖說明為了更清楚地說明本專利技術具體實施方式或現有技術中的技術方案,下面將對具體實施方式或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖是本專利技術的一些實施方式,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。圖1為本專利技術實施例中強化學習模型訓練方法的一個具體示例的流程圖;圖2為本專利技術實施例中基于強化學習的決策方法的一個具體示例的流程圖;圖3為本專利技術實施例中基于強化學習的航空開艙決策方法的一個具體示例的流程圖;圖4為本專利技術實施例中基于強化學習的航空開艙決策方法的一個示例圖;圖5為本專利技術實施例中基于強化學習的航空開艙決策方法的一個示例圖;圖6為本專利技術實施例中基于強化學習的航空開艙決策方法的一個示例圖;圖7為本專利技術實施例中強化學習模型訓練裝置的一個具體本文檔來自技高網...
【技術保護點】
1.一種強化學習模型訓練方法,其特征在于,包括如下步驟:/n獲取多組歷史狀態數據;/n將每一組歷史狀態數據輸入至強化學習模型,得到初步決策數據;/n將所述每一組歷史狀態數據和所述初步決策數據輸入至預先建立的貝葉斯神經網絡模型,得到狀態變化量以及獎勵值,所述狀態量變化值為當前狀態數據與下一狀態數據的差值;/n根據所述每一組歷史狀態數據以及對應的初步決策數據、狀態變化量以及獎勵值更新所述強化學習模型的模型參數。/n
【技術特征摘要】
1.一種強化學習模型訓練方法,其特征在于,包括如下步驟:
獲取多組歷史狀態數據;
將每一組歷史狀態數據輸入至強化學習模型,得到初步決策數據;
將所述每一組歷史狀態數據和所述初步決策數據輸入至預先建立的貝葉斯神經網絡模型,得到狀態變化量以及獎勵值,所述狀態量變化值為當前狀態數據與下一狀態數據的差值;
根據所述每一組歷史狀態數據以及對應的初步決策數據、狀態變化量以及獎勵值更新所述強化學習模型的模型參數。
2.根據權利要求1所述的方法,其特征在于,根據所述每一組歷史狀態數據以及對應的初步決策數據、狀態變化量以及獎勵值更新所述強化學習模型的模型參數,包括:
將所述每一組歷史狀態數據以及對應的初步決策數據、狀態變化量以及獎勵值組成數據集,得到多個數據集;
根據預設比例,將所述多個數據集以及多組歷史數據輸入至強化學習模型,更新所述強化學習模型參數,所述歷史數據包括相鄰狀態數據以及對應的決策數據。
3.一種基于強化學習的決策方法,其特征在于,包括如下步驟:
獲取任一應用場景的當前狀態數據;
將所述當前狀態數據輸入至如權利要求1或2所述的強化學習訓練方法訓練得到的強化學習模型,得到決策數據。
4.一種基于強化學習的航空開艙決策方法,其特征在于,包括如下步驟:
獲取當前狀態數據,所述當前狀態數據包括多個平行航班的銷售量、剩余座位量、多個平行航班距離起飛的時間以及多個艙價位數據;
將所述當前狀態數據輸入至如權利要求1或2所述的強化學習訓練方法訓練得到的強化學習模型,得到決策數據,所述決策數據包括多個平行航班的開艙情況數據。
5.根據權利要求3或4所述的方法,其特征在于,所述方法還包括:
將通過所述強化學習模型得到的決策數據輸入至所述預先建立的貝葉斯神經網絡模型,得到狀態變化量以及獎勵值;
根據所述每一組當前狀態數據以及對應的決策數據、狀態變化量以及獎勵值更新所述強化學習模型的模型參數。
【專利技術屬性】
技術研發人員:劉震,王闖,周興,李華,
申請(專利權)人:廣州優策科技有限公司,
類型:發明
國別省市:廣東;44
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。