System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及電力傳輸,尤其是一種基于深度強化學習與模式挖掘的寬頻振蕩分類方法。
技術介紹
1、“雙高”電力系統中,發電設備、輸電網絡、電力負荷等之間相互作用,會引起幾赫茲到數千赫茲頻率范圍內的失穩性震蕩。震蕩指的是電力系統因受自身或外部因素的影響,電力電子設備之間及其與電網之間相互作用引起的電氣量(如電壓、電流、功率等)隨時間作周期性波動,且震蕩頻率在較寬范圍內變化的動態過程稱為電力系統寬頻震蕩。目前,由于寬頻震蕩形成的內部機制復雜,現有的基于控制學分析和普通的人工智能算法很難在捕捉其內部的復雜特征的同時高效地對其進行分類以便對其進行進一步的抑制。
2、電力系統寬頻震蕩問題嚴重影響設備安全和用電質量、制約新能源的高效消納、威脅電網的安全穩定,已引起了學術界和工業界的廣泛關注。但目前人們對寬頻震蕩問題尚未形成統一認識,還不能準確地揭示其物理機制,如何對寬頻震蕩分類往往只能依靠傳統控制學分析或者普通的人工智能方法,對于寬頻震蕩現象難以精準地捕捉其內部規律,為接下來的抑制帶來了一定困難。有鑒于此,有必要提供一種能夠準確地捕捉寬頻震蕩內部規律并高效地對電網中出現的寬頻震蕩現象進行分類的方法。
技術實現思路
1、為了克服上述現有技術中缺乏寬頻震蕩分類低準確度且低效的缺陷,本申請提出了一種基于深度強化學習與模式挖掘的寬頻振蕩分類方法,基于深度強化學習和模式挖掘進行的電網輸電線路寬頻震蕩分類,提高了寬頻震蕩分類的準確性和效率。
2、本專利技術提出的一種基于深度強化學習與模式
3、多元時序數據經編碼得到多模式時間序列的方法為:首先將連續時間段上采集的多元時序數據離散為單時間點數據,然后對單時間點數據進行聚類,將多元時序數據中的各單時間點數據替換為對應的聚類簇序號形成聚類序列;獲取不同震蕩類別下的多元時序數據序號對應的聚類序列的公共子序列,提取多元時序數據對應的聚類序列中的公共子序列構成多模式時間序列;
4、獲取多元時序數據作為測試對象,結合已知聚類結果,獲取測試對象的聚類序列,并提取公共子序列構成測試對象的多模式時間序列;將測試對象的多模式時間序列輸入震蕩分類模型,得到測試對象的震蕩類別預測值。
5、優選的,震蕩分類模型的訓練方法包括以下步驟:
6、st1、從電力系統歷史運行數據中獲取多元時序數據轉化為多模式時間序列作為學習樣本存入經驗池,學習樣本標注有震蕩類別;構建基礎模型;基礎模型包括特征提取網絡和sac網絡;sac網絡包括actor網絡、第一狀態評估網絡、第二狀態評估網絡、第一動作評估網絡和第二動作評估網絡;
7、特征提取網絡針對多模式時間序列生成隱藏狀態h和預測類別y';actor網絡基于多模式時間序列、h生成調整策略;多模式時間序列執行調整策略后形成新的多模式時間序列;第一狀態評估網絡、第二狀態評估網絡、第一動作評估網絡和第二動作評估網絡的輸入均為多模式時間序列、h和獎勵r,輸出分別為第一狀態評估值、第二狀態評估值、第一動作評估值和第二動作評估值;
8、獎勵r的計算公式為:
9、;
10、;
11、其中,m為震蕩類別數量,fi為樣本s在第i個震蕩類別的表示;為樣本s經特征提取模塊得到的預測類別中第i個震蕩的值;yi為樣本s標注的震蕩類別中第i個震蕩的值;ε為設定的平滑參數;
12、st2、從經驗池隨機選擇多個樣本輸入基礎模型,根據預測類別和真實震蕩類別計算損失函數并更新特征提取網絡;計算獎勵r以及動作損失和狀態損失;根據動作損失更新第一動作評估網絡和第二動作評估網絡,根據狀態損失更新第一狀態評估網絡,并將第一狀態評估網絡復制給第二狀態評估網絡;
13、st3、結合更新后的第一動作評估網絡計算策略損失,根據策略損失更新actor網絡;
14、st4、將樣本s輸入更新后的基礎模型,actor網絡得到動作策略和新的多模式時間序列,將新的多模式時間序列關聯原有震蕩類別作為樣本放入經驗池;
15、st5、判斷基礎模型更新次數是否達到設定次數;否,則返回步驟st2;是,則固定特征提取網絡作為震蕩分類模型,震蕩分類模型根據輸入的多模式時間序列預測震蕩類別。
16、優選的,動作損失函數為:
17、lq(i')=∑s∈b[q(s,a;wi')-u(q)]2/|b|,i'=1或2;
18、u(q)=r+γv(s')
19、其中,s表示基礎模型作為樣本輸入的多模式時間序列;b為訓練批次,|b|為訓練批次大小;wi'表示第i'動作評估網絡的近似參數,a表示actor網絡在基礎模型輸入樣本為s時生成的策略動作;q(s,a;wi')表示第i'動作評估網絡在基礎模型輸入樣本為s且動作策略為a時輸出的動作評估值;u(q)表示樣本的真實價值估計;s'為s結合動作策略a進行調整后形成的新的多模式時間序列;v(s')為基礎模型輸入為s'時,第一狀態評估網絡輸出的第一狀態評估值;γ為設置的獎勵折扣系數;
20、步驟st3中,根據第一動作損失lq(1)更新第一動作評估網絡,根據第二動作損失lq(2)更新第二動作評估網絡。
21、優選的,狀態損失函數為:
22、lv=∑s∈b[q(s,a)-u(v)]2/|b|;
23、u(v)=ea~π(a|s;θ)[(s,a;wi')-αlnπ(a|s;θ)]
24、其中,s表示基礎模型作為樣本輸入的多模式時間序列;b為訓練批次,|b|表示訓練批次大小;π(a|s;θ)為actor網絡輸出的概率集合;θ為第一狀態價值網絡的近似參數;q(s,a)為動作策略a在π(a|s;θ)中對應的概率值,u(v)為樣本s的真實價值估計;ea~π(a|s;θ)表示π(a|s;θ)所在分布的期望;(s,a;wi')表示在q(s,a;w1)和q(s,a;w2)中取較小值,q(s,a;w1)和q(s,a;w2)分別表示第一動作評估網絡和第二動作評估網絡在基礎模型輸入樣本為s且動作策略為a時輸出的動作評估值;α為sac算法中最大化熵探索中的熵參數。
25、優選的,策略損失函數為:
26、la=∑s∈bea~π(a|s;θ)[q0(s,a)-αlnπ(a|s;θ)]/|b|
27、其中,q0(s,a)表示更新后第一動作評估網絡在基礎模型輸入為s時生成的第一動作評估值。
28、優選的,st1中學習樣本的獲取,包括以下分步驟:
29、s1、獲取標注有震蕩類別的多元時序數據的集合,將集合中的多元時序數據以時間點為單位離散處理,得到單時間點數據的集合;
30、s2、對單時間點數據的集合中的數據進行聚類,得到多元時序數據中各個數據與聚類簇的映射關系;<本文檔來自技高網...
【技術保護點】
1.一種基于深度強化學習與模式挖掘的寬頻振蕩分類方法,其特征在于,首先通過馬爾可夫算法訓練震蕩分類模型,震蕩分類模型的輸入為表征電力系統工況的多元時序數據經編碼得到的多模式時間序列,輸出為預測的震蕩類別;
2.如權利要求1所述的基于深度強化學習與模式挖掘的寬頻振蕩分類方法,其特征在于,震蕩分類模型的訓練方法包括以下步驟:
3.如權利要求2所述的基于深度強化學習與模式挖掘的寬頻振蕩分類方法,其特征在于,動作損失函數為:
4.如權利要求2所述的基于深度強化學習與模式挖掘的寬頻振蕩分類方法,其特征在于,狀態損失函數為:
5.如權利要求4所述的基于深度強化學習與模式挖掘的寬頻振蕩分類方法,其特征在于,策略損失函數為:
6.如權利要求2所述的基于深度強化學習與模式挖掘的寬頻振蕩分類方法,其特征在于,St1中學習樣本的獲取,包括以下分步驟:
7.如權利要求6所述的基于深度強化學習與模式挖掘的寬頻振蕩分類方法,其特征在于,S2中采用Toeplitz逆協方差聚類方法進行聚類;步驟S5具體包括以下分步驟:
8.如權
9.一種基于深度強化學習與模式挖掘的寬頻振蕩分類系統,其特征在于,包括存儲器和處理器,存儲器中存儲有計算機程序,處理器連接存儲器,處理器用于執行所述計算機程序,以實現如權利要求1-8任一項所述的基于深度強化學習與模式挖掘的寬頻振蕩分類方法。
10.一種存儲介質,其特征在于,存儲有計算機程序,所述計算機程序被執行時用于實現如權利要求1-8任一項所述的基于深度強化學習與模式挖掘的寬頻振蕩分類方法。
...【技術特征摘要】
1.一種基于深度強化學習與模式挖掘的寬頻振蕩分類方法,其特征在于,首先通過馬爾可夫算法訓練震蕩分類模型,震蕩分類模型的輸入為表征電力系統工況的多元時序數據經編碼得到的多模式時間序列,輸出為預測的震蕩類別;
2.如權利要求1所述的基于深度強化學習與模式挖掘的寬頻振蕩分類方法,其特征在于,震蕩分類模型的訓練方法包括以下步驟:
3.如權利要求2所述的基于深度強化學習與模式挖掘的寬頻振蕩分類方法,其特征在于,動作損失函數為:
4.如權利要求2所述的基于深度強化學習與模式挖掘的寬頻振蕩分類方法,其特征在于,狀態損失函數為:
5.如權利要求4所述的基于深度強化學習與模式挖掘的寬頻振蕩分類方法,其特征在于,策略損失函數為:
6.如權利要求2所述的基于深度強化學習與模式挖掘的寬頻振蕩分類方法,其特征在于,...
【專利技術屬性】
技術研發人員:呂增威,胡濤,向念文,魏振春,王書來,陳志偉,王超群,楊煜,
申請(專利權)人:合肥工業大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。