【技術實現步驟摘要】
一種變電站巡檢機器人路徑規劃系統
本專利技術涉及巡檢機器人導航領域,具體涉及一種變電站巡檢機器人路徑規劃系統。
技術介紹
在電力系統中,電能最基本特點是不能大規模地存儲,并且電能的生產、輸送、分配、使用都是連續的。整個電力系統實現網絡化互聯,并引入市場化的機制,給人們帶來巨大利益,但同時系統的安全穩定運行卻面臨巨大的挑戰。電力變電站系統是整個電力系統中生產、輸送以及分配三大核心系統之一,對整個電力系統的安全起著重要的作用。目前對變電站的巡檢方式主要有人工巡檢和機器人巡檢。智能巡檢機器人主要通過遠程控制或者自主控制方式,對變電站室外設備進行巡視檢測,可代替人工進行一些重復、繁雜、高危險性的巡檢,并能夠完成更準確的常規化的巡檢任務。變電站巡檢機器人是移動機器人中的一種。國外對于移動機器人的研究,不僅起步較早,而且發展也較快。相對于國外,國內對移動機器人的研究開始時間較晚,距離世界前沿技術水平還相對較遠。但國內正在加快移動機器人的探究步伐。在國家"863計劃"項目的支持下,清華大學、哈爾濱工業大學、中國科學院等研究機構均開始對智能移動機器人的研究,并取得一定成果。我國對變電站智能巡檢機器人的研究開始于2002年PSI,受到了國家“863”計劃的支持。2005年10月,我國第一臺變電站設備巡檢機器人在長清投入運行,它是由山東電力科學院自主研發的。2012年2月,中國第一臺軌道式巡檢機器人投入試運行,這標志著中國變電站實體化機器人正處在飛快發展中,在發展自主移動機器人技術水平的同時,也有力地提高了電網系統的智能化水平。目前巡檢機器人在我國得到廣泛應用并將在今后國家電 ...
【技術保護點】
一種變電站巡檢機器人路徑規劃系統,其特征在于,基于信息強度引導啟發式Q學習,包括中控模塊、距離傳感器模塊、RFID模塊和運動控制模塊,所述距離傳感器模塊由7個距離傳感器組成,用于將所測得的距離數據傳送給中控模塊用于巡檢機器人的避障;RFID模塊由定點分布的RFID標簽和巡檢機器人上的RFID讀寫器組成,用于將RFID地標數據和目標地點位置數據傳送給中控模塊用于巡檢機器人的位置標定和目標位置確定;運動控制模塊接受來自中控模塊的命令確定運動方向;中控模塊為巡檢機器人的Agent,用于接收其他模塊傳出來的數據確定行動策略,并向運動控制模塊傳送命令以規劃路徑。
【技術特征摘要】
1.一種變電站巡檢機器人路徑規劃系統,其特征在于,基于信息強度引導啟發式Q學習,包括中控模塊、距離傳感器模塊、RFID模塊和運動控制模塊,所述距離傳感器模塊由7個距離傳感器組成,用于將所測得的距離數據傳送給中控模塊用于巡檢機器人的避障;RFID模塊由定點分布的RFID標簽和巡檢機器人上的RFID讀寫器組成,用于將RFID地標數據和目標地點位置數據傳送給中控模塊用于巡檢機器人的位置標定和目標位置確定;運動控制模塊接受來自中控模塊的命令確定運動方向;中控模塊為巡檢機器人的Agent,用于接收其他模塊傳出來的數據確定行動策略,并向運動控制模塊傳送命令以規劃路徑。2.如權利要求1所述的一種變電站巡檢機器人路徑規劃系統,其特征在于,以巡檢機器人正前方為零度線,七個距離傳感器依次以-90°、-60°、-30°、0°、30°、60°、90°裝配在巡檢機器人體側。3.如權利要求1所述的一種變電站巡檢機器人路徑規劃系統,其特征在于,通過以下步驟完成巡檢機器人獎懲機制的建立:步驟1:設定移動獎懲機制:為鼓勵機器人以盡可能少的步數移動到目標點,每次執行一個動作都會產生一個懲罰回報值;同時為鼓勵機器人提前做出判斷,在非必要情況下盡量避免大角度移動,大角度移動的懲罰回報值更大一些。具體設置為:在動作屬于{-30°,0°,30°}時,懲罰回報值為-0.2;動作屬于{-60°,60°}時,懲罰回報值為-0.5;步驟2:設定目標地點獎懲機制:采用RFID標定巡檢機器人與目標設備的位置;在巡檢機器人每一步動作后,計算當前位置與目標地點之間的距離d,將-d(即令所計算的距離值取反)作為此時的目標回報值;同時,將移動到目標地點的回報值設置為+100;步驟3:設置巡檢機器人避障回報值:采用兩級避障回報值等級:當七個距離傳感器有任何一個測量結果小于0.1米時,認定機器人已經撞到障礙物,此時懲罰回報值為-100,并將此作為終止狀態退出當前episode進入下一個episode的學習;當七個距離傳感器有任何一個測量結果大于0.1并且小于半個機器人車身長時,為鼓勵機器人及早避障,設置此時的懲罰回報值為-2。4.如權利要求1所述的一種變電站巡檢機器人路徑規劃系統,其特征在于,所述中控模塊基于以下步驟完成巡檢機器人路徑的規劃:步驟1:初始化Agent初始化狀態-動作值函數、啟發函數;確定目標設備位置和巡檢所在位置;步驟2:設計表H記錄信息強度將表H定義為四元組<si,ai,p(si,ai),fmax>;其中,si為需要更新信息強度的信息狀態;ai為需要更新信息強度的信息動作;p(si,ai)為更新后的信息強度,信息強度為與適應度呈正比的標量;fmax為此前記錄的信息狀態si適應度最大值;步驟3:更新狀態-動作值函數Q學習狀態-動作值函數的更新規則如下所示...
【專利技術屬性】
技術研發人員:蔡樂才,吳昊霖,高祥,居錦武,陳冬君,劉鑫,
申請(專利權)人:宜賓學院,
類型:發明
國別省市:四川,51
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。