• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>宜賓學院專利>正文

    一種變電站巡檢機器人路徑規劃系統技術方案

    技術編號:15638163 閱讀:340 留言:0更新日期:2017-06-15 13:46
    本發明專利技術公開了一種變電站巡檢機器人路徑規劃系統,基于信息強度引導啟發式Q學習,包括中控模塊、距離傳感器模塊、RFID模塊和運動控制模塊,距離傳感器模塊由7個距離傳感器組成,用于將所測得的距離數據傳送給中控模塊用于巡檢機器人的避障;RFID模塊由定點分布的RFID標簽和巡檢機器人上的RFID讀寫器組成,用于將RFID地標數據和目標地點位置數據傳送給中控模塊用于巡檢機器人的位置標定和目標位置確定;運動控制模塊接受來自中控模塊的命令確定運動方向;中控模塊為巡檢機器人的Agent。本發明專利技術采用強化學習的路徑規劃系統完成特殊天氣等條件下對重點指定設備進行特殊巡檢任務,避免磁軌道等路徑規劃方法的軌道維護工作。

    【技術實現步驟摘要】
    一種變電站巡檢機器人路徑規劃系統
    本專利技術涉及巡檢機器人導航領域,具體涉及一種變電站巡檢機器人路徑規劃系統。
    技術介紹
    在電力系統中,電能最基本特點是不能大規模地存儲,并且電能的生產、輸送、分配、使用都是連續的。整個電力系統實現網絡化互聯,并引入市場化的機制,給人們帶來巨大利益,但同時系統的安全穩定運行卻面臨巨大的挑戰。電力變電站系統是整個電力系統中生產、輸送以及分配三大核心系統之一,對整個電力系統的安全起著重要的作用。目前對變電站的巡檢方式主要有人工巡檢和機器人巡檢。智能巡檢機器人主要通過遠程控制或者自主控制方式,對變電站室外設備進行巡視檢測,可代替人工進行一些重復、繁雜、高危險性的巡檢,并能夠完成更準確的常規化的巡檢任務。變電站巡檢機器人是移動機器人中的一種。國外對于移動機器人的研究,不僅起步較早,而且發展也較快。相對于國外,國內對移動機器人的研究開始時間較晚,距離世界前沿技術水平還相對較遠。但國內正在加快移動機器人的探究步伐。在國家"863計劃"項目的支持下,清華大學、哈爾濱工業大學、中國科學院等研究機構均開始對智能移動機器人的研究,并取得一定成果。我國對變電站智能巡檢機器人的研究開始于2002年PSI,受到了國家“863”計劃的支持。2005年10月,我國第一臺變電站設備巡檢機器人在長清投入運行,它是由山東電力科學院自主研發的。2012年2月,中國第一臺軌道式巡檢機器人投入試運行,這標志著中國變電站實體化機器人正處在飛快發展中,在發展自主移動機器人技術水平的同時,也有力地提高了電網系統的智能化水平。目前巡檢機器人在我國得到廣泛應用并將在今后國家電網智能化巡檢工程中得到持續應用。截止到2014年,全國至少有27個省、市、自治區、直轄市采用了變電站巡檢機器人進行巡檢,覆蓋了南方電網、華北電網、華東電網以及西北電網。由此,有必要對變電站巡檢機器人進行功能上的改進或完善。變電站巡檢機器人巡檢方式可分為正常巡檢和特殊巡檢作業。正常巡檢作業即變電站巡檢機器人巡視全部變電站設備;特殊巡檢作業即在特殊情況下對某些指定的變電站設備進行巡視,一般指在高溫天氣、大負荷運行、新設備投入運行以及冰雹、雷電等惡劣環境下,對變電站特別設備進行特殊巡檢。在變電站巡檢機器人進行特殊巡檢時,若采用目前常見的磁軌道等巡檢機器人則不具有靈活性。基于行為的變電站巡檢機器人路徑規劃實質就是傳感器感知的環境狀態到執行器動作的映射。采用這種技術的巡檢機器人能夠對外界環境變化做出響應,具有實時、快速的優點。因此路徑規劃性能的優劣將直接影響巡檢機器人巡檢工作的效率。強化學習是機器學習重要分支之一,在近幾年重新受到越來越多的關注,也得到越發廣泛和復雜的實際應用。它通過試錯的方式與環境進行交互以完成學習。如果環境對其動作評價為積極的則選擇該動作趨勢加強,否則便會減弱。Agent在不斷訓練的過程中得到最優策略。因此強化學習具有自主學習和在線學習的特點,通過訓練可用于機器人路徑規劃中,目前也已廣泛地應用于移動機器人的路徑規劃問題當中。雖然強化學習有著諸多優點以及值得期待的應用前景,但強化學習也存在著收斂速度慢、“維數災難”、平衡探索與利用、時間信度分配等問題。強化學習收斂速度慢的原因之一是沒有教師信號,只能通過探索并依靠環境評價逐漸改進以獲得最優動作策略。為進一步加快強化學習收斂速度,啟發式強化學習通過給強化學習注入一定的先驗知識,有效提高強化學習的收斂速度。Torrey等通過遷移學習為強化學習算法注入先驗經驗以提高收斂速度;但是遷移學習所注入的先驗知識是固定的,即使有不合理規則也無法在訓練過程中在線修正。Bianchi等通過給傳統強化學習算法添加啟發函數,在訓練過程中結合使用值函數和啟發函數來選擇動作,提出了啟發式強化學習(HeuristicallyAcceleratedReinforcementLearning,HARL)算法模型。啟發式強化學習最重要的特點是在線更新啟發函數,以不斷增強表現更好的動作的啟發函數。方敏等在啟發式強化學習算法基礎上提出一種基于狀態回溯的啟發式強化學習方法,通過引入代價函數描述重復動作的重要性,結合動作獎賞及動作代價提出一種新的啟發函數定義以進一步提高收斂速度;但是該方法只是針對重復性動作的重要性進行評估。
    技術實現思路
    為解決上述問題,本專利技術提供了一種變電站巡檢機器人路徑規劃系統。為實現上述目的,本專利技術采取的技術方案為:一種變電站巡檢機器人路徑規劃系統,基于信息強度引導啟發式Q學習,包括中控模塊、距離傳感器模塊、RFID模塊和運動控制模塊,所述距離傳感器模塊由7個距離傳感器組成,用于將所測得的距離數據傳送給中控模塊用于巡檢機器人的避障;RFID模塊由定點分布的RFID標簽和巡檢機器人上的RFID讀寫器組成,用于將RFID地標數據和目標地點位置數據傳送給中控模塊用于巡檢機器人的位置標定和目標位置確定;運動控制模塊接受來自中控模塊的命令確定運動方向;中控模塊為巡檢機器人的Agent,用于接收其他模塊傳出來的數據確定行動策略,并向運動控制模塊傳送命令以規劃路徑。其中,以巡檢機器人正前方為零度線,七個距離傳感器依次以-90°、-60°、-30°、0°、30°、60°、90°裝配在巡檢機器人體側。其中,通過以下步驟完成巡檢機器人獎懲機制的建立:步驟1:設定移動獎懲機制:為鼓勵機器人以盡可能少的步數移動到目標點,每次執行一個動作都會產生一個懲罰回報值;同時為鼓勵機器人提前做出判斷,在非必要情況下盡量避免大角度移動,大角度移動的懲罰回報值更大一些。具體設置為:在動作屬于{-30°,0°,30°}時,懲罰回報值為-0.2;動作屬于{-60°,60°}時,懲罰回報值為-0.5;步驟2:設定目標地點獎懲機制:采用RFID標定巡檢機器人與目標設備的位置;在巡檢機器人每一步動作后,計算當前位置與目標地點之間的距離d,將-d(即令所計算的距離值取反)作為此時的目標回報值;同時,將移動到目標地點的回報值設置為+100;步驟3:設置巡檢機器人避障回報值:采用兩級避障回報值等級:當七個距離傳感器有任何一個測量結果小于0.1米時,認定機器人已經撞到障礙物(包括設備和墻壁等),此時懲罰回報值為-100,并將此作為終止狀態退出當前episode進入下一個episode的學習;當七個距離傳感器有任何一個測量結果大于0.1并且小于半個機器人車身長時,為鼓勵機器人及早避障,設置此時的懲罰回報值為-2。其中,所述中控模塊基于以下步驟完成巡檢機器人路徑的規劃:步驟1:初始化Agent初始化狀態-動作值函數、啟發函數;確定目標設備位置和巡檢所在位置;步驟2:設計表H記錄信息強度將表H定義為四元組<si,ai,p(si,ai),fmax>;其中,si為需要更新信息強度的信息狀態;ai為需要更新信息強度的信息動作;p(si,ai)為更新后的信息強度,信息強度為與適應度呈正比的標量;fmax為此前記錄的信息狀態si適應度最大值;步驟3:更新狀態-動作值函數Q學習狀態-動作值函數的更新規則如下所示:步驟4:更新適應度最大值將適應度值定義為每幕(episode)訓練中Agent從初始狀態移動到目標狀態的折扣累計回報;其定義方式為其中,β為適應度折扣因子,R為本文檔來自技高網
    ...
    一種變電站巡檢機器人路徑規劃系統

    【技術保護點】
    一種變電站巡檢機器人路徑規劃系統,其特征在于,基于信息強度引導啟發式Q學習,包括中控模塊、距離傳感器模塊、RFID模塊和運動控制模塊,所述距離傳感器模塊由7個距離傳感器組成,用于將所測得的距離數據傳送給中控模塊用于巡檢機器人的避障;RFID模塊由定點分布的RFID標簽和巡檢機器人上的RFID讀寫器組成,用于將RFID地標數據和目標地點位置數據傳送給中控模塊用于巡檢機器人的位置標定和目標位置確定;運動控制模塊接受來自中控模塊的命令確定運動方向;中控模塊為巡檢機器人的Agent,用于接收其他模塊傳出來的數據確定行動策略,并向運動控制模塊傳送命令以規劃路徑。

    【技術特征摘要】
    1.一種變電站巡檢機器人路徑規劃系統,其特征在于,基于信息強度引導啟發式Q學習,包括中控模塊、距離傳感器模塊、RFID模塊和運動控制模塊,所述距離傳感器模塊由7個距離傳感器組成,用于將所測得的距離數據傳送給中控模塊用于巡檢機器人的避障;RFID模塊由定點分布的RFID標簽和巡檢機器人上的RFID讀寫器組成,用于將RFID地標數據和目標地點位置數據傳送給中控模塊用于巡檢機器人的位置標定和目標位置確定;運動控制模塊接受來自中控模塊的命令確定運動方向;中控模塊為巡檢機器人的Agent,用于接收其他模塊傳出來的數據確定行動策略,并向運動控制模塊傳送命令以規劃路徑。2.如權利要求1所述的一種變電站巡檢機器人路徑規劃系統,其特征在于,以巡檢機器人正前方為零度線,七個距離傳感器依次以-90°、-60°、-30°、0°、30°、60°、90°裝配在巡檢機器人體側。3.如權利要求1所述的一種變電站巡檢機器人路徑規劃系統,其特征在于,通過以下步驟完成巡檢機器人獎懲機制的建立:步驟1:設定移動獎懲機制:為鼓勵機器人以盡可能少的步數移動到目標點,每次執行一個動作都會產生一個懲罰回報值;同時為鼓勵機器人提前做出判斷,在非必要情況下盡量避免大角度移動,大角度移動的懲罰回報值更大一些。具體設置為:在動作屬于{-30°,0°,30°}時,懲罰回報值為-0.2;動作屬于{-60°,60°}時,懲罰回報值為-0.5;步驟2:設定目標地點獎懲機制:采用RFID標定巡檢機器人與目標設備的位置;在巡檢機器人每一步動作后,計算當前位置與目標地點之間的距離d,將-d(即令所計算的距離值取反)作為此時的目標回報值;同時,將移動到目標地點的回報值設置為+100;步驟3:設置巡檢機器人避障回報值:采用兩級避障回報值等級:當七個距離傳感器有任何一個測量結果小于0.1米時,認定機器人已經撞到障礙物,此時懲罰回報值為-100,并將此作為終止狀態退出當前episode進入下一個episode的學習;當七個距離傳感器有任何一個測量結果大于0.1并且小于半個機器人車身長時,為鼓勵機器人及早避障,設置此時的懲罰回報值為-2。4.如權利要求1所述的一種變電站巡檢機器人路徑規劃系統,其特征在于,所述中控模塊基于以下步驟完成巡檢機器人路徑的規劃:步驟1:初始化Agent初始化狀態-動作值函數、啟發函數;確定目標設備位置和巡檢所在位置;步驟2:設計表H記錄信息強度將表H定義為四元組<si,ai,p(si,ai),fmax>;其中,si為需要更新信息強度的信息狀態;ai為需要更新信息強度的信息動作;p(si,ai)為更新后的信息強度,信息強度為與適應度呈正比的標量;fmax為此前記錄的信息狀態si適應度最大值;步驟3:更新狀態-動作值函數Q學習狀態-動作值函數的更新規則如下所示...

    【專利技術屬性】
    技術研發人員:蔡樂才吳昊霖高祥居錦武陳冬君劉鑫
    申請(專利權)人:宜賓學院
    類型:發明
    國別省市:四川,51

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩av片无码一区二区三区不卡| 好爽毛片一区二区三区四无码三飞 | 久久久久亚洲精品无码网址色欲| 亚洲欧洲AV无码专区| 国产成人无码精品久久久久免费| 久久久久久精品无码人妻| H无码精品3D动漫在线观看| 精品无码国产自产拍在线观看| 四虎成人精品无码永久在线| 亚洲AV无码专区在线播放中文| 人妻无码久久中文字幕专区 | 亚洲中文无码av永久| 国产亚洲大尺度无码无码专线 | 亚洲成AV人片在线观看无码 | 欧洲无码一区二区三区在线观看 | 国产精品无码国模私拍视频 | 中文字幕av无码无卡免费| 亚洲熟妇无码乱子AV电影| 精品无码成人网站久久久久久| 亚洲AV无码日韩AV无码导航| 亚洲人成无码网站久久99热国产| 亚洲a∨无码一区二区| 中文字幕无码成人免费视频| 亚洲av无码国产精品色午夜字幕 | 亚洲AV无码专区在线观看成人| 国产免费无码一区二区| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 亚洲一区二区三区无码影院| 狠狠久久精品中文字幕无码| 无码夜色一区二区三区| 精品国产性色无码AV网站 | 午夜无码中文字幕在线播放| av色欲无码人妻中文字幕| 亚洲AV无码一区二区三区性色 | 久久ZYZ资源站无码中文动漫| 亚洲一区无码中文字幕| 大桥久未无码吹潮在线观看| 国产乱子伦精品无码码专区| 无码专区—VA亚洲V天堂| 四虎成人精品无码| 精品无码AV一区二区三区不卡|