當(dāng)前位置: 首頁(yè) > 專(zhuān)利查詢(xún)>哈爾濱工程大學(xué)專(zhuān)利>正文

一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法、裝置及存儲(chǔ)介質(zhì)制造方法及圖紙

技術(shù)編號(hào)：44264071 閱讀：3 留言：0更新日期：2025-02-14 22:08

本發(fā)明專(zhuān)利技術(shù)公開(kāi)了一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法、裝置及存儲(chǔ)介質(zhì)，該方法包括：獲取無(wú)人水下航行器與水下環(huán)境交互的狀態(tài)信息；利用所設(shè)計(jì)的脈沖神經(jīng)網(wǎng)絡(luò)模型，進(jìn)行無(wú)人水下航行器類(lèi)腦避障決策。所設(shè)計(jì)的脈沖神經(jīng)網(wǎng)絡(luò)模型包括：設(shè)計(jì)脈沖神經(jīng)元軟復(fù)位膜電位更新機(jī)制來(lái)體現(xiàn)神經(jīng)元膜電位的變化；設(shè)計(jì)脈沖編解碼器進(jìn)行連續(xù)信息和脈沖序列信息的轉(zhuǎn)換；設(shè)計(jì)脈沖神經(jīng)網(wǎng)絡(luò)模型，該模型融合軟復(fù)位脈沖Actor網(wǎng)絡(luò)和深度Critic網(wǎng)絡(luò)。本發(fā)明專(zhuān)利技術(shù)融合脈沖神經(jīng)網(wǎng)絡(luò)的能耗優(yōu)勢(shì)和深度強(qiáng)化學(xué)習(xí)的決策優(yōu)勢(shì)，確保無(wú)人水下航行器具有低能耗、時(shí)間連續(xù)、可持續(xù)且安全可靠的水下避障能力，對(duì)于實(shí)現(xiàn)復(fù)雜未知水下環(huán)境下無(wú)人水下航行器的自主避障具有重要應(yīng)用價(jià)值。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專(zhuān)利技術(shù)屬于無(wú)人水下航行器避障，具體涉及一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法、裝置及存儲(chǔ)介質(zhì)。

技術(shù)介紹

1、隨著海洋資源開(kāi)發(fā)需要，秉持發(fā)展海洋領(lǐng)域的戰(zhàn)略方針，無(wú)人水下航行器作為深入探索海洋環(huán)境的重要裝備，因其具備不受線(xiàn)纜約束、水下作業(yè)域廣、安全性好、靈活性強(qiáng)等優(yōu)點(diǎn)，能夠自主航行在人類(lèi)難以接近或無(wú)法預(yù)知危險(xiǎn)的海洋環(huán)境，已逐漸成為實(shí)現(xiàn)海洋資源綜合探測(cè)和展現(xiàn)深海綜合實(shí)力的關(guān)鍵海洋裝備，被廣泛應(yīng)用在民用領(lǐng)域中的海洋環(huán)境監(jiān)測(cè)、海洋基礎(chǔ)設(shè)施檢查、水下應(yīng)急救援等任務(wù)，并在海洋勘察、編隊(duì)護(hù)航、探測(cè)等方法具有重大應(yīng)用。自主避障技術(shù)作為無(wú)人水下航行器智能安全航行的核心技術(shù)之一，貫穿其水下航行的全過(guò)程，要求無(wú)人水下航行器在面對(duì)復(fù)雜未知水下環(huán)境能夠及時(shí)做出正確決策指令且精準(zhǔn)避開(kāi)障礙物，形成具有自適應(yīng)能力的水下自主避障性能，是無(wú)人水下航行器領(lǐng)域的研究熱點(diǎn)和技術(shù)難點(diǎn)。

2、類(lèi)腦智能避障是計(jì)算神經(jīng)科學(xué)、人工智能等領(lǐng)域的重要研究方向，旨在模擬人腦結(jié)構(gòu)功能和復(fù)雜信息處理機(jī)制，通過(guò)脈沖神經(jīng)網(wǎng)絡(luò)、強(qiáng)化學(xué)習(xí)等技術(shù)，形成具有自學(xué)習(xí)和自適應(yīng)能力的類(lèi)似人類(lèi)思維的高級(jí)決策能力，實(shí)現(xiàn)無(wú)人水下航行器在復(fù)雜未知海洋環(huán)境中的自主避障和安全作業(yè)任務(wù)。然而，無(wú)人水下航行器水下作業(yè)要求時(shí)間連續(xù)性，即當(dāng)前時(shí)刻的輸出要基于之前所有時(shí)刻的狀態(tài)數(shù)據(jù)。無(wú)人水下航行器每步?jīng)Q策都需要消耗能量，能效和計(jì)算資源需求問(wèn)題對(duì)于長(zhǎng)時(shí)間巡航、大范圍搜救等任務(wù)來(lái)說(shuō)至關(guān)重要。因此，高效可靠、安全、低能耗的類(lèi)腦避障技術(shù)對(duì)于無(wú)人水下航行器在復(fù)雜水下環(huán)境中實(shí)現(xiàn)自主避障探索具有重要研究意義。p>

3、傳統(tǒng)無(wú)人水下航行器避障方法依賴(lài)于場(chǎng)景地圖，需要提前構(gòu)建基于場(chǎng)景的柵格地圖，場(chǎng)景固定且不易遷移，每當(dāng)環(huán)境有所改變時(shí)都需要重新構(gòu)建場(chǎng)景信息。尤其是面對(duì)陌生環(huán)境，傳統(tǒng)算法無(wú)法適應(yīng)新環(huán)境，僅能夠解決簡(jiǎn)單環(huán)境下的避障任務(wù)。因此，面對(duì)復(fù)雜且未知的水下環(huán)境，傳統(tǒng)避障方法在避障成功率、及時(shí)處理能力和計(jì)算效率等方面均受到挑戰(zhàn)。

4、強(qiáng)化學(xué)習(xí)方法可通過(guò)不斷與環(huán)境交互，根據(jù)當(dāng)前狀態(tài)獲取動(dòng)作指令不斷優(yōu)化決策策略，同時(shí)深度學(xué)習(xí)方法在處理高維信息上具有一定優(yōu)勢(shì)。因此，將強(qiáng)化學(xué)習(xí)和深度學(xué)習(xí)相結(jié)合的深度強(qiáng)化學(xué)習(xí)逐漸成為國(guó)內(nèi)外研究人員青睞的無(wú)人水下航行器避障方法，能夠克服傳統(tǒng)避障方法受場(chǎng)景地圖限制的不足。然而，無(wú)人水下航行器每步?jīng)Q策要求具有時(shí)間維度上的連續(xù)性，針對(duì)長(zhǎng)時(shí)間水下作業(yè)任務(wù)，其本身嵌入式資源有限，每一時(shí)刻水下作業(yè)都需要消耗大量能量并依賴(lài)高性能的計(jì)算設(shè)備實(shí)現(xiàn)。現(xiàn)有深度強(qiáng)化學(xué)習(xí)方法能源消耗和計(jì)算資源要求較高，導(dǎo)致該類(lèi)方法難以在水下環(huán)境大規(guī)模應(yīng)用以解決相關(guān)實(shí)際問(wèn)題。

5、脈沖神經(jīng)網(wǎng)絡(luò)是一種受生物神經(jīng)元啟發(fā)的新一代神經(jīng)網(wǎng)絡(luò)模型，具有高級(jí)的生物神經(jīng)模擬水平，模仿人腦以脈沖形式進(jìn)行異步并行的信息傳遞，通過(guò)脈沖加法數(shù)據(jù)流進(jìn)行計(jì)算，避免傳統(tǒng)神經(jīng)網(wǎng)絡(luò)大量浮點(diǎn)數(shù)高精度的乘法運(yùn)算，具有時(shí)間連續(xù)性、快速處理能力和低能耗消耗等優(yōu)勢(shì)。脈沖神經(jīng)網(wǎng)絡(luò)憑借著上述所述優(yōu)勢(shì)，將其應(yīng)用到無(wú)人水下航行器避障任務(wù)具有合理性和可行性。因此，如何將脈沖神經(jīng)網(wǎng)絡(luò)和深度強(qiáng)化學(xué)習(xí)相結(jié)合，充分發(fā)揮二者優(yōu)勢(shì)，構(gòu)建具有腦啟發(fā)和生物合理性的脈沖神經(jīng)網(wǎng)絡(luò)模型是無(wú)人水下航行器在復(fù)雜未知水下環(huán)境進(jìn)行自主避障任務(wù)亟待解決的關(guān)鍵問(wèn)題。

技術(shù)實(shí)現(xiàn)思路

1、本專(zhuān)利技術(shù)的目的在于提供了一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法、裝置及存儲(chǔ)介質(zhì)，采用脈沖神經(jīng)元軟復(fù)位膜電位更新機(jī)制更好地體現(xiàn)神經(jīng)元膜電位的變化，將神經(jīng)形態(tài)計(jì)算和深度強(qiáng)化學(xué)習(xí)相結(jié)合，實(shí)現(xiàn)無(wú)人水下航行器在復(fù)雜未知水下環(huán)境的自主避障探索。

2、本專(zhuān)利技術(shù)的目的通過(guò)如下技術(shù)方案來(lái)實(shí)現(xiàn)：

3、一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法，包括以下步驟：

4、步驟1：通過(guò)無(wú)人水下航行器與水下環(huán)境進(jìn)行交互，獲取原始狀態(tài)信息；

5、步驟2：設(shè)計(jì)脈沖神經(jīng)元軟復(fù)位膜電位更新機(jī)制來(lái)體現(xiàn)神經(jīng)元膜電位的變化；

6、步驟3：設(shè)計(jì)脈沖編碼器和脈沖解碼器將連續(xù)狀態(tài)信息和脈沖序列信息進(jìn)行相互轉(zhuǎn)換；

7、步驟4：設(shè)計(jì)脈沖神經(jīng)網(wǎng)絡(luò)模型，該模型融合軟復(fù)位脈沖actor網(wǎng)絡(luò)和深度critic網(wǎng)絡(luò)；

8、步驟5：將所述狀態(tài)信息輸入到訓(xùn)練好的脈沖神經(jīng)網(wǎng)絡(luò)模型，根據(jù)網(wǎng)絡(luò)輸出的避障決策進(jìn)行無(wú)人水下航行器在復(fù)雜未知水下環(huán)境的自主避障探索。

9、進(jìn)一步地，所述步驟1所述的原始狀態(tài)信息包括無(wú)人水下航行器到目標(biāo)點(diǎn)的歐氏距離和角度方向、無(wú)人水下航行器的線(xiàn)速度和角速度，以及無(wú)人水下航行器通過(guò)聲納傳感器處理得到的測(cè)距信息；根據(jù)無(wú)人水下航行器與環(huán)境交互，設(shè)置獎(jiǎng)勵(lì)函數(shù)：

10、

11、其中，rgoal和robs分別表示無(wú)人水下航行器到達(dá)目標(biāo)點(diǎn)的獎(jiǎng)勵(lì)值和發(fā)生碰撞的懲罰值，rdis表示無(wú)人水下航行器在當(dāng)前時(shí)刻和上一時(shí)刻到目標(biāo)點(diǎn)的距離變化。dth和oth分別是閾值的超參數(shù)，ddis表示無(wú)人水下航行器中心位置與目標(biāo)點(diǎn)的距離，odis表示無(wú)人水下航行器中心位置與障礙物的距離，α為不為0的常數(shù)。

12、進(jìn)一步地，所述步驟2脈沖神經(jīng)元軟復(fù)位膜電位更新機(jī)制，在膜電位重置時(shí)能夠保留膜電壓超過(guò)閾值的部分，保證當(dāng)前時(shí)刻膜電位數(shù)據(jù)是在上一時(shí)刻膜電位數(shù)據(jù)的基礎(chǔ)上進(jìn)行變化，對(duì)應(yīng)脈沖神經(jīng)網(wǎng)絡(luò)在生物層面上的時(shí)間連續(xù)性；將軟復(fù)位膜電位更新機(jī)制部署在每個(gè)脈沖神經(jīng)元中，確保無(wú)人水下航行器在水下環(huán)境中自主避障探索當(dāng)前時(shí)刻決策要與之前時(shí)刻決策相關(guān)的需求，每條路徑執(zhí)行后才進(jìn)行重置，具有時(shí)間連續(xù)性和生物合理性。

13、進(jìn)一步地，所述將軟復(fù)位膜電位更新機(jī)制部署在每個(gè)脈沖神經(jīng)元中，膜電流、膜電壓和脈沖發(fā)放情況，公式如下：

14、

15、其中，和分別表示膜電流和膜電壓，ηc和ηv分別表示電流和電壓的衰減因子，wk表示突觸權(quán)重矩陣，bk表示突觸偏置向量，wk和bk是網(wǎng)絡(luò)訓(xùn)練需要更新的參數(shù)。表示輸出脈沖，表示脈沖門(mén)控。uth表示膜電位閾值。當(dāng)ut＞uth，也就是當(dāng)前時(shí)刻膜電位ut超過(guò)閾值，軟復(fù)位脈沖神經(jīng)元就會(huì)發(fā)射一個(gè)脈沖信號(hào)。

16、進(jìn)一步地，所述步驟3所述的脈沖編碼器采用泊松編碼方式對(duì)原始狀態(tài)信息進(jìn)行編碼，在給定時(shí)間窗口內(nèi)生成脈沖形式的序列作為狀態(tài)輸入信息；所述的脈沖解碼器是將輸出層神經(jīng)元的脈沖序列通過(guò)平均脈沖累加的方式處理成無(wú)人水下航行器自主避障探索所需的動(dòng)作信息；

17、所述泊松編碼為：

18、

19、其中，p(n)表示軟復(fù)位脈沖神經(jīng)元在固定時(shí)間步長(zhǎng)t內(nèi)發(fā)放脈沖的概率，n表示軟復(fù)位脈沖神經(jīng)元激發(fā)脈沖的個(gè)數(shù)，λ表示激發(fā)頻率。

20、進(jìn)一步地，所述步驟4脈沖神經(jīng)網(wǎng)絡(luò)模型采用actor-critic架構(gòu)，在ddpg算法的基礎(chǔ)上，將軟復(fù)位脈沖actor網(wǎng)絡(luò)和深度critic網(wǎng)絡(luò)相結(jié)合；軟復(fù)位脈沖actor網(wǎng)絡(luò)由所述軟復(fù)位脈沖神經(jīng)元所搭建的四層全連接層構(gòu)成，保證所述模型自主避障探索具有時(shí)間連續(xù)性，深度critic網(wǎng)絡(luò)則采用基于人工神經(jīng)網(wǎng)絡(luò)的模型，由傳統(tǒng)人工神經(jīng)元構(gòu)成的四層全連接層組成。本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法，其特征在于：包括以下步驟：

2.根據(jù)權(quán)利要求1所述的一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法，其特征在于：所述步驟1所述的原始狀態(tài)信息包括無(wú)人水下航行器到目標(biāo)點(diǎn)的歐氏距離和角度方向、無(wú)人水下航行器的線(xiàn)速度和角速度，以及無(wú)人水下航行器通過(guò)聲納傳感器處理得到的測(cè)距信息；根據(jù)無(wú)人水下航行器與環(huán)境交互，設(shè)置獎(jiǎng)勵(lì)函數(shù)：

3.根據(jù)權(quán)利要求1所述的一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法，其特征在于：所述步驟2脈沖神經(jīng)元軟復(fù)位膜電位更新機(jī)制，在膜電位重置時(shí)能夠保留膜電壓超過(guò)閾值的部分，保證當(dāng)前時(shí)刻膜電位數(shù)據(jù)是在上一時(shí)刻膜電位數(shù)據(jù)的基礎(chǔ)上進(jìn)行變化，對(duì)應(yīng)脈沖神經(jīng)網(wǎng)絡(luò)在生物層面上的時(shí)間連續(xù)性；將軟復(fù)位膜電位更新機(jī)制部署在每個(gè)脈沖神經(jīng)元中，確保無(wú)人水下航行器在水下環(huán)境中自主避障探索當(dāng)前時(shí)刻決策要與之前時(shí)刻決策相關(guān)的需求，每條路徑執(zhí)行后才進(jìn)行重置，具有時(shí)間連續(xù)性和生物合理性。

4.根據(jù)權(quán)利要求3所述的一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法，其特征在于：將所述軟復(fù)位膜電位更新

5.根據(jù)權(quán)利要求1所述的一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法，其特征在于：所述步驟3所述的脈沖編碼器采用泊松編碼方式對(duì)原始狀態(tài)信息進(jìn)行編碼，在給定時(shí)間窗口內(nèi)生成脈沖形式的序列作為狀態(tài)輸入信息；所述的脈沖解碼器是將輸出層神經(jīng)元的脈沖序列通過(guò)平均脈沖累加的方式處理成無(wú)人水下航行器自主避障探索所需的動(dòng)作信息；

6.根據(jù)權(quán)利要求1所述的一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法，其特征在于：所述步驟4脈沖神經(jīng)網(wǎng)絡(luò)模型采用Actor-Critic架構(gòu)，在DDPG算法的基礎(chǔ)上，將軟復(fù)位脈沖Actor網(wǎng)絡(luò)和深度Critic網(wǎng)絡(luò)相結(jié)合；軟復(fù)位脈沖Actor網(wǎng)絡(luò)由所述軟復(fù)位脈沖神經(jīng)元所搭建的四層全連接層構(gòu)成，保證所述模型自主避障探索具有時(shí)間連續(xù)性，深度Critic網(wǎng)絡(luò)則采用基于人工神經(jīng)網(wǎng)絡(luò)的模型，由傳統(tǒng)人工神經(jīng)元構(gòu)成的四層全連接層組成。

7.根據(jù)權(quán)利要求1所述的一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法，其特征在于：所述步驟5的脈沖神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練過(guò)程包括：

8.根據(jù)權(quán)利要求7所述的一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法，其特征在于：所述軟復(fù)位脈沖Actor網(wǎng)絡(luò)采用STBP算法分別從時(shí)間域和空間域進(jìn)行反向傳播訓(xùn)練，深度Critic部分則采用正常反向傳播算法進(jìn)行網(wǎng)絡(luò)訓(xùn)練；在軟復(fù)位脈沖Actor網(wǎng)絡(luò)前向傳播結(jié)束后，網(wǎng)絡(luò)輸出結(jié)果傳入到深度Critic網(wǎng)絡(luò)的最后一層以生成Q值，軟復(fù)位脈沖Actor網(wǎng)絡(luò)訓(xùn)練的目的是為了產(chǎn)生最大Q值的無(wú)人水下航行器避障決策，如下：

9.一種計(jì)算機(jī)裝置/設(shè)備/系統(tǒng)，包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序，其特征在于：所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)權(quán)利要求1至8中任一項(xiàng)所述方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序/指令，其特征在于：該計(jì)算機(jī)程序/指令被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至8中任一項(xiàng)所述方法的步驟。

...

【技術(shù)特征摘要】

1.一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法，其特征在于：包括以下步驟：

4.根據(jù)權(quán)利要求3所述的一種基于脈沖神經(jīng)網(wǎng)絡(luò)的無(wú)人水下航行器類(lèi)腦避障決策方法，其特征在于：將所述軟復(fù)位膜電位更新機(jī)制部署在每個(gè)脈沖神經(jīng)元中，膜電流、膜電壓和脈沖發(fā)放情況，公式如下：

【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員：馮偉興，張博洋，張志成，
申請(qǐng)(專(zhuān)利權(quán))人：哈爾濱工程大學(xué)，
類(lèi)型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專(zhuān)利的主人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)