當(dāng)前位置: 首頁(yè) > 專利查詢>西北工業(yè)大學(xué)專利>正文

一種基于Transformer區(qū)域建議的遙感圖像分步檢測(cè)網(wǎng)絡(luò)制造技術(shù)

技術(shù)編號(hào)：44433164 閱讀：4 留言：0更新日期：2025-02-28 18:44

本發(fā)明專利技術(shù)公開(kāi)了一種基于Transformer區(qū)域建議的遙感圖像分步檢測(cè)網(wǎng)絡(luò)。該網(wǎng)絡(luò)包括：第一輸入層、標(biāo)簽嵌入層、特征融合層、Transformer編碼器、Transformer解碼器、全連接層；第二輸入層、變分自編碼器、嵌入層、單注意力層；第一輸入層與標(biāo)簽嵌入層連接，標(biāo)簽嵌入層與特征融合層連接，特征融合層與Transformer編碼器連接。本發(fā)明專利技術(shù)解決了現(xiàn)有的遙感圖像目標(biāo)檢測(cè)技術(shù)是通過(guò)縮小輸入的遙感圖像來(lái)處理大尺寸圖像，或者是將遙感圖像裁剪為較小的圖像切片，設(shè)置重采率來(lái)進(jìn)行遙感圖像中的目標(biāo)檢測(cè)，導(dǎo)致檢測(cè)時(shí)間長(zhǎng)、資源利用多、小目標(biāo)信息丟失和漏檢率大的技術(shù)問(wèn)題。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及目標(biāo)檢測(cè)領(lǐng)域，具體而言，涉及一種基于transformer區(qū)域建議的遙感圖像分步檢測(cè)網(wǎng)絡(luò)。

技術(shù)介紹

1、近年來(lái)，深度學(xué)習(xí)技術(shù)進(jìn)步推動(dòng)了目標(biāo)檢測(cè)任務(wù)的顯著發(fā)展。以yolo系列為代表的單階段檢測(cè)網(wǎng)絡(luò)利用卷積神經(jīng)網(wǎng)絡(luò)（cnn）直接從整幅圖像中提取特征，并在檢測(cè)頭部設(shè)置分布網(wǎng)格以預(yù)測(cè)網(wǎng)格內(nèi)的目標(biāo)信息。這種方法顯著提升了檢測(cè)速度，并在不依賴候選區(qū)域建議機(jī)制的情況下實(shí)現(xiàn)了與其他檢測(cè)模型相當(dāng)?shù)木龋瑢?duì)工業(yè)應(yīng)用中的目標(biāo)檢測(cè)發(fā)展起到了重要作用。然而，隨著模型參數(shù)的增加，基于cnn的方法在學(xué)習(xí)能力上的提升有限。為此，可引入注意力機(jī)制關(guān)聯(lián)全局特征，使模型可以學(xué)習(xí)到更多的特征子空間信息，提高模型的表征能力和決策準(zhǔn)確性。

2、近年來(lái)，transformer從自然語(yǔ)言處理（nlp）領(lǐng)域成功引入計(jì)算機(jī)視覺(jué)，并取得了顯著成果。與cnn不同，transformer通過(guò)自注意力機(jī)制關(guān)聯(lián)圖像的全局信息。在目標(biāo)檢測(cè)中，模型如detr將cnn提取的特征圖映射為嵌入序列，送入transformer編碼解碼模塊，將目標(biāo)檢測(cè)視為query查詢過(guò)程。在query與圖像特征通過(guò)解碼器進(jìn)行互注意力計(jì)算后，檢測(cè)頭的fpn輸出目標(biāo)的位置和類別信息。改進(jìn)型deformable-detr采用可變形多頭注意力機(jī)制，允許模型聚焦于圖像中特定的顯著區(qū)域而非全局，從而提高收斂速度和處理效率，并顯著提升高分辨率圖像中小目標(biāo)的檢測(cè)能力。

3、上述模型在目標(biāo)檢測(cè)領(lǐng)域已取得較好效果。然而，現(xiàn)有目標(biāo)檢測(cè)算法主要針對(duì)常見(jiàn)圖像，而對(duì)像素尺寸較大、目標(biāo)占比小的遙感圖像等研究

4、為解決上述問(wèn)題，本專利技術(shù)設(shè)計(jì)了一種基于特征學(xué)習(xí)的transformer區(qū)域建議分步檢測(cè)網(wǎng)絡(luò)，在保證檢測(cè)精度的條件下盡可能縮短大尺寸遙感圖像的檢測(cè)耗時(shí)。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)實(shí)施例提供一種基于transformer區(qū)域建議的遙感圖像分步檢測(cè)網(wǎng)絡(luò)，以至少解決了現(xiàn)有的遙感圖像目標(biāo)檢測(cè)技術(shù)是通過(guò)縮小輸入的遙感圖像來(lái)處理大尺寸圖像，或者是將遙感圖像裁剪為較小的圖像切片，設(shè)置重采率來(lái)進(jìn)行遙感圖像中的目標(biāo)檢測(cè)，導(dǎo)致檢測(cè)時(shí)間長(zhǎng)、資源利用多、小目標(biāo)信息丟失和漏檢率大的技術(shù)問(wèn)題。

2、根據(jù)本專利技術(shù)實(shí)施例的一個(gè)方面，提供了一種基于transformer區(qū)域建議的遙感圖像分步檢測(cè)網(wǎng)絡(luò)。該網(wǎng)絡(luò)可以包括：第一輸入層、標(biāo)簽嵌入層、特征融合層、transformer編碼器、transformer解碼器、全連接層；第二輸入層、變分自編碼器、嵌入層、單注意力層；第一輸入層與標(biāo)簽嵌入層連接，標(biāo)簽嵌入層與特征融合層連接，特征融合層與transformer編碼器連接；第二輸入層與變分自編碼器連接，變分自編碼器與嵌入層連接，嵌入層與特征融合層連接，特征融合層與單注意力層連接；單注意力層和transformer編碼器與transformer解碼器連接，transformer解碼器與全連接層連接；第一輸入層獲取原始遙感圖像，將原始遙感圖像輸入至標(biāo)簽嵌入層，生成記憶隱變量；特征融合層將記憶隱變量與位置編碼相加輸入至transformer編碼器，生成目標(biāo)隱變量；第二輸入層獲取原始遙感圖像對(duì)應(yīng)的大尺寸目標(biāo)分布的特征圖且將大尺寸目標(biāo)分布的特征圖輸入至變分自編碼器，得到高斯分布的特征圖；將高斯分布的特征圖輸入至嵌入層，得到高維特征圖，特征融合層將高維特征圖與位置編碼相加，得到先驗(yàn)檢測(cè)特征；將先驗(yàn)檢測(cè)特征輸入至單注意力層后，生成目標(biāo)向量，其中，先驗(yàn)檢測(cè)特征包括：初始查詢向量、初始鍵向量和初始值向量；將單注意力層生成的目標(biāo)向量和transformer編碼器生成的目標(biāo)隱變量輸入至transformer解碼器，得到原始遙感圖像的淺層特征，將原始遙感圖像的淺層特征輸入至全連接層，得到原始遙感圖像的小尺寸目標(biāo)二維分布概率圖。

3、可選地，所述先驗(yàn)檢測(cè)特征的表達(dá)式為：

4、

5、其中，為初始查詢向量，為初始鍵向量，為初始值向量，為原始遙感圖像對(duì)應(yīng)的大尺寸目標(biāo)分布的特征圖，為高斯分布，為位置編碼，其具體表達(dá)式為， i為其序列長(zhǎng)度，n為特征維度，k為正整數(shù)，為卷積操作，為大尺寸目標(biāo)分布的特征圖對(duì)應(yīng)的高斯分布的特征圖。

6、可選地，所述將先驗(yàn)檢測(cè)特征輸入至單注意力層后，生成目標(biāo)向量的表達(dá)式為：

7、

8、其中，為目標(biāo)查詢向量，為查詢向量參數(shù)，為目標(biāo)鍵向量，鍵向量參數(shù)，為目標(biāo)值向量，為值向量參數(shù)；

9、

10、其中，為轉(zhuǎn)置，為k向量的維度，為目標(biāo)向量。

11、可選地，一種基于transformer區(qū)域建議的遙感圖像分步檢測(cè)網(wǎng)絡(luò)的損失函數(shù)的表達(dá)式為：

12、

13、其中，為損失函數(shù)值，為和的交叉熵?fù)p失函數(shù)值，為分步檢測(cè)網(wǎng)絡(luò)輸出的原始遙感圖像的小尺寸目標(biāo)二維分布特征圖，為原始遙感圖像的小尺寸目標(biāo)真實(shí)二維分布特征圖，kl為正則化函數(shù)，為隨機(jī)噪聲，為分步檢測(cè)網(wǎng)絡(luò)輸出的原始遙感圖像的小尺寸目標(biāo)二維分布特征圖對(duì)應(yīng)正態(tài)分布，其均值為，方差為，為標(biāo)準(zhǔn)正態(tài)分布，其均值為0，方差為1。

14、可選地，一種基于transformer區(qū)域建議的遙感圖像分步檢測(cè)網(wǎng)絡(luò)的評(píng)價(jià)指標(biāo)為平均切片序列重合度，確定平均切片序列重合度的過(guò)程為：獲取原始遙感圖像的每一切片包含目標(biāo)的數(shù)量、原始遙感圖像的小尺寸目標(biāo)二維分布特征圖的每一切片概率值、初始切片數(shù)量和總切片數(shù)量；將每一切片包含目標(biāo)的數(shù)量按照從大到小進(jìn)行排序，得到第一序列；將每一切片概率值按照從大到小進(jìn)行排序，得到第二序列；基于初始切片數(shù)量、初始切片數(shù)量對(duì)應(yīng)的第一序列和初始切片數(shù)量對(duì)應(yīng)的第二序列，得到初始切片數(shù)量對(duì)應(yīng)的第一序列和第二序列的重合度；基于初始切片數(shù)量對(duì)應(yīng)的第一序列和第二序列的重合度和總切片數(shù)量，得到第二序列的評(píng)價(jià)指標(biāo)。

15、可選地，所述基于初始切片數(shù)量、初始切片數(shù)量對(duì)應(yīng)的第一序列和初始切片數(shù)量對(duì)應(yīng)的第二序列，得到初始切片數(shù)量對(duì)應(yīng)的第一序列和第二序列的重合度的表達(dá)式為：

16、

17、其中，為初始切片數(shù)量對(duì)應(yīng)的第一序列和第二序列的重合度，為初始切片數(shù)量，為初始切片數(shù)量對(duì)應(yīng)的第一序列，為初始切片數(shù)量對(duì)應(yīng)的第二序列。

18、可選地，所述基于初始切片數(shù)量對(duì)應(yīng)的第一序列和第二序列的重合度和總切片數(shù)量，得到第二序列的評(píng)價(jià)指標(biāo)的表達(dá)式為：

19、

20、為第二序列的評(píng)價(jià)指標(biāo)，為總切片數(shù)量。

21、本專利技術(shù)的有益效果：

22、(1)采用的transformer模型通過(guò)自注意力機(jī)制能夠捕捉圖像中的本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于Transformer區(qū)域建議的遙感圖像分步檢測(cè)網(wǎng)絡(luò)，其特征在于，包括：第一輸入層、標(biāo)簽嵌入層、特征融合層、Transformer編碼器、Transformer解碼器、全連接層；第二輸入層、變分自編碼器、嵌入層、單注意力層；

2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)，其特征在于，所述先驗(yàn)檢測(cè)特征的表達(dá)式為：

3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)，其特征在于，所述將先驗(yàn)檢測(cè)特征輸入至單注意力層后，生成目標(biāo)向量的表達(dá)式為：

4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)，其特征在于，損失函數(shù)的表達(dá)式為：

5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)，其特征在于，評(píng)價(jià)指標(biāo)為平均切片序列重合度，確定平均切片序列重合度的過(guò)程為：

6.根據(jù)權(quán)利要求5所述的網(wǎng)絡(luò)，其特征在于，所述基于初始切片數(shù)量、初始切片數(shù)量對(duì)應(yīng)的第一序列和初始切片數(shù)量對(duì)應(yīng)的第二序列，得到初始切片數(shù)量對(duì)應(yīng)的第一序列和第二序列的重合度的表達(dá)式為：

7.根據(jù)權(quán)利要求5所述的網(wǎng)絡(luò)，其特征在于，所述基于初始切片數(shù)量對(duì)應(yīng)的第一序列和第二序列的重合度和總切片數(shù)量，得到第二序列的評(píng)價(jià)指標(biāo)的表達(dá)式為：

>8.一種計(jì)算機(jī)系統(tǒng)，其特征在于包括：一個(gè)或多個(gè)處理器，計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，用于存儲(chǔ)一個(gè)或多個(gè)程序，其中，當(dāng)所述一個(gè)或多個(gè)程序被所述一個(gè)或多個(gè)處理器執(zhí)行時(shí)，使得所述一個(gè)或多個(gè)處理器實(shí)現(xiàn)權(quán)利要求1所述的網(wǎng)絡(luò)。

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于存儲(chǔ)有計(jì)算機(jī)可執(zhí)行指令，所述指令在被執(zhí)行時(shí)用于實(shí)現(xiàn)權(quán)利要求1所述的網(wǎng)絡(luò)。

10.一種計(jì)算機(jī)程序產(chǎn)品，其特征在于包括計(jì)算機(jī)可執(zhí)行指令，所述指令在被執(zhí)行時(shí)用于實(shí)現(xiàn)權(quán)利要求1所述的網(wǎng)絡(luò)。

...

【技術(shù)特征摘要】

1.一種基于transformer區(qū)域建議的遙感圖像分步檢測(cè)網(wǎng)絡(luò)，其特征在于，包括：第一輸入層、標(biāo)簽嵌入層、特征融合層、transformer編碼器、transformer解碼器、全連接層；第二輸入層、變分自編碼器、嵌入層、單注意力層；

2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)，其特征在于，所述先驗(yàn)檢測(cè)特征的表達(dá)式為：

3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)，其特征在于，所述將先驗(yàn)檢測(cè)特征輸入至單注意力層后，生成目標(biāo)向量的表達(dá)式為：

4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)，其特征在于，損失函數(shù)的表達(dá)式為：

6.根據(jù)權(quán)利要求5所述的網(wǎng)絡(luò)，其特征在于，所述基于初始切片數(shù)量、初始切片數(shù)量...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：李辰凱，吳喬榕，梁成，王紅梅，王靖宇，
申請(qǐng)(專利權(quán))人：西北工業(yè)大學(xué)，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)