System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于計(jì)算機(jī)視覺領(lǐng)域,涉及一種手持器械細(xì)粒度定位方法,具體涉及一種基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位。
技術(shù)介紹
1、傳統(tǒng)的器械定位方法通常依賴于圖像的灰度特征、邊緣特征或者區(qū)域特征來實(shí)現(xiàn)對器械的定位。然而,隨著深度學(xué)習(xí)和注意力機(jī)制的發(fā)展,越來越多的研究開始將視覺信息與上下文語義相結(jié)合,以提高復(fù)雜環(huán)境下器械定位的準(zhǔn)確性。現(xiàn)有的通過深度學(xué)習(xí)和注意力機(jī)制進(jìn)行細(xì)粒度定位的技術(shù),盡管在捕捉復(fù)雜場景中的局部視覺特征和全局語義特征方面取得了一定進(jìn)展,但由于語義信息和特征信息融合方式的簡化設(shè)計(jì),往往容易忽略一些細(xì)節(jié)特征,影響器械的定位精度。因此,如何在輕量化模型的前提下有效地融合多尺度特征與雙重注意力機(jī)制,以提高在復(fù)雜場景下的定位精度,仍然是一個(gè)亟待解決的挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、為了應(yīng)對現(xiàn)有復(fù)雜環(huán)境下器械細(xì)粒度定位技術(shù)中由于場景復(fù)雜導(dǎo)致的特征融合不充分和定位精度不足的問題,本專利技術(shù)提供了一種基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法。該方法通過特征圖融合模塊、雙重注意力模塊和自蒸餾模塊顯著提升了細(xì)粒度定位的精度,解決了現(xiàn)有技術(shù)中語義信息和細(xì)節(jié)信息融合不完全、計(jì)算開銷較大的問題,能夠在復(fù)雜場景下精準(zhǔn)定位目標(biāo),在手持器械定位數(shù)據(jù)集上展現(xiàn)了卓越的性能。
2、本專利技術(shù)的目的是通過以下技術(shù)方案實(shí)現(xiàn)的:
3、一種基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法,包括如下步驟:
4、步驟1、輸入含有手持器械圖像的特征提取與初步處理:
5、
6、步驟2、特征融合模塊中的語義和細(xì)節(jié)信息的融合提取:
7、特征融合模塊通過以中層級特征為中介,將高層級特征的語義信息與低層級特征的細(xì)節(jié)信息進(jìn)行融合,生成統(tǒng)一的輸出特征,具體步驟如下:
8、步驟2.1、特征提取:
9、對于來自編碼器的不同層級特征圖,定義低層級特征圖為fi-1、中層級特征圖為fi、高層級特征圖為fi+1;
10、步驟2.2、低層級和高層級特征的融合處理:
11、步驟2.2.1、低層級特征融合:
12、對低層級特征圖fi-1使用卷積核大小為2、步長為2的卷積操作,將其分辨率降低到原來的一半與中層級特征圖的分辨率一致,通過1×1卷積調(diào)整通道數(shù),并與中層級特征圖逐元素相乘生成融合后的低層級特征圖;
13、步驟2.2.2、高層級特征融合:
14、對高層級特征圖fi+1使用雙線性插值上采樣將分辨率增大兩倍,通過1×1卷積減少通道數(shù),與中層級特征圖逐元素相乘生成融合后的高級特征圖;
15、步驟2.3、特征圖的通道融合和輸出:
16、將融合后的高級特征和低級特征在通道維度進(jìn)行拼接操作,生成融合后的特征圖,將融合后的特征圖通過1×1卷積調(diào)整通道數(shù)為48;
17、步驟3、雙重注意力模塊的特征優(yōu)化:
18、步驟3.1、設(shè)計(jì)雙重注意力模塊:
19、雙重注意力模塊由位置注意力模塊、通道注意力模塊和融合校準(zhǔn)模塊構(gòu)成;
20、步驟3.2、位置注意力模塊的實(shí)現(xiàn):
21、位置注意力模塊接收大小為c×h×w的特征圖,輸出大小為1×h×w的位置注意力圖,位置注意力模塊近似低秩雙線性池化方法進(jìn)行特征提取,融合后的特征經(jīng)過加和池化后通道數(shù)變?yōu)?,成為大小為1×h×w的位置注意力圖,對位置注意力圖進(jìn)行一次1×1卷積,增強(qiáng)特征表示的能力,具體計(jì)算過程為:
22、
23、其中,ap代表位置注意力輸出;sum代表加和池化,用于控制輸出的大小;x和y代表輸入特征圖;conv1×1代表1×1卷積;softmax代表softmax激活函數(shù);
24、步驟3.3、通道注意力模塊的實(shí)現(xiàn):
25、通道注意力模塊接收大小為c×h×w的特征圖,輸出大小為c×1×1的通道注意力向量,通道注意力模塊使用全局平均池化(gap)操作將全局信息聚合到一個(gè)注意力向量中,全局平均池化后使用兩個(gè)帶有批歸一化的1×1卷積將通道注意力向量的通道數(shù)先降低再升高,細(xì)化語義關(guān)系,具體的計(jì)算過程為:
26、ac=conv1×1(conv1×1(gap(x)))
27、其中,ac代表通道注意力輸出;gap代表全局平均池化;
28、步驟3.4、融合校準(zhǔn)模塊的實(shí)現(xiàn):
29、采用帶廣播的哈達(dá)瑪乘積將位置注意力圖與通道注意力向量進(jìn)行融合,融合完成后進(jìn)行特征圖校準(zhǔn),使用原始輸入與注意力特征進(jìn)行哈達(dá)瑪乘積,乘積結(jié)果與原始輸入特征圖進(jìn)行殘差連接,得到雙重注意力模塊的優(yōu)化特征圖,具體的計(jì)算過程為:
30、
31、其中,fdam代表雙重注意力模塊輸出;⊕代表逐元素加法;代表校準(zhǔn)后的注意力特征圖;代表哈達(dá)瑪乘積;as代表注意力特征圖;⊙代表帶廣播的哈達(dá)瑪乘積;k代表特征圖維度,k=1,2,...,c;h代表特征圖高度,h=1,2,...,h;w代表特征圖寬度,w=1,2,...,w;
32、步驟4、自蒸餾模塊提高定位效果:
33、自蒸餾模塊利用較深層的輸出為目標(biāo),較淺層的輸出為輸入,通過調(diào)整特征圖的分辨率和通道數(shù)生成統(tǒng)一的概率圖,評估兩者之間的相似性,通過優(yōu)化訓(xùn)練過程中的損失,實(shí)現(xiàn)特征的高效利用和定位性能的顯著提升,具體步驟如下:
34、步驟4.1、概率圖生成:
35、雙重注意力模塊和解碼器的輸出經(jīng)1×1卷積將通道數(shù)調(diào)整為定位類別數(shù),使用softmax激活函數(shù)生成通道數(shù)等于定位類別數(shù)的概率圖,具體計(jì)算過程為:
36、ψ(an)=softmax(avgpool(conv1×1(an)))
37、φ(an)=softmax(conv1×1(an))
38、其中,ψ(an)為蒸餾目標(biāo),φ(an)為蒸餾輸入;an代表參與蒸餾的第n層;softmax代表softmax激活函數(shù);avgpool代表平均池化;
39、步驟4.2、蒸餾操作的實(shí)現(xiàn):
40、單次蒸餾時(shí)選擇較深層的輸出作為蒸餾目標(biāo),較淺層的輸出作為蒸餾輸入,使用平均池化將深層的概率圖分辨率降低到與淺層概率圖一致,使用損失函數(shù)評估兩個(gè)概率圖之間的相似度,訓(xùn)練過程中最小化蒸餾損失;
41、步驟5、定位模型優(yōu)化:
42、定位模型由特征圖融合模塊、雙重注意力模塊以及自蒸餾模塊構(gòu)成,定位模型優(yōu)化通過計(jì)算定位損失和蒸餾損失來實(shí)現(xiàn),定位損失lseg采用焦點(diǎn)損失,蒸餾損失ldistill使用l2損失,總損失函數(shù)為:
43、l=λseglseg+λdistillld本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法,其特征在于所述方法包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法,其特征在于所述步驟2的具體步驟如下:
3.根據(jù)權(quán)利要求1所述的基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法,其特征在于所述步驟4的具體步驟如下:
【技術(shù)特征摘要】
1.一種基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法,其特征在于所述方法包括如下步驟:
2.根據(jù)權(quán)利要求1所述的基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:馬丁,鄔向前,卜巍,李昌昊,
申請(專利權(quán))人:哈爾濱工業(yè)大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。