當(dāng)前位置: 首頁 > 專利查詢>哈爾濱工業(yè)大學(xué)專利>正文

基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法技術(shù)

技術(shù)編號：44487517 閱讀：3 留言：0更新日期：2025-03-04 17:52

本發(fā)明專利技術(shù)公開了一種基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法，所述方法通過引入特征融合模塊、雙重注意力模塊以及自蒸餾機(jī)制，解決了現(xiàn)有技術(shù)中多尺度特征融合不足、器械邊界模糊和干擾區(qū)域識(shí)別不準(zhǔn)確的問題。具體而言，特征融合模塊則對不同尺度的特征圖進(jìn)行有效融合，以獲取更為精確的全局與局部信息；雙重注意力模塊通過結(jié)合通道注意力與位置注意力，進(jìn)一步增強(qiáng)對復(fù)雜手術(shù)場景中器械特征的捕捉能力；自蒸餾機(jī)制則通過跨層知識(shí)傳播提高定位模型的精度，尤其是在保持輕量化模型結(jié)構(gòu)的前提下，顯著優(yōu)化了定位性能。本發(fā)明專利技術(shù)不僅提升了模型對復(fù)雜語義關(guān)系的理解能力，還在器械的細(xì)節(jié)定位和干擾區(qū)域的準(zhǔn)確識(shí)別方面取得了顯著進(jìn)步。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)屬于計(jì)算機(jī)視覺領(lǐng)域，涉及一種手持器械細(xì)粒度定位方法，具體涉及一種基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位。

技術(shù)介紹

1、傳統(tǒng)的器械定位方法通常依賴于圖像的灰度特征、邊緣特征或者區(qū)域特征來實(shí)現(xiàn)對器械的定位。然而，隨著深度學(xué)習(xí)和注意力機(jī)制的發(fā)展，越來越多的研究開始將視覺信息與上下文語義相結(jié)合，以提高復(fù)雜環(huán)境下器械定位的準(zhǔn)確性。現(xiàn)有的通過深度學(xué)習(xí)和注意力機(jī)制進(jìn)行細(xì)粒度定位的技術(shù)，盡管在捕捉復(fù)雜場景中的局部視覺特征和全局語義特征方面取得了一定進(jìn)展，但由于語義信息和特征信息融合方式的簡化設(shè)計(jì)，往往容易忽略一些細(xì)節(jié)特征，影響器械的定位精度。因此，如何在輕量化模型的前提下有效地融合多尺度特征與雙重注意力機(jī)制，以提高在復(fù)雜場景下的定位精度，仍然是一個(gè)亟待解決的挑戰(zhàn)。

技術(shù)實(shí)現(xiàn)思路

1、為了應(yīng)對現(xiàn)有復(fù)雜環(huán)境下器械細(xì)粒度定位技術(shù)中由于場景復(fù)雜導(dǎo)致的特征融合不充分和定位精度不足的問題，本專利技術(shù)提供了一種基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法。該方法通過特征圖融合模塊、雙重注意力模塊和自蒸餾模塊顯著提升了細(xì)粒度定位的精度，解決了現(xiàn)有技術(shù)中語義信息和細(xì)節(jié)信息融合不完全、計(jì)算開銷較大的問題，能夠在復(fù)雜場景下精準(zhǔn)定位目標(biāo)，在手持器械定位數(shù)據(jù)集上展現(xiàn)了卓越的性能。

2、本專利技術(shù)的目的是通過以下技術(shù)方案實(shí)現(xiàn)的：

3、一種基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法，包括如下步驟：

4、步驟1、輸入含有手持器械圖像的特征提取與初步處理：

5、

6、步驟2、特征融合模塊中的語義和細(xì)節(jié)信息的融合提取：

7、特征融合模塊通過以中層級特征為中介，將高層級特征的語義信息與低層級特征的細(xì)節(jié)信息進(jìn)行融合，生成統(tǒng)一的輸出特征，具體步驟如下：

8、步驟2.1、特征提取：

9、對于來自編碼器的不同層級特征圖，定義低層級特征圖為fi-1、中層級特征圖為fi、高層級特征圖為fi+1；

10、步驟2.2、低層級和高層級特征的融合處理：

11、步驟2.2.1、低層級特征融合：

12、對低層級特征圖fi-1使用卷積核大小為2、步長為2的卷積操作，將其分辨率降低到原來的一半與中層級特征圖的分辨率一致，通過1×1卷積調(diào)整通道數(shù)，并與中層級特征圖逐元素相乘生成融合后的低層級特征圖；

13、步驟2.2.2、高層級特征融合：

14、對高層級特征圖fi+1使用雙線性插值上采樣將分辨率增大兩倍，通過1×1卷積減少通道數(shù)，與中層級特征圖逐元素相乘生成融合后的高級特征圖；

15、步驟2.3、特征圖的通道融合和輸出：

16、將融合后的高級特征和低級特征在通道維度進(jìn)行拼接操作，生成融合后的特征圖，將融合后的特征圖通過1×1卷積調(diào)整通道數(shù)為48；

17、步驟3、雙重注意力模塊的特征優(yōu)化：

18、步驟3.1、設(shè)計(jì)雙重注意力模塊：

19、雙重注意力模塊由位置注意力模塊、通道注意力模塊和融合校準(zhǔn)模塊構(gòu)成；

20、步驟3.2、位置注意力模塊的實(shí)現(xiàn)：

21、位置注意力模塊接收大小為c×h×w的特征圖，輸出大小為1×h×w的位置注意力圖，位置注意力模塊近似低秩雙線性池化方法進(jìn)行特征提取，融合后的特征經(jīng)過加和池化后通道數(shù)變?yōu)?，成為大小為1×h×w的位置注意力圖，對位置注意力圖進(jìn)行一次1×1卷積，增強(qiáng)特征表示的能力，具體計(jì)算過程為：

22、

23、其中，ap代表位置注意力輸出；sum代表加和池化，用于控制輸出的大小；x和y代表輸入特征圖；conv1×1代表1×1卷積；softmax代表softmax激活函數(shù)；

24、步驟3.3、通道注意力模塊的實(shí)現(xiàn)：

25、通道注意力模塊接收大小為c×h×w的特征圖，輸出大小為c×1×1的通道注意力向量，通道注意力模塊使用全局平均池化(gap)操作將全局信息聚合到一個(gè)注意力向量中，全局平均池化后使用兩個(gè)帶有批歸一化的1×1卷積將通道注意力向量的通道數(shù)先降低再升高，細(xì)化語義關(guān)系，具體的計(jì)算過程為：

26、ac＝conv1×1(conv1×1(gap(x)))

27、其中，ac代表通道注意力輸出；gap代表全局平均池化；

28、步驟3.4、融合校準(zhǔn)模塊的實(shí)現(xiàn)：

29、采用帶廣播的哈達(dá)瑪乘積將位置注意力圖與通道注意力向量進(jìn)行融合，融合完成后進(jìn)行特征圖校準(zhǔn)，使用原始輸入與注意力特征進(jìn)行哈達(dá)瑪乘積，乘積結(jié)果與原始輸入特征圖進(jìn)行殘差連接，得到雙重注意力模塊的優(yōu)化特征圖，具體的計(jì)算過程為：

30、

31、其中，fdam代表雙重注意力模塊輸出；⊕代表逐元素加法；代表校準(zhǔn)后的注意力特征圖；代表哈達(dá)瑪乘積；as代表注意力特征圖；⊙代表帶廣播的哈達(dá)瑪乘積；k代表特征圖維度，k＝1,2,...,c；h代表特征圖高度，h＝1,2,...,h；w代表特征圖寬度，w＝1,2,...,w；

32、步驟4、自蒸餾模塊提高定位效果：

33、自蒸餾模塊利用較深層的輸出為目標(biāo)，較淺層的輸出為輸入，通過調(diào)整特征圖的分辨率和通道數(shù)生成統(tǒng)一的概率圖，評估兩者之間的相似性，通過優(yōu)化訓(xùn)練過程中的損失，實(shí)現(xiàn)特征的高效利用和定位性能的顯著提升，具體步驟如下：

34、步驟4.1、概率圖生成：

35、雙重注意力模塊和解碼器的輸出經(jīng)1×1卷積將通道數(shù)調(diào)整為定位類別數(shù)，使用softmax激活函數(shù)生成通道數(shù)等于定位類別數(shù)的概率圖，具體計(jì)算過程為：

36、ψ(an)＝softmax(avgpool(conv1×1(an)))

37、φ(an)＝softmax(conv1×1(an))

38、其中，ψ(an)為蒸餾目標(biāo)，φ(an)為蒸餾輸入；an代表參與蒸餾的第n層；softmax代表softmax激活函數(shù)；avgpool代表平均池化；

39、步驟4.2、蒸餾操作的實(shí)現(xiàn)：

40、單次蒸餾時(shí)選擇較深層的輸出作為蒸餾目標(biāo)，較淺層的輸出作為蒸餾輸入，使用平均池化將深層的概率圖分辨率降低到與淺層概率圖一致，使用損失函數(shù)評估兩個(gè)概率圖之間的相似度，訓(xùn)練過程中最小化蒸餾損失；

41、步驟5、定位模型優(yōu)化：

42、定位模型由特征圖融合模塊、雙重注意力模塊以及自蒸餾模塊構(gòu)成，定位模型優(yōu)化通過計(jì)算定位損失和蒸餾損失來實(shí)現(xiàn)，定位損失lseg采用焦點(diǎn)損失，蒸餾損失ldistill使用l2損失，總損失函數(shù)為：

43、l＝λseglseg+λdistillld本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法，其特征在于所述方法包括如下步驟：

2.根據(jù)權(quán)利要求1所述的基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法，其特征在于所述步驟2的具體步驟如下：

3.根據(jù)權(quán)利要求1所述的基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法，其特征在于所述步驟4的具體步驟如下：

【技術(shù)特征摘要】

1.一種基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定位方法，其特征在于所述方法包括如下步驟：

2.根據(jù)權(quán)利要求1所述的基于注意力機(jī)制和自蒸餾的手持器械細(xì)粒度定...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：馬丁，鄔向前，卜巍，李昌昊，
申請(專利權(quán))人：哈爾濱工業(yè)大學(xué)，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)