System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請實施例涉及圖像處理,尤其涉及一種圖像識別方法、設備和存儲介質。
技術介紹
1、大規模預訓練模型(large-scale?pre-trained?models,?lpms)是通過在大量數據上進行預訓練,學習到通用的語言、視覺或其他領域的特征表示,然后再在特定任務上進行微調(fine-tuning),以達到優異的性能。參數高效微調(parameter-efficient?fine-tuning,peft)方法是一種常見的微調策略,其核心思想是智能化地選擇模型中需要更新的參數子集,或是引入少量與任務相關的新參數,從而在不犧牲性能的前提下,大幅度降低模型訓練的資源消耗。
2、然而,目前大規模預訓練模型應用于圖像識別任務時還存在一些問題,主要體現在對于處理具有高分辨率圖像識別(例如識別具有復雜細節信息的高分辨率醫學圖像),peft方法仍然未能有效解決模型訓練的資源消耗大的問題,限制了大規模預訓練在高分辨率圖像識別任務的表現,也就是說,大規模預訓練模型應用于高分辨率圖像識別任務時的預測準確性還有待提高。
技術實現思路
1、本申請實施例提供一種圖像識別方法、設備和存儲介質,旨在提升對高分辨率圖像的識別結果準確性。
2、第一方面,本申請實施例提供一種圖像識別方法,所述方法包括以下步驟:
3、將待識別圖像輸入大規模預訓練模型,獲得所述大規模預訓練模型中的n個transformer模塊分別輸出的中間圖特征序列,其中,n為大于1的整數,n個所述transform
4、將預設的提示向量和所述中間圖特征序列輸入已訓練的側融合網絡模型,獲得目標圖特征序列,其中,所述側融合網絡模型包括n個依次連接的融合模塊,n個所述融合模塊與n個所述transformer模塊一一對應,各個所述transformer模塊輸出的所述中間圖特征序列被配置為輸入對應的所述融合模塊,所述預設的提示向量被配置為輸入n個所述融合模塊中的第一個融合模塊;
5、將所述目標圖特征序列輸入到已訓練的分類網絡模型,得到所述待識別圖像的識別結果。
6、本申請實施例的方案中,首先通過大規模預訓練模型中的n個transformer模塊獲得待識別圖像的n個中間圖特征序列,然后將n個中間圖特征序列對應輸入側融合網絡模型的n個融合模塊,并向輸入側融合網絡模型輸入提示向量,以通過提示向量幫助融合模塊理解和處理中間圖特征序列,進而通過n個融合模塊輸出待識別圖像的目標圖特征序列,最終基于目標圖特征序列獲得待識別圖像的識別結果。本方案采用的系統架構,在訓練階段可以凍結大規模預訓練模型的參數,只對側融合網絡模型以及提示向量進行參數更新,從而減少了訓練階段的資源消耗,有助于在訓練過程中提升模型在處理高分辨率圖像方面的能力,進而提升高應用階段對分辨率圖像的識別準確性。
7、在一種可能的實現方法中,各個所述融合模塊被配置為基于輸入的查詢向量、鍵向量和值向量進行跨注意力計算,輸出更新后的中間圖特征序列;
8、n個所述融合模塊中的第一個融合模塊以所述提示向量作為所述查詢向量,其他融合模塊以上一融合模塊輸出的所述更新后的中間圖特征序列作為所述查詢向量;
9、各個所述融合模塊以對應的所述transformer模塊輸出的所述中間圖特征序列作為所述鍵向量和所述值向量;
10、所述目標圖特征序列為n個所述融合模塊中的最后一個融合模塊輸出的所述更新后的中間圖特征序列。
11、在一種可能的實現方法中,所述跨注意力計算包括以下步驟:
12、將所述查詢向量和所述鍵向量進行歸一化計算,得到注意力圖;
13、將所述注意力圖與所述值向量相乘,得到所述更新后的中間圖特征序列。
14、在一種可能的實現方法中,所述大規模預訓練模型還包括圖像劃分模塊和編碼模塊,所述將待識別圖像輸入已訓練的大規模預訓練模型,獲得所述大規模預訓練模型中的n個transformer模塊分別輸出的中間圖特征序列,包括:通過所述大規模預訓練模型執行以下步驟:
15、通過所述圖像劃分模塊將所述待識別圖像劃分為標記;
16、通過所述編碼模塊分別對各個所述標記進行編碼,獲得嵌入表示序列,所述嵌入表示序列包括與所述標記對應的多個嵌入表示;
17、通過各個所述transformer模塊分別基于輸入序列進行自注意力計算,輸出對應的更新后的嵌入表示序列,其中,n個所述transformer模塊中的第一個transformer模塊的輸入序列為所述嵌入表示序列,其他transformer模塊的輸入序列為上一transformer模塊輸出的所述更新后的嵌入表示序列;
18、根據各個所述transformer模塊輸出的所述更新后的嵌入表示序列,確定各個所述transformer模塊對應輸出的所述中間圖特征序列。
19、在一種可能的實現方法中,所述根據各個所述transformer模塊輸出的所述更新后的嵌入表示序列,確定各個所述transformer模塊對應輸出的所述中間圖特征序列,包括:
20、確定各個所述標記在所述transformer模塊的自注意力計算中獲得的平均注意力得分;
21、根據所述平均注意力得分確定重要標記;
22、基于所有的所述重要標記對應的更新后的嵌入表示,確定所述中間圖特征序列。
23、在一種可能的實現方法中,所述根據所述平均注意力得分確定重要標記,包括:
24、將平均注意力得分最高的k個標記作為所述重要標記,其中,k為預設值或者根據預設比例確定。
25、在一種可能的實現方法中,所述提示向量和所述側融合網絡模型通過以下步驟訓練獲得:
26、獲取訓練數據,所述訓練數據包括多個樣本圖像和各個所述樣本圖像對應的識別標簽;
27、凍結所述大規模預訓練模型的參數,將所述樣本圖像輸入所述大規模預訓練模型,獲得所述大規模預訓練模型中的n個transformer模塊分別輸出的樣本中間圖特征序列;
28、將可學習提示向量和所述樣本中間圖特征序列輸入原始側融合網絡模型,獲得樣本目標圖特征序列;
29、凍結所述分類網絡模型的參數,將所述樣本目標圖特征序列輸入所述分類網絡模型,得到所述樣本圖像的識別結果;
30、根據各個所述樣本圖像的識別結果和識別標簽,確定預測損失值;
31、根據所述預測損失值更新所述可學習提示向量和所述側融合網絡模型的參數;
32、繼續基于所述訓練數據對所述可學習提示向量和所述側融合網絡模型進行訓練,直至所述預測損失值收斂;
33、在所述預測損失值收斂后,將當前的可學習提示向量作為所述提示向量,將當前的原始側融合網絡模型作為所述側融合網絡模型。
34、第二方面,本申請實施例提供一種圖像識別裝置,所述裝置包括:
35、中間圖特征序列確定單本文檔來自技高網...
【技術保護點】
1.一種圖像識別方法,其特征在于,所述方法包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,各個所述融合模塊被配置為基于輸入的查詢向量、鍵向量和值向量進行跨注意力計算,輸出更新后的中間圖特征序列;
3.根據權利要求2所述的方法,其特征在于,所述跨注意力計算包括以下步驟:
4.根據權利要求1所述的方法,其特征在于,所述大規模預訓練模型還包括圖像劃分模塊和編碼模塊,所述將待識別圖像輸入已訓練的大規模預訓練模型,獲得所述大規模預訓練模型中的N個Transformer模塊分別輸出的中間圖特征序列,包括:通過所述大規模預訓練模型執行以下步驟:
5.根據權利要求4所述的方法,其特征在于,所述根據各個所述Transformer模塊輸出的所述更新后的嵌入表示序列,確定各個所述Transformer模塊對應輸出的所述中間圖特征序列,包括:
6.根據權利要求5所述的方法,其特征在于,所述根據所述平均注意力得分確定重要標記,包括:
7.根據權利要求1所述的方法,其特征在于,所述提示向量和所述側融合網絡模型通過以下步驟訓練獲
8.一種圖像識別裝置,其特征在于,所述裝置包括:
9.一種計算機設備,其特征在于,包括:
10.一種計算機可讀存儲介質,其特征在于,存儲有計算機可執行指令,所述計算機可執行指令用于執行:如權利要求1至7中任一項所述的方法。
...【技術特征摘要】
1.一種圖像識別方法,其特征在于,所述方法包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,各個所述融合模塊被配置為基于輸入的查詢向量、鍵向量和值向量進行跨注意力計算,輸出更新后的中間圖特征序列;
3.根據權利要求2所述的方法,其特征在于,所述跨注意力計算包括以下步驟:
4.根據權利要求1所述的方法,其特征在于,所述大規模預訓練模型還包括圖像劃分模塊和編碼模塊,所述將待識別圖像輸入已訓練的大規模預訓練模型,獲得所述大規模預訓練模型中的n個transformer模塊分別輸出的中間圖特征序列,包括:通過所述大規模預訓練模型執行以下步驟:
5.根據權利要求4所述的方法,其特...
【專利技術屬性】
技術研發人員:唐曉穎,王章馳,黃義勁,吳翊都,程璞金,林立,
申請(專利權)人:南方科技大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。