一種基于零樣本曼巴模型的圖像識別方法技術

技術編號：43046032 閱讀：8 留言：0更新日期：2024-10-22 14:31

本發明專利技術公開了一種基于零樣本曼巴模型的圖像識別方法，通過四種圖像掃描策略確保了特征圖中的每個元素都能夠整合來自不同方向的信息。采用狀態空間模型，特別是曼巴，對特征進行運算處理。使模型能夠保持在保持線性計算復雜度的同時，對輸入有著全局視野。在三個經典的圖像分類數據集CUB，SUN和AWA2的傳統零樣本基準測試上得到，比傳統ResNet、ViT模型提取的特征擁有更好的性能。證明本方法可以通過學習已見類圖像的先驗知識，并且利用曼巴模型的對全局圖像特征進行學習，從而精確的識別未見類圖像。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及一種圖像識別方法，具體涉及一種零樣本圖像識別方法。

技術介紹

1、圖像識別作為計算機視覺核心領域之一，其核心目標在于識別并分類輸入圖像至其所屬的預設類別。該技術在多個行業具有深遠影響，包括但不限于醫學診斷、車輛導航、安全系統以及個人身份驗證等。在這些應用中，圖像識別的準確性和效率對于提升系統性能至關重要。

2、零樣本學習(zero-shot?learning，zsl)是機器學習的一個分支，它試圖解決傳統監督學習中遇到的一個關鍵問題：當模型面對從未見過的類別時，如何進行有效的分類。零樣本學習的核心在于，即使在缺乏特定類別訓練數據的情況下，也能通過學習已知類別與未知類別之間的關聯，實現對新類別的識別。

3、與典型的監督學習方法不同，零樣本學習不依賴于大量的標注數據，而是通過類屬性(class?attributes)來橋接已知和未知類別之間的差距。這些屬性通常是對類別的描述性特征，如顏色、紋理、形狀等，它們可以由手動標注或通過自然語言描述來獲得。通過將這些屬性與圖像的視覺特征相結合，模型能夠對未知類別的圖像進行推理和分類。

4、類屬性的使用反映了人類的認知過程。人類能夠通過先前的知識以及對類別的描述來識別和分類新的對象，即使之前沒有直接的經驗。零樣本學習模仿了這一過程，使得機器學習模型能夠更加靈活地處理新情況，而不僅僅局限于它們在訓練階段所見過的類別。

5、零樣本分類的這一特性使其在許多實際應用中具有巨大的潛力。例如，在安全監控領域，零樣本分類可以幫助識別和響應新出現的威脅

6、零樣本圖像分類通過其獨特的學習機制，不僅拓寬了機器學習的應用范圍，也為解決現實世界中的復雜問題提供了新的視角和工具。在零樣本學習的早期階段，研究者通常依賴于卷積神經網絡(cnn)諸如resnet等，來提取視覺特征。后來，隨著visiontransformer(vit)模型在計算機視覺領域取得了令人矚目的進展，許多零樣本學習方法開始轉向使用vit來提取視覺特征。盡管cnn在計算效率方面表現出色，但其受限于有限的感受野，這限制了其捕捉全局上下文的能力。相比之下，transformer在提取全局特征方面表現出色，但由于與輸入標記長度相關的平方復雜度，其應用受到了一定限制。現有的零樣本模型往往面臨著全局信息捕獲和計算效率之間的矛盾：一方面，較大的感受野可以幫助模型捕獲更廣泛的信息；另一方面，過大的感受野會導致計算復雜度增加。

技術實現思路

1、專利技術目的：針對上述現有技術，提出一種基于零樣本曼巴模型的圖像識別方法，以解決傳統cnn模型難以捕獲全局上下文特征和vit模型造成的平方空間復雜度的問題。

2、技術方案：一種基于零樣本曼巴模型的圖像識別方法，所述零樣本曼巴模型的建立及訓練過程包括：

3、s1：給定數據集，將所述數據集劃分為已見類和未見類；

4、s2：將圖像平均劃分為數個小塊，然后通過四種掃描策略：正橫向、逆橫向、正豎向、逆豎向，將二維圖像變為一維序列，得到四種順序不同的圖像序列特征；

5、s3：將s2得到的圖像的四種順序不同的圖像序列特征分別對應輸入堆疊的曼巴模塊，融合四個堆疊曼巴模塊的輸出得到曼巴視覺特征；

6、s4：將圖像和類別名分別輸入clip視覺編碼器和clip文本編碼器得到潛在空間表示，并將其中的視覺表示分離出全局表示和局部表示；

7、s5：將所述局部表示和所述曼巴視覺特征輸入多層曼巴視覺融合模塊，得到被clip增強泛化性的最終視覺特征；

8、s6：將所述最終視覺特征通過線性層映射到屬性空間，然后根據語義矩陣的相似度得出曼巴預測分數；接著，計算所述全局表示和所述潛在空間表示中的類別文本表示的余弦相似度，得到clip預測分數；最后，將所述曼巴預測分數和所述clip預測分數相加，得到模型預測分數；并引入偏差向量允許一部分的已見類預測遷移到未見類，得到最終預測分數；

9、s7：對所述最終預測分數采用交叉熵損失lcl和自校準損lcal進行監督訓練；

10、所述圖像識別方法包括：對于待識別的圖像，首先按照所述四種掃描策略得到該圖像對應的四種順序不同的圖像序列特征，輸入s7訓練完成的零樣本曼巴模型中，經模型運算后輸出對應的圖像預測標簽完成該圖像的識別。

11、有益效果：本專利技術通過曼巴模型，能夠在保持對輸入圖像全局感受野的同時，只需線性計算復雜度，從而獲得更好地捕捉圖像中長距離依賴關系的視覺特征。這使得所得的圖像特征比傳統cnn更充滿全局信息，同時比vit具有更高效的計算復雜度。在三個經典的圖像分類數據集caltech-uscd?birds-200-2011(cub)，sun和animals?withattributes2(awa2)的傳統零樣本基準測試上比傳統resnet和vit提取的視覺特征更有辨別性，可以達到更好的綜合性能。

本文檔來自技高網...

【技術保護點】

1.一種基于零樣本曼巴模型的圖像識別方法，其特征在于，所述零樣本曼巴模型的建立及訓練過程包括：

2.根據權利要求1所述的基于零樣本曼巴模型的圖像識別方法，其特征在于，所述S1中，給定數據集將其劃分為包含已見類Cs的集合和包含未見類Cu的集合其中Cs,Cu分別表示已見類和未見類，yi對應圖像xi的真實類別標簽，分別表示已見類和未見類的圖像集合，分別表示已見類與未見類的標簽集合；并令表示與類別c對應的類別語義向量，其中分別表示已見類和未見類的類別語義向量集合，tc∈T表示類別c對應的文本描述，T表示所有類別的文本描述集合。

3.根據權利要求2所述的基于零樣本曼巴模型的圖像識別方法，其特征在于，所述S2中，正橫向為從首行開始從左到右逐行掃描；逆橫向為從最后一行開始從右到左逐行掃描；正豎向為從最左一列開始從上到下逐列掃描；逆豎向為從最右一列開始從下到上逐列掃描。

4.根據權利要求2所述的基于零樣本曼巴模型的圖像識別方法，其特征在于，所述S3中，堆疊的曼巴模塊對輸入的處理程一共分為四個階段，分別為：第一階段進行兩層曼巴模塊、第二階段進行兩層曼巴模塊、第三

5.根據權利要求2所述的基于零樣本曼巴模型的圖像識別方法，其特征在于，所述S4包括：將圖像xi輸入CLIP視覺編碼器，類別文本描述以提示詞“a?photo?of?a<classname>“的模版輸入CLIP文本編碼器，得到潛在空間表示：

6.根據權利要求5所述的基于零樣本曼巴模型的圖像識別方法，其特征在于，所述S5包括：將局部CLIP視覺特征xvlocal和曼巴視覺特征xvmamba輸入多層曼巴視覺融合模塊，得到被CLIP增強泛化性的最終視覺特征；

7.根據權利要求6所述的基于零樣本曼巴模型的圖像識別方法，其特征在于，所述S6具體包括：將最終視覺特征xv通過簡單線性神經網絡fatt映射到屬性空間，再與類別語義向量計算相似度得出曼巴預測分數，加上全局CLIP視覺特征xvglobal和文本特征xtclip的余弦相似度，得到模型預測分數

...

【技術特征摘要】

1.一種基于零樣本曼巴模型的圖像識別方法，其特征在于，所述零樣本曼巴模型的建立及訓練過程包括：

2.根據權利要求1所述的基于零樣本曼巴模型的圖像識別方法，其特征在于，所述s1中，給定數據集將其劃分為包含已見類cs的集合和包含未見類cu的集合其中cs,cu分別表示已見類和未見類，yi對應圖像xi的真實類別標簽，分別表示已見類和未見類的圖像集合，分別表示已見類與未見類的標簽集合；并令表示與類別c對應的類別語義向量，其中分別表示已見類和未見類的類別語義向量集合，tc∈t表示類別c對應的文本描述，t表示所有類別的文本描述集合。

3.根據權利要求2所述的基于零樣本曼巴模型的圖像識別方法，其特征在于，所述s2中，正橫向為從首行開始從左到右逐行掃描；逆橫向為從最后一行開始從右到左逐行掃描；正豎向為從最左一列開始從上到下逐列掃描；逆豎向為從最右一列開始從下到上逐列掃描。

4.根據權利要求2所述的基于零樣本曼巴模型的圖像識別方法，其特征在于，所述s3中，堆疊的曼巴模塊對輸入的處理程一共分為四個階段，分別為：第一階段進行兩層曼巴模塊、第二階段進行兩層曼巴模塊、...

【專利技術屬性】
技術研發人員：李浚逸，舒祥波，謝國森，
申請(專利權)人：南京理工大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術