System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 91无码人妻精品一区二区三区L,亚洲AV无码精品国产成人,中文字幕无码高清晰
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于零樣本曼巴模型的圖像識別方法技術

    技術編號:43046032 閱讀:8 留言:0更新日期:2024-10-22 14:31
    本發明專利技術公開了一種基于零樣本曼巴模型的圖像識別方法,通過四種圖像掃描策略確保了特征圖中的每個元素都能夠整合來自不同方向的信息。采用狀態空間模型,特別是曼巴,對特征進行運算處理。使模型能夠保持在保持線性計算復雜度的同時,對輸入有著全局視野。在三個經典的圖像分類數據集CUB,SUN和AWA2的傳統零樣本基準測試上得到,比傳統ResNet、ViT模型提取的特征擁有更好的性能。證明本方法可以通過學習已見類圖像的先驗知識,并且利用曼巴模型的對全局圖像特征進行學習,從而精確的識別未見類圖像。

    【技術實現步驟摘要】

    本專利技術涉及一種圖像識別方法,具體涉及一種零樣本圖像識別方法。


    技術介紹

    1、圖像識別作為計算機視覺核心領域之一,其核心目標在于識別并分類輸入圖像至其所屬的預設類別。該技術在多個行業具有深遠影響,包括但不限于醫學診斷、車輛導航、安全系統以及個人身份驗證等。在這些應用中,圖像識別的準確性和效率對于提升系統性能至關重要。

    2、零樣本學習(zero-shot?learning,zsl)是機器學習的一個分支,它試圖解決傳統監督學習中遇到的一個關鍵問題:當模型面對從未見過的類別時,如何進行有效的分類。零樣本學習的核心在于,即使在缺乏特定類別訓練數據的情況下,也能通過學習已知類別與未知類別之間的關聯,實現對新類別的識別。

    3、與典型的監督學習方法不同,零樣本學習不依賴于大量的標注數據,而是通過類屬性(class?attributes)來橋接已知和未知類別之間的差距。這些屬性通常是對類別的描述性特征,如顏色、紋理、形狀等,它們可以由手動標注或通過自然語言描述來獲得。通過將這些屬性與圖像的視覺特征相結合,模型能夠對未知類別的圖像進行推理和分類。

    4、類屬性的使用反映了人類的認知過程。人類能夠通過先前的知識以及對類別的描述來識別和分類新的對象,即使之前沒有直接的經驗。零樣本學習模仿了這一過程,使得機器學習模型能夠更加靈活地處理新情況,而不僅僅局限于它們在訓練階段所見過的類別。

    5、零樣本分類的這一特性使其在許多實際應用中具有巨大的潛力。例如,在安全監控領域,零樣本分類可以幫助識別和響應新出現的威脅,如未被記錄的入侵者或未知的可疑行為。在生物多樣性研究中,它可以用于識別和分類新的或罕見的物種,從而促進生態保護和科學研究。此外,在食品科學領域,零樣本分類可以幫助識別新的食材,為營養分析和飲食規劃提供支持。

    6、零樣本圖像分類通過其獨特的學習機制,不僅拓寬了機器學習的應用范圍,也為解決現實世界中的復雜問題提供了新的視角和工具。在零樣本學習的早期階段,研究者通常依賴于卷積神經網絡(cnn)諸如resnet等,來提取視覺特征。后來,隨著visiontransformer(vit)模型在計算機視覺領域取得了令人矚目的進展,許多零樣本學習方法開始轉向使用vit來提取視覺特征。盡管cnn在計算效率方面表現出色,但其受限于有限的感受野,這限制了其捕捉全局上下文的能力。相比之下,transformer在提取全局特征方面表現出色,但由于與輸入標記長度相關的平方復雜度,其應用受到了一定限制。現有的零樣本模型往往面臨著全局信息捕獲和計算效率之間的矛盾:一方面,較大的感受野可以幫助模型捕獲更廣泛的信息;另一方面,過大的感受野會導致計算復雜度增加。


    技術實現思路

    1、專利技術目的:針對上述現有技術,提出一種基于零樣本曼巴模型的圖像識別方法,以解決傳統cnn模型難以捕獲全局上下文特征和vit模型造成的平方空間復雜度的問題。

    2、技術方案:一種基于零樣本曼巴模型的圖像識別方法,所述零樣本曼巴模型的建立及訓練過程包括:

    3、s1:給定數據集,將所述數據集劃分為已見類和未見類;

    4、s2:將圖像平均劃分為數個小塊,然后通過四種掃描策略:正橫向、逆橫向、正豎向、逆豎向,將二維圖像變為一維序列,得到四種順序不同的圖像序列特征;

    5、s3:將s2得到的圖像的四種順序不同的圖像序列特征分別對應輸入堆疊的曼巴模塊,融合四個堆疊曼巴模塊的輸出得到曼巴視覺特征;

    6、s4:將圖像和類別名分別輸入clip視覺編碼器和clip文本編碼器得到潛在空間表示,并將其中的視覺表示分離出全局表示和局部表示;

    7、s5:將所述局部表示和所述曼巴視覺特征輸入多層曼巴視覺融合模塊,得到被clip增強泛化性的最終視覺特征;

    8、s6:將所述最終視覺特征通過線性層映射到屬性空間,然后根據語義矩陣的相似度得出曼巴預測分數;接著,計算所述全局表示和所述潛在空間表示中的類別文本表示的余弦相似度,得到clip預測分數;最后,將所述曼巴預測分數和所述clip預測分數相加,得到模型預測分數;并引入偏差向量允許一部分的已見類預測遷移到未見類,得到最終預測分數;

    9、s7:對所述最終預測分數采用交叉熵損失lcl和自校準損lcal進行監督訓練;

    10、所述圖像識別方法包括:對于待識別的圖像,首先按照所述四種掃描策略得到該圖像對應的四種順序不同的圖像序列特征,輸入s7訓練完成的零樣本曼巴模型中,經模型運算后輸出對應的圖像預測標簽完成該圖像的識別。

    11、有益效果:本專利技術通過曼巴模型,能夠在保持對輸入圖像全局感受野的同時,只需線性計算復雜度,從而獲得更好地捕捉圖像中長距離依賴關系的視覺特征。這使得所得的圖像特征比傳統cnn更充滿全局信息,同時比vit具有更高效的計算復雜度。在三個經典的圖像分類數據集caltech-uscd?birds-200-2011(cub),sun和animals?withattributes2(awa2)的傳統零樣本基準測試上比傳統resnet和vit提取的視覺特征更有辨別性,可以達到更好的綜合性能。

    本文檔來自技高網...

    【技術保護點】

    1.一種基于零樣本曼巴模型的圖像識別方法,其特征在于,所述零樣本曼巴模型的建立及訓練過程包括:

    2.根據權利要求1所述的基于零樣本曼巴模型的圖像識別方法,其特征在于,所述S1中,給定數據集將其劃分為包含已見類Cs的集合和包含未見類Cu的集合其中Cs,Cu分別表示已見類和未見類,yi對應圖像xi的真實類別標簽,分別表示已見類和未見類的圖像集合,分別表示已見類與未見類的標簽集合;并令表示與類別c對應的類別語義向量,其中分別表示已見類和未見類的類別語義向量集合,tc∈T表示類別c對應的文本描述,T表示所有類別的文本描述集合。

    3.根據權利要求2所述的基于零樣本曼巴模型的圖像識別方法,其特征在于,所述S2中,正橫向為從首行開始從左到右逐行掃描;逆橫向為從最后一行開始從右到左逐行掃描;正豎向為從最左一列開始從上到下逐列掃描;逆豎向為從最右一列開始從下到上逐列掃描。

    4.根據權利要求2所述的基于零樣本曼巴模型的圖像識別方法,其特征在于,所述S3中,堆疊的曼巴模塊對輸入的處理程一共分為四個階段,分別為:第一階段進行兩層曼巴模塊、第二階段進行兩層曼巴模塊、第三階段進行二十七層曼巴模塊、第四階段進行兩層曼巴模塊后,每個階段中還對最后一個曼巴模塊的輸出進行下采樣操作;最終融合輸出得到曼巴視覺特征xvmamba;其中,對于任意一個曼巴模塊,運算過程表示如下:

    5.根據權利要求2所述的基于零樣本曼巴模型的圖像識別方法,其特征在于,所述S4包括:將圖像xi輸入CLIP視覺編碼器,類別文本描述以提示詞“a?photo?of?a<classname>“的模版輸入CLIP文本編碼器,得到潛在空間表示:

    6.根據權利要求5所述的基于零樣本曼巴模型的圖像識別方法,其特征在于,所述S5包括:將局部CLIP視覺特征xvlocal和曼巴視覺特征xvmamba輸入多層曼巴視覺融合模塊,得到被CLIP增強泛化性的最終視覺特征;

    7.根據權利要求6所述的基于零樣本曼巴模型的圖像識別方法,其特征在于,所述S6具體包括:將最終視覺特征xv通過簡單線性神經網絡fatt映射到屬性空間,再與類別語義向量計算相似度得出曼巴預測分數,加上全局CLIP視覺特征xvglobal和文本特征xtclip的余弦相似度,得到模型預測分數

    ...

    【技術特征摘要】

    1.一種基于零樣本曼巴模型的圖像識別方法,其特征在于,所述零樣本曼巴模型的建立及訓練過程包括:

    2.根據權利要求1所述的基于零樣本曼巴模型的圖像識別方法,其特征在于,所述s1中,給定數據集將其劃分為包含已見類cs的集合和包含未見類cu的集合其中cs,cu分別表示已見類和未見類,yi對應圖像xi的真實類別標簽,分別表示已見類和未見類的圖像集合,分別表示已見類與未見類的標簽集合;并令表示與類別c對應的類別語義向量,其中分別表示已見類和未見類的類別語義向量集合,tc∈t表示類別c對應的文本描述,t表示所有類別的文本描述集合。

    3.根據權利要求2所述的基于零樣本曼巴模型的圖像識別方法,其特征在于,所述s2中,正橫向為從首行開始從左到右逐行掃描;逆橫向為從最后一行開始從右到左逐行掃描;正豎向為從最左一列開始從上到下逐列掃描;逆豎向為從最右一列開始從下到上逐列掃描。

    4.根據權利要求2所述的基于零樣本曼巴模型的圖像識別方法,其特征在于,所述s3中,堆疊的曼巴模塊對輸入的處理程一共分為四個階段,分別為:第一階段進行兩層曼巴模塊、第二階段進行兩層曼巴模塊、...

    【專利技術屬性】
    技術研發人員:李浚逸舒祥波謝國森
    申請(專利權)人:南京理工大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 国产做无码视频在线观看| 亚洲美免无码中文字幕在线| 中文字幕无码不卡免费视频| 日韩人妻无码一区二区三区久久| 无码狠狠躁久久久久久久| 亚洲一级特黄无码片| 久久亚洲精品无码| 中文无码乱人伦中文视频在线V| 亚洲av永久无码制服河南实里| 无码人妻精品一二三区免费| 无码精品A∨在线观看| 亚洲色偷拍另类无码专区| 久久国产精品成人无码网站| 午夜福利无码不卡在线观看 | 五月婷婷无码观看| 精品国产v无码大片在线观看 | 日日摸日日碰人妻无码| 无码人妻精品一区二区三区久久| 无码专区6080yy国产电影| 毛片一区二区三区无码| 亚洲欧洲免费无码| 无码精品A∨在线观看十八禁| 久久无码专区国产精品s| 亚洲日韩激情无码一区| 人妻无码中文字幕免费视频蜜桃| 亚洲av成人无码网站…| 免费A级毛片无码无遮挡内射 | 日韩精品无码熟人妻视频| 一本色道无码道在线观看| 久久av高潮av无码av喷吹| 亚洲精品国产日韩无码AV永久免费网| 无码熟妇人妻AV在线影院| 亚洲精品无码久久久久牙蜜区| 久久AV无码精品人妻糸列| 亚洲中文字幕无码一去台湾| 中文字幕精品三区无码亚洲| 亚洲AV无码一区二区三区久久精品| 精品国产一区二区三区无码| 亚洲Av无码一区二区二三区| 亚洲精品无码专区久久| 国产高清不卡无码视频|