System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于計算機視覺,具體涉及一種基于掩碼屬性建模的transformer人臉屬性識別方法及系統。
技術介紹
1、人臉屬性識別旨在預測給定人臉圖像中的各種屬性,其應用范圍十分廣闊,包括人臉驗證、人臉識別、圖像生成和圖像檢索。但由于視覺圖像易受光照變化、對比度低、噪聲、可視性差等因素的影響,人臉屬性識別一直是一項具有挑戰性的任務。現有的人臉屬性識別方法一般采用卷積神經網絡(cnn)學習人臉圖像的深度特征,并通過讓模型學習與人臉屬性相關的特征或者加入人臉屬性之間的關系來提高人臉屬性識別的精度。
2、目前主流的人臉屬性識別方法可分為兩類:基于輔助任務的人臉屬性識別方法和基于多任務的人臉屬性識別方法。對于基于輔助任務的人臉屬性識別方法而言,旨在通過多個與人臉相關的輔助任務,來幫助主干網絡學習到有效的人臉屬性特征,進而更好地進行人臉屬性識別。ni?zhuang等人(ni?zhuang,yanyan,si?chen,andhanziwang.2018.multi-task?learning?ofcascaded?cnn?for?facial?attributeclassification.in?proceedings?ofthe?ieee?international?conference?on?patternrecognition.2069–2074.)提出級聯人臉檢測、人臉關鍵點檢測來輔助人臉屬性識別,在統一框架下同時訓練3個相關的人臉分析任務,而在人臉屬性識別中通過輸入單屬性來進行多任務學習。ying?shu等人(yin
3、對于基于多任務的人臉屬性識別方法而言,旨在根據屬性之間的相關性對屬性進行分組,并將每個屬性組對應一個學習任務。emilym?hand等人(emily?mhand?andramachellappa.2017.attributes?for?improved?attributes:a?multi-task?networkutilizing?implicit?and?explicit?relationships?for?facial?attributeclassification.in?proceedings?of?the?aaai?conference?onartificialintelligence.4068–4074.)根據不同的人臉屬性位置,將人臉屬性分為9組,并使用帶有輔助網絡的多任務深度cnn來發現分級屬性關系。longbiao?mao等人(longbiao?mao,yanyan,jinghao?xue,and?hanzi?wang.2022.deep?multi-task?multi-label?cnn?foreffective?facial?attribute?classification.ieee?transactions?on?affectivecomputing?13,2(2022),818–828.)根據不同屬性的學習復雜度,人為地將屬性分為兩組,并設計兩種不同的網絡架構來構建兩組內的屬性關系。xiaohui?fanhe等人(xiaohuifanhe,jie?guo,zheng?huang,weidong?qiu,andyuele?zhang.2019.multi-task?learningwith?knowledge?transfer?for?facial?attribute?classification.in?proceedingsofthe?ieee?international?conference?on?industrial?technology.877–882)考慮人臉屬性之間的相關程度不同,采用譜聚類的方法對人臉屬性進行聚類,并以此為依據設計多任務框架。
4、然而,這些人臉屬性關系要么通過固定的聚類算法獲得,要么通過人工分組獲得。而通過這些方式獲得的人臉屬性之間的關系并不能被很好地建模或者被充分地使用。同時,由這種方式設計的多任務學習框架并不能將人臉屬性之間的復雜關系充分表達,使模型對人臉屬性關系的學習并不充分。基于transformer編碼器,本專利技術通過使用來自語言模態的信息與視覺模態的信息相結合的方式,使模型能夠根據輸入的圖片得到與之對應的局部人臉屬性關系并對其充分使用,以此來優化模型對圖像特征的提取。同時,針對模型不能充分學習與建模人臉屬性關系的問題,本專利技術結合“視覺-語言”模型的特性,設計了一種掩碼任務作為輔助任務,增強了模型對全局人臉屬性關系的理解。同時,本專利技術對各種transformer編碼器均能夠適配。
技術實現思路
1、本專利技術的目的在于提供一種基于掩碼屬性建模的transformer人臉屬性識別方法及系統,該方法及系統有利于獲得更加穩定、魯棒、準確的人臉屬性識別結果。
2、為了實現上述目的,本專利技術采用的技術方案是:一種基于掩碼屬性建模的transformer人臉屬性識別方法,包括以下步驟:
3、1)獲取人臉屬性識別數據集和人臉屬性標簽組合,所述人臉屬性識別數據集包含人臉圖像及其對應的人臉屬性標簽;其中人臉屬性標簽由一個或多個人臉屬性詞構成;
4、2)構建基于掩碼屬性建模的人臉屬性識別網絡模型,所述人臉屬性識別網絡模型包含動態關系感知編碼模塊、transformer編碼器、語言編碼器、語言解碼器多個組件,所述多個組件協同執行人臉屬性識別任務和人臉屬性掩碼建模任務;所述語言編碼器對來自語言模態的信息進行編碼,獲得來自語言模態的人臉屬性關系編碼;所述動態關系感知編碼模塊將語言模態和視覺模態的信息進行融合,得到多模態融合特征;所述transformer編碼器進一步挖掘多模態融合特征之間的長距離依賴,得到注意力感知多模態特征;所述語言解碼器對注意力感知多模態特征進行人臉屬性掩碼建模任務,增強模型對全局屬性關系的理解;通過人臉屬性識別數據集對構建的人臉屬性識別網絡模型進行訓練;
5、3)將訓練好的人臉屬性識別網絡模型用于人臉屬性識別任務。
6、進一步地,步驟1)中,從包括celeba和lfwa的公開數據集獲取人臉屬性識別數據集,所述人臉屬性標簽組合包括40種人臉屬性標簽。
7、進一步地,步驟2)中,所述人臉屬性識別本文檔來自技高網...
【技術保護點】
1.一種基于掩碼屬性建模的Transformer人臉屬性識別方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于掩碼屬性建模的Transformer人臉屬性識別方法,其特征在于,步驟1)中,從包括CelebA和LFWA的公開數據集獲取人臉屬性識別數據集,所述人臉屬性標簽組合包括40種人臉屬性標簽。
3.根據權利要求1所述的基于掩碼屬性建模的Transformer人臉屬性識別方法,其特征在于,步驟2)中,所述人臉屬性識別網絡模型的實現方法為:
4.根據權利要求3所述的基于掩碼屬性建模的Transformer人臉屬性識別方法,其特征在于,步驟A)中,所述語言編碼器為經過維基百科語料庫字典預訓練的BERT模型,所述語言編碼器對人臉屬性標簽組合中的人臉屬性標簽進行編碼,得到人臉屬性關系編碼。
5.根據權利要求3所述的基于掩碼屬性建模的Transformer人臉屬性識別方法,其特征在于,步驟B)中,先將大小為224*224的原始圖像分割為大小適配Transformer編碼器輸入的圖像塊,再將圖像塊經過線性層并加上分類頭和位置編碼后得
6.根據權利要求3所述的基于掩碼屬性建模的Transformer人臉屬性識別方法,其特征在于,步驟C)中,所述動態關系感知編碼模塊的具體實現方法為:
7.根據權利要求3所述的基于掩碼屬性建模的Transformer人臉屬性識別方法,其特征在于,步驟D)中,將人臉屬性掩碼建模作為輔助任務;人臉屬性掩碼建模的具體實現方法為:首先對人臉圖像對應的人臉屬性標簽進行隨機排序,并按一定比例對人臉屬性詞進行隨機掩碼,得到隨機掩碼的人臉屬性標簽,然后使用語言編碼器對其進行編碼,得到被掩碼的語言特征;對于Transformer編碼器輸出的注意力感知多模態特征,其為人臉圖像特征、人臉屬性關系編碼以及位置編碼的加和;將Transformer編碼器輸出的注意力感知多模態特征輸入到語言解碼器中,并利用語言解碼器輔助預測掩碼位置的人臉屬性詞;用于人臉屬性掩碼建模的語言解碼器有多層,在掩碼預測的過程中,Transformer編碼器輸出的注意力感知多模態特征被輸入到每一層的語言解碼器中;其中第l層的語言解碼器利用交叉注意力機制對注意力感知多模態特征和第l-1層被掩碼的語言特征進行初步融合,得到初步的掩碼語言特征再對掩碼語言特征利用自注意力機制得到第l層的掩碼語言特征和分別表示為:
8.根據權利要求3所述的基于掩碼屬性建模的Transformer人臉屬性識別方法,其特征在于,步驟E)中,構建FAR任務和MFAM任務的損失函數的具體方法為:Transformer編碼器的參數會在訓練過程中受到FAR任務和MFAM任務的影響而更新;考慮到FAR任務是一個二分類問題,故采用sigmoid交叉熵函數作為損失函數,表示為:
9.一種基于掩碼屬性建模的Transformer人臉屬性識別系統,其特征在于,包括存儲器、處理器以及存儲于存儲器上并能夠被處理器運行的計算機程序指令,當處理器運行該計算機程序指令時,能夠實現如權利要求1-8任一項所述的方法步驟。
...【技術特征摘要】
1.一種基于掩碼屬性建模的transformer人臉屬性識別方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的基于掩碼屬性建模的transformer人臉屬性識別方法,其特征在于,步驟1)中,從包括celeba和lfwa的公開數據集獲取人臉屬性識別數據集,所述人臉屬性標簽組合包括40種人臉屬性標簽。
3.根據權利要求1所述的基于掩碼屬性建模的transformer人臉屬性識別方法,其特征在于,步驟2)中,所述人臉屬性識別網絡模型的實現方法為:
4.根據權利要求3所述的基于掩碼屬性建模的transformer人臉屬性識別方法,其特征在于,步驟a)中,所述語言編碼器為經過維基百科語料庫字典預訓練的bert模型,所述語言編碼器對人臉屬性標簽組合中的人臉屬性標簽進行編碼,得到人臉屬性關系編碼。
5.根據權利要求3所述的基于掩碼屬性建模的transformer人臉屬性識別方法,其特征在于,步驟b)中,先將大小為224*224的原始圖像分割為大小適配transformer編碼器輸入的圖像塊,再將圖像塊經過線性層并加上分類頭和位置編碼后得到人臉圖像特征。
6.根據權利要求3所述的基于掩碼屬性建模的transformer人臉屬性識別方法,其特征在于,步驟c)中,所述動態關系感知編碼模塊的具體實現方法為:
7.根據權利要求3所述的基于掩碼屬性建模的transformer人臉屬性識別方法,其特征在于,步驟d)中,將人臉屬性掩碼建模作為輔助任務;人臉屬性掩碼建模的具體...
【專利技術屬性】
技術研發人員:陳思,雷鳴軒,王大寒,朱順痣,蘇燕飛,吳嘉驊,
申請(專利權)人:廈門理工學院,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。