System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及計(jì)算機(jī)視覺,具體而言,涉及一種圖像多分類模型生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì)。
技術(shù)介紹
1、圖像分類是計(jì)算機(jī)視覺領(lǐng)域中一個(gè)基礎(chǔ)而重要的任務(wù),旨在使計(jì)算機(jī)能夠理解輸入圖像的信息并對(duì)其進(jìn)行分類。傳統(tǒng)的圖像分類任務(wù)通常只涉及單一類別標(biāo)簽的預(yù)測,而圖像多分類任務(wù)則是在一次輸入的情況下,能夠得到圖像多個(gè)維度的分類結(jié)果。這種多分類任務(wù)在實(shí)際應(yīng)用中具有廣泛的需求,例如在醫(yī)療影像分析、自動(dòng)駕駛、商品識(shí)別等領(lǐng)域中,都需要對(duì)圖像進(jìn)行多方面的分類和識(shí)別。
2、盡管圖像多分類任務(wù)的重要性日益凸顯,且在這一領(lǐng)域已有許多研究人員做出了顯著的貢獻(xiàn),但現(xiàn)有的多分類算法仍存在一些不足之處。主要問題在于這些算法對(duì)圖像特征的處理不夠深入,導(dǎo)致多分類任務(wù)的效果不盡如人意。具體來說:1.特征提取不充分:現(xiàn)有的多分類算法往往依賴于單一的特征提取方法,無法全面捕捉圖像中的多尺度、多層次信息,從而影響了分類的準(zhǔn)確性和魯棒性。2.跨模態(tài)信息利用不足:圖像數(shù)據(jù)通常包含多種模態(tài)信息(如顏色、紋理、形狀等),但大多數(shù)算法未能有效融合這些跨模態(tài)信息,導(dǎo)致分類效果受限。3.注意力機(jī)制缺失:在處理復(fù)雜的多分類任務(wù)時(shí),缺乏有效的注意力機(jī)制來突出關(guān)鍵區(qū)域和特征,導(dǎo)致模型在面對(duì)復(fù)雜場景時(shí)表現(xiàn)不佳。4.模型訓(xùn)練效率低:現(xiàn)有的多分類算法在訓(xùn)練過程中,由于特征表示的不充分和優(yōu)化方法的局限,導(dǎo)致訓(xùn)練時(shí)間長、收斂速度慢,難以滿足實(shí)際應(yīng)用中的高效需求。
3、因此目前的大多分類算法對(duì)于圖像特征的處理不夠深入,導(dǎo)致多分類任務(wù)的效果不盡理想。
技術(shù)實(shí)現(xiàn)
1、本申請(qǐng)的目的在于,為了克服現(xiàn)有的技術(shù)缺陷,提供了一種圖像多分類模型生成方法、裝置、設(shè)備及存儲(chǔ)介質(zhì),利用該圖像多分類模型能夠?qū)崿F(xiàn)高精度圖像多分類。
2、本申請(qǐng)目的通過下述技術(shù)方案來實(shí)現(xiàn):
3、第一方面,本申請(qǐng)?zhí)岢隽艘环N圖像多分類模型生成方法,所述方法包括:
4、對(duì)公開數(shù)據(jù)集中的圖像分配類別標(biāo)簽,組成圖像集合;
5、將圖像集合中的圖像劃分為子塊和縮略圖,并分別經(jīng)過特征提取之后送入編碼器進(jìn)行處理,構(gòu)建分級(jí)跨模態(tài)注意力模塊;
6、將訓(xùn)練圖像輸入至分級(jí)跨模態(tài)注意力模塊之后與編碼提示進(jìn)行拼接,輸入特征提取網(wǎng)絡(luò)模型和解碼器得到解碼輸出;
7、計(jì)算解碼輸出的交叉熵?fù)p失并加權(quán)求和,通過梯度下降優(yōu)化模型參數(shù)得到圖像多分類模型。
8、在一種可能的實(shí)施方式中,將圖像集合中的圖像劃分為子塊和縮略圖,并分別經(jīng)過特征提取之后送入編碼器進(jìn)行處理,構(gòu)建分級(jí)跨模態(tài)注意力模塊的步驟,包括:
9、將圖像集合中的圖像劃分為多個(gè)子塊;
10、將圖像集合中的圖像進(jìn)行計(jì)算得到縮略圖;
11、分別將子塊和縮略圖輸入至特征提取網(wǎng)絡(luò)模型得到子塊特征和縮略圖特征;
12、使用編碼器處理子塊特征和縮略圖特征分別得到子塊編碼特征和縮略圖編碼特征;
13、分別在子塊編碼特征的前后加上子塊標(biāo)識(shí)符得到子塊唯一編碼特征,在縮略圖編碼特征的前后加上縮略圖標(biāo)識(shí)符得到縮略圖唯一編碼特征;
14、根據(jù)子塊唯一編碼特征和縮略圖唯一編碼特征組成分級(jí)跨模態(tài)注意力特征,完成分級(jí)跨模態(tài)注意力模塊的構(gòu)建。
15、在一種可能的實(shí)施方式中,縮略圖的計(jì)算方式為,其中為縮略圖的寬,,為縮略圖的高,,為子塊的寬,為尺度分辨率,為塊尺寸,為取整操作,為取最大值,為將圖像按照縮略圖的高和寬進(jìn)行圖像尺寸調(diào)整。
16、在一種可能的實(shí)施方式中,將訓(xùn)練圖像輸入至分級(jí)跨模態(tài)注意力模塊之后與編碼提示進(jìn)行拼接,輸入特征提取網(wǎng)絡(luò)模型和解碼器得到解碼輸出的步驟,包括:
17、將訓(xùn)練圖像輸入至分級(jí)跨模態(tài)注意力模塊得到訓(xùn)練圖像分級(jí)跨模態(tài)注意力特征;
18、將訓(xùn)練圖像分級(jí)跨模態(tài)注意力特征和編碼后的提示集進(jìn)行拼接得到拼接特征;
19、將拼接特征輸入特征提取網(wǎng)絡(luò)模型之后送入解碼器得到解碼輸出。
20、在一種可能的實(shí)施方式中,在將訓(xùn)練圖像輸入至分級(jí)跨模態(tài)注意力模塊得到訓(xùn)練圖像分級(jí)跨模態(tài)注意力特征的步驟之前,還包括:
21、根據(jù)多分類任務(wù)的數(shù)量構(gòu)建提示集,之后對(duì)提示集中的提示通過編碼器進(jìn)行編碼,得到編碼后的提示集。
22、在一種可能的實(shí)施方式中,計(jì)算解碼輸出的交叉熵?fù)p失并加權(quán)求和,通過梯度下降優(yōu)化模型參數(shù)得到圖像多分類模型的步驟,包括:
23、將解碼輸出和多分類任務(wù)對(duì)應(yīng)的標(biāo)簽輸入至交叉熵函數(shù)得到損失函數(shù);
24、計(jì)算所有類別的損失函數(shù)并進(jìn)行加權(quán)求和得到模型損失分?jǐn)?shù);
25、在模型參數(shù)反向傳播時(shí)通過梯度下降優(yōu)化模型參數(shù),使得模型損失分?jǐn)?shù)減小,直至完成模型訓(xùn)練,得到圖像多分類模型。
26、第二方面,本申請(qǐng)?zhí)岢隽艘环N圖像多分類模型生成裝置,所述裝置包括:
27、分配模塊,用于對(duì)公開數(shù)據(jù)集中的圖像分配類別標(biāo)簽,組成圖像集合;
28、特征提取模塊,用于將圖像集合中的圖像劃分為子塊和縮略圖,并分別經(jīng)過特征提取之后送入編碼器進(jìn)行處理,構(gòu)建分級(jí)跨模態(tài)注意力模塊;
29、解碼輸出模塊,用于將訓(xùn)練圖像輸入至分級(jí)跨模態(tài)注意力模塊之后與編碼提示進(jìn)行拼接,輸入特征提取網(wǎng)絡(luò)模型和解碼器得到解碼輸出;
30、加權(quán)求和模塊,用于計(jì)算解碼輸出的交叉熵?fù)p失并加權(quán)求和,通過梯度下降優(yōu)化模型參數(shù)得到圖像多分類模型。
31、在一種可能的實(shí)施方式中,特征提取模塊,還用于:
32、將圖像集合中的圖像劃分為多個(gè)子塊;
33、將圖像集合中的圖像進(jìn)行計(jì)算得到縮略圖;
34、分別將子塊和縮略圖輸入至特征提取網(wǎng)絡(luò)模型得到子塊特征和縮略圖特征;
35、使用編碼器處理子塊特征和縮略圖特征分別得到子塊編碼特征和縮略圖編碼特征;
36、分別在子塊編碼特征的前后加上子塊標(biāo)識(shí)符得到子塊唯一編碼特征,在縮略圖編碼特征的前后加上縮略圖標(biāo)識(shí)符得到縮略圖唯一編碼特征;
37、根據(jù)子塊唯一編碼特征和縮略圖唯一編碼特征組成分級(jí)跨模態(tài)注意力特征,完成分級(jí)跨模態(tài)注意力模塊的構(gòu)建。
38、第三方面,本申請(qǐng)還提出了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括處理器和存儲(chǔ)器,所述存儲(chǔ)器中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由所述處理器加載并執(zhí)行以實(shí)現(xiàn)如第一方面任一項(xiàng)所述的圖像多分類模型生成方法。
39、第四方面,本申請(qǐng)還提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)中存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序由處理器加載并執(zhí)行以實(shí)現(xiàn)如第一方面任一項(xiàng)所述的圖像多分類模型生成方法。
40、上述本申請(qǐng)主方案及其各進(jìn)一步選擇方案可以自由組合以形成多個(gè)方案,均為本申請(qǐng)可采用并要求保護(hù)的方案;且本申請(qǐng),(各非沖突選擇)選擇之間以及和其他選擇之間也可以自由組合。本領(lǐng)域技術(shù)人員在了解本申請(qǐng)方案后根據(jù)現(xiàn)有技術(shù)和公知常識(shí)可明了有多種組合,均為本申請(qǐng)所要保護(hù)的技術(shù)方案,在此不做窮舉。
41、本申請(qǐng)公開本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種圖像多分類模型生成方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的圖像多分類模型生成方法,其特征在于,將圖像集合中的圖像劃分為子塊和縮略圖,并分別經(jīng)過特征提取之后送入編碼器進(jìn)行處理,構(gòu)建分級(jí)跨模態(tài)注意力模塊的步驟,包括:
3.如權(quán)利要求2所述的圖像多分類模型生成方法,其特征在于,縮略圖的計(jì)算方式為,其中為縮略圖的寬,,為縮略圖的高,,為子塊的寬,為尺度分辨率,為塊尺寸,為取整操作,為取最大值,為將圖像按照縮略圖的高和寬進(jìn)行圖像尺寸調(diào)整。
4.如權(quán)利要求1所述的圖像多分類模型生成方法,其特征在于,將訓(xùn)練圖像輸入至分級(jí)跨模態(tài)注意力模塊之后與編碼提示進(jìn)行拼接,輸入特征提取網(wǎng)絡(luò)模型和解碼器得到解碼輸出的步驟,包括:
5.如權(quán)利要求4所述的圖像多分類模型生成方法,其特征在于,在將訓(xùn)練圖像輸入至分級(jí)跨模態(tài)注意力模塊得到訓(xùn)練圖像分級(jí)跨模態(tài)注意力特征的步驟之前,還包括:
6.如權(quán)利要求1所述的圖像多分類模型生成方法,其特征在于,計(jì)算解碼輸出的交叉熵?fù)p失并加權(quán)求和,通過梯度下降優(yōu)化模型參數(shù)得到圖像多分類模型的步驟,包括:<
...【技術(shù)特征摘要】
1.一種圖像多分類模型生成方法,其特征在于,所述方法包括:
2.如權(quán)利要求1所述的圖像多分類模型生成方法,其特征在于,將圖像集合中的圖像劃分為子塊和縮略圖,并分別經(jīng)過特征提取之后送入編碼器進(jìn)行處理,構(gòu)建分級(jí)跨模態(tài)注意力模塊的步驟,包括:
3.如權(quán)利要求2所述的圖像多分類模型生成方法,其特征在于,縮略圖的計(jì)算方式為,其中為縮略圖的寬,,為縮略圖的高,,為子塊的寬,為尺度分辨率,為塊尺寸,為取整操作,為取最大值,為將圖像按照縮略圖的高和寬進(jìn)行圖像尺寸調(diào)整。
4.如權(quán)利要求1所述的圖像多分類模型生成方法,其特征在于,將訓(xùn)練圖像輸入至分級(jí)跨模態(tài)注意力模塊之后與編碼提示進(jìn)行拼接,輸入特征提取網(wǎng)絡(luò)模型和解碼器得到解碼輸出的步驟,包括:
5.如權(quán)利要求4所述的圖像多分類模型生成方法,其特征在于,在將訓(xùn)練圖像輸入至分級(jí)跨模態(tài)注意...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:楊瀚,張?jiān)姾?/a>,李杰,倪宇,
申請(qǐng)(專利權(quán))人:成都索貝數(shù)碼科技股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。