System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及圖像分類,具體涉及一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法。
技術(shù)介紹
1、近年來(lái),多種視覺(jué)語(yǔ)言模型在多樣的視覺(jué)任務(wù)上展示了顯著的學(xué)習(xí)能力。這些模型通過(guò)在大型數(shù)據(jù)集上預(yù)訓(xùn)練,能夠?qū)D像和文本在共享嵌入空間中有效對(duì)齊。區(qū)別于傳統(tǒng)模型,視覺(jué)語(yǔ)言模型如clip通過(guò)評(píng)估輸入圖像與文本描述之間的相似度來(lái)分類圖像。特別是在零樣本學(xué)習(xí)任務(wù)中,clip通過(guò)結(jié)合類名和預(yù)設(shè)模板作為輸入提示,將圖像與最匹配的提示進(jìn)行對(duì)比,取得了優(yōu)異的分類效果。然而,這種方法高度依賴于類別提示的質(zhì)量。傳統(tǒng)方法中,提示模板用于生成類別文本,但這些文本往往缺乏準(zhǔn)確性和豐富性,可能導(dǎo)致模型在訓(xùn)練和推理過(guò)程中未能充分利用所有可用信息,進(jìn)而影響整體性能。
技術(shù)實(shí)現(xiàn)思路
1、針對(duì)上述由不準(zhǔn)確的類別描述符導(dǎo)致的模型性能限制和分類準(zhǔn)確率降低的技術(shù)問(wèn)題,本技術(shù)方案提供了一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法,使大語(yǔ)言模型能夠發(fā)現(xiàn)全局最優(yōu)的類別描述,從而顯著提高模型的整體分類性能;能有效的解決上述問(wèn)題。
2、本專利技術(shù)通過(guò)以下技術(shù)方案實(shí)現(xiàn):
3、一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法,包括步驟:
4、步驟一:包含描述符迭代優(yōu)化階段、網(wǎng)絡(luò)訓(xùn)練階段和圖像分類階段三個(gè)階段的操作;所述的描述符迭代優(yōu)化階段包含類別描述符初始化、構(gòu)建視覺(jué)反饋、迭代優(yōu)化描述符三個(gè)步驟;
5、步驟二:給定一組迭代優(yōu)化好的類別描述,通過(guò)任務(wù)相關(guān)的clip評(píng)估作為指標(biāo)構(gòu)建視覺(jué)反饋,提供當(dāng)前類別描述在模型上的整體
6、步驟三:用圖像和迭代出的類別描述符訓(xùn)練clip網(wǎng)絡(luò),使它們通過(guò)圖像編碼器imageencoder(·)和文本編碼器textencoder(·)在公共的嵌入空間中對(duì)齊;表達(dá)式如下:
7、fx=imageencoder(x)
8、fd=textencoder(d)
9、score=fxfd
10、其中,x為輸入圖像,fx為圖像特征的表達(dá)式,將輸入圖像x轉(zhuǎn)換成特征向量fx;fd為文本特征的表達(dá)式,將輸入的類別描述符d轉(zhuǎn)換成特征向量fd;d表示輸入的類別描述符。
11、進(jìn)一步的,所述類別描述符初始化的操作方式為:首先根據(jù)類名的相似性將所有類分成群組;具體地,提取類名的文本嵌入,然后采用k-means算法將其聚類成組,其中每個(gè)組代表語(yǔ)義相似的類;為了確保大語(yǔ)言模型始終關(guān)注容易混淆的類別,聚類步驟不僅在初始化時(shí)進(jìn)行,而且在每次迭代開始時(shí)都會(huì)動(dòng)態(tài)進(jìn)行,并計(jì)算每個(gè)類別的所有描述符的平均嵌入;聚類后,讓大語(yǔ)言模型生成初始類描述符d0。
12、進(jìn)一步的,所述構(gòu)建視覺(jué)反饋步驟為:將大語(yǔ)言模型與視覺(jué)語(yǔ)言模型中的視覺(jué)知識(shí)相結(jié)合,給定當(dāng)前的一組類描述符d,通過(guò)clip的任務(wù)相關(guān)評(píng)估指標(biāo)構(gòu)建視覺(jué)反饋v(d)。
13、進(jìn)一步的,所述迭代優(yōu)化描述符步驟為:在第i次迭代中,提供上一次的類別描述符集di-1、v(di-1)和內(nèi)存庫(kù)m,詢問(wèn)大語(yǔ)言模型在當(dāng)前描述符集中挑選出最無(wú)用的ni個(gè)描述符,并用ni個(gè)新描述符替換它們,以強(qiáng)調(diào)其獨(dú)特的視覺(jué)特征;表達(dá)式為:
14、d0i,...,dki=llm(di-1,m,v)
15、其中,d0i表示第i次迭代中生成的第一個(gè)類描述符次迭代中生成的第一個(gè)類描述符;dki表示第i次迭代中生成的第k個(gè)類描述符;v表示視覺(jué)反饋,用于評(píng)估和指導(dǎo)類描述符的生成;
16、在每次迭代中,都會(huì)從大語(yǔ)言模型中生成k個(gè)獨(dú)立的候選描述符{d0i,d1i,...,dki},以確保優(yōu)化過(guò)程中有足夠的遺傳多樣性;
17、另外,將生成的k個(gè)候選樣本及其相應(yīng)的視覺(jué)反饋?zhàn)鳛檩斎?,然后提示大語(yǔ)言模型在不同樣本之間進(jìn)行混合匹配,最后輸出一個(gè)新樣本d(k+1)i;從而將不同樣本的不同有用描述符組合在一起,產(chǎn)生整體性能更好的后代;表達(dá)式為:
18、d(k+1)i=llm(d0i,...,dki,v)。
19、進(jìn)一步的,所述網(wǎng)絡(luò)訓(xùn)練階段的操作步驟包括:
20、s1:收集并準(zhǔn)備大量標(biāo)注好的圖像數(shù)據(jù)集及其對(duì)應(yīng)的類別描述符,然后對(duì)圖像數(shù)據(jù)進(jìn)行必要的預(yù)處理,如圖像縮放、歸一化和數(shù)據(jù)增強(qiáng);
21、s2:初始化clip網(wǎng)絡(luò)的參數(shù),該網(wǎng)絡(luò)由一個(gè)圖像編碼器和一個(gè)文本編碼器組成,目的是將圖像和文本映射到一個(gè)公共的嵌入空間;
22、s3:用準(zhǔn)備好的圖像和類別描述符訓(xùn)練clip網(wǎng)絡(luò),通過(guò)最小化圖像和文本在公共嵌入空間中的距離,使它們對(duì)齊,從而實(shí)現(xiàn)圖像和文本的互相理解。
23、進(jìn)一步的,所述圖像分類階段的操作步驟包括:
24、步驟a:預(yù)制一個(gè)用于分類的提示模版,并將多個(gè)類名與提示模板結(jié)合獲得用于分類的類別提示符;
25、步驟b:分別將圖像和類別提示符輸入圖像編碼器和文本編碼器,分別提取它們的圖像特征和文本特征;
26、步驟c:通過(guò)圖像文本對(duì)齊的方式計(jì)算每個(gè)本文特征與圖像特征的可信度得分,可信度得分最高的類別作為圖像的預(yù)測(cè)類別。
27、進(jìn)一步的,所述步驟二的具體操作方式為:
28、步驟2.1:在混淆矩陣中選取前m個(gè)最容易混淆的類用于clip計(jì)算評(píng)估;通過(guò)利用混淆矩陣的視覺(jué)反饋方法如下:
29、
30、其中,x表示輸入的圖像;xd表示類別描述符d的圖像,用于計(jì)算視覺(jué)反饋v(d)中的分類矩陣;表示混淆矩陣;λ是一個(gè)用于公式計(jì)算的閾值超參數(shù);
31、步驟2.2:通過(guò)clip以圖像文本對(duì)齊的方式計(jì)算類別描述的可信度得分,從而實(shí)現(xiàn)評(píng)估。
32、有益效果
33、本專利技術(shù)提出的一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法,其具有以下有益效果:
34、(1)本專利技術(shù)利用可視化分類的反饋信息,逐步細(xì)化和優(yōu)化類別描述,確保模型在推理過(guò)程中能夠更精確地識(shí)別和區(qū)分不同類別。先通過(guò)大語(yǔ)言模型生成初始類別描述,然后利用視覺(jué)語(yǔ)言模型對(duì)圖像進(jìn)行分類,并根據(jù)分類結(jié)果的反饋信息,逐步優(yōu)化和細(xì)化類別描述。通過(guò)反復(fù)迭代,這種方法能夠自動(dòng)生成高質(zhì)量的類別提示,從而顯著提升圖像分類的準(zhǔn)確性?;诖笳Z(yǔ)言模型視覺(jué)反饋的圖像分類方法,通過(guò)整合大語(yǔ)言模型的開放世界知識(shí)和視覺(jué)語(yǔ)言模型的分類能力,提供了一種創(chuàng)新的方法來(lái)提高圖像分類的準(zhǔn)確性。
35、(2)本專利技術(shù)能夠?qū)︻悇e提示符進(jìn)行精細(xì)優(yōu)化,使其更好地反映圖像的特征和類別信息。優(yōu)化后的類別提示符可以在訓(xùn)練過(guò)程中更有效地指導(dǎo)模型進(jìn)行學(xué)習(xí),從而顯著提升模型的整體性能。在實(shí)際應(yīng)用中,精確優(yōu)化的類別提示符能夠幫助模型更準(zhǔn)確地理解和分類圖像內(nèi)容,提高分類的準(zhǔn)確率和可靠性。
36、(3)本專利技術(shù)的迭代優(yōu)化方法具有極強(qiáng)的可解釋性和泛化性能。無(wú)需進(jìn)行復(fù)雜的訓(xùn)練過(guò)程,模型通過(guò)多次迭代優(yōu)化提示符,在每次迭代中逐步調(diào)整和改進(jìn)提示符的表達(dá)。這個(gè)過(guò)程不僅使得模型的決策過(guò)程更加透明,而且能夠在各種不同的數(shù)據(jù)集和應(yīng)用場(chǎng)景中保持良好的性能和穩(wěn)定性。模型的可解釋性有助于用戶理解模型的內(nèi)部工作本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法,其特征在于:包括步驟:
2.根據(jù)權(quán)利要求1所述的一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法,其特征在于:所述類別描述符初始化的操作方式為:首先根據(jù)類名的相似性將所有類分成群組;具體地,提取類名的文本嵌入,然后采用K-means算法將其聚類成組,其中每個(gè)組代表語(yǔ)義相似的類;為了確保大語(yǔ)言模型始終關(guān)注容易混淆的類別,聚類步驟不僅在初始化時(shí)進(jìn)行,而且在每次迭代開始時(shí)都會(huì)動(dòng)態(tài)進(jìn)行,并計(jì)算每個(gè)類別的所有描述符的平均嵌入;聚類后,讓大語(yǔ)言模型生成初始類描述符D0。
3.根據(jù)權(quán)利要求1所述的一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法,其特征在于:所述構(gòu)建視覺(jué)反饋步驟為:將大語(yǔ)言模型與視覺(jué)語(yǔ)言模型中的視覺(jué)知識(shí)相結(jié)合,給定當(dāng)前的一組類描述符D,通過(guò)CLIP的任務(wù)相關(guān)評(píng)估指標(biāo)構(gòu)建視覺(jué)反饋V(D)。
4.根據(jù)權(quán)利要求1所述的一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法,其特征在于:所述迭代優(yōu)化描述符步驟為:在第i次迭代中,提供上一次的類別描述符集Di-1、V(Di-1)和內(nèi)存庫(kù)M,詢問(wèn)大語(yǔ)言模型在當(dāng)前描述符集中挑選出最無(wú)用的ni
5.根據(jù)權(quán)利要求1所述的一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法,其特征在于:所述網(wǎng)絡(luò)訓(xùn)練階段的操作步驟包括:
6.根據(jù)權(quán)利要求1所述的一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法,其特征在于:所述圖像分類階段的操作步驟包括:
7.根據(jù)權(quán)利要求1所述的一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法,其特征在于:所述步驟二的具體操作方式為:
...【技術(shù)特征摘要】
1.一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法,其特征在于:包括步驟:
2.根據(jù)權(quán)利要求1所述的一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法,其特征在于:所述類別描述符初始化的操作方式為:首先根據(jù)類名的相似性將所有類分成群組;具體地,提取類名的文本嵌入,然后采用k-means算法將其聚類成組,其中每個(gè)組代表語(yǔ)義相似的類;為了確保大語(yǔ)言模型始終關(guān)注容易混淆的類別,聚類步驟不僅在初始化時(shí)進(jìn)行,而且在每次迭代開始時(shí)都會(huì)動(dòng)態(tài)進(jìn)行,并計(jì)算每個(gè)類別的所有描述符的平均嵌入;聚類后,讓大語(yǔ)言模型生成初始類描述符d0。
3.根據(jù)權(quán)利要求1所述的一種基于大語(yǔ)言模型視覺(jué)反饋的圖像分類方法,其特征在于:所述構(gòu)建視覺(jué)反饋步驟為:將大語(yǔ)言模型與視覺(jué)語(yǔ)言模型中的視覺(jué)知識(shí)相結(jié)合,給定當(dāng)前的一組類描述符d,通過(guò)clip的任務(wù)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張藍(lán)天,于永濤,盧偉彬,黃龍,瞿鵬,顧函竹,
申請(qǐng)(專利權(quán))人:淮陰工學(xué)院,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。