System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于跨模態(tài)語(yǔ)義增強(qiáng)及圖像特征學(xué)習(xí),具體涉及一種用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法。
技術(shù)介紹
1、近年來(lái),多模態(tài)學(xué)習(xí)(multimodal?learning)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和人工智能領(lǐng)域取得了顯著進(jìn)展,逐漸成為研究的熱點(diǎn)方向。其中,視覺(jué)-語(yǔ)言模型(vision-language?models,vlms)是多模態(tài)學(xué)習(xí)的重要研究對(duì)象,因其在圖像與文本之間的關(guān)聯(lián)建模能力,得到了廣泛關(guān)注和應(yīng)用。這類模型通過(guò)將視覺(jué)和文本信息相結(jié)合,實(shí)現(xiàn)了在圖像分類、目標(biāo)檢測(cè)、圖像描述生成等任務(wù)中的卓越表現(xiàn)。然而,盡管這些模型在許多任務(wù)上表現(xiàn)出色,但在面對(duì)復(fù)雜的語(yǔ)義推理任務(wù)時(shí)依然面臨許多挑戰(zhàn)。這些挑戰(zhàn)主要源于模型在細(xì)粒度語(yǔ)義推理、負(fù)樣本生成策略和跨模態(tài)特征對(duì)齊方面的不足。
2、組合推理(compositional?reasoning)任務(wù)要求模型能夠分析和理解復(fù)雜場(chǎng)景中多個(gè)對(duì)象的屬性和對(duì)象之間的關(guān)系。在組合推理任務(wù)中,模型不僅需要處理圖像和文本之間的簡(jiǎn)單匹配,還必須能夠有效地捕捉細(xì)粒度的語(yǔ)義組合。例如,krishna等人在文獻(xiàn)“visual?genome:connecting?language?and?vision?using?crowdsourced?dense?imageannotations”中提出了visual?genome數(shù)據(jù)集,旨在通過(guò)組合視覺(jué)和文本信息,幫助訓(xùn)練模型更好地捕捉場(chǎng)景中對(duì)象和關(guān)系的復(fù)雜互動(dòng),從而支持組合推理任務(wù)。然而,現(xiàn)有的視覺(jué)-語(yǔ)言模型在處理組合推理任務(wù)時(shí)往往表現(xiàn)不佳,難以準(zhǔn)確識(shí)別和
3、負(fù)樣本生成是模型訓(xùn)練中提高泛化能力的重要手段之一。通過(guò)將生成的負(fù)樣本用于訓(xùn)練,模型能夠有效學(xué)習(xí)區(qū)分正負(fù)樣本的能力,從而提升對(duì)細(xì)粒度語(yǔ)義差異的辨別力。然而,現(xiàn)有的負(fù)樣本生成方法往往過(guò)于關(guān)注文本負(fù)樣本的生成,忽視圖像負(fù)樣本的生成與應(yīng)用。例如,doveh等人在文獻(xiàn)“teaching?structured?vision&language?concepts?tovision&language?models”中提出了一種通過(guò)生成結(jié)構(gòu)化文本的數(shù)據(jù)增強(qiáng)方法,利用生成的正負(fù)結(jié)構(gòu)化文本樣本微調(diào)視覺(jué)-語(yǔ)言模型。然而,該方法聚焦于文本層面的正負(fù)樣本生成而未考慮圖像層面的負(fù)樣本,這將導(dǎo)致模型在區(qū)分圖像中視覺(jué)細(xì)節(jié)時(shí)泛化能力和魯棒性不足。而且,現(xiàn)有的圖像負(fù)樣本生成方法主要依賴兩種策略:一是通過(guò)圖像修復(fù)工具根據(jù)文本的語(yǔ)義變化對(duì)圖像進(jìn)行修改,二是通過(guò)數(shù)據(jù)相似度的采樣方法,通過(guò)匹配數(shù)據(jù)集中與文本的負(fù)面描述語(yǔ)義最相似的圖像進(jìn)行采樣。然而,基于圖像修復(fù)工具的方法雖然能夠生成與文本描述相符的圖像負(fù)樣本,但生成的圖像往往存在視覺(jué)不一致或語(yǔ)義模糊的問(wèn)題。當(dāng)修復(fù)工具根據(jù)文本的變化修改圖像中的某些細(xì)節(jié)(如顏色、位置等)時(shí),修改后的圖像可能在視覺(jué)上不自然,甚至?xí)茐膱?chǎng)景的整體語(yǔ)義一致性。例如,將“藍(lán)色汽車”修改為“紅色汽車”時(shí),圖像修復(fù)工具可能無(wú)法精準(zhǔn)處理顏色變化,導(dǎo)致圖像色彩不自然或細(xì)節(jié)失真。這種不合理的視覺(jué)擾動(dòng)會(huì)直接影響負(fù)樣本的質(zhì)量,進(jìn)而干擾模型的訓(xùn)練。基于數(shù)據(jù)相似度的采樣方法盡管能夠快速匹配圖像負(fù)樣本,但由于這種采樣方式通常依賴于有限范圍的數(shù)據(jù)集,導(dǎo)致難以匹配符合負(fù)面描述的圖像,這種低質(zhì)量的圖像負(fù)樣本會(huì)進(jìn)一步影響模型的性能。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)所要解決的技術(shù)問(wèn)題是當(dāng)修復(fù)工具根據(jù)文本的變化修改圖像中的某些細(xì)節(jié)(如顏色、位置等)時(shí),修改后的圖像在視覺(jué)上不自然,圖像修復(fù)工具可能無(wú)法精準(zhǔn)處理顏色變化,導(dǎo)致圖像色彩不自然或細(xì)節(jié)失真的問(wèn)題,針對(duì)現(xiàn)有技術(shù)的不足,提供一種能夠解決上述問(wèn)題的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法。
2、為解決上述技術(shù)問(wèn)題,本專利技術(shù)所采用的技術(shù)方案是:包括構(gòu)造數(shù)據(jù)集,其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì);通過(guò)交換實(shí)體的位置或?qū)傩裕晌谋镜呢?fù)面描述;通過(guò)所述生成文本的負(fù)面描述,獲取正面描述與負(fù)面描述之間的語(yǔ)義偏移生成差異向量;通過(guò)所述差異向量生成視覺(jué)擾動(dòng),引導(dǎo)圖像特征修改,獲取與文本的負(fù)面描述保持語(yǔ)義一致性的視覺(jué)特征;將生成的視覺(jué)負(fù)面特征應(yīng)用于視覺(jué)-語(yǔ)言模型的對(duì)比學(xué)習(xí),優(yōu)化模型在組合推理任務(wù)中的表現(xiàn)。
3、進(jìn)一步的,構(gòu)造數(shù)據(jù)集,其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì)的方法包括:構(gòu)造數(shù)據(jù)集,其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì),將數(shù)據(jù)集中的文本torig解析為場(chǎng)景圖表示,對(duì)于文本torig解析得到三元組(o1,r,o2)或?qū)傩詫?duì)(a1,o1)和(a2,o2);其中,o1和o2表示文本torig中的不同實(shí)體,a1與a2表示實(shí)體對(duì)應(yīng)的屬性信息。
4、進(jìn)一步的,通過(guò)交換實(shí)體的位置或?qū)傩裕晌谋镜呢?fù)面描述的方法包括:
5、假設(shè)解析后得到三元組(o1,r,o2),三元組(o1,r,o2)中通過(guò)swap((o1,r,o2))=(o2,r,o1)交換實(shí)體o1和o2的位置;
6、假設(shè)解析后得到屬性對(duì)(a1,o1)和(a2,o2),屬性對(duì)(a1,o1)和(a2,o2)中通過(guò)swap((a1,o1),(a2,o2))交換屬性信息,計(jì)算方法:
7、swap表示交換操作。
8、進(jìn)一步的,通過(guò)所述生成文本的負(fù)面描述,獲取正面描述與負(fù)面描述之間的語(yǔ)義偏移生成差異向量的方法包括:使用預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型對(duì)文本torig和tneg進(jìn)行嵌入處理,生成文本的語(yǔ)義嵌入向量和文本負(fù)面描述的語(yǔ)義嵌入向量獲取和的語(yǔ)義偏移差異向量δe,捕捉文本的語(yǔ)義變化,計(jì)算方法:其中,δe代表從正樣本到負(fù)樣本的語(yǔ)義偏移。
9、進(jìn)一步的,通過(guò)所述差異向量生成視覺(jué)擾動(dòng),引導(dǎo)圖像特征修改,獲取與文本的負(fù)面描述保持語(yǔ)義一致性的視覺(jué)特征的方法包括:
10、從圖像iorig中提取圖像特征生成與文本負(fù)面描述tneg對(duì)應(yīng)的視覺(jué)負(fù)面特征將計(jì)算得到的差異向量δe與圖像特征相結(jié)合,生成視覺(jué)負(fù)面特征計(jì)算方法:
11、
12、一種用于提升視覺(jué)語(yǔ)言模型組合推理任務(wù)性能的優(yōu)化系統(tǒng),用于執(zhí)行上述視覺(jué)特征生成方法,其特征在于,包括:
13、數(shù)據(jù)集建立模塊,用于建立負(fù)樣本生成的數(shù)據(jù)集;
14、視覺(jué)負(fù)面特征生成模塊,用于利用預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型提取文本和負(fù)面描述的語(yǔ)義嵌入;
15、模型微調(diào)模塊,用于使用將生成的視覺(jué)負(fù)面特征、圖像的文本特征以及圖像特征用于視覺(jué)-語(yǔ)言模型的微調(diào)
16、一種嵌入式視覺(jué)-語(yǔ)言推理系統(tǒng),本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,包括:
2.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,構(gòu)造數(shù)據(jù)集,其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì)的方法包括:
3.如權(quán)利要求2所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,通過(guò)交換實(shí)體的位置或?qū)傩裕晌谋镜呢?fù)面描述的方法包括:
4.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,通過(guò)所述生成文本的負(fù)面描述,獲取正面描述與負(fù)面描述之間的語(yǔ)義偏移生成差異向量的方法包括:
5.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,通過(guò)所述差異向量生成視覺(jué)擾動(dòng),引導(dǎo)圖像特征修改,獲取與文本的負(fù)面描述保持語(yǔ)義一致性的視覺(jué)特征的方法包括:
6.一種用于提升視覺(jué)語(yǔ)言模型組合推理任務(wù)性能的優(yōu)化系統(tǒng),用于執(zhí)行權(quán)利要求1-5任一項(xiàng)所述的視覺(jué)特征生成方法,其特征在于,包括:
7.一種嵌入式視覺(jué)-語(yǔ)言推理系統(tǒng),其特征在于,包括權(quán)利要求6所述
...【技術(shù)特征摘要】
1.一種用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,包括:
2.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,構(gòu)造數(shù)據(jù)集,其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì)的方法包括:
3.如權(quán)利要求2所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,通過(guò)交換實(shí)體的位置或?qū)傩裕晌谋镜呢?fù)面描述的方法包括:
4.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,通過(guò)所述生成文本的負(fù)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:黃鑫,李瑞彬,王亞,惠明,勾志杭,鄭偉,
申請(qǐng)(專利權(quán))人:南陽(yáng)師范學(xué)院,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。