當(dāng)前位置: 首頁(yè) > 專利查詢>南陽(yáng)師范學(xué)院專利>正文

用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法技術(shù)

技術(shù)編號(hào)：44398058 閱讀：4 留言：0更新日期：2025-02-25 10:11

本發(fā)明專利技術(shù)提供了一種用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法，屬于跨模態(tài)語(yǔ)義增強(qiáng)及圖像特征學(xué)習(xí)技術(shù)領(lǐng)域，包括構(gòu)造數(shù)據(jù)集，獲取正面描述與負(fù)面描述之間的語(yǔ)義偏移生成差異向量；通過(guò)所述差異向量生成視覺(jué)擾動(dòng)，引導(dǎo)圖像特征修改，獲取與文本的負(fù)面描述保持語(yǔ)義一致性的視覺(jué)特征；將生成的視覺(jué)負(fù)面特征應(yīng)用于視覺(jué)?語(yǔ)言模型的對(duì)比學(xué)習(xí)，優(yōu)化模型在組合推理任務(wù)中的表現(xiàn)。優(yōu)點(diǎn)在于：能夠通過(guò)文本正負(fù)樣本的語(yǔ)義偏移引導(dǎo)生成對(duì)視覺(jué)特征的擾動(dòng)向量，充分挖掘文本和圖像之間的互補(bǔ)信息，提高了視覺(jué)負(fù)面特征生成的質(zhì)量；在評(píng)估過(guò)程中更有效地處理復(fù)雜的語(yǔ)義信息，最終提升模型的在處理組合推理任務(wù)中能力。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)屬于跨模態(tài)語(yǔ)義增強(qiáng)及圖像特征學(xué)習(xí)，具體涉及一種用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法。

技術(shù)介紹

1、近年來(lái)，多模態(tài)學(xué)習(xí)(multimodal?learning)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和人工智能領(lǐng)域取得了顯著進(jìn)展，逐漸成為研究的熱點(diǎn)方向。其中，視覺(jué)-語(yǔ)言模型(vision-language?models,vlms)是多模態(tài)學(xué)習(xí)的重要研究對(duì)象，因其在圖像與文本之間的關(guān)聯(lián)建模能力，得到了廣泛關(guān)注和應(yīng)用。這類模型通過(guò)將視覺(jué)和文本信息相結(jié)合，實(shí)現(xiàn)了在圖像分類、目標(biāo)檢測(cè)、圖像描述生成等任務(wù)中的卓越表現(xiàn)。然而，盡管這些模型在許多任務(wù)上表現(xiàn)出色，但在面對(duì)復(fù)雜的語(yǔ)義推理任務(wù)時(shí)依然面臨許多挑戰(zhàn)。這些挑戰(zhàn)主要源于模型在細(xì)粒度語(yǔ)義推理、負(fù)樣本生成策略和跨模態(tài)特征對(duì)齊方面的不足。

2、組合推理(compositional?reasoning)任務(wù)要求模型能夠分析和理解復(fù)雜場(chǎng)景中多個(gè)對(duì)象的屬性和對(duì)象之間的關(guān)系。在組合推理任務(wù)中，模型不僅需要處理圖像和文本之間的簡(jiǎn)單匹配，還必須能夠有效地捕捉細(xì)粒度的語(yǔ)義組合。例如，krishna等人在文獻(xiàn)“visual?genome:connecting?language?and?vision?using?crowdsourced?dense?imageannotations”中提出了visual?genome數(shù)據(jù)集，旨在通過(guò)組合視覺(jué)和文本信息，幫助訓(xùn)練模型更好地捕捉場(chǎng)景中對(duì)象和關(guān)系的復(fù)雜互動(dòng)，從而支持組合推理任務(wù)。然而，現(xiàn)有的視覺(jué)-語(yǔ)言模型在處理組合推理任務(wù)時(shí)往往表現(xiàn)不佳，難以準(zhǔn)確識(shí)別和

3、負(fù)樣本生成是模型訓(xùn)練中提高泛化能力的重要手段之一。通過(guò)將生成的負(fù)樣本用于訓(xùn)練，模型能夠有效學(xué)習(xí)區(qū)分正負(fù)樣本的能力，從而提升對(duì)細(xì)粒度語(yǔ)義差異的辨別力。然而，現(xiàn)有的負(fù)樣本生成方法往往過(guò)于關(guān)注文本負(fù)樣本的生成，忽視圖像負(fù)樣本的生成與應(yīng)用。例如，doveh等人在文獻(xiàn)“teaching?structured?vision&language?concepts?tovision&language?models”中提出了一種通過(guò)生成結(jié)構(gòu)化文本的數(shù)據(jù)增強(qiáng)方法，利用生成的正負(fù)結(jié)構(gòu)化文本樣本微調(diào)視覺(jué)-語(yǔ)言模型。然而，該方法聚焦于文本層面的正負(fù)樣本生成而未考慮圖像層面的負(fù)樣本，這將導(dǎo)致模型在區(qū)分圖像中視覺(jué)細(xì)節(jié)時(shí)泛化能力和魯棒性不足。而且，現(xiàn)有的圖像負(fù)樣本生成方法主要依賴兩種策略：一是通過(guò)圖像修復(fù)工具根據(jù)文本的語(yǔ)義變化對(duì)圖像進(jìn)行修改，二是通過(guò)數(shù)據(jù)相似度的采樣方法，通過(guò)匹配數(shù)據(jù)集中與文本的負(fù)面描述語(yǔ)義最相似的圖像進(jìn)行采樣。然而，基于圖像修復(fù)工具的方法雖然能夠生成與文本描述相符的圖像負(fù)樣本，但生成的圖像往往存在視覺(jué)不一致或語(yǔ)義模糊的問(wèn)題。當(dāng)修復(fù)工具根據(jù)文本的變化修改圖像中的某些細(xì)節(jié)(如顏色、位置等)時(shí)，修改后的圖像可能在視覺(jué)上不自然，甚至?xí)茐膱?chǎng)景的整體語(yǔ)義一致性。例如，將“藍(lán)色汽車”修改為“紅色汽車”時(shí)，圖像修復(fù)工具可能無(wú)法精準(zhǔn)處理顏色變化，導(dǎo)致圖像色彩不自然或細(xì)節(jié)失真。這種不合理的視覺(jué)擾動(dòng)會(huì)直接影響負(fù)樣本的質(zhì)量，進(jìn)而干擾模型的訓(xùn)練。基于數(shù)據(jù)相似度的采樣方法盡管能夠快速匹配圖像負(fù)樣本，但由于這種采樣方式通常依賴于有限范圍的數(shù)據(jù)集，導(dǎo)致難以匹配符合負(fù)面描述的圖像，這種低質(zhì)量的圖像負(fù)樣本會(huì)進(jìn)一步影響模型的性能。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)所要解決的技術(shù)問(wèn)題是當(dāng)修復(fù)工具根據(jù)文本的變化修改圖像中的某些細(xì)節(jié)(如顏色、位置等)時(shí)，修改后的圖像在視覺(jué)上不自然，圖像修復(fù)工具可能無(wú)法精準(zhǔn)處理顏色變化，導(dǎo)致圖像色彩不自然或細(xì)節(jié)失真的問(wèn)題，針對(duì)現(xiàn)有技術(shù)的不足，提供一種能夠解決上述問(wèn)題的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法。

2、為解決上述技術(shù)問(wèn)題，本專利技術(shù)所采用的技術(shù)方案是：包括構(gòu)造數(shù)據(jù)集，其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì)；通過(guò)交換實(shí)體的位置或?qū)傩裕晌谋镜呢?fù)面描述；通過(guò)所述生成文本的負(fù)面描述，獲取正面描述與負(fù)面描述之間的語(yǔ)義偏移生成差異向量；通過(guò)所述差異向量生成視覺(jué)擾動(dòng)，引導(dǎo)圖像特征修改，獲取與文本的負(fù)面描述保持語(yǔ)義一致性的視覺(jué)特征；將生成的視覺(jué)負(fù)面特征應(yīng)用于視覺(jué)-語(yǔ)言模型的對(duì)比學(xué)習(xí)，優(yōu)化模型在組合推理任務(wù)中的表現(xiàn)。

3、進(jìn)一步的，構(gòu)造數(shù)據(jù)集，其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì)的方法包括：構(gòu)造數(shù)據(jù)集，其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì)，將數(shù)據(jù)集中的文本torig解析為場(chǎng)景圖表示，對(duì)于文本torig解析得到三元組(o1，r，o2)或?qū)傩詫?duì)(a1，o1)和(a2，o2)；其中，o1和o2表示文本torig中的不同實(shí)體，a1與a2表示實(shí)體對(duì)應(yīng)的屬性信息。

4、進(jìn)一步的，通過(guò)交換實(shí)體的位置或?qū)傩裕晌谋镜呢?fù)面描述的方法包括：

5、假設(shè)解析后得到三元組(o1，r，o2)，三元組(o1，r，o2)中通過(guò)swap((o1，r，o2))＝(o2，r，o1)交換實(shí)體o1和o2的位置；

6、假設(shè)解析后得到屬性對(duì)(a1，o1)和(a2，o2)，屬性對(duì)(a1，o1)和(a2，o2)中通過(guò)swap((a1，o1)，(a2，o2))交換屬性信息，計(jì)算方法：

7、swap表示交換操作。

8、進(jìn)一步的，通過(guò)所述生成文本的負(fù)面描述，獲取正面描述與負(fù)面描述之間的語(yǔ)義偏移生成差異向量的方法包括：使用預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型對(duì)文本torig和tneg進(jìn)行嵌入處理，生成文本的語(yǔ)義嵌入向量和文本負(fù)面描述的語(yǔ)義嵌入向量獲取和的語(yǔ)義偏移差異向量δe，捕捉文本的語(yǔ)義變化，計(jì)算方法：其中，δe代表從正樣本到負(fù)樣本的語(yǔ)義偏移。

9、進(jìn)一步的，通過(guò)所述差異向量生成視覺(jué)擾動(dòng)，引導(dǎo)圖像特征修改，獲取與文本的負(fù)面描述保持語(yǔ)義一致性的視覺(jué)特征的方法包括：

10、從圖像iorig中提取圖像特征生成與文本負(fù)面描述tneg對(duì)應(yīng)的視覺(jué)負(fù)面特征將計(jì)算得到的差異向量δe與圖像特征相結(jié)合，生成視覺(jué)負(fù)面特征計(jì)算方法：

11、

12、一種用于提升視覺(jué)語(yǔ)言模型組合推理任務(wù)性能的優(yōu)化系統(tǒng)，用于執(zhí)行上述視覺(jué)特征生成方法，其特征在于，包括：

13、數(shù)據(jù)集建立模塊，用于建立負(fù)樣本生成的數(shù)據(jù)集；

14、視覺(jué)負(fù)面特征生成模塊，用于利用預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型提取文本和負(fù)面描述的語(yǔ)義嵌入；

15、模型微調(diào)模塊，用于使用將生成的視覺(jué)負(fù)面特征、圖像的文本特征以及圖像特征用于視覺(jué)-語(yǔ)言模型的微調(diào)

16、一種嵌入式視覺(jué)-語(yǔ)言推理系統(tǒng)，本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法，其特征在于，包括：

2.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法，其特征在于，構(gòu)造數(shù)據(jù)集，其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì)的方法包括：

3.如權(quán)利要求2所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法，其特征在于，通過(guò)交換實(shí)體的位置或?qū)傩裕晌谋镜呢?fù)面描述的方法包括：

4.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法，其特征在于，通過(guò)所述生成文本的負(fù)面描述，獲取正面描述與負(fù)面描述之間的語(yǔ)義偏移生成差異向量的方法包括：

5.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法，其特征在于，通過(guò)所述差異向量生成視覺(jué)擾動(dòng)，引導(dǎo)圖像特征修改，獲取與文本的負(fù)面描述保持語(yǔ)義一致性的視覺(jué)特征的方法包括：

6.一種用于提升視覺(jué)語(yǔ)言模型組合推理任務(wù)性能的優(yōu)化系統(tǒng)，用于執(zhí)行權(quán)利要求1-5任一項(xiàng)所述的視覺(jué)特征生成方法，其特征在于，包括：

7.一種嵌入式視覺(jué)-語(yǔ)言推理系統(tǒng)，其特征在于，包括權(quán)利要求6所述

...

【技術(shù)特征摘要】

1.一種用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法，其特征在于，包括：

4.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法，其特征在于，通過(guò)所述生成文本的負(fù)...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：黃鑫，李瑞彬，王亞，惠明，勾志杭，鄭偉，
申請(qǐng)(專利權(quán))人：南陽(yáng)師范學(xué)院，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)