System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 精品无码国产污污污免费网站,国内精品人妻无码久久久影院,精品一区二区三区无码免费视频
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法技術(shù)

    技術(shù)編號(hào):44398058 閱讀:4 留言:0更新日期:2025-02-25 10:11
    本發(fā)明專利技術(shù)提供了一種用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,屬于跨模態(tài)語(yǔ)義增強(qiáng)及圖像特征學(xué)習(xí)技術(shù)領(lǐng)域,包括構(gòu)造數(shù)據(jù)集,獲取正面描述與負(fù)面描述之間的語(yǔ)義偏移生成差異向量;通過(guò)所述差異向量生成視覺(jué)擾動(dòng),引導(dǎo)圖像特征修改,獲取與文本的負(fù)面描述保持語(yǔ)義一致性的視覺(jué)特征;將生成的視覺(jué)負(fù)面特征應(yīng)用于視覺(jué)?語(yǔ)言模型的對(duì)比學(xué)習(xí),優(yōu)化模型在組合推理任務(wù)中的表現(xiàn)。優(yōu)點(diǎn)在于:能夠通過(guò)文本正負(fù)樣本的語(yǔ)義偏移引導(dǎo)生成對(duì)視覺(jué)特征的擾動(dòng)向量,充分挖掘文本和圖像之間的互補(bǔ)信息,提高了視覺(jué)負(fù)面特征生成的質(zhì)量;在評(píng)估過(guò)程中更有效地處理復(fù)雜的語(yǔ)義信息,最終提升模型的在處理組合推理任務(wù)中能力。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)屬于跨模態(tài)語(yǔ)義增強(qiáng)及圖像特征學(xué)習(xí),具體涉及一種用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法


    技術(shù)介紹

    1、近年來(lái),多模態(tài)學(xué)習(xí)(multimodal?learning)在計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理和人工智能領(lǐng)域取得了顯著進(jìn)展,逐漸成為研究的熱點(diǎn)方向。其中,視覺(jué)-語(yǔ)言模型(vision-language?models,vlms)是多模態(tài)學(xué)習(xí)的重要研究對(duì)象,因其在圖像與文本之間的關(guān)聯(lián)建模能力,得到了廣泛關(guān)注和應(yīng)用。這類模型通過(guò)將視覺(jué)和文本信息相結(jié)合,實(shí)現(xiàn)了在圖像分類、目標(biāo)檢測(cè)、圖像描述生成等任務(wù)中的卓越表現(xiàn)。然而,盡管這些模型在許多任務(wù)上表現(xiàn)出色,但在面對(duì)復(fù)雜的語(yǔ)義推理任務(wù)時(shí)依然面臨許多挑戰(zhàn)。這些挑戰(zhàn)主要源于模型在細(xì)粒度語(yǔ)義推理、負(fù)樣本生成策略和跨模態(tài)特征對(duì)齊方面的不足。

    2、組合推理(compositional?reasoning)任務(wù)要求模型能夠分析和理解復(fù)雜場(chǎng)景中多個(gè)對(duì)象的屬性和對(duì)象之間的關(guān)系。在組合推理任務(wù)中,模型不僅需要處理圖像和文本之間的簡(jiǎn)單匹配,還必須能夠有效地捕捉細(xì)粒度的語(yǔ)義組合。例如,krishna等人在文獻(xiàn)“visual?genome:connecting?language?and?vision?using?crowdsourced?dense?imageannotations”中提出了visual?genome數(shù)據(jù)集,旨在通過(guò)組合視覺(jué)和文本信息,幫助訓(xùn)練模型更好地捕捉場(chǎng)景中對(duì)象和關(guān)系的復(fù)雜互動(dòng),從而支持組合推理任務(wù)。然而,現(xiàn)有的視覺(jué)-語(yǔ)言模型在處理組合推理任務(wù)時(shí)往往表現(xiàn)不佳,難以準(zhǔn)確識(shí)別和區(qū)分不同對(duì)象、關(guān)系及其屬性的細(xì)微差異。例如,johnson等人在文獻(xiàn)“clevr:a?diagnostic?dataset?forcompositional?language?and?elementary?visual?reasoning”中指出,當(dāng)前模型在理解對(duì)象之間的組合關(guān)系和語(yǔ)義變化時(shí),通常缺乏足夠的推理能力,尤其在面對(duì)語(yǔ)義復(fù)雜的場(chǎng)景時(shí),表現(xiàn)不如預(yù)期。因此,如何使得模型可以有效地應(yīng)對(duì)組合推理任務(wù)中的細(xì)粒度語(yǔ)義理解是視覺(jué)-語(yǔ)言模型相關(guān)研究的亟待解決問(wèn)題。

    3、負(fù)樣本生成是模型訓(xùn)練中提高泛化能力的重要手段之一。通過(guò)將生成的負(fù)樣本用于訓(xùn)練,模型能夠有效學(xué)習(xí)區(qū)分正負(fù)樣本的能力,從而提升對(duì)細(xì)粒度語(yǔ)義差異的辨別力。然而,現(xiàn)有的負(fù)樣本生成方法往往過(guò)于關(guān)注文本負(fù)樣本的生成,忽視圖像負(fù)樣本的生成與應(yīng)用。例如,doveh等人在文獻(xiàn)“teaching?structured?vision&language?concepts?tovision&language?models”中提出了一種通過(guò)生成結(jié)構(gòu)化文本的數(shù)據(jù)增強(qiáng)方法,利用生成的正負(fù)結(jié)構(gòu)化文本樣本微調(diào)視覺(jué)-語(yǔ)言模型。然而,該方法聚焦于文本層面的正負(fù)樣本生成而未考慮圖像層面的負(fù)樣本,這將導(dǎo)致模型在區(qū)分圖像中視覺(jué)細(xì)節(jié)時(shí)泛化能力和魯棒性不足。而且,現(xiàn)有的圖像負(fù)樣本生成方法主要依賴兩種策略:一是通過(guò)圖像修復(fù)工具根據(jù)文本的語(yǔ)義變化對(duì)圖像進(jìn)行修改,二是通過(guò)數(shù)據(jù)相似度的采樣方法,通過(guò)匹配數(shù)據(jù)集中與文本的負(fù)面描述語(yǔ)義最相似的圖像進(jìn)行采樣。然而,基于圖像修復(fù)工具的方法雖然能夠生成與文本描述相符的圖像負(fù)樣本,但生成的圖像往往存在視覺(jué)不一致或語(yǔ)義模糊的問(wèn)題。當(dāng)修復(fù)工具根據(jù)文本的變化修改圖像中的某些細(xì)節(jié)(如顏色、位置等)時(shí),修改后的圖像可能在視覺(jué)上不自然,甚至?xí)茐膱?chǎng)景的整體語(yǔ)義一致性。例如,將“藍(lán)色汽車”修改為“紅色汽車”時(shí),圖像修復(fù)工具可能無(wú)法精準(zhǔn)處理顏色變化,導(dǎo)致圖像色彩不自然或細(xì)節(jié)失真。這種不合理的視覺(jué)擾動(dòng)會(huì)直接影響負(fù)樣本的質(zhì)量,進(jìn)而干擾模型的訓(xùn)練。基于數(shù)據(jù)相似度的采樣方法盡管能夠快速匹配圖像負(fù)樣本,但由于這種采樣方式通常依賴于有限范圍的數(shù)據(jù)集,導(dǎo)致難以匹配符合負(fù)面描述的圖像,這種低質(zhì)量的圖像負(fù)樣本會(huì)進(jìn)一步影響模型的性能。


    技術(shù)實(shí)現(xiàn)思路

    1、本專利技術(shù)所要解決的技術(shù)問(wèn)題是當(dāng)修復(fù)工具根據(jù)文本的變化修改圖像中的某些細(xì)節(jié)(如顏色、位置等)時(shí),修改后的圖像在視覺(jué)上不自然,圖像修復(fù)工具可能無(wú)法精準(zhǔn)處理顏色變化,導(dǎo)致圖像色彩不自然或細(xì)節(jié)失真的問(wèn)題,針對(duì)現(xiàn)有技術(shù)的不足,提供一種能夠解決上述問(wèn)題的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法。

    2、為解決上述技術(shù)問(wèn)題,本專利技術(shù)所采用的技術(shù)方案是:包括構(gòu)造數(shù)據(jù)集,其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì);通過(guò)交換實(shí)體的位置或?qū)傩裕晌谋镜呢?fù)面描述;通過(guò)所述生成文本的負(fù)面描述,獲取正面描述與負(fù)面描述之間的語(yǔ)義偏移生成差異向量;通過(guò)所述差異向量生成視覺(jué)擾動(dòng),引導(dǎo)圖像特征修改,獲取與文本的負(fù)面描述保持語(yǔ)義一致性的視覺(jué)特征;將生成的視覺(jué)負(fù)面特征應(yīng)用于視覺(jué)-語(yǔ)言模型的對(duì)比學(xué)習(xí),優(yōu)化模型在組合推理任務(wù)中的表現(xiàn)。

    3、進(jìn)一步的,構(gòu)造數(shù)據(jù)集,其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì)的方法包括:構(gòu)造數(shù)據(jù)集,其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì),將數(shù)據(jù)集中的文本torig解析為場(chǎng)景圖表示,對(duì)于文本torig解析得到三元組(o1,r,o2)或?qū)傩詫?duì)(a1,o1)和(a2,o2);其中,o1和o2表示文本torig中的不同實(shí)體,a1與a2表示實(shí)體對(duì)應(yīng)的屬性信息。

    4、進(jìn)一步的,通過(guò)交換實(shí)體的位置或?qū)傩裕晌谋镜呢?fù)面描述的方法包括:

    5、假設(shè)解析后得到三元組(o1,r,o2),三元組(o1,r,o2)中通過(guò)swap((o1,r,o2))=(o2,r,o1)交換實(shí)體o1和o2的位置;

    6、假設(shè)解析后得到屬性對(duì)(a1,o1)和(a2,o2),屬性對(duì)(a1,o1)和(a2,o2)中通過(guò)swap((a1,o1),(a2,o2))交換屬性信息,計(jì)算方法:

    7、swap表示交換操作。

    8、進(jìn)一步的,通過(guò)所述生成文本的負(fù)面描述,獲取正面描述與負(fù)面描述之間的語(yǔ)義偏移生成差異向量的方法包括:使用預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型對(duì)文本torig和tneg進(jìn)行嵌入處理,生成文本的語(yǔ)義嵌入向量和文本負(fù)面描述的語(yǔ)義嵌入向量獲取和的語(yǔ)義偏移差異向量δe,捕捉文本的語(yǔ)義變化,計(jì)算方法:其中,δe代表從正樣本到負(fù)樣本的語(yǔ)義偏移。

    9、進(jìn)一步的,通過(guò)所述差異向量生成視覺(jué)擾動(dòng),引導(dǎo)圖像特征修改,獲取與文本的負(fù)面描述保持語(yǔ)義一致性的視覺(jué)特征的方法包括:

    10、從圖像iorig中提取圖像特征生成與文本負(fù)面描述tneg對(duì)應(yīng)的視覺(jué)負(fù)面特征將計(jì)算得到的差異向量δe與圖像特征相結(jié)合,生成視覺(jué)負(fù)面特征計(jì)算方法:

    11、

    12、一種用于提升視覺(jué)語(yǔ)言模型組合推理任務(wù)性能的優(yōu)化系統(tǒng),用于執(zhí)行上述視覺(jué)特征生成方法,其特征在于,包括:

    13、數(shù)據(jù)集建立模塊,用于建立負(fù)樣本生成的數(shù)據(jù)集;

    14、視覺(jué)負(fù)面特征生成模塊,用于利用預(yù)訓(xùn)練的視覺(jué)-語(yǔ)言模型提取文本和負(fù)面描述的語(yǔ)義嵌入;

    15、模型微調(diào)模塊,用于使用將生成的視覺(jué)負(fù)面特征、圖像的文本特征以及圖像特征用于視覺(jué)-語(yǔ)言模型的微調(diào)

    16、一種嵌入式視覺(jué)-語(yǔ)言推理系統(tǒng),本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,包括:

    2.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,構(gòu)造數(shù)據(jù)集,其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì)的方法包括:

    3.如權(quán)利要求2所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,通過(guò)交換實(shí)體的位置或?qū)傩裕晌谋镜呢?fù)面描述的方法包括:

    4.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,通過(guò)所述生成文本的負(fù)面描述,獲取正面描述與負(fù)面描述之間的語(yǔ)義偏移生成差異向量的方法包括:

    5.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,通過(guò)所述差異向量生成視覺(jué)擾動(dòng),引導(dǎo)圖像特征修改,獲取與文本的負(fù)面描述保持語(yǔ)義一致性的視覺(jué)特征的方法包括:

    6.一種用于提升視覺(jué)語(yǔ)言模型組合推理任務(wù)性能的優(yōu)化系統(tǒng),用于執(zhí)行權(quán)利要求1-5任一項(xiàng)所述的視覺(jué)特征生成方法,其特征在于,包括:

    7.一種嵌入式視覺(jué)-語(yǔ)言推理系統(tǒng),其特征在于,包括權(quán)利要求6所述的優(yōu)化系統(tǒng),還包括:

    ...

    【技術(shù)特征摘要】

    1.一種用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,包括:

    2.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,構(gòu)造數(shù)據(jù)集,其中的數(shù)據(jù)為圖像與其文本描述構(gòu)成的圖像-文本對(duì)的方法包括:

    3.如權(quán)利要求2所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,通過(guò)交換實(shí)體的位置或?qū)傩裕晌谋镜呢?fù)面描述的方法包括:

    4.如權(quán)利要求1所述的用于提升視覺(jué)語(yǔ)言模型組合推理的視覺(jué)特征生成方法,其特征在于,通過(guò)所述生成文本的負(fù)...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:黃鑫李瑞彬王亞惠明勾志杭鄭偉
    申請(qǐng)(專利權(quán))人:南陽(yáng)師范學(xué)院
    類型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲 另类 无码 在线| 九九久久精品无码专区| 亚洲av无码成人黄网站在线观看| 精品无码人妻久久久久久| 亚洲av无码专区在线播放| 无码少妇丰满熟妇一区二区| yy111111少妇无码影院| 免费A级毛片无码A∨中文字幕下载| 东京无码熟妇人妻AV在线网址| 亚洲天然素人无码专区| 亚洲AV成人噜噜无码网站| 亚洲中文字幕无码一去台湾| 久久精品无码一区二区WWW| 国产精品99久久久精品无码| 极品粉嫩嫩模大尺度无码视频| 人妻丰满熟妇AV无码片| 国产精品亚韩精品无码a在线| 人妻系列AV无码专区| 少妇特殊按摩高潮惨叫无码| 亚洲av无码成人精品国产| 精品一区二区三区无码免费视频| 久久无码AV中文出轨人妻| 国产精品白浆在线观看无码专区| 亚洲AV无码一区二区三区鸳鸯影院 | 性色av极品无码专区亚洲| 中文无码制服丝袜人妻av| 久久国产精品无码网站| 无码人妻久久一区二区三区蜜桃| 人妻无码中文字幕免费视频蜜桃| 91精品国产综合久久四虎久久无码一级| 亚洲午夜无码久久久久| 国产亚洲精久久久久久无码77777| 亚洲Aⅴ无码一区二区二三区软件 亚洲?V无码乱码国产精品 | 国产精品无码av片在线观看播| 无码夫の前で人妻を侵犯 | 亚洲国产成人无码AV在线| 亚洲日韩精品无码专区加勒比☆| 亚洲欧洲无码一区二区三区| 日本精品无码一区二区三区久久久 | 久久久久亚洲AV无码观看| 日韩精品无码一区二区三区不卡|