System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
所屬的技術(shù)人員知道,本專(zhuān)利技術(shù)可以實(shí)現(xiàn)為系統(tǒng)、方法或計(jì)算機(jī)程序產(chǎn)品,因此,本專(zhuān)利技術(shù)可以具體實(shí)現(xiàn)為以下形式,即:可以是完全的硬件、也可以是完全的軟件(包括固件、駐留軟件、微代碼等),還可以是硬件和軟件結(jié)合的形式,本文一般稱(chēng)為“電路”、“模塊”或“系統(tǒng)”。此外,在一些實(shí)施例中,本專(zhuān)利技術(shù)還可以實(shí)現(xiàn)為在一個(gè)或多個(gè)計(jì)算機(jī)可讀介質(zhì)中的計(jì)算機(jī)程序產(chǎn)品的形式,該計(jì)算機(jī)可讀介質(zhì)中包含計(jì)算機(jī)可讀的程序代碼。盡管上面已經(jīng)示出和描述了本專(zhuān)利技術(shù)的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本專(zhuān)利技術(shù)的限制,本領(lǐng)域的普通技術(shù)人員在本專(zhuān)利技術(shù)的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。
技術(shù)介紹
1、隨著大規(guī)模視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型(如clip和align等)的發(fā)展,這些模型展示了強(qiáng)大的通用表征能力,為開(kāi)放集視覺(jué)概念識(shí)別帶來(lái)了新的范式。這些模型基于大規(guī)模圖像-文本對(duì)進(jìn)行預(yù)訓(xùn)練,訓(xùn)練后的模型能夠從自然語(yǔ)言文本中捕獲各種視覺(jué)概念,并將學(xué)習(xí)到的表示遷移到多種下游任務(wù)中。然而,預(yù)訓(xùn)練數(shù)據(jù)與下游任務(wù)數(shù)據(jù)之間存在分布差異,這影響了視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的泛化能力。
2、現(xiàn)有的研究表明,提示學(xué)習(xí)是一種有效的解決此問(wèn)題的方法。然而,設(shè)計(jì)合適的提示學(xué)習(xí)向量是一個(gè)困難的任務(wù),往往需要大量的領(lǐng)域?qū)I(yè)知識(shí)和時(shí)間來(lái)手動(dòng)調(diào)整提示詞。此外,即使經(jīng)過(guò)廣泛的調(diào)整,也無(wú)法保證生成的提示對(duì)于下游任務(wù)是最優(yōu)的。因此,如何通過(guò)提示學(xué)習(xí)方法使視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型能夠適應(yīng)下游任務(wù),尤其是在處理類(lèi)特異性差異以及細(xì)粒度視覺(jué)特征提取方面,是一個(gè)亟待解決的問(wèn)題。
3、近年
技術(shù)實(shí)現(xiàn)思路
1、本專(zhuān)利技術(shù)所要解決的技術(shù)問(wèn)題是針對(duì)現(xiàn)有技術(shù)的不足,旨在解決現(xiàn)有技術(shù)中存在的在處理多模態(tài)任務(wù)時(shí)無(wú)法有效兼顧視覺(jué)模態(tài)和文本模態(tài)全局高層語(yǔ)義和細(xì)粒度特異性特征的問(wèn)題。本專(zhuān)利技術(shù)通過(guò)引入雙粒度視覺(jué)提示、類(lèi)特異性文本提示、多模態(tài)提示生成模塊,以及多模態(tài)提示調(diào)優(yōu)機(jī)制,能夠提升視覺(jué)和文本提示的學(xué)習(xí)能力,特別是在細(xì)粒度的類(lèi)特異性特征提取方面表現(xiàn)突出,具體提供了一種“能夠在基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型遷移處理視覺(jué)和文本下游任務(wù)時(shí),通過(guò)凍結(jié)視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的文本編碼器和視覺(jué)編碼器,只優(yōu)化視覺(jué)提示和文本提示的參數(shù),實(shí)現(xiàn)對(duì)視覺(jué)全局和細(xì)粒度信息的提取,以及對(duì)文本的類(lèi)特異性描述,確保多模態(tài)特征之間的對(duì)齊與協(xié)同推理,提升模型在下游任務(wù)中的泛化性能”的技術(shù)方案,具體如下:
2、1)第一方面,本專(zhuān)利技術(shù)提供一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法,具體技術(shù)方案如下:
3、s1、構(gòu)建用于學(xué)習(xí)視覺(jué)特征與文本特征的多模態(tài)提示學(xué)習(xí)向量:
4、s101、構(gòu)建基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)模型,所述細(xì)粒度多模態(tài)提示學(xué)習(xí)模型包括視覺(jué)提示和文本提示,通過(guò)所述細(xì)粒度多模態(tài)提示學(xué)習(xí)模型對(duì)視覺(jué)提示和文本提示進(jìn)行學(xué)習(xí),具體使用視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的圖像編碼器和文本編碼器,處理輸入圖像和k個(gè)類(lèi)別標(biāo)簽,生成可學(xué)習(xí)的視覺(jué)提示vi和可學(xué)習(xí)的文本提示ti,其中,輸入圖像記為k為類(lèi)別標(biāo)簽的總數(shù)量,h表示輸入圖像的高度,w表示輸入圖像的寬度,c表示輸入圖像的通道,i表示為網(wǎng)絡(luò)層索引;
5、s102、可學(xué)習(xí)的視覺(jué)提示vi分別設(shè)計(jì)面向全局高層語(yǔ)義信息的全局視覺(jué)提示和面向類(lèi)別間細(xì)微差異特征提取的細(xì)粒度視覺(jué)提示,全局視覺(jué)提示用于提取的輸入圖像的全局語(yǔ)義信息,所述細(xì)粒度視覺(jué)提示用于提取視覺(jué)類(lèi)別間的細(xì)微差異;
6、s103、可學(xué)習(xí)的文本提示ti采用類(lèi)別標(biāo)簽感知提示學(xué)習(xí),通過(guò)類(lèi)別標(biāo)簽的嵌入向量表示,類(lèi)別標(biāo)簽作為可學(xué)習(xí)的文本提示的輸入,以生成類(lèi)別差異性文本特征;
7、s104、在共享的潛在語(yǔ)義空間中生成全局視覺(jué)提示、細(xì)粒度視覺(jué)提示和可學(xué)習(xí)的文本提示,以使細(xì)粒度多模態(tài)提示學(xué)習(xí)模型實(shí)現(xiàn)跨模態(tài)的信息的交互與對(duì)齊,多模態(tài)提示學(xué)習(xí)向量包括全局視覺(jué)提示、細(xì)粒度視覺(jué)提示和可學(xué)習(xí)的文本提示;
8、s2、基于所述細(xì)粒度多模態(tài)提示學(xué)習(xí)模型,生成視覺(jué)特征和類(lèi)別差異性文本特征:
9、s201、通過(guò)文本編碼器生成類(lèi)別特異性文本特征:
10、
11、公式(1)中,w表示類(lèi)別標(biāo)簽的嵌入向量,tb表示文本提示,類(lèi)別差異性文本特征zk由文本編碼器l(·)生成;
12、s202、通過(guò)視覺(jué)編碼器生成輸入圖像的全局視覺(jué)特征和輸入圖像的細(xì)粒度特征:
13、
14、公式(2)中,e表示圖像塊嵌入,vb表示視覺(jué)提示,特征x包括全局視覺(jué)特征和細(xì)粒度特征的融合特征,特征x由圖像編碼器i(·)生成;
15、s3、基于余弦相似度損失函數(shù)對(duì)多模態(tài)提示學(xué)習(xí)向量進(jìn)行優(yōu)化:
16、基于余弦相似度損失函數(shù)對(duì)所述可學(xué)習(xí)的視覺(jué)提示與所述可學(xué)習(xí)的文本提示進(jìn)行優(yōu)化,通過(guò)最小化視覺(jué)特征和類(lèi)別差異性文本特征之間的相似度差異來(lái)進(jìn)行計(jì)算,通過(guò)公式(3)計(jì)算第k個(gè)類(lèi)別標(biāo)簽的概率
17、
18、其中,τ是固定超參數(shù),sim(x,zk)為視覺(jué)特征和類(lèi)別差異性文本特征之間的相似度。
19、本專(zhuān)利技術(shù)提供的一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法的有益效果如下:
20、通過(guò)可學(xué)習(xí)的全局視覺(jué)提示與細(xì)粒度視覺(jué)提示,以生成輸入圖像的全局視覺(jué)特征和細(xì)粒度視覺(jué)特征,可學(xué)習(xí)的文本提示對(duì)輸入圖像的類(lèi)別標(biāo)簽進(jìn)行處理,生成輸入圖像的類(lèi)別特異性文本特征。同時(shí),基于共享的潛在語(yǔ)義空間生成視覺(jué)和文本提示,以促進(jìn)細(xì)粒度多模態(tài)提示學(xué)習(xí)模型的跨模態(tài)交互。進(jìn)一步,計(jì)算并基于輸入圖像的類(lèi)別特異性文本特征與全局和細(xì)粒度視覺(jué)融合特征之間的相似度,在語(yǔ)義上對(duì)齊視覺(jué)和文本提示并相互增強(qiáng),促進(jìn)細(xì)粒度多模態(tài)提示學(xué)習(xí)模型的跨模態(tài)協(xié)同訓(xùn)練推理,以實(shí)現(xiàn)多模態(tài)提示學(xué)習(xí)向量的優(yōu)化,并實(shí)現(xiàn)對(duì)視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的訓(xùn)練,本專(zhuān)利技術(shù)通過(guò)雙粒度視覺(jué)提示(全局視覺(jué)提示與細(xì)粒度視覺(jué)提示)與文本提示的結(jié)合,有效解決了現(xiàn)有提示學(xué)習(xí)調(diào)優(yōu)方法中雙模態(tài)提示表示空間無(wú)法協(xié)同推理、難以捕捉細(xì)微區(qū)分性特征的問(wèn)題,并在多個(gè)主要的圖像識(shí)別基準(zhǔn)數(shù)據(jù)集上驗(yàn)證了其優(yōu)越的遷移泛化能力和少樣本學(xué)習(xí)能力,在下游任務(wù)(多模態(tài)任務(wù))中取得了顯著的性能提升。
21、在上述方案的基礎(chǔ)上,本專(zhuān)利技術(shù)的一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法還可以做如下改進(jìn)。
22、進(jìn)一步,s102中,得到全局視覺(jué)特征的過(guò)程包括:
23、全局視覺(jué)提示分支通過(guò)公式(4)提取輸入圖像的全局視覺(jué)特征:
24、[gi,ci,ei]=ii([gi-1,ci-1,ei-1]本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法,其特征在于,S102中,得到全局視覺(jué)特征的過(guò)程包括:
3.根據(jù)權(quán)利要求2所述的一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法,其特征在于,S102中,得到細(xì)粒度視覺(jué)提示的過(guò)程包括:
4.根據(jù)權(quán)利要求3所述的一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法,其特征在于,S103中,設(shè)計(jì)類(lèi)感知文本提示,通過(guò)自動(dòng)生成與視覺(jué)類(lèi)特異性概念語(yǔ)義匹配的文本提示來(lái)適應(yīng)下游任務(wù),具體通過(guò)公式(10)完成:
5.根據(jù)權(quán)利要求4所述的一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法,其特征在于,S104中,在共享的潛在語(yǔ)義空間中生成所述全局視覺(jué)提示、細(xì)粒度視覺(jué)提示和所述可學(xué)習(xí)的文本提示,還包括:
6.根據(jù)權(quán)利要求5所述的一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法,其特征在于,S3中,通過(guò)最小化視覺(jué)特征和所述類(lèi)別差異性文本特征之間的相似度差異來(lái)進(jìn)行計(jì)算,包括:
...【技術(shù)特征摘要】
1.一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法,其特征在于,s102中,得到全局視覺(jué)特征的過(guò)程包括:
3.根據(jù)權(quán)利要求2所述的一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法,其特征在于,s102中,得到細(xì)粒度視覺(jué)提示的過(guò)程包括:
4.根據(jù)權(quán)利要求3所述的一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法,其特征在于,s103中,設(shè)計(jì)類(lèi)感知文本提示,通過(guò)自動(dòng)生成與視覺(jué)類(lèi)特異性概念語(yǔ)義匹配的文本提示來(lái)適應(yīng)下游任務(wù),具體通過(guò)公式(10)完成:
5.根據(jù)權(quán)利要求4所述的一種基于視覺(jué)語(yǔ)言預(yù)訓(xùn)練模型的細(xì)粒度多模態(tài)提示學(xué)習(xí)方法,其特征在于,s104中,在共享的潛在語(yǔ)義空間中生成所述全局視覺(jué)提示、細(xì)粒度視覺(jué)提示和所述可學(xué)習(xí)的文本提示,還包括:
6.根據(jù)...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:劉云飛,李盛陽(yáng),王驛釗,
申請(qǐng)(專(zhuān)利權(quán))人:中國(guó)科學(xué)院空間應(yīng)用工程與技術(shù)中心,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。