當(dāng)前位置: 首頁 > 專利查詢>之江實(shí)驗(yàn)室專利>正文

面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法和裝置制造方法及圖紙

技術(shù)編號：44001560 閱讀：5 留言：0更新日期：2025-01-10 20:18

本說明書公開了面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法和裝置，獲取訓(xùn)練樣本對，一個(gè)訓(xùn)練樣本對中樣本RGB圖像和樣本MS圖像對應(yīng)同一場景分類，將樣本MS圖像輸入教師模型，確定教師模型從樣本MS圖像提取出的第一圖像特征，確定教師模型根據(jù)第一圖像特征得到的第一場景分類作為偽標(biāo)注，將樣本RGB圖像輸入學(xué)生模型，確定學(xué)生模型從樣本RGB圖像提取出的第二圖像特征，確定學(xué)生模型根據(jù)第二圖像特征得到的第二場景分類，根據(jù)第二圖像特征與第一圖像特征的差異以及第二場景分類與偽標(biāo)注的差異對所述學(xué)生模型進(jìn)行訓(xùn)練，可降低對訓(xùn)練樣本的語義一致性需求，利用更少量的MS訓(xùn)練樣本對更多的RGB樣本進(jìn)行訓(xùn)練，提升學(xué)生模型性能。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本說明書涉及計(jì)算機(jī)，尤其涉及面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法和裝置。

技術(shù)介紹

1、遙感圖像場景分類旨在將不同場景下的圖像根據(jù)各自的語義信息確定每個(gè)圖像所對應(yīng)的場景分類，在地質(zhì)勘探，國防安全等領(lǐng)域均有著重要的作用。常見的遙感圖像分類手段往往是基于可見光圖像的，通過設(shè)計(jì)深度特征提取網(wǎng)絡(luò)對rgb圖像的特征進(jìn)行提取并進(jìn)行分類。近年來，隨著大語言模型的發(fā)展，也有研究者提出利用多模態(tài)大語言模型進(jìn)行遙感圖像的分類，但是由于rgb圖像光譜波段較少、信息密度較低，分類結(jié)果的準(zhǔn)確性無法得到保證。

2、基于上述原因，有研究者提出使用多光譜（multi-spectral，ms）圖像來提高輸入信息的信息密度進(jìn)而提升識別性能。雖然ms圖像相比于rgb圖像會在整體識別性能上有顯著的提高，但是在實(shí)際應(yīng)用中利用ms圖像進(jìn)行分類存在ms圖像的獲取成本高、計(jì)算內(nèi)存開銷大、推理速度慢等問題。

3、為解決上述問題，有研究者提出使用跨模態(tài)蒸餾技術(shù)，在訓(xùn)練階段將以ms圖像為輸入的教師模型去教授以rgb圖像為輸入的學(xué)生模型。在推理階段，只需使用以rgb圖像為輸入的學(xué)生模型即可。但是，上述蒸餾技術(shù)實(shí)施的前提在于ms圖像與rgb圖像需要具有嚴(yán)格的語義一致性，也即需要一對ms圖像與rgb圖像均是針對同一目標(biāo)采集得到的，由于ms數(shù)據(jù)短缺的問題，利用該蒸餾技術(shù)進(jìn)行訓(xùn)練，難以獲取足夠的訓(xùn)練樣本，影響了學(xué)生模型的訓(xùn)練效率。

4、由此，本專利技術(shù)提供面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法和裝置。

技術(shù)實(shí)現(xiàn)思路

1、本說明書提供面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法和裝置，以部分的解決現(xiàn)有技術(shù)存在的上述問題。

2、本說明書采用下述技術(shù)方案：

3、本說明書提供了一種面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法，包括：

4、獲取由樣本rgb圖像和樣本ms圖像組成的訓(xùn)練樣本對，所述樣本rgb圖像和所述樣本ms圖像對應(yīng)同一場景分類；

5、將所述樣本ms圖像輸入預(yù)先訓(xùn)練完成的教師模型，確定所述教師模型從所述樣本ms圖像提取出的第一圖像特征，并確定所述教師模型根據(jù)所述第一圖像特征得到的第一場景分類，作為偽標(biāo)注；

6、將所述樣本rgb圖像輸入學(xué)生模型，確定所述學(xué)生模型從所述樣本rgb圖像提取出的第二圖像特征，并確定所述學(xué)生模型根據(jù)所述第二圖像特征得到的第二場景分類；

7、至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場景分類與所述偽標(biāo)注的差異，對所述學(xué)生模型進(jìn)行訓(xùn)練。

8、可選的，還包括：

9、確定至少一個(gè)正樣本對與若干負(fù)樣本對作為樣本組，將所述樣本組輸入待訓(xùn)練匹配模型，確定所述待訓(xùn)練匹配模型輸出的針對所述樣本組的匹配判斷結(jié)果，其中，所述正樣本對包括針對同一目標(biāo)的一個(gè)rgb圖像和一個(gè)ms圖像，所述負(fù)樣本對包括對應(yīng)場景分類不同的一個(gè)rgb圖像和一個(gè)ms圖像；

10、根據(jù)所述匹配判斷結(jié)果與所述樣本組中各樣本對的實(shí)際匹配情況，對所述待訓(xùn)練匹配模型進(jìn)行訓(xùn)練；

11、獲取待匹配rgb圖像組以及待匹配ms圖像組，針對所述待匹配rgb圖像組中的任一rgb圖像，所述待匹配ms圖像組中均有與該rgb圖像相同場景分類的ms圖像；

12、針對所述待匹配rgb圖像組中的任一rgb圖像，利用訓(xùn)練完成的匹配模型，在所述待匹配ms圖像組中確定與該rgb圖像匹配的ms圖像作為目標(biāo)圖像，將所述目標(biāo)圖像與該rgb圖像匹配為一對訓(xùn)練樣本對。

13、可選的，預(yù)先訓(xùn)練教師模型，具體包括：

14、獲取預(yù)訓(xùn)練ms圖像；

15、將所述預(yù)訓(xùn)練ms圖像輸入待訓(xùn)練教師模型，確定所述待訓(xùn)練教師模型輸出的第三場景分類；

16、根據(jù)所述第三場景分類以及所述預(yù)訓(xùn)練ms圖像的場景標(biāo)注之間的差異，對所述待訓(xùn)練教師模型進(jìn)行訓(xùn)練。

17、可選的，所述第一圖像特征與所述第二圖像特征的數(shù)據(jù)結(jié)構(gòu)相同；

18、至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場景分類與所述偽標(biāo)注的差異，對所述學(xué)生模型進(jìn)行訓(xùn)練，具體包括：

19、根據(jù)跨模態(tài)注意力機(jī)制，確定所述第一圖像特征對應(yīng)的第一特征圖以及所述第二圖像特征對應(yīng)的第二特征圖；

20、根據(jù)所述第一特征圖與所述第二特征圖之間的域偏移損失，確定所述第一圖像特征與所述第二圖像特征之間的差異；

21、至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場景分類與所述偽標(biāo)注的差異，對所述學(xué)生模型進(jìn)行訓(xùn)練。

22、可選的，至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場景分類與所述偽標(biāo)注的差異，對所述學(xué)生模型進(jìn)行訓(xùn)練，具體包括：

23、根據(jù)所述第二圖像特征與所述第一圖像特征的差異、根據(jù)所述第二場景分類與所述偽標(biāo)注的差異以及所述第二場景分類與所述樣本rgb圖像所對應(yīng)的真實(shí)場景標(biāo)注的差異，對所述學(xué)生模型進(jìn)行訓(xùn)練。

24、可選的，獲取由樣本rgb圖像和樣本ms圖像組成的訓(xùn)練樣本對，具體包括：

25、從訓(xùn)練樣本集中獲取由樣本rgb圖像和樣本ms圖像組成的訓(xùn)練樣本對，所述訓(xùn)練樣本集包括若干訓(xùn)練樣本對；

26、在至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場景分類與所述偽標(biāo)注的差異，對所述學(xué)生模型進(jìn)行訓(xùn)練之后，還包括：

27、從所述訓(xùn)練樣本集中重新獲取訓(xùn)練樣本對，并根據(jù)重新獲取的訓(xùn)練樣本對所述學(xué)生模型繼續(xù)進(jìn)行訓(xùn)練，直至訓(xùn)練次數(shù)達(dá)到訓(xùn)練閾值，利用所述學(xué)生模型重新確定所述訓(xùn)練樣本集中每個(gè)樣本rgb圖像對應(yīng)的第二場景分類，根據(jù)各第二場景分類以及每個(gè)樣本ms圖像對應(yīng)的第一場景分類，更新每個(gè)樣本rgb圖像所匹配的樣本ms圖像，根據(jù)更新的各訓(xùn)練樣本對，繼續(xù)對所述學(xué)生模型進(jìn)行訓(xùn)練。

28、可選的，根據(jù)各第二場景分類以及每個(gè)教師樣本對應(yīng)的第一場景分類，更新每個(gè)學(xué)生樣本所匹配的教師樣本，具體包括：

29、針對所述訓(xùn)練樣本集中任一樣本rgb圖像，確定與該樣本rgb圖像的第二場景分類差異最小的第一場景分類所對應(yīng)的樣本ms圖像，作為該樣本rgb圖像所匹配的教師樣本。

30、本說明書提供一種面向遙感場景非對稱跨模態(tài)的大模型知識遷移裝置，包括：

31、獲取模塊，獲取由樣本rgb圖像和樣本ms圖像組成的訓(xùn)練樣本對，所述樣本rgb圖像和所述樣本ms圖像對應(yīng)同一場景分類；

32、教師模塊，將所述樣本ms圖像輸入預(yù)先訓(xùn)練完成的教師模型，確定所述教師模型從所述樣本ms圖像提取出的第一圖像特征，并確定所述教師模型根據(jù)所述第一圖像特征得到的第一場景分類，作為偽標(biāo)注；

33、學(xué)生模塊，將所述樣本rgb圖像輸入學(xué)生模型，確定所述學(xué)生模型從所述樣本rgb圖像提取出的第二圖像特征，并確定所述學(xué)生模型根據(jù)所述第二圖像特征得到的第二場景分類；

34、訓(xùn)練模塊，至少根據(jù)所述第二圖像特征與所述本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法，其特征在于，所述方法包括：

2.如權(quán)利要求1所述的方法，其特征在于，還包括：

3.如權(quán)利要求1所述的方法，其特征在于，預(yù)先訓(xùn)練教師模型，具體包括：

4.如權(quán)利要求1所述的方法，其特征在于，所述第一圖像特征與所述第二圖像特征的數(shù)據(jù)結(jié)構(gòu)相同；

5.如權(quán)利要求1所述的方法，其特征在于，至少根據(jù)所述第二圖像特征與所述第一圖像特征的差異以及所述第二場景分類與所述偽標(biāo)注的差異，對所述學(xué)生模型進(jìn)行訓(xùn)練，具體包括：

6.如權(quán)利要求1所述的方法，其特征在于，獲取由樣本RGB圖像和樣本MS圖像組成的訓(xùn)練樣本對，具體包括：

7.如權(quán)利要求6所述的方法，其特征在于，根據(jù)各第二場景分類以及每個(gè)教師樣本對應(yīng)的第一場景分類，更新每個(gè)學(xué)生樣本所匹配的教師樣本，具體包括：

8.一種面向遙感場景非對稱跨模態(tài)的大模型知識遷移裝置，其特征在于，包括：

9.一種計(jì)算機(jī)可讀存儲介質(zhì)，其特征在于，所述存儲介質(zhì)存儲有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述權(quán)利要求1~7任一項(xiàng)所述的方法。

10.一種設(shè)備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述程序時(shí)實(shí)現(xiàn)上述權(quán)利要求1~7任一項(xiàng)所述的方法。

...

【技術(shù)特征摘要】

1.一種面向遙感場景非對稱跨模態(tài)的大模型知識遷移方法，其特征在于，所述方法包括：

2.如權(quán)利要求1所述的方法，其特征在于，還包括：

3.如權(quán)利要求1所述的方法，其特征在于，預(yù)先訓(xùn)練教師模型，具體包括：

4.如權(quán)利要求1所述的方法，其特征在于，所述第一圖像特征與所述第二圖像特征的數(shù)據(jù)結(jié)構(gòu)相同；

6.如權(quán)利要求1所述的方法，其特征在于，獲取由樣本rgb圖像和樣本ms圖像...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：李超，姚柯璐，魏日令，
申請(專利權(quán))人：之江實(shí)驗(yàn)室，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)