System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及計(jì)算機(jī)視覺領(lǐng)域,具體地涉及一種軌道交通圖像的生成方法及存儲(chǔ)介質(zhì)。
技術(shù)介紹
1、在軌道交通領(lǐng)域中,計(jì)算機(jī)視覺系統(tǒng)必須依賴大量數(shù)據(jù)進(jìn)行訓(xùn)練以實(shí)現(xiàn)對環(huán)境的準(zhǔn)確感知。但在軌道交通領(lǐng)域中面臨著高質(zhì)量、大規(guī)模數(shù)據(jù)集缺乏的問題,獲取高質(zhì)量軌道交通的視覺數(shù)據(jù)非常困難,出于運(yùn)營安全和采集成本的考慮,無法人為采集具備多樣化的樣本數(shù)據(jù)。使用低質(zhì)量、低數(shù)據(jù)量的樣本所訓(xùn)練的人工智能模型無法準(zhǔn)確地做出判斷和決策,從而增加事故和風(fēng)險(xiǎn)發(fā)生的概率,阻礙軌道交通領(lǐng)域智能化的進(jìn)一步發(fā)展。
2、由于圖像生成技術(shù)可以依靠少量數(shù)據(jù)生成多樣化的圖像,實(shí)現(xiàn)安全快速的豐富軌道數(shù)據(jù)集,因此該技術(shù)得到了廣泛關(guān)注。對抗生成網(wǎng)絡(luò)(gan)的出現(xiàn),使圖像生成領(lǐng)域取得了突破性的進(jìn)展,但由于其生成的圖像分辨率低,無法在后續(xù)任務(wù)中使用。clip模型是通過文圖指導(dǎo)的圖像生成模型,能夠生成高質(zhì)量的圖像,但其生成效率較低無法簡單快速的生成大量圖像。基于diffusion的擴(kuò)散模型生成方法相比于傳統(tǒng)方法而言,具有龐大的參數(shù)量以及模型結(jié)構(gòu),通過大量數(shù)據(jù)訓(xùn)練后能夠生多樣化的高分辨率圖像,取得了良好的效果,但基于diffusion的擴(kuò)散模型生成方法需要高昂的計(jì)算資源以及龐大的訓(xùn)練數(shù)據(jù)。
3、為解決擴(kuò)散模型的生成方法需要大量訓(xùn)練數(shù)據(jù)以及資源消耗高的問題,很多學(xué)者提出了不同的擴(kuò)散模型微調(diào)算法,例如在訓(xùn)練擴(kuò)散模型時(shí)凍結(jié)參數(shù)或通過圖像特征訓(xùn)練擴(kuò)散模型,但這些方法在應(yīng)用到某一具體領(lǐng)域進(jìn)行圖像生成時(shí)需要進(jìn)行微調(diào)適配。為了能夠使用少量軌道交通圖像生成高質(zhì)量、多樣化的軌道交通圖像,設(shè)
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)實(shí)施例的目的是提供一種軌道交通圖像的生成方法,該方法所要解決的技術(shù)問題是:現(xiàn)有的擴(kuò)散模型在微調(diào)時(shí)使用文本提示生成圖像特征的方法,這種方法需要大量數(shù)據(jù)和繁瑣的人工標(biāo)注,并且耗費(fèi)大量計(jì)算資源。
2、為了解決上述技術(shù)問題,本專利技術(shù)實(shí)施例第一方面提供一種軌道交通圖像的生成方法,所述方法包括:獲取軌道交通圖像;以及將所述軌道交通圖像輸入至軌道交通圖像生成網(wǎng)絡(luò),并在該軌道交通圖像生成網(wǎng)絡(luò)內(nèi)執(zhí)行以下操作:對所述軌道交通圖像進(jìn)行初步處理生成隱空間特征,將所述隱空間特征進(jìn)行壓縮,編碼為不同維度的隱空間特征;直接提取所述軌道交通圖像的顯式特征,提取所述初步處理的圖像的深層特征,將所述顯示特征與所述深層特征結(jié)合,并上采樣至所述軌道交通圖像的維度,得到特征提示;通過controlnet模塊融合所述特征提示與所述不同維度的隱空間特征,以生成輔助特征;根據(jù)所述輔助特征,指導(dǎo)擴(kuò)散模型對所述初步處理的圖像執(zhí)行去噪過程,得到生成圖像特征;以及將所述生成的圖像特征解碼為輸出圖像。
3、可選的,所述對所述軌道交通圖像進(jìn)行初步處理生成隱空間特征包括:使用vae模塊將所述軌道交通圖像的特征由高維轉(zhuǎn)變?yōu)榈途S,提取所述軌道交通圖像最顯著的特征信息;以及對所述最顯著的特征信息隨機(jī)抽取特征并還原至所述軌道交通圖像的原有特征維度,得到所述隱空間特征;其中,所述vae模塊包括編碼器部分、隱式分布表示部分、以及解碼器部分。
4、可選的,所述將所述隱空間特征進(jìn)行壓縮,編碼為不同維度的隱空間特征包括:使用壓縮編碼器模塊將所述隱空間特征由大至小逐漸編碼,編碼為不同維度的隱空間特征用于與所述特征提示的維度相對應(yīng);所述壓縮編碼器模塊由不同維度的處理塊級聯(lián)而成,所述處理塊包括一個(gè)conv結(jié)構(gòu)與兩個(gè)pixelnorm,每兩個(gè)維度之間采用downsample模塊與卷積模塊保證維度匹配。
5、可選的,所述特征提示由特征提取模塊產(chǎn)生;所述特征提取模塊包括顯式特征提取部分與深層特征提取部分;所述顯式特征提取部分包括4個(gè)canny函數(shù),用于提取不同大小的圖像邊緣特征,并將所述不同大小的邊緣特征上采樣至原圖分辨率,以得到不同層次的紋理細(xì)節(jié)特征;所述深層特征提取部分包括4組提取不同維度的圖像特征的特征提取器,每組提取器包含三組級聯(lián)的conv+relu+maxpool操作塊,用于提取與所述顯式特征輸出維度相對應(yīng)的圖像特征,并組合成不同維度的所述特征提示。
6、可選的,所述顯式特征為直接提取與所述軌道交通圖像維度一致且不同大小的邊緣特征;所述深層特征為將所述初步處理的圖像不斷地卷積與下采樣得到的不同維度的特征。
7、可選的,所述controlnet模塊包括:條件特征提取模塊,包括4個(gè)不同大小的sdencoder;中間層模塊,包括一個(gè)sd中間層模塊與一個(gè)相同大小的中間零卷積層;以及零卷積層模塊,包括4個(gè)不同大小的零卷積層;其中,所述條件特征提取模塊和所述中間層模塊使用與所述擴(kuò)散模型相同的結(jié)構(gòu)和參數(shù)。
8、可選的,所述生成輔助特征包括:復(fù)制所述擴(kuò)散模型的部分預(yù)訓(xùn)練參數(shù)用以訓(xùn)練所述controlnet模塊,將所述特征提示與所述不同維度的隱空間特征輸入至controlnet模塊指導(dǎo)參數(shù)更新,從而生成所述輔助特征。
9、可選的,所述擴(kuò)散模型包括:sd編碼器階段,包括四個(gè)sd?encoder;sd中層,包括一個(gè)中層塊;以及sd解碼器,包括四個(gè)sd?decoder。
10、可選的,所述去噪過程包括:設(shè)置所述去噪過程迭代步數(shù);輸入所述輔助特征,使用所述隱空間特征減去所述輔助特征,得到新的隱空間特征;使用該新的隱空間特征再次減去所述輔助特征;以及不斷迭代上述過程,直至完成所述迭代步數(shù),得到所述生成圖像特征。
11、本專利技術(shù)實(shí)施例第二方面提供一種機(jī)器可讀存儲(chǔ)介質(zhì),該機(jī)器可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有指令,該指令用于使得機(jī)器執(zhí)行本申請上述任一項(xiàng)軌道交通圖像的生成方法。
12、通過上述技術(shù)方案,本專利技術(shù)提供的一種軌道交通圖像的生成方法將獲取的所述軌道交通圖像處理為隱空間特征,使特征更關(guān)注所述軌道交通圖像的深層次語義信息,并達(dá)到節(jié)約計(jì)算資源的目的;直接提取所述軌道交通圖像的顯示特征和深層特征,并將二者進(jìn)行結(jié)合,使所述結(jié)合后的特征上采樣至所述軌道交通圖像的維度,實(shí)現(xiàn)了直接從圖像提取特征用于擴(kuò)散模型的微調(diào)訓(xùn)練,解決了原有擴(kuò)散模型使用文本提示進(jìn)行微調(diào)訓(xùn)練需要大量數(shù)據(jù)和人工標(biāo)注的問題。直接使用圖像特征用于微調(diào)訓(xùn)練既保留了擴(kuò)散模型強(qiáng)大的生成能力,又減少了訓(xùn)練所需要的圖像數(shù)據(jù)。通過所述controlnet模塊利用所述特征提示和所述隱空間特征生成所述輔助特征,以指導(dǎo)所述擴(kuò)散模型在生成圖像特征的過程中不斷與真實(shí)圖像更接近,保證生成圖像特征的質(zhì)量。使用所述壓縮編碼器與壓縮解碼器對所述軌道交通圖像的特征維度進(jìn)行改變,從而利用不同維度的特征信息,使生成的圖像具有更真實(shí)的生成效果。由此,本專利技術(shù)使用獲取的少量軌道交通圖像實(shí)現(xiàn)對擴(kuò)散模型的微調(diào),并生成了更多樣化的軌道交通圖像,從而快速、高效的豐富了軌道交通圖像數(shù)據(jù)集。通過利用圖像特征代替文本特征對擴(kuò)散模型進(jìn)行微調(diào),解決了現(xiàn)有擴(kuò)散模型在微調(diào)時(shí)使用文本提示生成圖像特征需要大量數(shù)據(jù)和人工標(biāo)注的問題。另一方面,相比于rgb空間,隱空間的特征數(shù)量更少,利用所述擴(kuò)散模型作用于圖像的隱空間,使模型降本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種軌道交通數(shù)據(jù)的圖像生成方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述對所述軌道交通圖像進(jìn)行初步處理生成隱空間特征包括:
3.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述將所述隱空間特征進(jìn)行壓縮,編碼為不同維度的隱空間特征包括:
4.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述特征提示由特征提取模塊產(chǎn)生;
5.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,
6.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述ControlNet模塊包括:
7.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述生成輔助特征包括:
8.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述擴(kuò)散模型包括:
9.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述去噪過程包括:
10.一種機(jī)器可讀存儲(chǔ)介質(zhì),該機(jī)器可讀存儲(chǔ)介質(zhì)上存儲(chǔ)有指令,該指令用于使得機(jī)器執(zhí)行本申請上述任一項(xiàng)軌道交通數(shù)據(jù)的圖像生成方法。
【技術(shù)特征摘要】
1.一種軌道交通數(shù)據(jù)的圖像生成方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述對所述軌道交通圖像進(jìn)行初步處理生成隱空間特征包括:
3.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述將所述隱空間特征進(jìn)行壓縮,編碼為不同維度的隱空間特征包括:
4.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,所述特征提示由特征提取模塊產(chǎn)生;
5.根據(jù)權(quán)利要求1所述的圖像生成方法,其特征在于,
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李嘉鋒,李天碩,卓力,張菁,金嘉奇,
申請(專利權(quán))人:北京工業(yè)大學(xué),
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。