System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及計(jì)算機(jī)視覺領(lǐng)域,具體涉及一種基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法、系統(tǒng)、存儲(chǔ)介質(zhì)和電子設(shè)備。
技術(shù)介紹
1、在產(chǎn)品設(shè)計(jì)的過程中,必須能夠快速響應(yīng)市場(chǎng)需求的變化,提供創(chuàng)新性和差異化的產(chǎn)品解決方案。同時(shí)用戶需求越來(lái)越多元化,通過快速迭代的產(chǎn)品設(shè)計(jì)方法,可以更好地理解用戶需求,及時(shí)調(diào)整設(shè)計(jì)方案,早期發(fā)現(xiàn)并解決潛在問題,提高用戶滿意度。
2、目前的產(chǎn)品設(shè)計(jì)迭代方法存在:僅支持以文本為載體的單模態(tài)轉(zhuǎn)化,而文本不能準(zhǔn)確的描述產(chǎn)品信息,滿足用戶需求;在迭代過程中,由于生成模型的隨機(jī)性導(dǎo)致生成結(jié)果發(fā)生大量改動(dòng),或者無(wú)法自動(dòng)準(zhǔn)確定位修改區(qū)域。
技術(shù)實(shí)現(xiàn)思路
1、(一)解決的技術(shù)問題
2、針對(duì)現(xiàn)有技術(shù)的不足,本專利技術(shù)提供了一種基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法、系統(tǒng)、存儲(chǔ)介質(zhì)和電子設(shè)備,解決了以文字為載體的用戶需求憑借人工經(jīng)驗(yàn)設(shè)計(jì)方案具有局限性和單一性的技術(shù)問題。
3、(二)技術(shù)方案
4、為實(shí)現(xiàn)以上目的,本專利技術(shù)通過以下技術(shù)方案予以實(shí)現(xiàn):
5、一種基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法,包括:
6、收集目標(biāo)設(shè)計(jì)領(lǐng)域的文字需求及其對(duì)應(yīng)的概念草圖、產(chǎn)品設(shè)計(jì)圖,構(gòu)建數(shù)據(jù)集,并劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集;
7、采用解碼器e將所述訓(xùn)練集中的文字需求和/或概念草圖g0映射到潛在空間,并添加服從正態(tài)分布的高斯噪聲,采用clip模型將所述文字需求和/或概念草圖g0轉(zhuǎn)換為潛在向量f,并作為第一條件信息,以
8、定義基于kl散度的損失函數(shù),通過迭代訓(xùn)練最小化損失函數(shù),以及基于所述驗(yàn)證集,定期驗(yàn)證模型以及評(píng)估模型性能,并保存最佳u-net模型的權(quán)重;
9、隨機(jī)生成符合正態(tài)分布的高斯噪聲作為所述最佳u-net模型的輸入,將所述測(cè)試集的文字需求和/或概念草圖x0經(jīng)clip模型處理后生成潛在向量η,并作為第二條件信息輸入所述最佳u-net模型指導(dǎo)生成方向逐步去噪,生成符合第二條件信息的潛在變量z0;
10、采用編碼器d對(duì)所述潛在變量z0進(jìn)行編碼,還原生成作為產(chǎn)品設(shè)計(jì)圖的輸出圖片
11、優(yōu)選的,所述多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法,還包括:
12、在所述文字需求和/或概念草圖x0的基礎(chǔ)上進(jìn)行修改,生成新的數(shù)據(jù)d0,并采用clip模型將新的數(shù)據(jù)d0轉(zhuǎn)換為潛在向量并作為第三條件信息;
13、采用解碼器e將所述輸出圖片轉(zhuǎn)換為潛在變量y0后,對(duì)所述潛在變量y0添加服從正態(tài)分布的高斯噪聲轉(zhuǎn)換為yt;其中下標(biāo)t表示時(shí)刻;
14、分別對(duì)yt采用所述最佳u-net模型不添加條件和添加條件θ去噪,采用transformer模型計(jì)算生成結(jié)果的注意力圖像a0與
15、計(jì)算a0與每一個(gè)對(duì)應(yīng)數(shù)據(jù)點(diǎn)的相似度,生成指示修改區(qū)域的掩碼m,并集成到所述最佳u-net模型中;
16、以所述第三條件信息作為輸入,結(jié)合總的時(shí)間步長(zhǎng)下的帶噪聲的潛在變量,采用集成掩碼m后的最佳u-net模型對(duì)圖片進(jìn)行精確去噪,生成潛在變量l0;
17、采用編碼器d對(duì)所述潛在變量l0進(jìn)行編碼,還原生成作為掩碼指導(dǎo)編輯結(jié)果的輸出圖片
18、優(yōu)選的,所述采用解碼器e將所述訓(xùn)練集中的文字需求和/或概念草圖映射到潛在空間,并添加服從正態(tài)分布的高斯噪聲,采用clip模型將所述訓(xùn)練集中的文字需求和/或概念草圖轉(zhuǎn)換為潛在向量,并作為第一條件信息,以構(gòu)建帶有注意力機(jī)制的u-net模型;包括:
19、采用解碼器e將訓(xùn)練集<g0,g0′>中的文字需求和/或設(shè)計(jì)草圖g0映射到潛在空間中,形成潛在變量s0;其中g(shù)0′為與g0匹配的產(chǎn)品設(shè)計(jì)圖;
20、對(duì)每個(gè)潛在變量s0添加高斯噪聲∈~n(0,1)生成st,添加過程如下式:
21、
22、其中,∈~n(0,1)表示噪聲∈服從一個(gè)均值為0、標(biāo)準(zhǔn)差為1的高斯分布;αt為隨機(jī)參數(shù);
23、采用clip模型將輸入文本和/或設(shè)計(jì)草圖g0轉(zhuǎn)換成潛在向量f,并作為第一條件信息輸入到u-net模型中;
24、在u-net模型的下采樣部分添加注意力機(jī)制層級(jí)后,將上采樣過程中對(duì)應(yīng)的特征圖通過跳躍連接拼接到上采樣過程,將特征信息逐步恢復(fù)至與潛在變量st相同格式的潛在變量
25、采用編碼器d將潛在變量還原至輸出圖片
26、優(yōu)選的,所述定義基于kl散度的損失函數(shù),通過迭代訓(xùn)練最小化損失函數(shù),以及基于所述驗(yàn)證集,定期驗(yàn)證模型以及評(píng)估模型生能,并保存最佳u-net模型的權(quán)重;包括:
27、基于以下公式定義損失函數(shù),最小化加噪過程的逆向分布和去噪過程的逆向分布的kl散度:
28、
29、其中,pθ(st-1|st,f)為去噪過程的逆向分布;
30、q(st-1|st,s0,f)為加噪過程的逆向分布,且為已知變量,由加噪過程的正向分布q(st|st-1,f)推演而來(lái),βt為隨機(jī)參數(shù),i為單位矩陣;
31、st-1|st為潛在變量st到潛在變量st-1的過程;
32、∝為轉(zhuǎn)化符號(hào);∈θ(st,t,f)為u-net模型估計(jì)去除的噪聲;
33、利用所述訓(xùn)練集對(duì)u-net模型進(jìn)行迭代訓(xùn)練,調(diào)整u-net模型的參數(shù)以最小化損失函數(shù);
34、定期在驗(yàn)證集<μ0,μ0′>上評(píng)估u-net模型的性能,以監(jiān)控過擬合或欠擬合現(xiàn)象;
35、將驗(yàn)證集<μ0,μ0′>中的輸入文本和/或設(shè)計(jì)草圖μ0輸入到訓(xùn)練得到的u-net模型中進(jìn)行測(cè)試,并采用fid值對(duì)模型性能進(jìn)行評(píng)估,公式如下:
36、
37、其中,μ0′為與μ0匹配的產(chǎn)品設(shè)計(jì)圖;為在驗(yàn)證集<μ0,μ0’>上的輸出圖片;trace表示矩陣的跡;
38、訓(xùn)練與驗(yàn)證完成后,保存最佳u-net模型的權(quán)重。
39、優(yōu)選的,所述隨機(jī)生成符合正態(tài)分布的高斯噪聲作為所述最佳u-net模型的輸入將所述測(cè)試集的文字需求和/或概念草圖x0經(jīng)clip模型處理后生成潛在向量η,并作為第二條件信息輸入所述最佳u-net模型指導(dǎo)生成方向逐步去噪,生成符合第二條件信息的潛在變量z0;包括:
40、隨機(jī)生成高斯噪聲zt~n(0,1)作為所述最佳u-net模型的輸入;
41、將測(cè)試集<x0,x0’>中的文字需求和/或概念草圖x0經(jīng)clip模型處理后生成潛在向量η,并作為第二條件信息輸入到u-net模型中以指導(dǎo)生成過程的方向;
42、采用所述最佳u-net模型執(zhí)行去噪任務(wù),包括:
43、通過一系列迭代計(jì)算從zt恢復(fù)符合第二條件信息η的潛在變量z0,如下式所示:
44、
45、其中,σt為隨機(jī)參數(shù),∈θ(zt,η,t)為估計(jì)的噪聲,ε為隨機(jī)噪聲;αs為每一步迭代過程的隨機(jī)參數(shù);αt為t時(shí)刻的αs;本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法,其特征在于,包括:
2.如權(quán)利要求1所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法,其特征在于,還包括:
3.如權(quán)利要求2所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法,其特征在于,所述采用解碼器E將所述訓(xùn)練集中的文字需求和/或概念草圖映射到潛在空間,并添加服從正態(tài)分布的高斯噪聲,采用CLIP模型將所述訓(xùn)練集中的文字需求和/或概念草圖轉(zhuǎn)換為潛在向量,并作為第一條件信息,以構(gòu)建帶有注意力機(jī)制的U-Net模型;包括:
4.如權(quán)利要求3所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法,其特征在于,所述定義基于KL散度的損失函數(shù),通過迭代訓(xùn)練最小化損失函數(shù),以及基于所述驗(yàn)證集,定期驗(yàn)證模型以及評(píng)估模型性能,并保存最佳U-Net模型的權(quán)重;包括:
5.如權(quán)利要求4所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法,其特征在于,所述隨機(jī)生成符合正態(tài)分布的高斯噪聲作為所述最佳U-Net模型的輸入,將所述測(cè)試集的文字需求和/或概念草圖x0經(jīng)CLIP模型處理后生成潛在向量η,并作為第二條件信息輸入所述最佳U-Net模型指導(dǎo)生成方向逐步去噪,生成符合第二條件信息的
6.如權(quán)利要求5所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法,其特征在于,
7.一種基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代系統(tǒng),其特征在于,包括:
8.如權(quán)利要求7所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代系統(tǒng),其特征在于,還包括:
9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,其上存儲(chǔ)有計(jì)算機(jī)程序,在處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)可實(shí)現(xiàn)如權(quán)利要求1~6任一項(xiàng)所述的基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法。
10.一種電子設(shè)備,其特征在于,包括:
...【技術(shù)特征摘要】
1.一種基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法,其特征在于,包括:
2.如權(quán)利要求1所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法,其特征在于,還包括:
3.如權(quán)利要求2所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法,其特征在于,所述采用解碼器e將所述訓(xùn)練集中的文字需求和/或概念草圖映射到潛在空間,并添加服從正態(tài)分布的高斯噪聲,采用clip模型將所述訓(xùn)練集中的文字需求和/或概念草圖轉(zhuǎn)換為潛在向量,并作為第一條件信息,以構(gòu)建帶有注意力機(jī)制的u-net模型;包括:
4.如權(quán)利要求3所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法,其特征在于,所述定義基于kl散度的損失函數(shù),通過迭代訓(xùn)練最小化損失函數(shù),以及基于所述驗(yàn)證集,定期驗(yàn)證模型以及評(píng)估模型性能,并保存最佳u-net模型的權(quán)重;包括:
5.如權(quán)利要求4所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:張強(qiáng),袁瑋祎,蔡正陽(yáng),趙爽耀,鄧世松,
申請(qǐng)(專利權(quán))人:合肥工業(yè)大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。