當(dāng)前位置: 首頁(yè) > 專利查詢>合肥工業(yè)大學(xué)專利>正文

基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法和系統(tǒng)技術(shù)方案

技術(shù)編號(hào)：44500495 閱讀：8 留言：0更新日期：2025-03-04 18:09

本發(fā)明專利技術(shù)提供一種基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法、系統(tǒng)、存儲(chǔ)介質(zhì)和電子設(shè)備，涉及計(jì)算機(jī)視覺領(lǐng)域。本發(fā)明專利技術(shù)中，一方面采用基于擴(kuò)散模型的生成技術(shù)實(shí)現(xiàn)多模態(tài)之間的數(shù)據(jù)轉(zhuǎn)換，避免過度依賴于產(chǎn)品設(shè)計(jì)人員導(dǎo)致設(shè)計(jì)結(jié)果參差不齊，以及豐富設(shè)計(jì)結(jié)果的多樣性；另一方面引入自動(dòng)掩碼機(jī)制結(jié)合擴(kuò)散模型，實(shí)現(xiàn)對(duì)產(chǎn)品設(shè)計(jì)圖的快速編輯迭代。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及計(jì)算機(jī)視覺領(lǐng)域，具體涉及一種基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法、系統(tǒng)、存儲(chǔ)介質(zhì)和電子設(shè)備。

技術(shù)介紹

1、在產(chǎn)品設(shè)計(jì)的過程中，必須能夠快速響應(yīng)市場(chǎng)需求的變化，提供創(chuàng)新性和差異化的產(chǎn)品解決方案。同時(shí)用戶需求越來(lái)越多元化，通過快速迭代的產(chǎn)品設(shè)計(jì)方法，可以更好地理解用戶需求，及時(shí)調(diào)整設(shè)計(jì)方案，早期發(fā)現(xiàn)并解決潛在問題，提高用戶滿意度。

2、目前的產(chǎn)品設(shè)計(jì)迭代方法存在：僅支持以文本為載體的單模態(tài)轉(zhuǎn)化，而文本不能準(zhǔn)確的描述產(chǎn)品信息，滿足用戶需求；在迭代過程中，由于生成模型的隨機(jī)性導(dǎo)致生成結(jié)果發(fā)生大量改動(dòng)，或者無(wú)法自動(dòng)準(zhǔn)確定位修改區(qū)域。

技術(shù)實(shí)現(xiàn)思路

1、(一)解決的技術(shù)問題

2、針對(duì)現(xiàn)有技術(shù)的不足，本專利技術(shù)提供了一種基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法、系統(tǒng)、存儲(chǔ)介質(zhì)和電子設(shè)備，解決了以文字為載體的用戶需求憑借人工經(jīng)驗(yàn)設(shè)計(jì)方案具有局限性和單一性的技術(shù)問題。

3、(二)技術(shù)方案

4、為實(shí)現(xiàn)以上目的，本專利技術(shù)通過以下技術(shù)方案予以實(shí)現(xiàn)：

5、一種基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法，包括：

6、收集目標(biāo)設(shè)計(jì)領(lǐng)域的文字需求及其對(duì)應(yīng)的概念草圖、產(chǎn)品設(shè)計(jì)圖，構(gòu)建數(shù)據(jù)集，并劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集；

7、采用解碼器e將所述訓(xùn)練集中的文字需求和/或概念草圖g0映射到潛在空間，并添加服從正態(tài)分布的高斯噪聲，采用clip模型將所述文字需求和/或概念草圖g0轉(zhuǎn)換為潛在向量f，并作為第一條件信息，以

8、定義基于kl散度的損失函數(shù)，通過迭代訓(xùn)練最小化損失函數(shù)，以及基于所述驗(yàn)證集，定期驗(yàn)證模型以及評(píng)估模型性能，并保存最佳u-net模型的權(quán)重；

9、隨機(jī)生成符合正態(tài)分布的高斯噪聲作為所述最佳u-net模型的輸入，將所述測(cè)試集的文字需求和/或概念草圖x0經(jīng)clip模型處理后生成潛在向量η，并作為第二條件信息輸入所述最佳u-net模型指導(dǎo)生成方向逐步去噪，生成符合第二條件信息的潛在變量z0；

10、采用編碼器d對(duì)所述潛在變量z0進(jìn)行編碼，還原生成作為產(chǎn)品設(shè)計(jì)圖的輸出圖片

11、優(yōu)選的，所述多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法，還包括：

12、在所述文字需求和/或概念草圖x0的基礎(chǔ)上進(jìn)行修改，生成新的數(shù)據(jù)d0，并采用clip模型將新的數(shù)據(jù)d0轉(zhuǎn)換為潛在向量并作為第三條件信息；

13、采用解碼器e將所述輸出圖片轉(zhuǎn)換為潛在變量y0后，對(duì)所述潛在變量y0添加服從正態(tài)分布的高斯噪聲轉(zhuǎn)換為yt；其中下標(biāo)t表示時(shí)刻；

14、分別對(duì)yt采用所述最佳u-net模型不添加條件和添加條件θ去噪，采用transformer模型計(jì)算生成結(jié)果的注意力圖像a0與

15、計(jì)算a0與每一個(gè)對(duì)應(yīng)數(shù)據(jù)點(diǎn)的相似度，生成指示修改區(qū)域的掩碼m，并集成到所述最佳u-net模型中；

16、以所述第三條件信息作為輸入，結(jié)合總的時(shí)間步長(zhǎng)下的帶噪聲的潛在變量，采用集成掩碼m后的最佳u-net模型對(duì)圖片進(jìn)行精確去噪，生成潛在變量l0；

17、采用編碼器d對(duì)所述潛在變量l0進(jìn)行編碼，還原生成作為掩碼指導(dǎo)編輯結(jié)果的輸出圖片

18、優(yōu)選的，所述采用解碼器e將所述訓(xùn)練集中的文字需求和/或概念草圖映射到潛在空間，并添加服從正態(tài)分布的高斯噪聲，采用clip模型將所述訓(xùn)練集中的文字需求和/或概念草圖轉(zhuǎn)換為潛在向量，并作為第一條件信息，以構(gòu)建帶有注意力機(jī)制的u-net模型；包括：

19、采用解碼器e將訓(xùn)練集<g0，g0′>中的文字需求和/或設(shè)計(jì)草圖g0映射到潛在空間中，形成潛在變量s0；其中g(shù)0′為與g0匹配的產(chǎn)品設(shè)計(jì)圖；

20、對(duì)每個(gè)潛在變量s0添加高斯噪聲∈～n(0，1)生成st，添加過程如下式：

21、

22、其中，∈～n(0，1)表示噪聲∈服從一個(gè)均值為0、標(biāo)準(zhǔn)差為1的高斯分布；αt為隨機(jī)參數(shù)；

23、采用clip模型將輸入文本和/或設(shè)計(jì)草圖g0轉(zhuǎn)換成潛在向量f，并作為第一條件信息輸入到u-net模型中；

24、在u-net模型的下采樣部分添加注意力機(jī)制層級(jí)后，將上采樣過程中對(duì)應(yīng)的特征圖通過跳躍連接拼接到上采樣過程，將特征信息逐步恢復(fù)至與潛在變量st相同格式的潛在變量

25、采用編碼器d將潛在變量還原至輸出圖片

26、優(yōu)選的，所述定義基于kl散度的損失函數(shù)，通過迭代訓(xùn)練最小化損失函數(shù)，以及基于所述驗(yàn)證集，定期驗(yàn)證模型以及評(píng)估模型生能，并保存最佳u-net模型的權(quán)重；包括：

27、基于以下公式定義損失函數(shù)，最小化加噪過程的逆向分布和去噪過程的逆向分布的kl散度：

28、

29、其中，pθ(st-1|st，f)為去噪過程的逆向分布；

30、q(st-1|st，s0，f)為加噪過程的逆向分布，且為已知變量，由加噪過程的正向分布q(st|st-1，f)推演而來(lái)，βt為隨機(jī)參數(shù)，i為單位矩陣；

31、st-1|st為潛在變量st到潛在變量st-1的過程；

32、∝為轉(zhuǎn)化符號(hào)；∈θ(st，t，f)為u-net模型估計(jì)去除的噪聲；

33、利用所述訓(xùn)練集對(duì)u-net模型進(jìn)行迭代訓(xùn)練，調(diào)整u-net模型的參數(shù)以最小化損失函數(shù)；

34、定期在驗(yàn)證集<μ0，μ0′>上評(píng)估u-net模型的性能，以監(jiān)控過擬合或欠擬合現(xiàn)象；

35、將驗(yàn)證集<μ0，μ0′>中的輸入文本和/或設(shè)計(jì)草圖μ0輸入到訓(xùn)練得到的u-net模型中進(jìn)行測(cè)試，并采用fid值對(duì)模型性能進(jìn)行評(píng)估，公式如下：

36、

37、其中，μ0′為與μ0匹配的產(chǎn)品設(shè)計(jì)圖；為在驗(yàn)證集<μ0，μ0’>上的輸出圖片；trace表示矩陣的跡；

38、訓(xùn)練與驗(yàn)證完成后，保存最佳u-net模型的權(quán)重。

39、優(yōu)選的，所述隨機(jī)生成符合正態(tài)分布的高斯噪聲作為所述最佳u-net模型的輸入將所述測(cè)試集的文字需求和/或概念草圖x0經(jīng)clip模型處理后生成潛在向量η，并作為第二條件信息輸入所述最佳u-net模型指導(dǎo)生成方向逐步去噪，生成符合第二條件信息的潛在變量z0；包括：

40、隨機(jī)生成高斯噪聲zt～n(0，1)作為所述最佳u-net模型的輸入；

41、將測(cè)試集<x0，x0’>中的文字需求和/或概念草圖x0經(jīng)clip模型處理后生成潛在向量η，并作為第二條件信息輸入到u-net模型中以指導(dǎo)生成過程的方向；

42、采用所述最佳u-net模型執(zhí)行去噪任務(wù)，包括：

43、通過一系列迭代計(jì)算從zt恢復(fù)符合第二條件信息η的潛在變量z0，如下式所示：

44、

45、其中，σt為隨機(jī)參數(shù)，∈θ(zt，η，t)為估計(jì)的噪聲，ε為隨機(jī)噪聲；αs為每一步迭代過程的隨機(jī)參數(shù)；αt為t時(shí)刻的αs；...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法，其特征在于，包括：

2.如權(quán)利要求1所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法，其特征在于，還包括：

3.如權(quán)利要求2所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法，其特征在于，所述采用解碼器E將所述訓(xùn)練集中的文字需求和/或概念草圖映射到潛在空間，并添加服從正態(tài)分布的高斯噪聲，采用CLIP模型將所述訓(xùn)練集中的文字需求和/或概念草圖轉(zhuǎn)換為潛在向量，并作為第一條件信息，以構(gòu)建帶有注意力機(jī)制的U-Net模型；包括：

4.如權(quán)利要求3所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法，其特征在于，所述定義基于KL散度的損失函數(shù)，通過迭代訓(xùn)練最小化損失函數(shù)，以及基于所述驗(yàn)證集，定期驗(yàn)證模型以及評(píng)估模型性能，并保存最佳U-Net模型的權(quán)重；包括：

5.如權(quán)利要求4所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法，其特征在于，所述隨機(jī)生成符合正態(tài)分布的高斯噪聲作為所述最佳U-Net模型的輸入，將所述測(cè)試集的文字需求和/或概念草圖x0經(jīng)CLIP模型處理后生成潛在向量η，并作為第二條件信息輸入所述最佳U-Net模型指導(dǎo)生成方向逐步去噪，生成符合第二條件信息的潛在變量z0；包括：

6.如權(quán)利要求5所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法，其特征在于，

7.一種基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代系統(tǒng)，其特征在于，包括：

8.如權(quán)利要求7所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代系統(tǒng)，其特征在于，還包括：

9.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其特征在于，其上存儲(chǔ)有計(jì)算機(jī)程序，在處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)可實(shí)現(xiàn)如權(quán)利要求1～6任一項(xiàng)所述的基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法。

10.一種電子設(shè)備，其特征在于，包括：

...

【技術(shù)特征摘要】

1.一種基于擴(kuò)散模型的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法，其特征在于，包括：

2.如權(quán)利要求1所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法，其特征在于，還包括：

3.如權(quán)利要求2所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法，其特征在于，所述采用解碼器e將所述訓(xùn)練集中的文字需求和/或概念草圖映射到潛在空間，并添加服從正態(tài)分布的高斯噪聲，采用clip模型將所述訓(xùn)練集中的文字需求和/或概念草圖轉(zhuǎn)換為潛在向量，并作為第一條件信息，以構(gòu)建帶有注意力機(jī)制的u-net模型；包括：

4.如權(quán)利要求3所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代方法，其特征在于，所述定義基于kl散度的損失函數(shù)，通過迭代訓(xùn)練最小化損失函數(shù)，以及基于所述驗(yàn)證集，定期驗(yàn)證模型以及評(píng)估模型性能，并保存最佳u-net模型的權(quán)重；包括：

5.如權(quán)利要求4所述的多模態(tài)產(chǎn)品設(shè)計(jì)快速迭代...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：張強(qiáng)，袁瑋祎，蔡正陽(yáng)，趙爽耀，鄧世松，
申請(qǐng)(專利權(quán))人：合肥工業(yè)大學(xué)，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)