當(dāng)前位置: 首頁 > 專利查詢>廣東博華超高清創(chuàng)新中心有限公司專利>正文

一種基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法技術(shù)

技術(shù)編號：43525130 閱讀：11 留言：0更新日期：2024-12-03 12:12

本發(fā)明專利技術(shù)提供了一種基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，包括以下步驟：S1.點(diǎn)云初始化與深度估計：將輸入的文本經(jīng)過潛在擴(kuò)散模型生成與給定文本相關(guān)的圖像，并使用單目深度估計模型估計深度圖；S2.設(shè)定相機(jī)軌跡；將初始點(diǎn)云劃分為2*2*2的8個區(qū)域，設(shè)置長度為的相機(jī)軌跡；S3.生成新點(diǎn)云；S4.對齊點(diǎn)云與修復(fù)圖像；S5.使用高斯?jié)姙R渲染得到渲染出的三維場景。本發(fā)明專利技術(shù)方法有效提高了文生三維場景的多樣性和質(zhì)量，并提升了生成效率。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及計算機(jī)視覺領(lǐng)域，特別地，涉及一種基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法。

技術(shù)介紹

1、生成式人工智能和三維模型在當(dāng)今許多領(lǐng)域都非常重要并且有廣泛的應(yīng)用場景，例如虛擬現(xiàn)實(shí)、游戲開發(fā)和視頻制作等。三維高斯?jié)姙R(3dgs)于2023年被提出，是三維重建領(lǐng)域在近期最為革命性的創(chuàng)新。相比于之前基于nerf的方法的隱式表達(dá)，3dgs從基于點(diǎn)云的三維重建方法中吸取顯式表達(dá)的優(yōu)勢，比起nerf需要查詢神經(jīng)網(wǎng)絡(luò)實(shí)時計算得出場景，3dgs擁有更快的渲染速度和更短的訓(xùn)練時間。

2、隨著三維圖形技術(shù)的快速創(chuàng)新，高質(zhì)量的三維場景生成已成為計算機(jī)視覺中最重要的問題之一。這要求能夠從各種類型的輸入（如文本、圖像）創(chuàng)建多樣且真實(shí)的三維場景。目前有一些嘗試使用擴(kuò)散模型在體素、點(diǎn)云和隱式神經(jīng)表示中直接生成三維對象和場景，但由于基于三維掃描的訓(xùn)練數(shù)據(jù)的限制，結(jié)果卻是多樣性和質(zhì)量都得不到提升。應(yīng)對這一問題的一種方法是利用預(yù)訓(xùn)練的圖像生成擴(kuò)散模型（如stable?diffusion）的強(qiáng)大功能來創(chuàng)建多樣化的高質(zhì)量三維場景。盡管這種大型模型可以利用從大規(guī)模訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的數(shù)據(jù)驅(qū)動知識創(chuàng)建出合理的圖像，但它并不能保證生成圖像之間的多視圖一致性。

3、因此，在現(xiàn)有技術(shù)中，生成的三維場景往往做不到在多視圖之間保持一致性，并且三維場景細(xì)節(jié)不足，現(xiàn)有技術(shù)難以生成高質(zhì)量的連續(xù)的三維場景。

4、解決以上問題及缺陷的難度為：將穩(wěn)定擴(kuò)散模型與三維高斯?jié)姙R結(jié)合起來，這需要使用穩(wěn)定擴(kuò)散模型來對點(diǎn)云進(jìn)行操作，從而讓三維高斯?jié)姙R渲染出三維場景。

5、解決以上問題及缺陷的意義為：給出了一種切實(shí)可行的文生三維場景的思路，是穩(wěn)定擴(kuò)散模型與三維高斯?jié)姙R結(jié)合的成功嘗試。

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)提供了一種基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，有效提高了文生三維場景的多樣性和質(zhì)量，并提升了生成效率。

2、本專利技術(shù)的技術(shù)方案如下：

3、本專利技術(shù)的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，包括以下步驟：s1.點(diǎn)云初始化與深度估計；s2.設(shè)定相機(jī)軌跡；s3.生成；s4.對齊點(diǎn)云與修復(fù)圖像；s5.使用高斯?jié)姙R渲染得到渲染出的三維場景。

4、可選地，在上述基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法中，在步驟s1中，首先，獲取用戶的文本輸入，使用潛在擴(kuò)散模型生成給定文本相關(guān)的圖像；接著使用單目深度估計模型估計深度圖，將生成的rgb圖像和深度圖分別表示為和，其中和分別是圖像的高度和寬度，根據(jù)從潛在擴(kuò)散模型生成的和，根據(jù)圖像大小來約定相機(jī)內(nèi)參矩陣和外參矩陣；對于輸入的rgbd圖像<mi>[</mi><msub><mi>i</mi><mn>0</mn></msub><mi>,</mi><msub><mi>d</mi><mn>0</mn></msub><mi>]</mi>，將其初始化為空間的點(diǎn)云；使用第一張圖像生成的初始點(diǎn)云定義為，其表達(dá)式為：

5、<msub><mi>p</mi><mn>0</mn></msub><mi>=</mi><msub><mi>?</mi><mi>2→3</mi></msub><mi>([</mi><msub><mi>i</mi><mn>0</mn></msub><mi>,</mi><msub><mi>d</mi><mn>0</mn></msub><mi>],</mi><mi>k</mi><mi>,</mi><mrow><msub><mi>r</mi><mn>0</mn></msub><mi>|</mi><msub><mi>t</mi><mn>0</mn></msub></mrow></mfenced><mi>)</mi>

6、其中,是將rgbd圖像升維成點(diǎn)云的函數(shù)。

7、可選地，在上述基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法中，在步驟s2中，將初始點(diǎn)云劃分為2*2*2的8個區(qū)域，設(shè)置長度為的相機(jī)軌跡，設(shè)定表示相機(jī)在第個索引處的位置和姿態(tài)，在第步時的操作如下，首先將相機(jī)從前一個位置移動并旋轉(zhuǎn)到，將坐標(biāo)從世界坐標(biāo)系轉(zhuǎn)換到當(dāng)前相機(jī)坐標(biāo)系，并使用內(nèi)參矩陣和外參矩陣投影到相機(jī)平面。

8、可選地，在上述基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法中，在步驟s3中，在相機(jī)位置投影圖像，并使用掩碼區(qū)分已填充和未填充區(qū)域；利用穩(wěn)定擴(kuò)散模型修復(fù)圖像，并使用與步驟s1相同的單目深度估計網(wǎng)絡(luò)計算相應(yīng)的深度圖；估計最優(yōu)深度縮放系數(shù)以最小化新圖像的三維點(diǎn)與初始點(diǎn)云中相應(yīng)點(diǎn)之間的距離。

9、可選地，在上述基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法中，在步驟s3中，將相機(jī)處投影的圖像記為，定義掩碼來區(qū)分已被現(xiàn)有點(diǎn)填充的區(qū)域和未填充的區(qū)域，如果相應(yīng)像素已經(jīng)被填充，則的值為1，否則為0；使用穩(wěn)定擴(kuò)散修復(fù)模型將不完整圖像和掩碼生成為真實(shí)圖像；使用單目深度估計網(wǎng)絡(luò)進(jìn)行估計相應(yīng)的深度圖；估計最優(yōu)深度縮放系數(shù)，使得新圖像的3d點(diǎn)與初始點(diǎn)云中相應(yīng)點(diǎn)之間的距離最小化；然后通過將系數(shù)乘以估計的深度圖來計算實(shí)際深度圖，

10、<msub><mi>d</mi><mi>i</mi></msub><mi>=</mi><mi>arg</mi><mi>min</mi><mi>(</mi><mstyle displaystyle="true"><munder><mo>∑</mo><mo><msub><mi>m</mi><mi>i</mi></msub><mi>=1</mi></mo></munder><mrow><msub><本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，在步驟S1中，首先，獲取用戶的文本輸入，使用潛在擴(kuò)散模型生成給定文本相關(guān)的圖像；接著使用單目深度估計模型估計深度圖，將生成的RGB圖像和深度圖分別表示為和，其中和分別是圖像的高度和寬度，根據(jù)從所述潛在擴(kuò)散模型生成的和，根據(jù)圖像大小來約定相機(jī)內(nèi)參矩陣和外參矩陣；對于輸入的RGBD圖像，將其初始化為空間的點(diǎn)云；使用第一張圖像生成的初始點(diǎn)云定義為，其表達(dá)式為：

3.根據(jù)權(quán)利要求1所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，在步驟S2中，將初始點(diǎn)云劃分為2*2*2的8個區(qū)域，設(shè)置長度為的相機(jī)軌跡，設(shè)定表示相機(jī)在第個索引處的位置和姿態(tài)，在第步時的操作如下，首先將相機(jī)從前一個位置移動并旋轉(zhuǎn)到，將坐標(biāo)從世界坐標(biāo)系轉(zhuǎn)換到當(dāng)前相機(jī)坐標(biāo)系，并使用內(nèi)參矩陣和外參矩陣投影到相機(jī)平面。

4.根據(jù)權(quán)利要求1所述的的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，在步驟S3中，在相機(jī)

5.根據(jù)權(quán)利要求4所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，在步驟S3中，將相機(jī)處投影的圖像記為，定義掩碼來區(qū)分已被現(xiàn)有點(diǎn)填充的區(qū)域和未填充的區(qū)域，如果相應(yīng)像素已經(jīng)被填充，則的值為1，否則為0；使用穩(wěn)定擴(kuò)散修復(fù)模型將不完整圖像和掩碼生成為真實(shí)圖像；使用單目深度估計網(wǎng)絡(luò)進(jìn)行估計相應(yīng)的深度圖；估計最優(yōu)深度縮放系數(shù)，使得新圖像的3D點(diǎn)與初始點(diǎn)云中相應(yīng)點(diǎn)之間的距離最小化；然后通過將系數(shù)乘以估計的深度圖來計算實(shí)際深度圖，

6.根據(jù)權(quán)利要求5所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，在步驟S4中，在三維空間中移動新點(diǎn)云以平滑連接點(diǎn)云；提取掩碼值變化的區(qū)域，計算從新點(diǎn)云到初始點(diǎn)云的位移向量，并通過插值算法保持初始點(diǎn)云的整體形狀，在3D空間中移動在第步生成的新點(diǎn)云的點(diǎn)，以平滑地連接兩個點(diǎn)云和，重復(fù)該過程次以構(gòu)建最終的點(diǎn)云。

7.根據(jù)權(quán)利要求6所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，在步驟S4中，在三維空空間中移動在第步生成的新點(diǎn)云的點(diǎn)，以平滑地連接兩個點(diǎn)云和；提取掩碼值變化的區(qū)域，即，以找到在和中對應(yīng)該區(qū)域的點(diǎn)；然后，計算從到的位移向量。

8.根據(jù)權(quán)利要求7所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，在步驟S4中，強(qiáng)制中的每個點(diǎn)沿著從相機(jī)中心到相應(yīng)像素的射線移動；沿射線找到距離中相應(yīng)點(diǎn)最近的點(diǎn)，并記錄移動導(dǎo)致的深度變化；通過這個約束，在三維空間中移動點(diǎn)時保留RGB圖像的內(nèi)容；然后，對于沒有真實(shí)對應(yīng)點(diǎn)的點(diǎn)（），通過線性插值計算每個像素的深度值應(yīng)如何變化；通過平滑插值，緩解了劇烈移動引起的像素間的不匹配；對齊的點(diǎn)云與初始點(diǎn)云結(jié)合表示為：

9.根據(jù)權(quán)利要求1所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，在步驟S5中，在最終的點(diǎn)云創(chuàng)建后，使用點(diǎn)云和投影圖像訓(xùn)練所述三維高斯?jié)姙R模型，三維高斯的中心點(diǎn)根據(jù)輸入點(diǎn)云進(jìn)行初始化，通過輸入的真實(shí)投影圖像的監(jiān)督來改變每個點(diǎn)的體積和位置；為了訓(xùn)練所述三維高斯?jié)姙R模型的圖像，使用額外的張圖像和用于生成點(diǎn)云的張圖像，最后得到渲染出的三維場景。

...

【技術(shù)特征摘要】

1.一種基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，包括以下步驟：

2.根據(jù)權(quán)利要求1所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，在步驟s1中，首先，獲取用戶的文本輸入，使用潛在擴(kuò)散模型生成給定文本相關(guān)的圖像；接著使用單目深度估計模型估計深度圖，將生成的rgb圖像和深度圖分別表示為和，其中和分別是圖像的高度和寬度，根據(jù)從所述潛在擴(kuò)散模型生成的和，根據(jù)圖像大小來約定相機(jī)內(nèi)參矩陣和外參矩陣；對于輸入的rgbd圖像，將其初始化為空間的點(diǎn)云；使用第一張圖像生成的初始點(diǎn)云定義為，其表達(dá)式為：

3.根據(jù)權(quán)利要求1所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，在步驟s2中，將初始點(diǎn)云劃分為2*2*2的8個區(qū)域，設(shè)置長度為的相機(jī)軌跡，設(shè)定表示相機(jī)在第個索引處的位置和姿態(tài)，在第步時的操作如下，首先將相機(jī)從前一個位置移動并旋轉(zhuǎn)到，將坐標(biāo)從世界坐標(biāo)系轉(zhuǎn)換到當(dāng)前相機(jī)坐標(biāo)系，并使用內(nèi)參矩陣和外參矩陣投影到相機(jī)平面。

4.根據(jù)權(quán)利要求1所述的的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，在步驟s3中，在相機(jī)位置投影圖像，并使用掩碼區(qū)分已填充和未填充區(qū)域；利用穩(wěn)定擴(kuò)散模型修復(fù)圖像，并使用與步驟s1相同的單目深度估計網(wǎng)絡(luò)計算相應(yīng)的深度圖；估計最優(yōu)深度縮放系數(shù)以最小化新圖像的三維點(diǎn)與初始點(diǎn)云中相應(yīng)點(diǎn)之間的距離。

5.根據(jù)權(quán)利要求4所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法，其特征在于，在步驟s3中，將相機(jī)處投影的圖像記為，定義掩碼來區(qū)分已被現(xiàn)有點(diǎn)填充的區(qū)域和未填充的區(qū)域，如果相應(yīng)像素已經(jīng)被填充，則的值為1，否則為0；使用穩(wěn)定擴(kuò)散修復(fù)模型將不完整圖像和掩碼生成為真實(shí)圖像；使用單目深度估計網(wǎng)絡(luò)進(jìn)行估計相應(yīng)的深度圖；...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：王煜中，張世雄，胡煥強(qiáng)，龍仕強(qiáng)，魏文應(yīng)，黎俊良，鄧嚴(yán)萍，
申請(專利權(quán))人：廣東博華超高清創(chuàng)新中心有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)