System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及計算機(jī)視覺領(lǐng)域,特別地,涉及一種基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法。
技術(shù)介紹
1、生成式人工智能和三維模型在當(dāng)今許多領(lǐng)域都非常重要并且有廣泛的應(yīng)用場景,例如虛擬現(xiàn)實(shí)、游戲開發(fā)和視頻制作等。三維高斯?jié)姙R(3dgs)于2023年被提出,是三維重建領(lǐng)域在近期最為革命性的創(chuàng)新。相比于之前基于nerf的方法的隱式表達(dá),3dgs從基于點(diǎn)云的三維重建方法中吸取顯式表達(dá)的優(yōu)勢,比起nerf需要查詢神經(jīng)網(wǎng)絡(luò)實(shí)時計算得出場景,3dgs擁有更快的渲染速度和更短的訓(xùn)練時間。
2、隨著三維圖形技術(shù)的快速創(chuàng)新,高質(zhì)量的三維場景生成已成為計算機(jī)視覺中最重要的問題之一。這要求能夠從各種類型的輸入(如文本、圖像)創(chuàng)建多樣且真實(shí)的三維場景。目前有一些嘗試使用擴(kuò)散模型在體素、點(diǎn)云和隱式神經(jīng)表示中直接生成三維對象和場景,但由于基于三維掃描的訓(xùn)練數(shù)據(jù)的限制,結(jié)果卻是多樣性和質(zhì)量都得不到提升。應(yīng)對這一問題的一種方法是利用預(yù)訓(xùn)練的圖像生成擴(kuò)散模型(如stable?diffusion)的強(qiáng)大功能來創(chuàng)建多樣化的高質(zhì)量三維場景。盡管這種大型模型可以利用從大規(guī)模訓(xùn)練數(shù)據(jù)中學(xué)習(xí)到的數(shù)據(jù)驅(qū)動知識創(chuàng)建出合理的圖像,但它并不能保證生成圖像之間的多視圖一致性。
3、因此,在現(xiàn)有技術(shù)中,生成的三維場景往往做不到在多視圖之間保持一致性,并且三維場景細(xì)節(jié)不足,現(xiàn)有技術(shù)難以生成高質(zhì)量的連續(xù)的三維場景。
4、解決以上問題及缺陷的難度為:將穩(wěn)定擴(kuò)散模型與三維高斯?jié)姙R結(jié)合起來,這需要使用穩(wěn)定擴(kuò)散模型來對點(diǎn)云進(jìn)行操作,從而讓三維高斯?jié)姙R渲染出三維
5、解決以上問題及缺陷的意義為:給出了一種切實(shí)可行的文生三維場景的思路,是穩(wěn)定擴(kuò)散模型與三維高斯?jié)姙R結(jié)合的成功嘗試。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)提供了一種基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,有效提高了文生三維場景的多樣性和質(zhì)量,并提升了生成效率。
2、本專利技術(shù)的技術(shù)方案如下:
3、本專利技術(shù)的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,包括以下步驟:s1.點(diǎn)云初始化與深度估計;s2.設(shè)定相機(jī)軌跡;s3.生成;s4.對齊點(diǎn)云與修復(fù)圖像;s5.使用高斯?jié)姙R渲染得到渲染出的三維場景。
4、可選地,在上述基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法中,在步驟s1中,首先,獲取用戶的文本輸入,使用潛在擴(kuò)散模型生成給定文本相關(guān)的圖像;接著使用單目深度估計模型估計深度圖,將生成的rgb圖像和深度圖分別表示為和,其中和分別是圖像的高度和寬度,根據(jù)從潛在擴(kuò)散模型生成的和,根據(jù)圖像大小來約定相機(jī)內(nèi)參矩陣和外參矩陣;對于輸入的rgbd圖像<mi>[</mi><msub><mi>i</mi><mn>0</mn></msub><mi>,</mi><msub><mi>d</mi><mn>0</mn></msub><mi>]</mi>,將其初始化為空間的點(diǎn)云;使用第一張圖像生成的初始點(diǎn)云定義為,其表達(dá)式為:
5、<msub><mi>p</mi><mn>0</mn></msub><mi>=</mi><msub><mi>?</mi><mi>2→3</mi></msub><mi>([</mi><msub><mi>i</mi><mn>0</mn></msub><mi>,</mi><msub><mi>d</mi><mn>0</mn></msub><mi>],</mi><mi>k</mi><mi>,</mi><mrow><msub><mi>r</mi><mn>0</mn></msub><mi>|</mi><msub><mi>t</mi><mn>0</mn></msub></mrow></mfenced><mi>)</mi>
6、其中,是將rgbd圖像升維成點(diǎn)云的函數(shù)。
7、可選地,在上述基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法中,在步驟s2中,將初始點(diǎn)云劃分為2*2*2的8個區(qū)域,設(shè)置長度為的相機(jī)軌跡,設(shè)定表示相機(jī)在第個索引處的位置和姿態(tài),在第步時的操作如下,首先將相機(jī)從前一個位置移動并旋轉(zhuǎn)到,將坐標(biāo)從世界坐標(biāo)系轉(zhuǎn)換到當(dāng)前相機(jī)坐標(biāo)系,并使用內(nèi)參矩陣和外參矩陣投影到相機(jī)平面。
8、可選地,在上述基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法中,在步驟s3中,在相機(jī)位置投影圖像,并使用掩碼區(qū)分已填充和未填充區(qū)域;利用穩(wěn)定擴(kuò)散模型修復(fù)圖像,并使用與步驟s1相同的單目深度估計網(wǎng)絡(luò)計算相應(yīng)的深度圖;估計最優(yōu)深度縮放系數(shù)以最小化新圖像的三維點(diǎn)與初始點(diǎn)云中相應(yīng)點(diǎn)之間的距離。
9、可選地,在上述基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法中,在步驟s3中,將相機(jī)處投影的圖像記為,定義掩碼來區(qū)分已被現(xiàn)有點(diǎn)填充的區(qū)域和未填充的區(qū)域,如果相應(yīng)像素已經(jīng)被填充,則的值為1,否則為0;使用穩(wěn)定擴(kuò)散修復(fù)模型將不完整圖像和掩碼生成為真實(shí)圖像;使用單目深度估計網(wǎng)絡(luò)進(jìn)行估計相應(yīng)的深度圖;估計最優(yōu)深度縮放系數(shù),使得新圖像的3d點(diǎn)與初始點(diǎn)云中相應(yīng)點(diǎn)之間的距離最小化;然后通過將系數(shù)乘以估計的深度圖來計算實(shí)際深度圖,
10、<msub><mi>d</mi><mi>i</mi></msub><mi>=</mi><mi>arg</mi><mi>min</mi><mi>(</mi><mstyle displaystyle="true"><munder><mo>∑</mo><mo><msub><mi>m</mi><mi>i</mi></msub><mi>=1</mi></mo></munder><mrow><msub><本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,在步驟S1中,首先,獲取用戶的文本輸入,使用潛在擴(kuò)散模型生成給定文本相關(guān)的圖像;接著使用單目深度估計模型估計深度圖,將生成的RGB圖像和深度圖分別表示為和,其中和分別是圖像的高度和寬度,根據(jù)從所述潛在擴(kuò)散模型生成的和,根據(jù)圖像大小來約定相機(jī)內(nèi)參矩陣和外參矩陣;對于輸入的RGBD圖像,將其初始化為空間的點(diǎn)云;使用第一張圖像生成的初始點(diǎn)云定義為,其表達(dá)式為:
3.根據(jù)權(quán)利要求1所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,在步驟S2中,將初始點(diǎn)云劃分為2*2*2的8個區(qū)域,設(shè)置長度為的相機(jī)軌跡,設(shè)定表示相機(jī)在第個索引處的位置和姿態(tài),在第步時的操作如下,首先將相機(jī)從前一個位置移動并旋轉(zhuǎn)到,將坐標(biāo)從世界坐標(biāo)系轉(zhuǎn)換到當(dāng)前相機(jī)坐標(biāo)系,并使用內(nèi)參矩陣和外參矩陣投影到相機(jī)平面。
4.根據(jù)權(quán)利要求1所述的的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,在步驟S3中,在相機(jī)
5.根據(jù)權(quán)利要求4所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,在步驟S3中,將相機(jī)處投影的圖像記為,定義掩碼來區(qū)分已被現(xiàn)有點(diǎn)填充的區(qū)域和未填充的區(qū)域,如果相應(yīng)像素已經(jīng)被填充,則的值為1,否則為0;使用穩(wěn)定擴(kuò)散修復(fù)模型將不完整圖像和掩碼生成為真實(shí)圖像;使用單目深度估計網(wǎng)絡(luò)進(jìn)行估計相應(yīng)的深度圖;估計最優(yōu)深度縮放系數(shù),使得新圖像的3D點(diǎn)與初始點(diǎn)云中相應(yīng)點(diǎn)之間的距離最小化;然后通過將系數(shù)乘以估計的深度圖來計算實(shí)際深度圖,
6.根據(jù)權(quán)利要求5所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,在步驟S4中,在三維空間中移動新點(diǎn)云以平滑連接點(diǎn)云;提取掩碼值變化的區(qū)域,計算從新點(diǎn)云到初始點(diǎn)云的位移向量,并通過插值算法保持初始點(diǎn)云的整體形狀,在3D空間中移動在第步生成的新點(diǎn)云的點(diǎn),以平滑地連接兩個點(diǎn)云和,重復(fù)該過程次以構(gòu)建最終的點(diǎn)云。
7.根據(jù)權(quán)利要求6所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,在步驟S4中,在三維空空間中移動在第步生成的新點(diǎn)云的點(diǎn),以平滑地連接兩個點(diǎn)云和;提取掩碼值變化的區(qū)域,即,以找到在和中對應(yīng)該區(qū)域的點(diǎn);然后,計算從到的位移向量。
8.根據(jù)權(quán)利要求7所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,在步驟S4中,強(qiáng)制中的每個點(diǎn)沿著從相機(jī)中心到相應(yīng)像素的射線移動;沿射線找到距離中相應(yīng)點(diǎn)最近的點(diǎn),并記錄移動導(dǎo)致的深度變化;通過這個約束,在三維空間中移動點(diǎn)時保留RGB圖像的內(nèi)容;然后,對于沒有真實(shí)對應(yīng)點(diǎn)的點(diǎn)(),通過線性插值計算每個像素的深度值應(yīng)如何變化;通過平滑插值,緩解了劇烈移動引起的像素間的不匹配;對齊的點(diǎn)云與初始點(diǎn)云結(jié)合表示為:
9.根據(jù)權(quán)利要求1所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,在步驟S5中,在最終的點(diǎn)云創(chuàng)建后,使用點(diǎn)云和投影圖像訓(xùn)練所述三維高斯?jié)姙R模型,三維高斯的中心點(diǎn)根據(jù)輸入點(diǎn)云進(jìn)行初始化,通過輸入的真實(shí)投影圖像的監(jiān)督來改變每個點(diǎn)的體積和位置;為了訓(xùn)練所述三維高斯?jié)姙R模型的圖像,使用額外的張圖像和用于生成點(diǎn)云的張圖像,最后得到渲染出的三維場景。
...【技術(shù)特征摘要】
1.一種基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,在步驟s1中,首先,獲取用戶的文本輸入,使用潛在擴(kuò)散模型生成給定文本相關(guān)的圖像;接著使用單目深度估計模型估計深度圖,將生成的rgb圖像和深度圖分別表示為和,其中和分別是圖像的高度和寬度,根據(jù)從所述潛在擴(kuò)散模型生成的和,根據(jù)圖像大小來約定相機(jī)內(nèi)參矩陣和外參矩陣;對于輸入的rgbd圖像,將其初始化為空間的點(diǎn)云;使用第一張圖像生成的初始點(diǎn)云定義為,其表達(dá)式為:
3.根據(jù)權(quán)利要求1所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,在步驟s2中,將初始點(diǎn)云劃分為2*2*2的8個區(qū)域,設(shè)置長度為的相機(jī)軌跡,設(shè)定表示相機(jī)在第個索引處的位置和姿態(tài),在第步時的操作如下,首先將相機(jī)從前一個位置移動并旋轉(zhuǎn)到,將坐標(biāo)從世界坐標(biāo)系轉(zhuǎn)換到當(dāng)前相機(jī)坐標(biāo)系,并使用內(nèi)參矩陣和外參矩陣投影到相機(jī)平面。
4.根據(jù)權(quán)利要求1所述的的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,在步驟s3中,在相機(jī)位置投影圖像,并使用掩碼區(qū)分已填充和未填充區(qū)域;利用穩(wěn)定擴(kuò)散模型修復(fù)圖像,并使用與步驟s1相同的單目深度估計網(wǎng)絡(luò)計算相應(yīng)的深度圖;估計最優(yōu)深度縮放系數(shù)以最小化新圖像的三維點(diǎn)與初始點(diǎn)云中相應(yīng)點(diǎn)之間的距離。
5.根據(jù)權(quán)利要求4所述的基于穩(wěn)定擴(kuò)散模型的無領(lǐng)域限制文生三維場景方法,其特征在于,在步驟s3中,將相機(jī)處投影的圖像記為,定義掩碼來區(qū)分已被現(xiàn)有點(diǎn)填充的區(qū)域和未填充的區(qū)域,如果相應(yīng)像素已經(jīng)被填充,則的值為1,否則為0;使用穩(wěn)定擴(kuò)散修復(fù)模型將不完整圖像和掩碼生成為真實(shí)圖像;使用單目深度估計網(wǎng)絡(luò)進(jìn)行估計相應(yīng)的深度圖;...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王煜中,張世雄,胡煥強(qiáng),龍仕強(qiáng),魏文應(yīng),黎俊良,鄧嚴(yán)萍,
申請(專利權(quán))人:廣東博華超高清創(chuàng)新中心有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。