當(dāng)前位置: 首頁(yè) > 專利查詢>廣東博華超高清創(chuàng)新中心有限公司專利>正文

基于三維高斯濺射技術(shù)的開放詞匯3D分割方法技術(shù)

技術(shù)編號(hào)：44328345 閱讀：6 留言：0更新日期：2025-02-18 20:36

本發(fā)明專利技術(shù)提供了一種基于三維高斯濺射技術(shù)的開放詞匯3D分割方法，包括：S1.獲取多視圖2D圖像集合，進(jìn)行初始化三維重建；S2.使用SAM對(duì)多視圖進(jìn)行分割，獲取2D掩碼；S3.使用視頻跟蹤分割模型（SAM2）關(guān)聯(lián)同一個(gè)實(shí)例的掩碼；S4.使用視覺語言模型（CLIP）對(duì)每個(gè)掩碼提取開放詞匯特征；S5.將每個(gè)實(shí)例的掩碼的CLIP特征做平均池化并降維，形成該實(shí)例的代表性開放詞匯特征；S7.訓(xùn)練模型，監(jiān)督低維嵌入特征的嵌入；S8.通過比較查詢文本的CLIP特征與高斯體的語義特征，得到相關(guān)性高的高斯體，通過光柵化渲染生成查詢物體的掩碼。本發(fā)明專利技術(shù)方法僅需要多視圖的2D圖像，利用三維高斯濺射技術(shù)結(jié)合開放詞匯技術(shù)來分割三維物體和場(chǎng)景，以解決3D數(shù)據(jù)采集困難，成本高的問題。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及視覺語言模型領(lǐng)域，特別地，涉及一種基于三維高斯濺射技術(shù)的開放詞匯3d分割方法。

技術(shù)介紹

1、3d分割技術(shù)是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)重要研究方向，它旨在對(duì)三維空間中的物體進(jìn)行檢測(cè)和分割，為自動(dòng)駕駛、機(jī)器人、醫(yī)療成像等多個(gè)領(lǐng)域提供關(guān)鍵技術(shù)支持。當(dāng)前主流的3d分割方法分為基于深度學(xué)習(xí)的3d分割方法和開放詞匯3d分割方法。其中，基于深度學(xué)習(xí)的3d分割方法通常需要大量的人工標(biāo)注數(shù)據(jù)來訓(xùn)練模型，對(duì)于未見過的類別識(shí)別能力有限。而開放詞匯3d分割方法能夠識(shí)別分割訓(xùn)練集中未出現(xiàn)過的物體類別，并提供物體的物理形狀、大小和空間位置等三維信息，極大地增強(qiáng)了對(duì)物體和場(chǎng)景的理解。

2、現(xiàn)有公開技術(shù)中，論文《openscene:?3d?scene?understanding?with?openvocabularies》提出了一種用于開放詞匯的3d場(chǎng)景分割技術(shù)，該方法依賴于精準(zhǔn)對(duì)齊的2d圖像和3d點(diǎn)云數(shù)據(jù)，并且為了訓(xùn)練3d分割模型，還需要人工對(duì)3d分割掩碼進(jìn)行標(biāo)注。

3、現(xiàn)有技術(shù)中存在的主要問題是：現(xiàn)有的開放詞匯3d分割技術(shù)通常依賴精準(zhǔn)對(duì)齊的2d圖像、深度圖和3d點(diǎn)云數(shù)據(jù)，這需要復(fù)雜、昂貴的數(shù)據(jù)采集和人工標(biāo)注，同時(shí)限制了模型在未知環(huán)境的應(yīng)用靈活性和實(shí)用性。

4、解決以上問題的難度為：3d分割數(shù)據(jù)標(biāo)注工作繁瑣，而且成本較高，用于3d分割的開源數(shù)據(jù)集相對(duì)匱乏，限制了模型在未知環(huán)境的應(yīng)用靈活性和實(shí)用性。

5、解決上述問題的意義為：開發(fā)一種合適的開放詞匯3d分割方法用于檢測(cè)和分割三維空間中的物體、場(chǎng)景，為自

技術(shù)實(shí)現(xiàn)思路

1、本專利技術(shù)提供了一種基于三維高斯濺射技術(shù)的開放詞匯3d分割方法，僅需要多視圖的2d圖像，利用三維高斯濺射技術(shù)結(jié)合開放詞匯技術(shù)來分割三維物體和場(chǎng)景，以解決3d數(shù)據(jù)采集困難，成本高的問題。

2、本專利技術(shù)的技術(shù)方案如下：

3、本專利技術(shù)的基于三維高斯濺射技術(shù)的開放詞匯3d分割方法，包括以下步驟：s1.?獲取多視圖2d圖像集合，并用三維高斯濺射技術(shù)進(jìn)行初始化三維重建；s2.?使用圖像分割模型（sam）對(duì)多視圖集合中的每個(gè)圖像進(jìn)行分割，獲取2d實(shí)例掩碼；s3.?使用視頻跟蹤分割模型（sam2）關(guān)聯(lián)同一個(gè)實(shí)例的掩碼；s4.?使用視覺語言模型（clip）對(duì)每個(gè)掩碼提取開放詞匯特征；s5.?將每個(gè)實(shí)例的掩碼的clip特征做平均池化并降維，形成該實(shí)例的代表性開放詞匯特征；s6.?使用低維嵌入特征初始化?3d?高斯體，并使用特征光柵化器渲染特征圖l；s7.?訓(xùn)練模型，將渲染的特征圖l與原始clip特征之間的特征距離最小化，以監(jiān)督低維嵌入特征的嵌入；s8.?通過比較查詢文本的clip特征與高斯體的語義特征，得到相關(guān)性高的高斯體，通過光柵化渲染生成查詢物體的掩碼。

4、可選地，在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中，在步驟s1中，首先獲得三維場(chǎng)景或物體的多視圖2d圖像集合，然后用運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)技術(shù)（sfm）處理多視圖2d圖像獲得稀疏的三維點(diǎn)云，并使用這些稀疏的三維點(diǎn)云初始化?3d?高斯體集合，進(jìn)行初始化三維重建。

5、可選地，在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中，在步驟s1中，每個(gè)高斯體都由均值μ和三維協(xié)方差矩陣??定義，其中r和s表示旋轉(zhuǎn)矩陣和縮放矩陣，每個(gè)高斯體的中心點(diǎn)μ對(duì)應(yīng)于特征點(diǎn)的三維坐標(biāo)，旋轉(zhuǎn)矩陣和縮放矩陣是隨機(jī)初始化的，高斯體的形狀和大小則根據(jù)特征點(diǎn)的分布和視差信息確定。

6、可選地，在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中，在步驟s3中，將三維場(chǎng)景的多視圖圖像視為視圖逐漸變化的視頻序列，采用預(yù)訓(xùn)練的視頻跟蹤分割模型（sam2）來跟蹤和關(guān)聯(lián)同一個(gè)實(shí)例的掩碼，以實(shí)現(xiàn)跨視圖的2d掩碼一致性。

7、可選地，在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中，在步驟s5中，將每個(gè)實(shí)例的掩碼的所有clip特征融合起來，并通過一個(gè)可學(xué)習(xí)的壓縮編碼器對(duì)高維clip特征進(jìn)行降維，形成該實(shí)例的代表性開放詞匯特征。

8、可選地，在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中，在步驟s5中，將每個(gè)實(shí)例的掩碼的clip特征做平均池化，以獲得平均的clip特征f，定義為：

9、?????????????????????????????(1)

10、其中代表第i個(gè)實(shí)例的第j個(gè)2d掩碼clip特征，將高維clip特征f壓縮到低維嵌入特征，定義為：，其中代表可學(xué)習(xí)的壓縮編碼器，由兩層全連接層構(gòu)成。

11、可選地，在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中，在步驟s6中，使用低維嵌入特征初始化?3d?高斯體，將clip特征嵌入到3d高斯體中，并將低維嵌入特征當(dāng)作高斯體的一個(gè)參數(shù)進(jìn)行渲染，使用特征光柵化器渲染特征圖l，定義為：

12、??????????????????????(2)

13、其中是嵌入到第i個(gè)高斯體的開放詞匯特征，代表像素u處渲染的開放詞匯特征圖。

14、可選地，在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中，在步驟s7中，從渲染特征圖中的每個(gè)掩碼隨機(jī)選取m個(gè)像素來代表該掩碼，然后通過可訓(xùn)練的解碼器?ψ來恢復(fù)潛在clip特征，并與原始rgb圖得到的clip特征進(jìn)行損失計(jì)算，最小化潛在低維特征與clip特征的差異。

15、可選地，在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中，在步驟s7中，將渲染的特征圖l中每個(gè)2d掩碼的潛在特征恢復(fù)到?clip?空間，然后最小化恢復(fù)的潛在clip特征與原始clip?特征之間的距離，具體操作為：在每個(gè)掩碼內(nèi)隨機(jī)采樣m個(gè)像素，然后通過由兩層全連接層組成的可訓(xùn)練解碼器恢復(fù)潛在clip特征，其中，所有采樣的m個(gè)像素的恢復(fù)的潛在clip特征和?clip?特征之間的特征蒸餾損失定義為：

16、?????????(3)。

17、可選地，在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中，在步驟s8中，訓(xùn)練過后高斯體能夠表達(dá)語義特征，通過開放詞匯查詢找到語言指令描述的對(duì)象，首先計(jì)算每個(gè)高斯體文本查詢的相關(guān)性分?jǐn)?shù)s，定義為：

18、????????????????????(4)

19、其中是查詢文本的clip特征，是一組規(guī)范短語，從“對(duì)象”、“事物”、“東西”和“紋理”中選擇，為可訓(xùn)練解碼器，l是高斯體渲染的特征圖；對(duì)于每個(gè)文本查詢，獲得一個(gè)相關(guān)性熱圖，其中相關(guān)性得分低于預(yù)先確定的閾值的高斯體將被過濾掉，剩余區(qū)域通過光柵化渲染形成一個(gè)用于預(yù)測(cè)被查詢對(duì)象的掩碼。

20、根據(jù)本專利技術(shù)的技術(shù)方案，產(chǎn)生的有益效果是：

21、1）與現(xiàn)有技術(shù)相比，本專利技術(shù)采用預(yù)訓(xùn)練的視覺語言模型（clip）獲得文本語義特征，形成開放詞匯，并通過三維高斯濺射技術(shù)將clip特征與高斯場(chǎng)結(jié)合，形成高斯語義場(chǎng)，使得高斯場(chǎng)能夠響應(yīng)文本特征查詢，提升了對(duì)物體和現(xiàn)實(shí)世界場(chǎng)景的感知能力；

2本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于三維高斯濺射技術(shù)的開放詞匯3D分割方法，其特征在于，包括以下步驟：

2.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法，其特征在于，在步驟S1中，首先獲得三維場(chǎng)景或物體的所述多視圖2D圖像集合，然后用運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)技術(shù)（SFM）處理多視圖2D圖像獲得稀疏的三維點(diǎn)云，并使用這些稀疏的三維點(diǎn)云初始化?3D高斯體集合，進(jìn)行所述初始化三維重建。

3.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法，其特征在于，在步驟S1中，每個(gè)高斯體都由均值μ和三維協(xié)方差矩陣??定義，其中R和S表示旋轉(zhuǎn)矩陣和縮放矩陣，每個(gè)高斯體的中心點(diǎn)μ對(duì)應(yīng)于特征點(diǎn)的三維坐標(biāo)，旋轉(zhuǎn)矩陣和縮放矩陣是隨機(jī)初始化的，高斯體的形狀和大小則根據(jù)特征點(diǎn)的分布和視差信息確定。

4.根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法，其特征在于，在步驟S3中，將三維場(chǎng)景的多視圖圖像視為視圖逐漸變化的視頻序列，采用預(yù)訓(xùn)練的視頻跟蹤分割模型（SAM2）來跟蹤和關(guān)聯(lián)同一個(gè)實(shí)例的掩碼，以實(shí)現(xiàn)跨視圖的2D掩碼一致性。

5.根據(jù)權(quán)利要求項(xiàng)

6.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法，其特征在于，在步驟S5中，將每個(gè)實(shí)例的掩碼的CLIP特征做平均池化，以獲得平均的CLIP特征F，定義為：

7.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法，其特征在于，在步驟S6中，使用低維嵌入特征初始化?3D?高斯體，將所述CLIP特征嵌入到所述3D高斯體中，并將低維嵌入特征當(dāng)作高斯體的一個(gè)參數(shù)進(jìn)行渲染，使用特征光柵化器渲染特征圖L，定義為：

8.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法，其特征在于，在步驟S7中，從渲染特征圖中的每個(gè)掩碼隨機(jī)選取m個(gè)像素來代表該掩碼，然后通過可訓(xùn)練的解碼器?Ψ?來恢復(fù)潛在CLIP特征，并與原始RGB圖得到的CLIP特征進(jìn)行損失計(jì)算，最小化潛在低維特征與CLIP特征的差異。

9.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法，其特征在于，在步驟S7中，將渲染的特征圖L中每個(gè)2D掩碼的潛在特征恢復(fù)到?CLIP?空間，然后最小化恢復(fù)的潛在CLIP特征與原始CLIP?特征之間的距離，具體操作為：在每個(gè)掩碼內(nèi)隨機(jī)采樣m個(gè)像素，然后通過由兩層全連接層組成的可訓(xùn)練解碼器恢復(fù)潛在CLIP特征，其中，所有采樣的m個(gè)像素的恢復(fù)的潛在CLIP特征和?CLIP?特征之間的特征蒸餾損失定義為：

10.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法，其特征在于，在步驟S8中，訓(xùn)練過后高斯體能夠表達(dá)語義特征，通過開放詞匯查詢找到語言指令描述的對(duì)象，首先計(jì)算每個(gè)高斯體文本查詢的相關(guān)性分?jǐn)?shù)s，定義為：

...

【技術(shù)特征摘要】

1.一種基于三維高斯濺射技術(shù)的開放詞匯3d分割方法，其特征在于，包括以下步驟：

2.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3d分割方法，其特征在于，在步驟s1中，首先獲得三維場(chǎng)景或物體的所述多視圖2d圖像集合，然后用運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)技術(shù)（sfm）處理多視圖2d圖像獲得稀疏的三維點(diǎn)云，并使用這些稀疏的三維點(diǎn)云初始化?3d高斯體集合，進(jìn)行所述初始化三維重建。

3.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3d分割方法，其特征在于，在步驟s1中，每個(gè)高斯體都由均值μ和三維協(xié)方差矩陣??定義，其中r和s表示旋轉(zhuǎn)矩陣和縮放矩陣，每個(gè)高斯體的中心點(diǎn)μ對(duì)應(yīng)于特征點(diǎn)的三維坐標(biāo)，旋轉(zhuǎn)矩陣和縮放矩陣是隨機(jī)初始化的，高斯體的形狀和大小則根據(jù)特征點(diǎn)的分布和視差信息確定。

4.根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3d分割方法，其特征在于，在步驟s3中，將三維場(chǎng)景的多視圖圖像視為視圖逐漸變化的視頻序列，采用預(yù)訓(xùn)練的視頻跟蹤分割模型（sam2）來跟蹤和關(guān)聯(lián)同一個(gè)實(shí)例的掩碼，以實(shí)現(xiàn)跨視圖的2d掩碼一致性。

5.根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3d分割方法，其特征在于，在步驟s5中，將每個(gè)實(shí)例的掩碼的所有clip特征融合起來，并通過一個(gè)可學(xué)習(xí)的壓縮編碼器對(duì)高維clip特征進(jìn)行降維，形成該實(shí)例的代表性開放詞匯特征。

6.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3d分割方法，其特征在于，在步驟s5中，將每個(gè)實(shí)...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：胡煥強(qiáng)，張世雄，肖鐵軍，魏文應(yīng)，李若塵，鄧嚴(yán)萍，
申請(qǐng)(專利權(quán))人：廣東博華超高清創(chuàng)新中心有限公司，
類型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)