System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及視覺語言模型領(lǐng)域,特別地,涉及一種基于三維高斯濺射技術(shù)的開放詞匯3d分割方法。
技術(shù)介紹
1、3d分割技術(shù)是計(jì)算機(jī)視覺領(lǐng)域中的一個(gè)重要研究方向,它旨在對(duì)三維空間中的物體進(jìn)行檢測(cè)和分割,為自動(dòng)駕駛、機(jī)器人、醫(yī)療成像等多個(gè)領(lǐng)域提供關(guān)鍵技術(shù)支持。當(dāng)前主流的3d分割方法分為基于深度學(xué)習(xí)的3d分割方法和開放詞匯3d分割方法。其中,基于深度學(xué)習(xí)的3d分割方法通常需要大量的人工標(biāo)注數(shù)據(jù)來訓(xùn)練模型,對(duì)于未見過的類別識(shí)別能力有限。而開放詞匯3d分割方法能夠識(shí)別分割訓(xùn)練集中未出現(xiàn)過的物體類別,并提供物體的物理形狀、大小和空間位置等三維信息,極大地增強(qiáng)了對(duì)物體和場(chǎng)景的理解。
2、現(xiàn)有公開技術(shù)中,論文《openscene:?3d?scene?understanding?with?openvocabularies》提出了一種用于開放詞匯的3d場(chǎng)景分割技術(shù),該方法依賴于精準(zhǔn)對(duì)齊的2d圖像和3d點(diǎn)云數(shù)據(jù),并且為了訓(xùn)練3d分割模型,還需要人工對(duì)3d分割掩碼進(jìn)行標(biāo)注。
3、現(xiàn)有技術(shù)中存在的主要問題是:現(xiàn)有的開放詞匯3d分割技術(shù)通常依賴精準(zhǔn)對(duì)齊的2d圖像、深度圖和3d點(diǎn)云數(shù)據(jù),這需要復(fù)雜、昂貴的數(shù)據(jù)采集和人工標(biāo)注,同時(shí)限制了模型在未知環(huán)境的應(yīng)用靈活性和實(shí)用性。
4、解決以上問題的難度為:3d分割數(shù)據(jù)標(biāo)注工作繁瑣,而且成本較高,用于3d分割的開源數(shù)據(jù)集相對(duì)匱乏,限制了模型在未知環(huán)境的應(yīng)用靈活性和實(shí)用性。
5、解決上述問題的意義為:開發(fā)一種合適的開放詞匯3d分割方法用于檢測(cè)和分割三維空間中的物體、場(chǎng)景,為自
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)提供了一種基于三維高斯濺射技術(shù)的開放詞匯3d分割方法,僅需要多視圖的2d圖像,利用三維高斯濺射技術(shù)結(jié)合開放詞匯技術(shù)來分割三維物體和場(chǎng)景,以解決3d數(shù)據(jù)采集困難,成本高的問題。
2、本專利技術(shù)的技術(shù)方案如下:
3、本專利技術(shù)的基于三維高斯濺射技術(shù)的開放詞匯3d分割方法,包括以下步驟:s1.?獲取多視圖2d圖像集合,并用三維高斯濺射技術(shù)進(jìn)行初始化三維重建;s2.?使用圖像分割模型(sam)對(duì)多視圖集合中的每個(gè)圖像進(jìn)行分割,獲取2d實(shí)例掩碼;s3.?使用視頻跟蹤分割模型(sam2)關(guān)聯(lián)同一個(gè)實(shí)例的掩碼;s4.?使用視覺語言模型(clip)對(duì)每個(gè)掩碼提取開放詞匯特征;s5.?將每個(gè)實(shí)例的掩碼的clip特征做平均池化并降維,形成該實(shí)例的代表性開放詞匯特征;s6.?使用低維嵌入特征初始化?3d?高斯體,并使用特征光柵化器渲染特征圖l;s7.?訓(xùn)練模型,將渲染的特征圖l與原始clip特征之間的特征距離最小化,以監(jiān)督低維嵌入特征的嵌入;s8.?通過比較查詢文本的clip特征與高斯體的語義特征,得到相關(guān)性高的高斯體,通過光柵化渲染生成查詢物體的掩碼。
4、可選地,在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中,在步驟s1中,首先獲得三維場(chǎng)景或物體的多視圖2d圖像集合,然后用運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)技術(shù)(sfm)處理多視圖2d圖像獲得稀疏的三維點(diǎn)云,并使用這些稀疏的三維點(diǎn)云初始化?3d?高斯體集合,進(jìn)行初始化三維重建。
5、可選地,在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中,在步驟s1中,每個(gè)高斯體都由均值μ和三維協(xié)方差矩陣??定義,其中r和s表示旋轉(zhuǎn)矩陣和縮放矩陣,每個(gè)高斯體的中心點(diǎn)μ對(duì)應(yīng)于特征點(diǎn)的三維坐標(biāo),旋轉(zhuǎn)矩陣和縮放矩陣是隨機(jī)初始化的,高斯體的形狀和大小則根據(jù)特征點(diǎn)的分布和視差信息確定。
6、可選地,在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中,在步驟s3中,將三維場(chǎng)景的多視圖圖像視為視圖逐漸變化的視頻序列,采用預(yù)訓(xùn)練的視頻跟蹤分割模型(sam2)來跟蹤和關(guān)聯(lián)同一個(gè)實(shí)例的掩碼,以實(shí)現(xiàn)跨視圖的2d掩碼一致性。
7、可選地,在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中,在步驟s5中,將每個(gè)實(shí)例的掩碼的所有clip特征融合起來,并通過一個(gè)可學(xué)習(xí)的壓縮編碼器對(duì)高維clip特征進(jìn)行降維,形成該實(shí)例的代表性開放詞匯特征。
8、可選地,在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中,在步驟s5中,將每個(gè)實(shí)例的掩碼的clip特征做平均池化,以獲得平均的clip特征f,定義為:
9、?????????????????????????????(1)
10、其中代表第i個(gè)實(shí)例的第j個(gè)2d掩碼clip特征,將高維clip特征f壓縮到低維嵌入特征,定義為:,其中代表可學(xué)習(xí)的壓縮編碼器,由兩層全連接層構(gòu)成。
11、可選地,在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中,在步驟s6中,使用低維嵌入特征初始化?3d?高斯體,將clip特征嵌入到3d高斯體中,并將低維嵌入特征當(dāng)作高斯體的一個(gè)參數(shù)進(jìn)行渲染,使用特征光柵化器渲染特征圖l,定義為:
12、??????????????????????(2)
13、其中是嵌入到第i個(gè)高斯體的開放詞匯特征,代表像素u處渲染的開放詞匯特征圖。
14、可選地,在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中,在步驟s7中,從渲染特征圖中的每個(gè)掩碼隨機(jī)選取m個(gè)像素來代表該掩碼,然后通過可訓(xùn)練的解碼器?ψ來恢復(fù)潛在clip特征,并與原始rgb圖得到的clip特征進(jìn)行損失計(jì)算,最小化潛在低維特征與clip特征的差異。
15、可選地,在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中,在步驟s7中,將渲染的特征圖l中每個(gè)2d掩碼的潛在特征恢復(fù)到?clip?空間,然后最小化恢復(fù)的潛在clip特征與原始clip?特征之間的距離,具體操作為:在每個(gè)掩碼內(nèi)隨機(jī)采樣m個(gè)像素,然后通過由兩層全連接層組成的可訓(xùn)練解碼器恢復(fù)潛在clip特征,其中,所有采樣的m個(gè)像素的恢復(fù)的潛在clip特征和?clip?特征之間的特征蒸餾損失定義為:
16、?????????(3)。
17、可選地,在上述基于三維高斯濺射技術(shù)的開放詞匯3d分割方法中,在步驟s8中,訓(xùn)練過后高斯體能夠表達(dá)語義特征,通過開放詞匯查詢找到語言指令描述的對(duì)象,首先計(jì)算每個(gè)高斯體文本查詢的相關(guān)性分?jǐn)?shù)s,定義為:
18、????????????????????(4)
19、其中是查詢文本的clip特征,是一組規(guī)范短語,從“對(duì)象”、“事物”、“東西”和“紋理”中選擇,為可訓(xùn)練解碼器,l是高斯體渲染的特征圖;對(duì)于每個(gè)文本查詢,獲得一個(gè)相關(guān)性熱圖,其中相關(guān)性得分低于預(yù)先確定的閾值的高斯體將被過濾掉,剩余區(qū)域通過光柵化渲染形成一個(gè)用于預(yù)測(cè)被查詢對(duì)象的掩碼。
20、根據(jù)本專利技術(shù)的技術(shù)方案,產(chǎn)生的有益效果是:
21、1)與現(xiàn)有技術(shù)相比,本專利技術(shù)采用預(yù)訓(xùn)練的視覺語言模型(clip)獲得文本語義特征,形成開放詞匯,并通過三維高斯濺射技術(shù)將clip特征與高斯場(chǎng)結(jié)合,形成高斯語義場(chǎng),使得高斯場(chǎng)能夠響應(yīng)文本特征查詢,提升了對(duì)物體和現(xiàn)實(shí)世界場(chǎng)景的感知能力;
2本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于三維高斯濺射技術(shù)的開放詞匯3D分割方法,其特征在于,包括以下步驟:
2.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法,其特征在于,在步驟S1中,首先獲得三維場(chǎng)景或物體的所述多視圖2D圖像集合,然后用運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)技術(shù)(SFM)處理多視圖2D圖像獲得稀疏的三維點(diǎn)云,并使用這些稀疏的三維點(diǎn)云初始化?3D高斯體集合,進(jìn)行所述初始化三維重建。
3.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法,其特征在于,在步驟S1中,每個(gè)高斯體都由均值μ和三維協(xié)方差矩陣??定義,其中R和S表示旋轉(zhuǎn)矩陣和縮放矩陣,每個(gè)高斯體的中心點(diǎn)μ對(duì)應(yīng)于特征點(diǎn)的三維坐標(biāo),旋轉(zhuǎn)矩陣和縮放矩陣是隨機(jī)初始化的,高斯體的形狀和大小則根據(jù)特征點(diǎn)的分布和視差信息確定。
4.根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法,其特征在于,在步驟S3中,將三維場(chǎng)景的多視圖圖像視為視圖逐漸變化的視頻序列,采用預(yù)訓(xùn)練的視頻跟蹤分割模型(SAM2)來跟蹤和關(guān)聯(lián)同一個(gè)實(shí)例的掩碼,以實(shí)現(xiàn)跨視圖的2D掩碼一致性。
5.根據(jù)權(quán)利要求項(xiàng)
6.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法,其特征在于,在步驟S5中,將每個(gè)實(shí)例的掩碼的CLIP特征做平均池化,以獲得平均的CLIP特征F,定義為:
7.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法,其特征在于,在步驟S6中,使用低維嵌入特征初始化?3D?高斯體,將所述CLIP特征嵌入到所述3D高斯體中,并將低維嵌入特征當(dāng)作高斯體的一個(gè)參數(shù)進(jìn)行渲染,使用特征光柵化器渲染特征圖L,定義為:
8.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法,其特征在于,在步驟S7中,從渲染特征圖中的每個(gè)掩碼隨機(jī)選取m個(gè)像素來代表該掩碼,然后通過可訓(xùn)練的解碼器?Ψ?來恢復(fù)潛在CLIP特征,并與原始RGB圖得到的CLIP特征進(jìn)行損失計(jì)算,最小化潛在低維特征與CLIP特征的差異。
9.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法,其特征在于,在步驟S7中,將渲染的特征圖L中每個(gè)2D掩碼的潛在特征恢復(fù)到?CLIP?空間,然后最小化恢復(fù)的潛在CLIP特征與原始CLIP?特征之間的距離,具體操作為:在每個(gè)掩碼內(nèi)隨機(jī)采樣m個(gè)像素,然后通過由兩層全連接層組成的可訓(xùn)練解碼器恢復(fù)潛在CLIP特征,其中,所有采樣的m個(gè)像素的恢復(fù)的潛在CLIP特征和?CLIP?特征之間的特征蒸餾損失定義為:
10.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3D分割方法,其特征在于,在步驟S8中,訓(xùn)練過后高斯體能夠表達(dá)語義特征,通過開放詞匯查詢找到語言指令描述的對(duì)象,首先計(jì)算每個(gè)高斯體文本查詢的相關(guān)性分?jǐn)?shù)s,定義為:
...【技術(shù)特征摘要】
1.一種基于三維高斯濺射技術(shù)的開放詞匯3d分割方法,其特征在于,包括以下步驟:
2.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3d分割方法,其特征在于,在步驟s1中,首先獲得三維場(chǎng)景或物體的所述多視圖2d圖像集合,然后用運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)技術(shù)(sfm)處理多視圖2d圖像獲得稀疏的三維點(diǎn)云,并使用這些稀疏的三維點(diǎn)云初始化?3d高斯體集合,進(jìn)行所述初始化三維重建。
3.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3d分割方法,其特征在于,在步驟s1中,每個(gè)高斯體都由均值μ和三維協(xié)方差矩陣??定義,其中r和s表示旋轉(zhuǎn)矩陣和縮放矩陣,每個(gè)高斯體的中心點(diǎn)μ對(duì)應(yīng)于特征點(diǎn)的三維坐標(biāo),旋轉(zhuǎn)矩陣和縮放矩陣是隨機(jī)初始化的,高斯體的形狀和大小則根據(jù)特征點(diǎn)的分布和視差信息確定。
4.根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3d分割方法,其特征在于,在步驟s3中,將三維場(chǎng)景的多視圖圖像視為視圖逐漸變化的視頻序列,采用預(yù)訓(xùn)練的視頻跟蹤分割模型(sam2)來跟蹤和關(guān)聯(lián)同一個(gè)實(shí)例的掩碼,以實(shí)現(xiàn)跨視圖的2d掩碼一致性。
5.根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3d分割方法,其特征在于,在步驟s5中,將每個(gè)實(shí)例的掩碼的所有clip特征融合起來,并通過一個(gè)可學(xué)習(xí)的壓縮編碼器對(duì)高維clip特征進(jìn)行降維,形成該實(shí)例的代表性開放詞匯特征。
6.?根據(jù)權(quán)利要求項(xiàng)1所述的基于三維高斯濺射技術(shù)的開放詞匯3d分割方法,其特征在于,在步驟s5中,將每個(gè)實(shí)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:胡煥強(qiáng),張世雄,肖鐵軍,魏文應(yīng),李若塵,鄧嚴(yán)萍,
申請(qǐng)(專利權(quán))人:廣東博華超高清創(chuàng)新中心有限公司,
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。