"/>
【技術實現步驟摘要】
基于多視角和多文本的三維視覺
?
文本定位方法及系統
[0001]本申請實施例涉及計算機視覺
,特別涉及一種基于多視角和多文本的三維視覺
?
文本定位方法及系統
。
技術介紹
[0002]三維視覺
?
文本定位任務
(3D Visual Grounding)
是將給定的自然語言描述與三維場景中的目標對象進行對齊,找到文本描述的目標物體
。
主流方法是基于語言和三維點云數據來建模場景,使用眾多多模態學習的方式對齊兩個模態,實現有效的定位
。
[0003]現有的三維視覺
?
文本定位方法旨在解決文本和三維場景的視角歧義問題,即關注于文本描述的視角與三維場景角度的對應性,使用多視角的方法從三維模態出發,通過提高模型對視角的魯棒性來提高定位的準確率
。
但這些方法只關注到了三維模態,而忽略了嵌入在文本模態中的視角提示,并且忽略了對多視角的重要性的衡量,這會對模型的性能產生影響
。
技術實現思路
[0004]本申請實施例提供一種基于多視角和多文本的三維視覺
?
文本定位方法及系統,該方法對三維視覺和文本同時進行多視角處理和理解,利用多視角代表特征進行場景無關知識的記憶,以實現更加準確和魯棒的三維視覺
?
文本定位
。
[0005]為解決上述技術問題,第一方面,本申請實施例提供了一種基于多視角和多文本的三維視覺 >?
文本定位方法,該方法包括以下步驟:首先,從輸入的三維場景中提取多個視角下的三維場景特征,得到多視角三維特征;接下來,對文本的視角和表達方式進行擴充,得到具有多視角信息的文本,并對具有多視角信息的文本進行特征提取,得到多視角文本特征;然后對多視角三維特征
、
多視角文本特征進行多模態融合,得到多視角融合特征;最后,基于視角指導的打分機制,對多視角融合特征的多個視角進行打分,利用多視角代表特征進行場景無關知識的記憶,進行三維視覺
?
文本定位
。
[0006]在一些示例性實施例中,基于視角指導的打分機制,對多視角融合特征進行打分,利用多視角代表特征進行場景無關知識的記憶,包括以下步驟:首先,計算多個視角下的三維特征和視角代表特征之間的余弦相似度;然后,基于余弦相似度,對多視角融合特征的多個視角進行打分,得到多個視角的分數;最后,以所述分數作為權重,用于最終預測
。
[0007]在一些示例性實施例中,在對多視角三維特征
、
多視角文本特征進行多模態融合之后,在對多視角融合特征的多個視角進行打分之前,還包括:基于視角指導的注意力模塊,從視角代表特征提取視角信息;基于視角指導的注意力模塊用于增強文本模態對視角知識的學習和提取
。
[0008]在一些示例性實施例中,從輸入的三維場景中提取多個視角下的三維場景特征,得到多視角三維特征,包括以下步驟:將三維場景中每個物體的點云數據單獨輸入至點云編碼器,提取每個物體的三維特征;對每個物體的中心點進行三維旋轉,得到所有物體在每
個視角下的位置信息;將位置信息直接加到物體特征上,得到物體對應于每個視角下的三維場景特征
。
[0009]在一些示例性實施例中,輸入的三維場景包括每個物體的點云數據以及物體的中心點的三維坐標
。
[0010]在一些示例性實施例中,采用預訓練好的大語言模型對文本的視角和表達方式進行擴充;并采用文本特征提取器對所述具有多視角信息的文本進行特征提取,得到多視角文本特征
。
[0011]在一些示例性實施例中,在從輸入的三維場景中提取多個視角下的三維場景特征之前,還包括:獲取數據集,并將所述數據集劃分為訓練數據集
、
測試數據集;所述數據集為三維場景中的物體定位和語言表達的數據集
。
[0012]在一些示例性實施例中,在對所述多視角融合特征的多個視角進行打分,利用多視角代表特征進行場景無關知識的記憶,進行三維視覺
?
文本定位之后,還包括:對三維視覺
?
文本定位結果進行驗證,以及對三維視覺
?
文本定位方法進行應用
。
[0013]第二方面,本申請實施例還提供了一種基于多視角和多文本的三維視覺
?
文本定位系統,包括相連接的數據處理模塊以及模型訓練模塊;其中,數據處理模塊用于獲取三維場景數據;模型訓練模塊包括依次連接的多視角三維特征獲取單元
、
多視角文本特征獲取單元
、
多模態融合單元以及基于視角指導的打分單元;其中;多視角三維特征獲取單元用于從輸入的三維場景中提取多個視角下的三維場景特征,得到多視角三維特征;多視角文本特征獲取單元用于對文本的視角和表達方式進行擴充,得到具有多視角信息的文本,并對所述具有多視角信息的文本進行特征提取,得到多視角文本特征;多模態融合單元對所述多視角三維特征
、
所述多視角文本特征進行多模態融合,得到多視角融合特征;基于視角指導的打分單元用于根據視角指導的打分機制,對所述多視角融合特征的多個視角進行打分,利用多視角代表特征進行場景無關知識的記憶,進行三維視覺
?
文本定位
。
[0014]在一些示例性實施例中,上述基于多視角和多文本的三維視覺
?
文本定位系統,還包括與模型訓練模塊相連接的驗證與應用模塊;驗證與應用模塊用于對三維視覺
?
文本定位結果進行驗證,以及對三維視覺
?
文本定位方法進行應用;數據處理模塊包括數據集模塊以及數據集劃分模塊;數據集模塊用于獲取數據集;所述數據集為三維場景中的物體定位和語言表達的數據集;數據集劃分模塊用于將所述數據集劃分為訓練數據集
、
測試數據集
。
[0015]本申請實施例提供的技術方案至少具有以下優點:
[0016]本申請實施例提供一種基于多視角和多文本的三維視覺
?
文本定位方法及系統,該方法包括以下步驟:首先,從輸入的三維場景中提取多個視角下的三維場景特征,得到多視角三維特征;接下來,對文本的視角和表達方式進行擴充,得到具有多視角信息的文本,并對具有多視角信息的文本進行特征提取,得到多視角文本特征;然后對多視角三維特征
、
多視角文本特征進行多模態融合,得到多視角融合特征;最后,基于視角指導的打分機制,對多視角融合特征的多個視角進行打分,利用多視角代表特征進行場景無關知識的記憶,進行三維視覺
?
文本定位
。
[0017]本申請提出一種基于多視角和多文本的三維視覺
?
文本定位方法,對三維視覺和文本兩個模態同時進行多視角處理和理解,利用多視角代表特征進行場景無關知識的記憶,能夠實現更加準確和魯棒的三本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.
一種基于多視角和多文本的三維視覺
?
文本定位方法,其特征在于,包括以下步驟:從輸入的三維場景中提取多個視角下的三維場景特征,得到多視角三維特征;對文本的視角和表達方式進行擴充,得到具有多視角信息的文本,并對所述具有多視角信息的文本進行特征提取,得到多視角文本特征;對所述多視角三維特征
、
所述多視角文本特征進行多模態融合,得到多視角融合特征;基于視角指導的打分機制,對所述多視角融合特征的多個視角進行打分,利用多視角代表特征進行場景無關知識的記憶,進行三維視覺
?
文本定位
。2.
根據權利要求1所述的基于多視角和多文本的三維視覺
?
文本定位方法,其特征在于,所述基于視角指導的打分機制,對所述多視角融合特征進行打分,利用多視角代表特征進行場景無關知識的記憶,包括以下步驟:計算多個視角下的三維特征和視角代表特征之間的余弦相似度;基于所述余弦相似度,對所述多視角融合特征的多個視角進行打分,得到多個視角的分數;以所述分數作為權重,用于最終預測
。3.
根據權利要求1所述的基于多視角和多文本的三維視覺
?
文本定位方法,其特征在于,在對所述多視角三維特征
、
所述多視角文本特征進行多模態融合之后,在對所述多視角融合特征的多個視角進行打分之前,還包括:基于視角指導的注意力模塊,從視角代表特征提取視角信息;所述基于視角指導的注意力模塊用于增強文本模態對視角知識的學習和提取
。4.
根據權利要求1所述的基于多視角和多文本的三維視覺
?
文本定位方法,其特征在于,從輸入的三維場景中提取多個視角下的三維場景特征,得到多視角三維特征,包括以下步驟:將三維場景中每個物體的點云數據單獨輸入至點云編碼器,提取每個物體的三維特征;對每個物體的中心點進行三維旋轉,得到所有物體在每個視角下的位置信息;將位置信息直接加到物體特征上,得到物體對應于每個視角下的三維場景特征
。5.
根據權利要求1所述的基于多視角和多文本的三維視覺
?
文本定位方法,其特征在于,所述輸入的三維場景包括每個物體的點云數據以及物體的中心點的三維坐標
。6.
根據權利要求1所述的基于多視角和多文本的三維視覺
?
文本定位方法,其特征在于,采用預訓練好的大語言模型對文本的視角和表達方式進行擴充;并采用文本特征提取器對所述具有多視角信息的文本進行特征提取,得到多視角文本特...
【專利技術屬性】
技術研發人員:趙斌,郭子瑜,湯軼文,張仁瑞,李學龍,
申請(專利權)人:上海人工智能創新中心,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。