用于確定機器學習函數的方法、程序、存儲介質和系統技術方案

技術編號：44412126 閱讀：5 留言：0更新日期：2025-02-25 10:26

本公開特別涉及一種用于確定機器學習函數的計算機實現的方法，所述機器學習函數被配置用于拍攝輸入3D場景并且用于輸出一個或多個相機視點，每個相機視點用于生成所述3D場景的相應2D渲染。所述方法包括獲得包括3D場景的庫。所述方法包括：基于所述庫形成用于訓練被配置用于輸出相機位置的第一神經網絡的第一數據集，以及形成用于訓練被配置用于輸出相機朝向的第二神經網絡的第二數據集。所述方法包括基于所述第一數據集來訓練所述第一神經網絡以及基于所述第二數據集來訓練所述第二神經網絡。由所述機器學習函數輸出的每個相機視點包括相機位置和相機朝向。這樣的方法形成用于輸出3D場景的一個或多個相機視點的改進的解決方案。

全部詳細技術資料下載

【技術實現步驟摘要】

本公開涉及計算機程序和系統領域，并且更具體地涉及用于確定機器學習功能的方法、系統和程序，該機器學習功能被配置用于拍攝輸入3d場景并且用于輸出一個或多個相機視點，每個相機視點用于生成3d場景的相應2d渲染。

技術介紹

1、市場上為對象的設計、工程和制造提供了許多系統和程序。cad是計算機輔助設計的首字母縮略詞，例如，其涉及用于設計對象的軟件解決方案。cae是計算機輔助工程的首字母縮略詞，例如，它涉及用于模擬未來產品的物理行為的軟件解決方案。cam是計算機輔助制造的首字母縮寫，例如，其涉及用于定義制造工藝和操作的軟件解決方案。在這樣的計算機輔助設計系統中，圖形用戶界面對于該技術的效率起重要作用。這些技術可嵌入在產品生命周期管理(plm)系統內。plm是指跨越擴展企業的概念幫助公司共享產品數據、應用公共工藝并利用公司知識來從概念到其生命結束開發產品的商業策略。由dassault?systèmes(商標為catia、enovia、3dvia和delmia)提供的plm解決方案提供了組織產品工程知識的工程中心、管理制造工程知識的制造中心以及允許企業集成和連接到工程和制造中心兩者中的企業中心。系統全部一起遞送鏈接產品、工藝、資源的開放對象模型，以實現驅動優化的產品定義、制造準備、生產和服務的動態的、基于知識的產品創建和決策支持。

2、內部設計越來越多地涉及創建表示真實房間的虛擬室內3d場景。為了說明這些室內3d場景，可從3d場景的特定視點拍攝圖像。用于確定室內場景的虛擬訪問的視點的自動方法在文獻中通常是未知的。文獻更傾向于研究對于單個對象的視點推斷。

3、參考下文提供的現有技術參考文獻的列表，參考文獻[1]的方法旨在通過學習以推斷最大化某些度量(諸如對象的從推斷的視點可見的網格的面的數量)的視點來加速單個對象的視點推斷。所提出的方法強烈依賴于僅觀察到單個對象的假設。例如，通過找到以對象為中心的球體上的坐標來確定找到的視點。這必然簡化了問題(尋找表面而不是體積上的坐標)，但是出于明顯的原因(搜索空間的大小和相對于房間拓撲的限制)根本不能應用于3d場景視點推斷。此外，即使可以計算一些度量以確定單個對象的良好視點，那些度量也可能更難以針對3d場景進行定義(甚至更隱含)。

4、此外，某些方法(例如，參考文獻[2]中的方法)嘗試基于對用戶做出的數據集的學習來推斷圖像的美學的評估。然而，這樣的方法顯然還沒有足夠成熟來自動確定室內場景的虛擬訪問的視點。特別地，問題之一是所構造的數據集是不可操作的。其次，這與室內場景領域太不同，并且即使這些方法被應用于這個領域，也不清楚這樣的方法如何可以構建相關數據集(例如，關于隨機相機與用戶放置的相機的問題或分級用戶渲染的問題)。第三，這樣的方法僅給出給定圖像的分數，并且根本不解決找到正確的相機參數(例如，位置和朝向)以獲得該圖像的問題。

5、很少的基于規則的方法也可被認為定義了合理的相機位置(例如，相機被放置在每個墻壁的每個中心的前面，其中視線看向相應墻壁的中心)。然而，在復雜的房間架構中，那些方法很容易失效。

6、在不使用神經網絡的文獻上，文獻包括參考文獻[10]的方法，其依賴于基于啟發式的方法，諸如計算若干視圖的三角形密度并保持密度越高的視點(假設密度越高，圖像中的信息越多)。參考文獻[11]的方法探索類似方法。然而，這些方法更適合于數據集構建目的(主要因為它們可能非常慢)。

7、參考文獻[9]提出了一種用于為3d場景選擇視點的數據驅動方法。在這篇文章中，使用表示示例集合中的每個n語義類別的像素的x、y和深度位置的n概率密度函數來對良好渲染的示例集合的分布進行建模。然后，通過根據上述估計的概率密度函數對視點進行采樣來生成候選位置。之后，使用基于子模最大化的算法來選擇與整個概率密度字段近似匹配作為集合的候選視圖集合。然而，這種方法具有一些故障情況并且需要大量計算(分布估計、候選屬性估計和選擇)。它不是基于深度學習的并且更適合于數據集構建，諸如在參考文獻[10]和[11]中。

8、文獻還包括參考文獻[8]，其也已經針對單個對象發布(并且不適用于3d場景)，但是嘗試從人類標記的視點從人類偏好學習最佳視點。

9、現有技術參考文獻列表：

10、[1]schelling,m.,hermosilla,p.,vázquez,p.p.,&ropinski,t.(2021,may).enabling?viewpoint?learning?through?dynamic?label?generation.in?computergraphics?forum(vol.40,no.2,pp.413-423).

11、[2]talebi,h.,&milanfar,p.(2018).nima:neural?image?assessment.ieeetransactions?on?image?processing,27(8),3998-4011.

12、[3]li,y.,bu,r.,sun,m.,wu,w.,di,x.,&chen,b.(2018).pointcnn:convolutionon?x-transformed?points.advances?in?neural?information?processing?systems,31.

13、[4]wang,k.,lin,y.a.,weissmann,b.,savva,m.,chang,a.x.,&ritchie,d.(2019).planit:planning?and?instantiating?indoor?scenes?with?relation?graphand?spatial?prior?networks.acm?transactions?on?graphics(tog),38(4),1-15.

14、[5]corso,g.,cavalleri,l.,beaini,d.,liò,p.,&p.(2020).principal?neighbourhood?aggregation?for?graph?nets.advances?in?neuralinformation?processing?systems,33,13260-13271.

15、[6]paschalidou,d.,kar,a.,shugrina,m.,kreis,k.,geiger,a.,&fidler,s.(2021).atiss:autoregressive?transformers?for?indoor?scene?synthesis.advancesin?neural?information?processing?systems,34,12013-12026.

16、[7]vaswani,a.,shazeer,n.,parmar,n.,uszkoreit,j.,jones,l.,gomez,a.n.,...&po本文檔來自技高網...

【技術保護點】

1.一種計算機實現的用于確定機器學習函數的方法，所述機器學習函數被配置用于拍攝輸入3D場景、以及輸出一個或多個相機視點，每個相機視點用于生成所述3D場景的相應2D渲染，所述方法包括：

2.根據權利要求1所述的方法，其中，對于每個3D場景，形成(S20)所述第一數據集包括：

3.根據權利要求2所述的方法，其中，每組所述起始位置基本上彼此等距，所述起始位置之間的距離對于每個3D場景基本上相同。

4.根據權利要求2或3所述的方法，其中，每組所述起始位置被分布為在所述3D場景的平面圖上形成規則2D網格，每個起始位置對應于所述規則2D網格的相應頂點。

5.根據權利要求1至4中任一項所述的方法，其中，所述第一輸入表示和/或所述第二輸入表示包括所述3D場景的3D對象的一組幾何特征。

6.根據權利要求5所述的方法，其中，所述幾何特征包括定位、朝向和/或尺寸信息，可選地，所述幾何特征包括多個邊界框，所述多個邊界框各自表示所述3D場景的相應3D對象。

7.根據權利要求5或6所述的方法，其中，所述第一輸入表示和/或所述第二輸入表示

8.根據權利要求7所述的方法，其中，所述預定的包括一個或多個相互布置關系的集合包括鄰接關系、鄰近關系、距離關系和/或垂直疊加關系。

9.根據權利要求1至8中任一項所述的方法，其中，所述第二神經網絡還將所述第一神經網絡輸出的相機位置作為輸入。

10.根據權利要求1至9中任一項所述的方法，其中，

11.根據權利要求1至10中任一項所述的方法，其中，所述機器學習函數包括后處理塊，所述后處理塊被配置為：

12.根據權利要求11所述的方法，其中，選擇所輸出的一個或多個相機視點包括：

13.一種計算機程序，包括用于執行權利要求1至12中任一項所述的方法的指令。

14.一種計算機可讀存儲介質，其上記錄有根據權利要求1至12中任一項機器學習的第一神經網絡，根據權利要求1至12中任一項機器學習的第二神經網絡機器和/或根據權利要求13所述的計算機程序。

15.一種包括耦接到存儲器的處理器的系統，所述存儲器上記錄有權利要求13所述的計算機程序。

...

【技術特征摘要】

1.一種計算機實現的用于確定機器學習函數的方法，所述機器學習函數被配置用于拍攝輸入3d場景、以及輸出一個或多個相機視點，每個相機視點用于生成所述3d場景的相應2d渲染，所述方法包括：

2.根據權利要求1所述的方法，其中，對于每個3d場景，形成(s20)所述第一數據集包括：

3.根據權利要求2所述的方法，其中，每組所述起始位置基本上彼此等距，所述起始位置之間的距離對于每個3d場景基本上相同。

4.根據權利要求2或3所述的方法，其中，每組所述起始位置被分布為在所述3d場景的平面圖上形成規則2d網格，每個起始位置對應于所述規則2d網格的相應頂點。

5.根據權利要求1至4中任一項所述的方法，其中，所述第一輸入表示和/或所述第二輸入表示包括所述3d場景的3d對象的一組幾何特征。

6.根據權利要求5所述的方法，其中，所述幾何特征包括定位、朝向和/或尺寸信息，可選地，所述幾何特征包括多個邊界框，所述多個邊界框各自表示所述3d場景的相應3d對象。

7.根據權利要求5或6所述的方法，其中，所述第一輸入表示和/或所述第二輸入表示包括圖形，所述圖形包括各自表示所述3d場景的相應對象的多個節點和各自鏈接...

【專利技術屬性】
技術研發人員：T·迪朗，I·本薩勒姆，
申請(專利權)人：達索系統公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術