關鍵點理解方法、模型訓練方法和相關裝置制造方法及圖紙

技術編號：43504368 閱讀：13 留言：0更新日期：2024-11-29 17:08

本申請公開了一種關鍵點理解方法、模型訓練方法和相關裝置，關鍵點理解方法包括：獲取待檢測圖像，以及，獲取目標關鍵點的位置提示信息；基于位置提示信息對待檢測圖像進行語義理解，得到待檢測圖像中目標關鍵點的語義信息，語義信息用于確定待檢測圖像中目標關鍵點的位置信息，上述方案，能夠實現對圖像中關鍵點的語義理解。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及計算機視覺處理領域，特別是涉及一種關鍵點理解方法、模型訓練方法和相關裝置。

技術介紹

1、近年來，隨著人工智能技術不斷發展并應用于生產生活的方方面面中，計算機視覺技術作為人工智能技術的重要分支，也受到了廣泛關注。計算機視覺技術涉及到計算機對圖像的理解和解析。

2、圖像中包含的關鍵點是計算機視覺領域重點關注的對象，因此，如何實現關鍵點理解成為亟待解決的問題。

技術實現思路

1、本申請至少提供一種關鍵點理解方法、模型訓練方法和相關裝置。

2、本申請提供了一種關鍵點理解方法，包括：獲取待檢測圖像，以及，獲取目標關鍵點的位置提示信息；基于位置提示信息對待檢測圖像進行語義理解，得到待檢測圖像中目標關鍵點的語義信息，語義信息用于確定待檢測圖像中目標關鍵點的位置信息。

3、因此，通過目標關鍵點相關的位置提示信息結合待檢測圖像，能夠實現對待檢測圖像中目標關鍵點的語義理解，得到的語義信息能夠用于定位目標關鍵點，以實現圖像中關鍵點的檢測。

4、其中，該方法還包括：基于語義信息，得到待檢測圖像中目標關鍵點的位置信息。

5、因此，對關鍵點的語義進行初步辨識，根據語義理解判斷關鍵點的位置，實現圖像中的關鍵點檢測。

6、其中，基于位置提示信息對待檢測圖像進行語義理解，得到待檢測圖像中目標關鍵點的語義信息包括：基于待檢測圖像和位置提示信息進行編碼，得到編碼特征；對編碼特征進行解碼，得到待檢測圖像中目標關鍵點的語義文本，其中，語義文

7、因此，位置標記與關鍵點的位置關聯，利用能夠解碼得到位置標記的子編碼特征能夠得到關鍵點的位置信息，實現圖像中的關鍵點檢測。

8、其中，基于子編碼特征，得到待檢測圖像中目標關鍵點的位置信息包括：利用子編碼特征進行回歸，得到待檢測圖像中目標關鍵點的坐標。

9、因此，子編碼特征能夠解碼得到位置標記，利用子編碼特征進行回歸得到關鍵點坐標，實現關鍵點的檢測。

10、其中，基于待檢測圖像和位置提示信息進行編碼，得到編碼特征包括：從待檢測圖像中提取得到待檢測特征；基于待檢測特征和位置提示信息進行編碼，得到編碼特征。

11、因此，從待檢測圖像提取得到待檢測特征，再利用待檢測特征與位置提示信息進行編碼，實現對待檢測圖像和位置提示信息的變換，以用于解碼得到語義信息，實現語義理解。

12、其中，位置提示信息包括待檢測圖像對應的支持圖像和支持圖像中目標關鍵點的參考位置信息；基于待檢測特征和位置提示信息進行編碼，得到編碼特征包括：對支持圖像進行特征提取，得到支持圖像特征，以及，對參考位置信息進行特征提取，得到參考位置特征；對支持圖像特征和參考位置特征進行融合，得到參考關鍵點特征；基于待檢測特征和參考關鍵點特征進行編碼，得到編碼特征。

13、因此，位置提示信息包括支持圖像和參考位置信息，通過特征提取和融合編碼，能夠得到與目標關鍵點相關的參考關鍵點特征，從而能夠用于與待檢測特征進行編碼，以實現關鍵點檢測。

14、其中，基于待檢測特征和參考關鍵點特征進行編碼，得到編碼特征包括：將參考關鍵點特征嵌入預設文本，得到關鍵點提示特征，其中，預設文本用于指示大語言模型得到語義信息；利用大語言模型對關鍵點提示特征和待檢測特征進行融合編碼，得到編碼特征。

15、因此，將參考關鍵點特征嵌入指示大語言模型的文本中，實現利用大語言模型對關鍵點提示特征和待檢測特征進行處理，以得到語義信息，實現語義理解。

16、其中，位置提示信息包括與待檢測圖像中目標關鍵點相關的描述文本和用于指示大語言模型得到語義信息的指示文本；基于待檢測特征和位置提示信息進行編碼，得到編碼特征包括：利用大語言模型對待檢測特征和位置提示信息進行融合編碼，得到編碼特征。

17、因此，位置提示信息包括描述文本和指示大語言模型的指示文本，實現利用大語言模型對待檢測特征和位置提示信息進行處理，以得到語義信息，實現語義理解。

18、其中，基于位置提示信息對待檢測圖像進行語義理解，得到待檢測圖像中目標關鍵點的語義信息為利用目標模型實現；該方法還包括如下步驟以對目標模型進行目標訓練：利用目標模型基于樣本位置提示信息對樣本圖像進行語義理解，得到樣本圖像中樣本關鍵點的樣本語義信息；其中，樣本圖像標注有真實語義信息；至少基于樣本語義信息與真實語義信息之間的差異，調整目標模型的參數。

19、因此，利用標注有真實語義信息的樣本圖像對目標模型進行訓練，得到能夠實現語義理解的目標模型。

20、其中，樣本圖像還標注有真實位置信息，真實位置信息包括樣本圖像中樣本關鍵點的坐標，調整目標模型的參數之前，該方法還包括：利用目標模型基于樣本語義信息，得到樣本圖像中樣本關鍵點的樣本位置信息；至少基于樣本語義信息與真實語義信息之間的差異，調整目標模型的參數包括：基于樣本語義信息與真實語義信息之間的差異、樣本位置信息和真實位置信息之間的差異，調整目標模型的參數。

21、因此，樣本圖像還標注有真實位置信息，利用樣本圖像對目標模型進行訓練，以得到能夠實現關鍵點檢測的目標模型。

22、其中，目標模型包括大語言模型，大語言模型包括微調模塊，在目標訓練過程中，微調模塊的參數作為參數調整的對象。

23、因此，大語言模型設置有微調模塊，能夠高效對大語言模型進行參數調整，提升訓練效率。

24、其中，真實語義信息包括位置標記，以及樣本關鍵點所屬目標的真實類別和樣本關鍵點的真實名稱中的至少一者。

25、因此，樣本圖像標注有位置標記、所屬目標的真實類別和真實名稱，以指導目標模型正確理解關鍵點語義，提升語義理解準確性。

26、本申請提供了一種模型訓練方法，包括：獲取樣本圖像，以及，獲取樣本關鍵點的樣本位置提示信息，其中，樣本圖像標注有真實語義信息；利用目標模型基于樣本位置提示信息對樣本圖像進行語義理解，得到樣本圖像中樣本關鍵點的樣本語義信息，樣本語義信息能夠用于確定樣本圖像中樣本關鍵點的樣本位置信息；至少基于樣本語義信息和真實語義信息之間的差異，調整目標模型的參數。

27、因此，利用標注有真實語義信息的樣本圖像對目標模型進行訓練，得到能夠實現語義理解的目標模型，得到的樣本語義信息能夠用于定位樣本關鍵點，以實現圖像中關鍵點的檢測。

28、本申請提供了一種關鍵點理解裝置，包括獲取模塊和語義理解模塊，獲取模塊用于獲取待檢測圖像，以及，獲取目標關鍵點的位置提示信息；語義理解模塊用于基于位置提示信息對待檢測圖像進行語義理解，得到待檢測圖像中目標關鍵點的語義信息，語義信息能夠用于確定待檢測圖像中目標關鍵點的位置信息。

29、本申請提供了一種模型訓練裝置本文檔來自技高網...

【技術保護點】

1.一種關鍵點理解方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述方法還包括：

3.根據權利要求2所述的方法，其特征在于，所述基于所述位置提示信息對所述待檢測圖像進行語義理解，得到所述待檢測圖像中所述目標關鍵點的語義信息包括：

4.根據權利要求3所述的方法，其特征在于，所述基于所述子編碼特征，得到所述待檢測圖像中所述目標關鍵點的位置信息包括：

5.根據權利要求3或4所述的方法，其特征在于，所述基于所述待檢測圖像和所述位置提示信息進行編碼，得到編碼特征包括：

6.根據權利要求5所述的方法，其特征在于，所述位置提示信息包括所述待檢測圖像對應的支持圖像和所述支持圖像中所述目標關鍵點的參考位置信息；所述基于所述待檢測特征和所述位置提示信息進行編碼，得到所述編碼特征包括：

7.根據權利要求6所述的方法，其特征在于，所述基于所述待檢測特征和所述參考關鍵點特征進行編碼，得到所述編碼特征包括：

8.根據權利要求5所述的方法，其特征在于，所述位置提示信息包括與所述待檢測圖像中所述目標

9.根據權利要求1至8中任一項所述的方法，其特征在于，所述基于所述位置提示信息對所述待檢測圖像進行語義理解，得到所述待檢測圖像中所述目標關鍵點的語義信息為利用目標模型實現；所述方法還包括如下步驟以對所述目標模型進行目標訓練：

10.根據權利要求9所述的方法，其特征在于，所述樣本圖像還標注有真實位置信息，所述真實位置信息包括所述樣本圖像中所述樣本關鍵點的坐標，所述調整所述目標模型的參數之前，所述方法還包括：

11.一種模型訓練方法，其特征在于，所述方法包括：

12.一種關鍵點理解裝置，其特征在于，所述裝置包括：

13.一種模型訓練裝置，其特征在于，所述裝置包括：

14.一種電子設備，其特征在于，包括存儲器和處理器，所述存儲器上存儲有程序指令，所述程序指令被所述處理器執行時實現上述權利要求1至11中任一項所述的方法。

15.一種計算機可讀存儲介質，其上存儲有程序指令，其特征在于，所述程序指令被處理器執行時實現上述權利要求1至11中任一項所述的方法。

...

【技術特征摘要】

1.一種關鍵點理解方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述方法還包括：

4.根據權利要求3所述的方法，其特征在于，所述基于所述子編碼特征，得到所述待檢測圖像中所述目標關鍵點的位置信息包括：

5.根據權利要求3或4所述的方法，其特征在于，所述基于所述待檢測圖像和所述位置提示信息進行編碼，得到編碼特征包括：

7.根據權利要求6所述的方法，其特征在于，所述基于所述待檢測特征和所述參考關鍵點特征進行編碼，得到所述編碼特征包括：

8.根據權利要求5所述的方法，其特征在于，所述位置提示信息包括與所述待檢測圖像中所述目標關鍵點相關的描述文本和用于指示大語言模型得到...

【專利技術屬性】
技術研發人員：楊杰，曾望，金晟，劉文韜，錢晨，
申請(專利權)人：深圳市慧鯉科技有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術