圖像處理方法及裝置、計算機可讀存儲介質、電子設備制造方法及圖紙

技術編號：44496125 閱讀：5 留言：0更新日期：2025-03-04 18:03

本公開涉及人工智能技術領域，提供了一種圖像處理方法、圖像處理裝置、計算機可讀存儲介質、電子設備，其中，圖像處理方法包括：獲取輸入圖像中的圖像關鍵點；基于所述圖像關鍵點從所述輸入圖像中分割出對象區域；每個所述對象區域中包含至少一個所述圖像關鍵點；將所述對象區域輸入至訓練好的圖像處理模型中，通過所述圖像處理模型輸出所述輸入圖像對應的注釋信息。本公開中的圖像處理方法能夠通過關鍵點引導提升模型輸出的注釋信息的準確度，使得圖像注釋信息貼合圖像主題。

全部詳細技術資料下載

【技術實現步驟摘要】

所屬的技術人員能夠理解，本公開的各個方面可以實現為系統、方法或程序產品。因此，本公開的各個方面可以具體實現為以下形式，即：完全的硬件實施方式、完全的軟件實施方式(包括固件、微代碼等)，或硬件和軟件方面結合的實施方式，這里可以統稱為“電路”、“模塊”或“系統”。下面參照圖16來描述根據本公開的這種實施方式的電子設備1600。圖16顯示的電子設備1600僅僅是一個示例，不應對本公開實施例的功能和使用范圍帶來任何限制。如圖16所示，電子設備1600以通用計算設備的形式表現。電子設備1600的組件可以包括但不限于：至少一個處理器1610、至少一個存儲器1620、連接不同系統組件(包括存儲器1620和處理器1610)的總線1630、顯示器1640。其中，所述存儲器存儲有程序代碼，所述程序代碼可以被所述處理器1610執行，使得所述處理器1610執行本說明書上述“示例性方法”部分中描述的根據本公開各種示例性實施方式的步驟。例如，所述處理器1610可以執行如圖2中所示的：步驟s210，獲取輸入圖像中的圖像關鍵點；步驟s220，基于圖像關鍵點從輸入圖像中分割出對象區域；每個對象區域中包含至少一個圖像關鍵點；步驟s230，將對象區域輸入至訓練好的圖像處理模型中，通過圖像處理模型輸出輸入圖像對應的注釋信息。存儲器1620可以包括易失性存儲形式的可讀介質，例如隨機存取存儲器(ram)16201和/或高速緩存存儲器16202，還可以進一步包括只讀存儲器(rom)16203。存儲器1620還可以包括具有一組(至少一個)程序模塊16205的程序/實用工具16204，這樣的程序模塊1

技術介紹

1、多模態大模型(multimodal?large?model)是指能夠處理和整合多種不同類型數據的大規模機器學習模型。

2、基于多模態大模型可以對輸入的圖像進行理解，生成圖像的caption或者對圖像進行語言描述。然而，多模態大模型有時會出現字幕或者描述偏離圖像主題的情況。

3、鑒于此，本領域亟需開發一種新的圖像處理方法及裝置。

4、需要說明的是，上述
技術介紹
部分公開的信息僅用于加強對本公開的背景的理解。

技術實現思路

1、本公開的目的在于提供一種圖像處理方法、圖像處理裝置、計算機可讀存儲介質及電子設備，進而至少在一定程度上克服由于相關技術的限制而導致的字幕或者描述偏離圖像主題的技術問題。

2、本公開的其他特性和優點將通過下面的詳細描述變得顯然，或部分地通過本公開的實踐而習得。

3、根據本公開的第一方面，提供一種圖像處理方法，包括：

4、獲取輸入圖像中的圖像關鍵點；

5、基于所述圖像關鍵點從所述輸入圖像中分割出對象區域；每個所述對象區域中包含至少一個所述圖像關鍵點；

6、將所述對象區域輸入至訓練好的圖像處理模型中，通過所述圖像處理模型輸出所述輸入圖像對應的注釋信息。

7、在本公開的示例性實施例中，所述將所述對象區域輸入至訓練好的圖像處理模型中，通過所述圖像處理模型輸出所述輸入圖像對應的注釋信息，包括：

8、從所述對象區域中篩選出主體對象區域；

9、將所述主體對象區域輸入至所述圖像處理模型中，通過所述圖像處理模型輸出所述輸入圖像對應的注釋信息。

10、在本公開的示例性實施例中，所述從所述對象區域中篩選出主體對象區域，包括：

11、獲取每個所述對象區域對應的像素量；

12、根據所述像素量與預設像素量閾值之間的比對結果，從多個所述對象區域中篩選出候選主體對象區域；

13、從所述候選主體對象區域中篩選出所述主體對象區域。

14、在本公開的示例性實施例中，所述根據所述像素量與預設像素量閾值之間的比對結果，從多個所述對象區域中篩選出候選主體對象區域，包括：

15、響應于所述像素量大于或等于所述預設像素量閾值，確定當前對象區域為所述候選主體對象區域；

16、響應于所述像素量小于所述預設像素量閾值，確定所述當前對象區域不是所述候選主體對象區域，并丟棄所述當前對象區域。

17、在本公開的示例性實施例中，所述從所述候選主體對象區域中篩選出所述主體對象區域，包括：

18、獲取每個所述候選主體對象區域中所包含的對象類型；

19、根據預先配置的多種對象類型所對應的優先級排序結果，對多個所述候選主體對象區域進行排序處理，獲得排序序列；

20、根據所述排序序列確定所述主體對象區域。

21、在本公開的示例性實施例中，所述根據所述排序序列確定所述主體對象區域，包括：

22、將所述排序序列中排序位于首位的候選主體對象區域確定為所述主體對象區域。

23、在本公開的示例性實施例中，所述圖像關鍵點包括圖像中心點和預設比例分割線的交點。

24、根據本公開的第二方面，提供一種圖像處理裝置，包括：

25、關鍵點獲取模塊，用于獲取輸入圖像中的圖像關鍵點；

26、對象分割模塊，用于基于所述圖像關鍵點從所述輸入圖像中分割出對象區域；每個所述對象區域中包含至少一個所述圖像關鍵點；

27、注釋生成模塊，用于將所述對象區域輸入至訓練好的圖像處理模型中，通過所述圖像處理模型輸出所述輸入圖像對應的注釋信息。

28、根據本公開的第三方面，提供一種計算機可讀存儲介本文檔來自技高網...

【技術保護點】

1.一種圖像處理方法，其特征在于，包括：

2.根據權利要求1所述的方法，其特征在于，所述將所述對象區域輸入至訓練好的圖像處理模型中，通過所述圖像處理模型輸出所述輸入圖像對應的注釋信息，包括：

3.根據權利要求2所述的方法，其特征在于，所述從所述對象區域中篩選出主體對象區域，包括：

4.根據權利要求3所述的方法，其特征在于，所述根據所述像素量與預設像素量閾值之間的比對結果，從多個所述對象區域中篩選出候選主體對象區域，包括：

5.根據權利要求3所述的方法，其特征在于，所述從所述候選主體對象區域中篩選出所述主體對象區域，包括：

6.根據權利要求5所述的方法，其特征在于，所述根據所述排序序列確定所述主體對象區域，包括：

7.根據權利要求1至6任意一項所述的方法，其特征在于，所述圖像關鍵點包括圖像中心點和預設比例分割線的交點。

8.一種圖像處理裝置，其特征在于，包括：

9.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1～7中任意一項所述的圖像處理方法。

10.一種電子設備，其特征在于，包括：

...

【技術特征摘要】

1.一種圖像處理方法，其特征在于，包括：

3.根據權利要求2所述的方法，其特征在于，所述從所述對象區域中篩選出主體對象區域，包括：

5.根據權利要求3所述的方法，其特征在于，所述從所述候...

【專利技術屬性】
技術研發人員：王家霈，閆張如，
申請(專利權)人：中國電信股份有限公司技術創新中心，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術