圖像處理方法、裝置及存儲介質制造方法及圖紙

技術編號：44494343 閱讀：4 留言：0更新日期：2025-03-04 18:00

本申請涉及一種圖像處理方法、裝置及存儲介質，所述方法包括：獲取原始圖像以及針對所述原始圖像的需求表述，并對所述原始圖像進行切塊處理，得到多個局部圖像塊；對所述原始圖像進行分辨率調整，得到目標圖像，其中，所述目標圖像的分辨率與每個所述局部圖像塊的分辨率相同；采用跨切塊聯系的策略，對多個所述局部圖像塊進行編碼處理，得到編碼結果；對所述編碼結果、所述目標圖像以及所述需求表述進行處理，得到所述需求表述對應的答案表述。如此采用跨切塊聯系的策略，對多個局部圖像塊進行編碼處理，可以有效緩解語義割裂、空間割裂的問題，如此可以保證對高分辨率圖像進行很好的處理。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及信息處理，尤其涉及一種圖像處理方法、裝置及存儲介質。

技術介紹

1、大模型是一種大型深度學習模型，其核心思想是將不同信息(例如文本、圖像、音頻和視頻等)進行融合，通過學習不同信息之間的關聯，實現更加智能化的信息處理。在大模型中，不同的信息經過預處理后被輸入到一個大模型中，經過多層的特征提取和融合，最終輸出相應的結果。

2、目前，在大模型中，對于輸入的圖像，會將圖像統一調整至一個固定的分辨率，這會導致部分高分辨率圖像在輸入大模型時，其分辨率被嚴重壓縮，造成視覺信息的損耗。為此采用裁剪策略，將圖像裁剪為若干個圖像塊，輸入至大模型。

3、然而，這種裁剪策略可能會造成語義割裂、空間割裂，導致大模型在處理相關任務時，推理的結果不準確。例如，對于“backup”，采用裁剪策略可能會無意中將其分割為“back”與“up”，造成語義割裂，使得語義不連貫，并且“backup”在空間上割裂開來，導致大模型在處理相關任務時，推理的結果不準確。

技術實現思路

1、為了解決上述這種裁剪策略可能會造成語義割裂、空間割裂，導致大模型推理的結果不準確的技術問題，本申請實施例提供了一種圖像處理方法、裝置、電子設備及存儲介質。具體技術方案如下：

2、在本申請實施例的第一方面，首先提供了一種圖像處理方法，所述方法包括：

3、獲取原始圖像以及針對所述原始圖像的需求表述，并對所述原始圖像進行切塊處理，得到多個局部圖像塊；

4、對所述原始圖像進行分辨率調整

5、采用跨切塊聯系的策略，對多個所述局部圖像塊進行編碼處理，得到編碼結果；

6、對所述編碼結果、所述目標圖像以及所述需求表述進行處理，得到所述需求表述對應的答案表述。

7、在一個可選的實施方式中，所述對所述原始圖像進行切塊處理，得到多個局部圖像塊，包括：

8、確定所述原始圖像對應的縮放分辨率，并對所述原始圖像進行縮放處理，以使縮放后的所述原始圖像的分辨率達到所述縮放分辨率；

9、對縮放后的所述原始圖像進行切塊處理，得到多個局部圖像塊。

10、在一個可選的實施方式中，所述確定所述原始圖像對應的縮放分辨率，包括：

11、獲取預定義分辨率集，所述預定義分辨率集中包含多個預定義分辨率，且每個所述預定義分辨率是預設分辨率的倍數；

12、針對所述預定義分辨率集中任一所述預定義分辨率，確定所述預定義分辨率與所述原始圖像的分辨率的交并比；

13、根據所述交并比，篩選所述預定義分辨率集中的目標預定義分辨率，將所述目標預定義分辨率確定為所述原始圖像對應的縮放分辨率。

14、在一個可選的實施方式中，所述采用跨切塊聯系的策略，對多個所述局部圖像塊進行編碼處理，得到編碼結果，包括：

15、將多個所述局部圖像塊輸入至預訓練的第一視覺編碼器進行編碼處理，得到多個局部視覺特征；

16、其中，所述預訓練的第一視覺編碼器采用滑動窗口注意力機制，對多個所述局部圖像塊進行編碼處理，輸出多個局部視覺特征。

17、在一個可選的實施方式中，對所述編碼結果、所述目標圖像以及所述需求表述進行處理，得到所述需求表述對應的答案表述，包括：

18、對所述需求表述進行編碼處理，得到文本編碼特征；

19、將所述目標圖像輸入至預訓練的第二視覺編碼器進行編碼處理，得到全局視覺特征；

20、將多個所述局部視覺特征、所述全局視覺特征輸入至預訓練的視覺重采樣模型，得到多個重采樣局部視覺特征、重采樣全局視覺特征；

21、將多個所述重采樣局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型，得到所述需求表述對應的答案表述。

22、在一個可選的實施方式中，所述將多個所述重采樣局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型，得到所述需求表述對應的答案表述，包括：

23、從多個所述重采樣局部視覺特征中，選取目標數量的所述重采樣局部視覺特征；

24、將目標數量的所述重采樣局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型，得到所述需求表述對應的答案表述。

25、在一個可選的實施方式中，所述從多個所述重采樣局部視覺特征中，選取目標數量的所述重采樣局部視覺特征，包括：

26、從預設壓縮概率集中進行采樣，得到目標壓縮概率，并獲取所述原始圖像的縮放分辨率對應的特征長度；

27、根據所述目標壓縮概率與所述特征長度，確定目標數量；

28、從多個所述重采樣局部視覺特征中，選取所述目標數量的所述重采樣局部視覺特征。

29、在一個可選的實施方式中，所述從多個所述重采樣局部視覺特征中，選取所述目標數量的所述重采樣局部視覺特征，包括：

30、針對任一所述重采樣局部視覺特征，確定所述重采樣局部視覺特征的重要性分數；

31、根據所述重要性分數，對多個所述重采樣局部視覺特征進行排序，得到重采樣局部視覺特征排序結果；

32、根據所述重采樣局部視覺特征排序結果，選取所述目標數量的所述重采樣局部視覺特征。

33、在一個可選的實施方式中，所述針對任一所述重采樣局部視覺特征，確定所述重采樣局部視覺特征的重要性分數，包括：

34、針對任一所述重采樣局部視覺特征，確定所述重采樣局部視覺特征，與剩余重采樣局部視覺特征中任一重采樣局部視覺特征之間的相似度；

35、根據多個所述相似度，確定所述重采樣局部視覺特征的重要性分數。

36、在一個可選的實施方式中，所述根據多個所述相似度，確定所述重采樣局部視覺特征的重要性分數，包括：

37、針對任一所述相似度，獲取預設數值與所述相似度之間的差值；

38、對得到的多個所述差值進行加權求和，得到所述重采樣局部視覺特征的重要性分數。

39、在一個可選的實施方式中，所述將目標數量的所述重采樣局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型，得到所述需求表述對應的答案表述，包括：

40、確定目標數量的所述重采樣局部視覺特征各自對應的的第一初始特征順序，按照所述第一初始特征順序，對目標數量的所述重采樣局部視覺特征進行排序，得到第一局部視覺特征序列；

41、確定剩余所述重采樣局部視覺特征各自對應的的第二初始特征順序，按照所述第二初始特征順序，對剩余所述重采樣局部視覺特征進行排序，得到第二局部視覺特征序列；

42、對所述第一局部視覺特征序列、所述第二局部視覺特征序列進行聚合處理，得到多個聚合局部視覺特征；

43、將多個所述聚合局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特本文檔來自技高網...

【技術保護點】

1.一種圖像處理方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述對所述原始圖像進行切塊處理，得到多個局部圖像塊，包括：

3.根據權利要求2所述的方法，其特征在于，所述確定所述原始圖像對應的縮放分辨率，包括：

4.根據權利要求1所述的方法，其特征在于，所述采用跨切塊聯系的策略，對多個所述局部圖像塊進行編碼處理，得到編碼結果，包括：

5.根據權利要求4所述的方法，其特征在于，對所述編碼結果、所述目標圖像以及所述需求表述進行處理，得到所述需求表述對應的答案表述，包括：

6.根據權利要求5所述的方法，其特征在于，所述將多個所述重采樣局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型，得到所述需求表述對應的答案表述，包括：

7.根據權利要求6所述的方法，其特征在于，所述從多個所述重采樣局部視覺特征中，選取目標數量的所述重采樣局部視覺特征，包括：

8.根據權利要求7所述的方法，其特征在于，所述從多個所述重采樣局部視覺特征中，選取所述目標數量的所述重采樣局部視覺特征，包括：

9.根據權利要求8所述的方法，其特征在于，所述針對任一所述重采樣局部視覺特征，確定所述重采樣局部視覺特征的重要性分數，包括：

10.根據權利要求9所述的方法，其特征在于，所述根據多個所述相似度，確定所述重采樣局部視覺特征的重要性分數，包括：

11.根據權利要求6所述的方法，其特征在于，所述將目標數量的所述重采樣局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型，得到所述需求表述對應的答案表述，包括：

12.根據權利要求11所述的方法，其特征在于，所述將多個所述聚合局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型，得到所述需求表述對應的答案表述，包括：

13.根據權利要求12所述的方法，其特征在于，所述注意力分布圖中包含所述文本編碼特征對各個所述聚合局部視覺特征、所述重采樣全局視覺特征的關注程度；

14.根據權利要求12所述的方法，其特征在于，所述根據所述預設比例的目標視覺特征，生成所述需求表述對應的答案表述，包括：

15.根據權利要求5所述的方法，其特征在于，在執行所述圖像處理方法之前，還包括：

16.一種圖像處理裝置，其特征在于，所述裝置包括：

17.一種存儲介質，其上存儲有計算機程序，其特征在于，該程序被處理器執行時實現如權利要求1-15中任一所述的方法。

...

【技術特征摘要】

1.一種圖像處理方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述對所述原始圖像進行切塊處理，得到多個局部圖像塊，包括：

3.根據權利要求2所述的方法，其特征在于，所述確定所述原始圖像對應的縮放分辨率，包括：

4.根據權利要求1所述的方法，其特征在于，所述采用跨切塊聯系的策略，對多個所述局部圖像塊進行編碼處理，得到編碼結果，包括：

5.根據權利要求4所述的方法，其特征在于，對所述編碼結果、所述目標圖像以及所述需求表述進行處理，得到所述需求表述對應的答案表述，包括：

7.根據權利要求6所述的方法，其特征在于，所述從多個所述重采樣局部視覺特征中，選取目標數量的所述重采樣局部視覺特征，包括：

8.根據權利要求7所述的方法，其特征在于，所述從多個所述重采樣局部視覺特征中，選取所述目標數量的所述重采樣局部視覺特征，包括：

9.根據權利要求8所述的方法，其特征在于，所述針對任一所述重采樣局部視覺特征，確定所述重采樣局部視覺特...

【專利技術屬性】
技術研發人員：白翔，劉禹良，楊彪，劉強，李長，馬智寅，張朔，
申請(專利權)人：珠海金山辦公軟件有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術