System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 精品亚洲av无码一区二区柚蜜 ,日韩乱码人妻无码系列中文字幕,无码国产精品一区二区免费式影视
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    圖像處理方法、裝置及存儲介質制造方法及圖紙

    技術編號:44494343 閱讀:4 留言:0更新日期:2025-03-04 18:00
    本申請涉及一種圖像處理方法、裝置及存儲介質,所述方法包括:獲取原始圖像以及針對所述原始圖像的需求表述,并對所述原始圖像進行切塊處理,得到多個局部圖像塊;對所述原始圖像進行分辨率調整,得到目標圖像,其中,所述目標圖像的分辨率與每個所述局部圖像塊的分辨率相同;采用跨切塊聯系的策略,對多個所述局部圖像塊進行編碼處理,得到編碼結果;對所述編碼結果、所述目標圖像以及所述需求表述進行處理,得到所述需求表述對應的答案表述。如此采用跨切塊聯系的策略,對多個局部圖像塊進行編碼處理,可以有效緩解語義割裂、空間割裂的問題,如此可以保證對高分辨率圖像進行很好的處理。

    【技術實現步驟摘要】

    本申請涉及信息處理,尤其涉及一種圖像處理方法、裝置及存儲介質


    技術介紹

    1、大模型是一種大型深度學習模型,其核心思想是將不同信息(例如文本、圖像、音頻和視頻等)進行融合,通過學習不同信息之間的關聯,實現更加智能化的信息處理。在大模型中,不同的信息經過預處理后被輸入到一個大模型中,經過多層的特征提取和融合,最終輸出相應的結果。

    2、目前,在大模型中,對于輸入的圖像,會將圖像統一調整至一個固定的分辨率,這會導致部分高分辨率圖像在輸入大模型時,其分辨率被嚴重壓縮,造成視覺信息的損耗。為此采用裁剪策略,將圖像裁剪為若干個圖像塊,輸入至大模型。

    3、然而,這種裁剪策略可能會造成語義割裂、空間割裂,導致大模型在處理相關任務時,推理的結果不準確。例如,對于“backup”,采用裁剪策略可能會無意中將其分割為“back”與“up”,造成語義割裂,使得語義不連貫,并且“backup”在空間上割裂開來,導致大模型在處理相關任務時,推理的結果不準確。


    技術實現思路

    1、為了解決上述這種裁剪策略可能會造成語義割裂、空間割裂,導致大模型推理的結果不準確的技術問題,本申請實施例提供了一種圖像處理方法、裝置、電子設備及存儲介質。具體技術方案如下:

    2、在本申請實施例的第一方面,首先提供了一種圖像處理方法,所述方法包括:

    3、獲取原始圖像以及針對所述原始圖像的需求表述,并對所述原始圖像進行切塊處理,得到多個局部圖像塊;

    4、對所述原始圖像進行分辨率調整,得到目標圖像,其中,所述目標圖像的分辨率與每個所述局部圖像塊的分辨率相同;

    5、采用跨切塊聯系的策略,對多個所述局部圖像塊進行編碼處理,得到編碼結果;

    6、對所述編碼結果、所述目標圖像以及所述需求表述進行處理,得到所述需求表述對應的答案表述。

    7、在一個可選的實施方式中,所述對所述原始圖像進行切塊處理,得到多個局部圖像塊,包括:

    8、確定所述原始圖像對應的縮放分辨率,并對所述原始圖像進行縮放處理,以使縮放后的所述原始圖像的分辨率達到所述縮放分辨率;

    9、對縮放后的所述原始圖像進行切塊處理,得到多個局部圖像塊。

    10、在一個可選的實施方式中,所述確定所述原始圖像對應的縮放分辨率,包括:

    11、獲取預定義分辨率集,所述預定義分辨率集中包含多個預定義分辨率,且每個所述預定義分辨率是預設分辨率的倍數;

    12、針對所述預定義分辨率集中任一所述預定義分辨率,確定所述預定義分辨率與所述原始圖像的分辨率的交并比;

    13、根據所述交并比,篩選所述預定義分辨率集中的目標預定義分辨率,將所述目標預定義分辨率確定為所述原始圖像對應的縮放分辨率。

    14、在一個可選的實施方式中,所述采用跨切塊聯系的策略,對多個所述局部圖像塊進行編碼處理,得到編碼結果,包括:

    15、將多個所述局部圖像塊輸入至預訓練的第一視覺編碼器進行編碼處理,得到多個局部視覺特征;

    16、其中,所述預訓練的第一視覺編碼器采用滑動窗口注意力機制,對多個所述局部圖像塊進行編碼處理,輸出多個局部視覺特征。

    17、在一個可選的實施方式中,對所述編碼結果、所述目標圖像以及所述需求表述進行處理,得到所述需求表述對應的答案表述,包括:

    18、對所述需求表述進行編碼處理,得到文本編碼特征;

    19、將所述目標圖像輸入至預訓練的第二視覺編碼器進行編碼處理,得到全局視覺特征;

    20、將多個所述局部視覺特征、所述全局視覺特征輸入至預訓練的視覺重采樣模型,得到多個重采樣局部視覺特征、重采樣全局視覺特征;

    21、將多個所述重采樣局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型,得到所述需求表述對應的答案表述。

    22、在一個可選的實施方式中,所述將多個所述重采樣局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型,得到所述需求表述對應的答案表述,包括:

    23、從多個所述重采樣局部視覺特征中,選取目標數量的所述重采樣局部視覺特征;

    24、將目標數量的所述重采樣局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型,得到所述需求表述對應的答案表述。

    25、在一個可選的實施方式中,所述從多個所述重采樣局部視覺特征中,選取目標數量的所述重采樣局部視覺特征,包括:

    26、從預設壓縮概率集中進行采樣,得到目標壓縮概率,并獲取所述原始圖像的縮放分辨率對應的特征長度;

    27、根據所述目標壓縮概率與所述特征長度,確定目標數量;

    28、從多個所述重采樣局部視覺特征中,選取所述目標數量的所述重采樣局部視覺特征。

    29、在一個可選的實施方式中,所述從多個所述重采樣局部視覺特征中,選取所述目標數量的所述重采樣局部視覺特征,包括:

    30、針對任一所述重采樣局部視覺特征,確定所述重采樣局部視覺特征的重要性分數;

    31、根據所述重要性分數,對多個所述重采樣局部視覺特征進行排序,得到重采樣局部視覺特征排序結果;

    32、根據所述重采樣局部視覺特征排序結果,選取所述目標數量的所述重采樣局部視覺特征。

    33、在一個可選的實施方式中,所述針對任一所述重采樣局部視覺特征,確定所述重采樣局部視覺特征的重要性分數,包括:

    34、針對任一所述重采樣局部視覺特征,確定所述重采樣局部視覺特征,與剩余重采樣局部視覺特征中任一重采樣局部視覺特征之間的相似度;

    35、根據多個所述相似度,確定所述重采樣局部視覺特征的重要性分數。

    36、在一個可選的實施方式中,所述根據多個所述相似度,確定所述重采樣局部視覺特征的重要性分數,包括:

    37、針對任一所述相似度,獲取預設數值與所述相似度之間的差值;

    38、對得到的多個所述差值進行加權求和,得到所述重采樣局部視覺特征的重要性分數。

    39、在一個可選的實施方式中,所述將目標數量的所述重采樣局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型,得到所述需求表述對應的答案表述,包括:

    40、確定目標數量的所述重采樣局部視覺特征各自對應的的第一初始特征順序,按照所述第一初始特征順序,對目標數量的所述重采樣局部視覺特征進行排序,得到第一局部視覺特征序列;

    41、確定剩余所述重采樣局部視覺特征各自對應的的第二初始特征順序,按照所述第二初始特征順序,對剩余所述重采樣局部視覺特征進行排序,得到第二局部視覺特征序列;

    42、對所述第一局部視覺特征序列、所述第二局部視覺特征序列進行聚合處理,得到多個聚合局部視覺特征;

    43、將多個所述聚合局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特本文檔來自技高網...

    【技術保護點】

    1.一種圖像處理方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述對所述原始圖像進行切塊處理,得到多個局部圖像塊,包括:

    3.根據權利要求2所述的方法,其特征在于,所述確定所述原始圖像對應的縮放分辨率,包括:

    4.根據權利要求1所述的方法,其特征在于,所述采用跨切塊聯系的策略,對多個所述局部圖像塊進行編碼處理,得到編碼結果,包括:

    5.根據權利要求4所述的方法,其特征在于,對所述編碼結果、所述目標圖像以及所述需求表述進行處理,得到所述需求表述對應的答案表述,包括:

    6.根據權利要求5所述的方法,其特征在于,所述將多個所述重采樣局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型,得到所述需求表述對應的答案表述,包括:

    7.根據權利要求6所述的方法,其特征在于,所述從多個所述重采樣局部視覺特征中,選取目標數量的所述重采樣局部視覺特征,包括:

    8.根據權利要求7所述的方法,其特征在于,所述從多個所述重采樣局部視覺特征中,選取所述目標數量的所述重采樣局部視覺特征,包括:

    9.根據權利要求8所述的方法,其特征在于,所述針對任一所述重采樣局部視覺特征,確定所述重采樣局部視覺特征的重要性分數,包括:

    10.根據權利要求9所述的方法,其特征在于,所述根據多個所述相似度,確定所述重采樣局部視覺特征的重要性分數,包括:

    11.根據權利要求6所述的方法,其特征在于,所述將目標數量的所述重采樣局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型,得到所述需求表述對應的答案表述,包括:

    12.根據權利要求11所述的方法,其特征在于,所述將多個所述聚合局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型,得到所述需求表述對應的答案表述,包括:

    13.根據權利要求12所述的方法,其特征在于,所述注意力分布圖中包含所述文本編碼特征對各個所述聚合局部視覺特征、所述重采樣全局視覺特征的關注程度;

    14.根據權利要求12所述的方法,其特征在于,所述根據所述預設比例的目標視覺特征,生成所述需求表述對應的答案表述,包括:

    15.根據權利要求5所述的方法,其特征在于,在執行所述圖像處理方法之前,還包括:

    16.一種圖像處理裝置,其特征在于,所述裝置包括:

    17.一種存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執行時實現如權利要求1-15中任一所述的方法。

    ...

    【技術特征摘要】

    1.一種圖像處理方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,所述對所述原始圖像進行切塊處理,得到多個局部圖像塊,包括:

    3.根據權利要求2所述的方法,其特征在于,所述確定所述原始圖像對應的縮放分辨率,包括:

    4.根據權利要求1所述的方法,其特征在于,所述采用跨切塊聯系的策略,對多個所述局部圖像塊進行編碼處理,得到編碼結果,包括:

    5.根據權利要求4所述的方法,其特征在于,對所述編碼結果、所述目標圖像以及所述需求表述進行處理,得到所述需求表述對應的答案表述,包括:

    6.根據權利要求5所述的方法,其特征在于,所述將多個所述重采樣局部視覺特征、所述重采樣全局視覺特征、所述文本編碼特征輸入至預訓練的大型語言模型,得到所述需求表述對應的答案表述,包括:

    7.根據權利要求6所述的方法,其特征在于,所述從多個所述重采樣局部視覺特征中,選取目標數量的所述重采樣局部視覺特征,包括:

    8.根據權利要求7所述的方法,其特征在于,所述從多個所述重采樣局部視覺特征中,選取所述目標數量的所述重采樣局部視覺特征,包括:

    9.根據權利要求8所述的方法,其特征在于,所述針對任一所述重采樣局部視覺特征,確定所述重采樣局部視覺特...

    【專利技術屬性】
    技術研發人員:白翔劉禹良楊彪劉強李長馬智寅張朔
    申請(專利權)人:珠海金山辦公軟件有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲中文字幕无码中文| 国产成年无码久久久久毛片| 日韩精品无码视频一区二区蜜桃| 成在人线AV无码免费| 岛国无码av不卡一区二区| 国产精品午夜无码av体验区| 亚洲精品无码久久久久APP| 无码国内精品久久人妻麻豆按摩 | 成在人线av无码免费高潮水| 人妻少妇伦在线无码专区视频| 久久精品无码一区二区三区日韩| 国产精品无码AV天天爽播放器| 亚洲AV无码一区二区三区DV | yy111111电影院少妇影院无码| 人妻系列无码专区无码中出| 日韩精品无码一区二区三区AV| 免费无码又爽又刺激聊天APP| 亚洲中文字幕久久精品无码VA| 成人午夜亚洲精品无码网站 | 无码少妇一区二区浪潮av| 无码国产精品一区二区免费虚拟VR| 国产aⅴ无码专区亚洲av| 国产乱人伦无无码视频试看| 永久免费av无码网站韩国毛片 | 亚洲av无码片在线观看| 亚洲a∨无码男人的天堂| 日韩AV无码一区二区三区不卡毛片| 国产品无码一区二区三区在线| 精品国产aⅴ无码一区二区| 免费A级毛片无码A∨| 日韩精品专区AV无码| 亚洲a无码综合a国产av中文 | 亚洲AV无码一区二区乱子伦| 精品一区二区无码AV| 亚洲av无码专区在线观看素人| 国产成人A亚洲精V品无码| 红桃AV一区二区三区在线无码AV| 免费无码午夜福利片| 宅男在线国产精品无码| 国产成人无码AV一区二区| 亚洲国产精品无码成人片久久|