基于深度學習的圖像處理方法和裝置制造方法及圖紙

技術(shù)編號：42966565 閱讀：18 留言：0更新日期：2024-10-15 13:11

本發(fā)明專利技術(shù)提供一種基于深度學習的圖像處理方法和裝置，所述方法包括：獲取待檢測的圖像數(shù)據(jù)，將所述圖像數(shù)據(jù)與輸入的提示信息相融合，以得到輸入數(shù)據(jù)；將所述輸入數(shù)據(jù)輸入預先構(gòu)建的目標檢測模型，以得到所述目標檢測模型輸出的目標檢測結(jié)果；其中，所述目標檢測模型是基于預先構(gòu)建的深度學習網(wǎng)絡，利用自然圖像樣本、與所述自然圖像樣本對應的提示信息，以及標簽信息進行訓練得到的。解決了現(xiàn)有技術(shù)中圖像處理過程中目標檢測缺少交互能力，圖像處理效果受限的技術(shù)問題。

全部詳細技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本專利技術(shù)涉及圖像處理，尤其涉及一種基于深度學習的圖像處理方法和裝置。

技術(shù)介紹

1、目標檢測是圖像處理的重要手段之一，例如，在醫(yī)學領域，傳統(tǒng)的目標檢測采用rcnn等two-stage目標檢測模型或者yolo等one-stage目標檢測模型。在目標檢測時，rcnn等two-stage目標檢測模型利用一階段產(chǎn)生的候選區(qū)域，并在二階段對每一個候選區(qū)域進行分類與邊界回歸，yolo等one-stage目標檢測模型采用一階段的模型結(jié)構(gòu)。在目標檢測過程中，已有技術(shù)在對圖像目標進行檢測時缺少交互能力，無法實現(xiàn)基于提示目標的檢測，限制了圖像處理的效果和適用范圍。

技術(shù)實現(xiàn)思路

1、本專利技術(shù)提供一種基于深度學習的圖像處理方法和裝置，以解決現(xiàn)有技術(shù)中圖像處理過程中目標檢測缺少交互能力，圖像處理效果受限的技術(shù)問題。

2、本專利技術(shù)提供一種基于深度學習的圖像處理方法，所述方法包括：

3、獲取待檢測的圖像數(shù)據(jù)，將所述圖像數(shù)據(jù)與輸入的提示信息相融合，以得到輸入數(shù)據(jù)；

4、將所述輸入數(shù)據(jù)輸入預先構(gòu)建的目標檢測模型，以得到所述目標檢測模型輸出的目標檢測結(jié)果；

5、其中，所述目標檢測模型是基于預先構(gòu)建的深度學習網(wǎng)絡，利用自然圖像樣本、與所述自然圖像樣本對應的提示信息，以及標簽信息進行訓練得到的。

6、在一些實施例中，基于預先構(gòu)建的深度學習網(wǎng)絡，利用自然圖像樣本、與所述自然圖像樣本對應的提示信息，以及標簽信息進行訓練，以得到所述目標檢測模型，具體包括：p>

7、構(gòu)建數(shù)據(jù)集，所述數(shù)據(jù)集包括自然圖像樣本、與所述自然圖像樣本對應的提示信息，以及標簽信息；

8、將所述數(shù)據(jù)集劃分為訓練集、驗證集和測試集；

9、將所述訓練集中的樣本輸入預先構(gòu)建的深度學習網(wǎng)絡進行訓練，以得到初始檢測模型；

10、利用驗證集和測試集分別對所述初始檢測模型進行驗證和測試，以得到所述目標檢測模型。

11、在一些實施例中，所述構(gòu)建數(shù)據(jù)集具體包括：

12、采集海量自然圖像樣本，以建立圖庫；

13、基于每個所述自然圖像樣本生成等分辨率的掩碼圖像，以建立掩碼庫；

14、在自然圖像樣本上標注非掩碼區(qū)域的待標注目標，生成標簽信息；

15、將自然圖像樣本、自然圖像樣本所對應的掩碼圖像和其非掩碼區(qū)域的標簽信息作為一個單元，以構(gòu)建具有多個單元的數(shù)據(jù)集。

16、在一些實施例中，所述深度學習網(wǎng)絡的網(wǎng)絡架構(gòu)包括：

17、圖像編碼器，所述圖像編碼器用于在輸入的自然圖像樣本中提取語義信息，并經(jīng)過多次下采樣得到自然圖像樣本的特征圖；

18、提示信息編碼器，所述提示信息編碼器用于在輸入的提示信息中提取語義信息，并經(jīng)過信息融合和處理，以得到融合有提示信息的特征圖；

19、特征融合模塊，所述特征融合模塊用于將多尺寸的特征圖進行特征融合；

20、標簽匹配模塊，所述標簽匹配模塊利用最小代價損失確定樣本的標簽信息，使用對比學習建立圖像信息和文本描述之間的關(guān)系。

21、在一些實施例中，所述提示信息包括掩碼信息和文本信息，所述提示信息編碼器包括：

22、掩碼編碼器，所述掩碼編碼器用于在輸入的掩碼圖像中提取語義信息，并經(jīng)過多次下采樣得到掩碼圖像的特征圖；

23、融合層，所述融合層用于將自然圖像樣本的特征圖與掩碼圖像的特征圖進行融合；

24、文本編碼器，所述文本編碼器用于提取輸入的文本信息的高級語義信息，通過對比學習建立圖像特征和文本特征之間的關(guān)聯(lián)；

25、在一些實施例中，所述特征融合模塊包括同尺度特征融合和跨尺度特征融合。

26、本專利技術(shù)還提供一種基于深度學習的圖像處理裝置，所述裝置包括：

27、數(shù)據(jù)采集單元，用于獲取待檢測的圖像數(shù)據(jù)，將所述圖像數(shù)據(jù)與輸入的提示信息相融合，以得到輸入數(shù)據(jù)；

28、結(jié)果生成單元，用于將所述輸入數(shù)據(jù)輸入預先構(gòu)建的目標檢測模型，以得到所述目標檢測模型輸出的目標檢測結(jié)果；

29、其中，所述目標檢測模型是基于預先構(gòu)建的深度學習網(wǎng)絡，利用自然圖像樣本、與所述自然圖像樣本對應的提示信息，以及標簽信息進行訓練得到的。

30、本專利技術(shù)還提供一種電子設備，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，所述處理器執(zhí)行所述程序時實現(xiàn)如上所述的方法。

31、本專利技術(shù)還提供一種非暫態(tài)計算機可讀存儲介質(zhì)，其上存儲有計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的方法。

32、本專利技術(shù)還提供一種計算機程序產(chǎn)品，包括計算機程序，所述計算機程序被處理器執(zhí)行時實現(xiàn)如上所述的方法。

33、本專利技術(shù)提供的基于深度學習的圖像處理方法和裝置，通過獲取待檢測的圖像數(shù)據(jù)，將所述圖像數(shù)據(jù)與輸入的提示信息相融合，以得到輸入數(shù)據(jù)；將所述輸入數(shù)據(jù)輸入預先構(gòu)建的目標檢測模型，即可得到所述目標檢測模型輸出的目標檢測結(jié)果；其中，所述目標檢測模型是基于預先構(gòu)建的深度學習網(wǎng)絡，利用自然圖像樣本、與所述自然圖像樣本對應的提示信息，以及標簽信息進行訓練得到的。本專利技術(shù)所提供的方法和裝置，通過在模型訓練中融合了提示信息，能夠顯著提高檢測模型基于提示信息實現(xiàn)與人類交互的能力，具有一定的實際使用價值，解決了現(xiàn)有技術(shù)中圖像處理過程中目標檢測缺少交互能力，圖像處理效果受限的技術(shù)問題。

本文檔來自技高網(wǎng)...

【技術(shù)保護點】

1.一種基于深度學習的圖像處理方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的基于深度學習的圖像處理方法，其特征在于，基于預先構(gòu)建的深度學習網(wǎng)絡，利用自然圖像樣本、與所述自然圖像樣本對應的提示信息，以及標簽信息進行訓練，以得到所述目標檢測模型，具體包括：

3.根據(jù)權(quán)利要求2所述的基于深度學習的圖像處理方法，其特征在于，所述構(gòu)建數(shù)據(jù)集具體包括：

4.根據(jù)權(quán)利要求2所述的基于深度學習的圖像處理方法，其特征在于，所述深度學習網(wǎng)絡的網(wǎng)絡架構(gòu)包括：

5.根據(jù)權(quán)利要求4所述的基于深度學習的圖像處理方法，其特征在于，所述提示信息包括掩碼信息和文本信息，所述提示信息編碼器包括：

6.根據(jù)權(quán)利要求4所述的基于深度學習的圖像處理方法，其特征在于，所述特征融合模塊包括同尺度特征融合和跨尺度特征融合。

7.一種基于深度學習的圖像處理裝置，其特征在于，所述裝置包括：

8.一種電子設備，包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序，其特征在于，所述處理器執(zhí)行所述程序時實現(xiàn)如權(quán)利要求1至6任一項所述的方法。

9.一種非暫態(tài)計算機可讀存儲介質(zhì)，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述的方法。

10.一種計算機程序產(chǎn)品，包括計算機程序，其特征在于，所述計算機程序被處理器執(zhí)行時實現(xiàn)如權(quán)利要求1至6任一項所述的方法。

...

【技術(shù)特征摘要】

1.一種基于深度學習的圖像處理方法，其特征在于，所述方法包括：

3.根據(jù)權(quán)利要求2所述的基于深度學習的圖像處理方法，其特征在于，所述構(gòu)建數(shù)據(jù)集具體包括：

4.根據(jù)權(quán)利要求2所述的基于深度學習的圖像處理方法，其特征在于，所述深度學習網(wǎng)絡的網(wǎng)絡架構(gòu)包括：

5.根據(jù)權(quán)利要求4所述的基于深度學習的圖像處理方法，其特征在于，所述提示信息包括掩碼信息和文本信息，所述提示信息編碼器包括：

6.根據(jù)...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：李柏蕤，連荷清，武靜威，
申請(專利權(quán))人：北京小蠅科技有限責任公司，
類型：發(fā)明
國別省市：

全部詳細技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領域技術(shù)