圖像生成方法、裝置、設備及存儲介質制造方法及圖紙

技術編號：44523618 閱讀：2 留言：0更新日期：2025-03-07 13:15

本申請實施例公開了一種圖像生成方法、裝置、設備及存儲介質，應用于人工智能技術，該方法包括：獲取待生成圖像的圖像生成提示文本；獲取基于第一風格信息關聯的風格樣本圖像訓練得到的風格基礎模型，基于場景信息關聯的場景樣本圖像訓練得到的旁路模塊，以及基于第二風格信息關聯的風格樣本圖像訓練得到的目標風格模型；調用旁路模塊和風格基礎模型，根據第一隨機噪聲圖像和圖像生成提示文本，生成與場景信息和第一風格信息均匹配的預生成圖像；調用目標風格模型，根據第二隨機噪聲圖像、圖像生成提示文本以及預生成圖像，生成與圖像生成提示文本匹配的目標圖像。通過本申請能夠提高圖像的生成質量。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及人工智能技術等領域，尤其涉及一種圖像生成方法、裝置、設備及存儲介質。

技術介紹

1、人工智能軟件技術主要包括計算機視覺技術、語音識別技術、自然語言處理技術以及機器學習/深度學習等幾大方向。其中，計算機視覺技術通常包括圖像處理、圖像識別、圖像生成、圖像語義理解、圖像檢索、ocr、視頻處理、視頻語義理解、視頻內容/行為識別、三維物體重建、3d技術、虛擬現實、增強現實、同步定位與地圖構建等技術。圖像生成是指擴散模型根據描述文本對隨機噪聲圖像進行一系列操作，生成與描述文本相關的預測圖像，然而，實踐中發現，由于某種場景下的風格樣本圖像有限，導致基于風格樣本圖像訓練得到的擴散模型的泛化能力比較弱，進而，使圖像的生成質量比較低。

技術實現思路

1、本申請實施例提供一種圖像生成方法、裝置、設備及存儲介質，提高圖像的生成質量。

2、本申請實施例一方面提供一種圖像生成方法，包括：

3、獲取待生成圖像的圖像生成提示文本；上述圖像生成提示文本反映上述待生成圖像的場景信息、第一風格信息和第二風格信息，上述第二風格信息所指示的圖像風格類別為上述第一風格信息所指示的圖像風格類別的子類別；

4、獲取基于上述第一風格信息關聯的風格樣本圖像訓練得到的風格基礎模型，基于上述場景信息關聯的場景樣本圖像訓練得到的旁路模塊，以及基于上述第二風格信息關聯的風格樣本圖像訓練得到的目標風格模型；

5、調用上述旁路模塊和上述風格基礎模型，根據第一隨機噪聲圖像和上述圖像生成提示

6、調用上述目標風格模型，根據第二隨機噪聲圖像、上述圖像生成提示文本以及上述預生成圖像，生成與上述圖像生成提示文本匹配的目標圖像。

7、本申請實施例一方面提供一種圖像生成方法，包括：

8、獲取與上述場景信息關聯的n個圖文對、初始旁路模塊以及基于通用樣本圖像訓練得到的基礎生成模型；一個圖文對包括一個場景樣本圖像和上述場景樣本圖像的描述文本；n為大于1的正整數；

9、調用上述基礎生成模型的擴散模塊，對上述n個圖文對中的場景樣本圖像進行加噪處理，得到n個第三帶噪隱空間表征；

10、調用上述基礎生成模型的去噪模塊以及上述初始旁路模塊，根據上述n個圖文對中的描述文本，對上述n個第三帶噪隱空間表征進行去噪處理，得到n個預測場景圖像；

11、根據上述n個預測場景圖像和上述n個圖文對中的樣本場景圖像，對上述初始旁路模塊的參數進行調整，得到訓練后的旁路模塊；上述旁路模塊用于實現前文描述的方法。

12、本申請實施例一方面提供一種圖像生成裝置，包括：

13、第一獲取模塊，用于獲取待生成圖像的圖像生成提示文本；上述圖像生成提示文本反映上述待生成圖像的場景信息、第一風格信息和第二風格信息，上述第二風格信息所指示的圖像風格類別為上述第一風格信息所指示的圖像風格類別的子類別；

14、第二獲取模塊，用于基于上述第一風格信息關聯的風格樣本圖像訓練得到的風格基礎模型，基于上述場景信息關聯的場景樣本圖像訓練得到的旁路模塊，以及基于上述第二風格信息關聯的風格樣本圖像訓練得到的目標風格模型；

15、第一生成模塊，用于調用上述旁路模塊和上述風格基礎模型，根據第一隨機噪聲圖像和上述圖像生成提示文本，生成與上述場景信息和上述第一風格信息均匹配的預生成圖像；

16、第二生成模塊，用于調用上述目標風格模型，根據第二隨機噪聲圖像、上述圖像生成提示文本以及上述預生成圖像，生成與上述圖像生成提示文本匹配的目標圖像。

17、本申請實施例一方面提供一種圖像生成裝置，包括：

18、第一獲取模塊，用于獲取與上述場景信息關聯的n個圖文對、初始旁路模塊以及基于通用樣本圖像訓練得到的基礎生成模型；一個圖文對包括一個場景樣本圖像和上述場景樣本圖像的描述文本；n為大于1的正整數；

19、加噪處理模塊，用于調用上述基礎生成模型的擴散模塊，對上述n個圖文對中的場景樣本圖像進行加噪處理，得到n個第三帶噪隱空間表征；

20、去噪處理模塊，用于調用上述基礎生成模型的去噪模塊以及上述初始旁路模塊，根據上述n個圖文對中的描述文本，對上述n個第三帶噪隱空間表征進行去噪處理，得到n個預測場景圖像；

21、調整模塊，用于根據上述n個預測場景圖像和上述n個圖文對中的樣本場景圖像，對上述初始旁路模塊的參數進行調整，得到訓練后的旁路模塊；上述旁路模塊用于實現前文描述的方法。

22、本申請實施例一方面提供了一種計算機設備，包括存儲器和處理器，上述存儲器存儲有計算機程序，上述處理器執行上述計算機程序時實現上述的方法的步驟。

23、本申請實施例一方面提供了一種計算機可讀存儲介質，其上存儲有計算機程序，上述計算機程序被處理器執行時實現上述的方法的步驟。

24、本申請實施例一方面提供了一種計算機程序產品，包括計算機程序，該計算機程序被處理器執行時實現上述的方法的步驟。

25、本申請中，獨立訓練用于進行圖像風格轉換的風格模型(即風格基礎模型和目標風格模型)，以及用于生成場景圖像的旁路模塊，即風格基礎模型是基于第一風格信息關聯的風格樣本圖像訓練得到的，目標風格模型是基于第二風格信息關聯的風格樣本圖像訓練得到的，旁路模塊是基于場景信息關聯的場景樣本圖像訓練得到的，這樣可以避免同時滿足場景信息和風格信息的樣本圖像過少，造成圖像的生成質量比較低的問題，提高圖像的生成質量。在實際應用中，通過將旁路模塊嵌入至泛化性能更好的風格基礎模型，以生成符合語義信息的預生成圖像，語義信息是指場景信息和第一風格信息，通過目標風格模型，以預生成圖像為控制信息進行圖像風格轉換，得到與圖像生成提示文本匹配的目標圖像，使目標圖像滿足場景要求的同時，滿足圖像風格要求，提高圖像的生成質量。

本文檔來自技高網...

【技術保護點】

1.一種圖像生成方法，其特征在于，包括：

2.如權利要求1所述的方法，其特征在于，所述調用所述旁路模塊和所述風格基礎模型，根據第一隨機噪聲圖像和所述圖像生成提示文本，生成與所述場景信息和所述第一風格信息均匹配的預生成圖像，包括：

3.如權利要求2所述的方法，其特征在于，所述風格基礎模型的去噪模塊包括第一上采樣網絡和第一下采樣網絡；

4.如權利要求3所述的方法，其特征在于，所述旁路模塊包括S個旁路單元，所述第一下采樣網絡包括S個第一下采樣單元，S為正整數；

5.如權利要求1所述的方法，其特征在于，所述調用所述目標風格模型，根據第二隨機噪聲圖像、所述圖像生成提示文本以及所述預生成圖像，生成與所述圖像生成提示文本匹配的目標圖像，包括：

6.如權利要求5所述的方法，其特征在于，所述調用所述目標風格模型的去噪模塊，根據所述L個邊緣圖像和所述圖像生成提示文本，對所述第二帶噪隱空間表征進行L次去噪處理，得到與所述圖像生成提示文本匹配的第二去噪隱空間表征，包括：

7.如權利要求1所述的方法，其特征在于，所述獲取基于所述第一風

8.一種圖像生成方法，其特征在于，包括：

9.如權利要求8所述的方法，其特征在于，所述調用所述基礎生成模型的去噪模塊以及所述初始旁路模塊，根據所述N個圖文對中的描述文本，對所述N個第三帶噪隱空間表征進行去噪處理，得到N個預測場景圖像，包括：

10.如權利要求9所述的方法，其特征在于，所述基礎生成模型的去噪模塊包括第二上采樣網絡和第二下采樣網絡；

11.如權利要求10所述的方法，其特征在于，所述初始旁路模塊包括S個旁路單元，所述第二下采樣網絡包括S個第二下采樣單元，S為正整數；

12.如權利要求8所述的方法，其特征在于，所述根據所述N個預測場景圖像和所述N個圖文對中的樣本場景圖像，對所述初始旁路模塊的參數進行調整，得到訓練后的旁路模塊，包括：

13.如權利要求8所述的方法，其特征在于，所述獲取與所述場景信息關聯的N個圖文對，包括：

14.一種圖像生成裝置，其特征在于，包括：

15.一種圖像生成裝置，其特征在于，包括：

16.一種計算機設備，包括存儲器和處理器，所述存儲器存儲有計算機程序，其特征在于，所述處理器執行所述計算機程序時實現權利要求1至13中任一項所述的方法的步驟。

17.一種計算機可讀存儲介質，其上存儲有計算機程序，其特征在于，所述計算機程序被處理器執行時實現權利要求1至13中任一項所述的方法的步驟。

18.一種計算機程序產品，包括計算機程序，其特征在于，該計算機程序被處理器執行時實現權利要求1至13中任一項所述的方法的步驟。

...

【技術特征摘要】

1.一種圖像生成方法，其特征在于，包括：

3.如權利要求2所述的方法，其特征在于，所述風格基礎模型的去噪模塊包括第一上采樣網絡和第一下采樣網絡；

4.如權利要求3所述的方法，其特征在于，所述旁路模塊包括s個旁路單元，所述第一下采樣網絡包括s個第一下采樣單元，s為正整數；

6.如權利要求5所述的方法，其特征在于，所述調用所述目標風格模型的去噪模塊，根據所述l個邊緣圖像和所述圖像生成提示文本，對所述第二帶噪隱空間表征進行l次去噪處理，得到與所述圖像生成提示文本匹配的第二去噪隱空間表征，包括：

7.如權利要求1所述的方法，其特征在于，所述獲取基于所述第一風格信息關聯的風格樣本圖像訓練得到的風格基礎模型，包括：

8.一種圖像生成方法，其特征在于，包括：

9.如權利要求8所述的方法，其特征在于，所述調用所述基礎生成模型的去噪模塊以及所述初始旁路模塊，根據所...

【專利技術屬性】
技術研發人員：郭卉，
申請(專利權)人：騰訊科技深圳有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術