System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本公開內容涉及神經網絡的領域,并且具體地涉及利用神經網絡對圖像的線稿上色的風格適配。
技術介紹
1、對動漫線描圖像的上色是卡通動畫創作流程中的一個重要環節。然而,手動上色耗時且繁瑣。因此,以期望的風格來對線描圖像自動上色的方法越來越受到關注。
2、傳統的方法例如包括直接使用sd(stable?diffusion)模型或controlnet模型進行推理、對預訓練的sd模型或controlnet模型進行微調、或者使用controlnet并根據參考圖像進行推理(reference-only,僅供參考)的方法。
3、直接使用sd(stable?diffusion)模型或controlnet模型進行推理由于沒有學習到新風格的知識而無法生成具有期望的風格的圖像。
4、對預訓練的sd模型或controlnet模型進行微調在對新數據進行微調時可能會忘記以前風格的知識。
5、僅供參考的方法雖然可以很好地推廣到分布外的風格,但可能會產生低質量的圖像。
技術實現思路
1、在下文中給出了關于本公開內容的簡要概述,以便提供關于本公開內容的某些方面的基本理解。應當理解,這個概述并不是關于本公開內容的窮舉性概述。它并不是意圖確定本公開內容的關鍵或重要部分,也不是意圖限定本公開內容的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
2、根據本公開內容的一個方面,提供了一種神經網絡,包括:文本編碼器,其被輸入提示,以獲得提示
3、優選地,神經網絡還包括第三零卷積模塊,其被連接至第二加法器。
4、優選地,通過對原始圖像添加噪聲來獲得輸入圖像。
5、優選地,在訓練期間,將輸入圖像輸入第一unet編碼器,將對應于原始圖像的線稿圖像和輸入圖像通過第一加法器相加后輸入第二unet編碼器,將線稿圖像通過第一零卷積模塊進行零卷積,并且將第一風格參考圖像通過第三零卷積模塊進行卷積,和將經過零卷積的線稿圖像、經過零卷積的第一風格參考圖像和輸入圖像輸入第二加法器相加后,輸入第三unet編碼器。
6、優選地,在推理期間,將輸入圖像輸入第一unet編碼器,將線稿圖像和輸入圖像通過第一加法器相加后輸入第二unet編碼器,將線稿圖像通過第一零卷積模塊進行零卷積,并且將第二風格參考圖像通過第三零卷積模塊進行卷積,和將經過零卷積的線稿圖像、經過零卷積的第二風格參考圖像和輸入圖像輸入第二加法器相加后,輸入第三unet編碼器。
7、優選地,第一風格參考圖像是通過對原始圖像進行薄板樣條方法(tps,thin-plate?splines)轉換獲得的,以及第二風格參考圖像為不同于原始圖像的任何其他圖像。
8、優選地,神經網絡還包括基礎變換塊,并且基礎變換塊被包括在unet解碼器中。
9、優選地,神經網絡是風格適配神經網絡。
10、優選地,風格包括圖像的色彩、亮度、飽和度、對比度、紋理和線條中的一個或更多個。
11、優選地,輸入圖像在被輸入第一unet編碼器、第一加法器和第二加法器之前,通過預訓練的編碼器得到輸入圖像的隱變量。
12、優選地,線稿圖像在被輸入第一加法器和第一零卷積模塊之前,通過參與神經網絡的訓練的編碼器進行編碼。
13、優選地,風格參考圖像在被輸入第三零卷積模塊之前,通過預訓練的編碼器得到風格參考圖像的隱變量。
14、優選地,第一unet編碼器、第二unet編碼器和unet解碼器在訓練神經網絡之前被預訓練。優選地,可以復制第二unet編碼器預訓練得到的網絡參數作為第三unet編碼器初始參數。
15、根據本公開內容的另一個方面,提供了一種用于訓練上述神經網絡的方法,包括:通過對原始圖像添加噪聲來獲得輸入圖像;將輸入圖像輸入第一unet編碼器,并且將對應于原始圖像的線稿圖像和輸入圖像在通過第一加法器相加后輸入第二unet編碼器;將輸入圖像和線稿圖像在通過第二加法器相加后輸入第三unet編碼器;和通過如下方式來訓練神經網絡:調整第三unet編碼器的參數、并且保持unet解碼器、文本編碼器、時間編碼器、第一unet編碼器和第二unet編碼器各自的參數不變,使得神經網絡收斂,或者調整unet解碼器和第三unet編碼器各自的參數、并且保持文本編碼器、時間編碼器、第一unet編碼器和第二unet編碼器各自的參數不變,使得神經網絡收斂。
16、優選地,文本編碼器和時間編碼器被連接至第一unet編碼器、第二unet編碼器、第三unet編碼器和unet解碼器,并且方法還包括:將提示輸入文本編碼器,并且將時間步輸入時間編碼器,以得到提示和時間步各自的張量;和將提示和時間步各自的張量分別提供給第一unet編碼器、第二unet編碼器、第三unet編碼器和unet解碼器。
17、優選地,神經網絡還包括第一零卷積模塊和第二零卷積模塊,第一零卷積模塊被連接到第二加法器,并且第二零卷積模塊被連接在第三unet編碼器的輸出與unet解碼器的第二輸入之間。線稿圖像通過第一零卷積模塊進行零卷積,并且,輸入圖像和經過零卷積的線稿圖像通過第二加法器相加后被輸入第三unet編碼器。
18、優選地,神經網絡還包括第三零卷積模塊,第三零卷積模塊被連接至第二加法器。方法還包括將風格參考圖像通過第三零卷積模塊進行零卷積,并且將經過零卷積的風格參考圖像輸入第二加法器。
19、優選地,在訓練期間,風格參考圖像是通過對原始圖像進行薄板樣條方法轉換獲得的。
20、優選地,在推理期間,風格參考圖像為不同于原始圖像的任何其他圖像。
21、根據本公開內容的又另一個方面,提供了一種用于訓練上述神經網絡的裝置,包括:獲得單元,其被配置成通過對原始圖像本文檔來自技高網...
【技術保護點】
1.一種用于訓練神經網絡的方法,所述神經網絡包括文本編碼器、時間編碼器、第一U形網絡編碼器、第二U形網絡編碼器、第三U形網絡編碼器、U形網絡解碼器、第一加法器和第二加法器,所述第一U形網絡編碼器的輸出被連接至所述U形網絡解碼器的第一輸入,所述第一加法器被連接至所述第二U形網絡編碼器的輸入,所述第二加法器被連接至所述第三U形網絡編碼器的輸入,并且所述第二U形網絡編碼器的輸出和所述第三U形網絡編碼器的輸出被連接至所述U形網絡解碼器的第二輸入,所述方法包括:
2.根據權利要求1所述的方法,其中,所述文本編碼器和所述時間編碼器被連接至所述第一U形網絡編碼器、所述第二U形網絡編碼器、所述第三U形網絡編碼器和所述U形網絡解碼器,所述方法還包括:
3.根據權利要求2所述的方法,其中,所述神經網絡還包括第一零卷積模塊和第二零卷積模塊,所述第一零卷積模塊被連接到所述第二加法器,并且所述第二零卷積模塊被連接在所述第三U形網絡編碼器的輸出與所述U形網絡解碼器的第二輸入之間,以及
4.根據權利要求3所述的方法,其中,所述神經網絡還包括第三零卷積模塊,所述第三零卷積模塊
5.根據權利要求4所述的方法,其中,在訓練期間,所述風格參考圖像是通過對所述原始圖像進行薄板樣條方法轉換獲得的。
6.根據權利要求4所述的方法,其中,在推理期間,所述風格參考圖像為不同于所述原始圖像的任何其他圖像。
7.根據權利要求1至6中任一項所述的方法,其中,所述第一U形網絡編碼器、所述第二U形網絡編碼器和所述U形網絡解碼器在訓練所述神經網絡之前被預訓練。
8.一種用于訓練神經網絡的裝置,所述神經網絡包括文本編碼器、時間編碼器、第一U形網絡編碼器、第二U形網絡編碼器、第三U形網絡編碼器、U形網絡解碼器、第一加法器和第二加法器,所述第一U形網絡編碼器的輸出被連接至所述U形網絡解碼器的第一輸入,所述第一加法器被連接至所述第二U形網絡編碼器的輸入,所述第二加法器被連接至所述第三U形網絡編碼器的輸入,并且所述第二U形網絡編碼器的輸出和所述第三U形網絡編碼器的輸出被連接至所述U形網絡解碼器的第二輸入,所述裝置包括:
9.一種神經網絡,包括:
10.根據權利要求9所述的神經網絡,還包括第三零卷積模塊,所述第三零卷積模塊被連接至所述第二加法器。
...【技術特征摘要】
1.一種用于訓練神經網絡的方法,所述神經網絡包括文本編碼器、時間編碼器、第一u形網絡編碼器、第二u形網絡編碼器、第三u形網絡編碼器、u形網絡解碼器、第一加法器和第二加法器,所述第一u形網絡編碼器的輸出被連接至所述u形網絡解碼器的第一輸入,所述第一加法器被連接至所述第二u形網絡編碼器的輸入,所述第二加法器被連接至所述第三u形網絡編碼器的輸入,并且所述第二u形網絡編碼器的輸出和所述第三u形網絡編碼器的輸出被連接至所述u形網絡解碼器的第二輸入,所述方法包括:
2.根據權利要求1所述的方法,其中,所述文本編碼器和所述時間編碼器被連接至所述第一u形網絡編碼器、所述第二u形網絡編碼器、所述第三u形網絡編碼器和所述u形網絡解碼器,所述方法還包括:
3.根據權利要求2所述的方法,其中,所述神經網絡還包括第一零卷積模塊和第二零卷積模塊,所述第一零卷積模塊被連接到所述第二加法器,并且所述第二零卷積模塊被連接在所述第三u形網絡編碼器的輸出與所述u形網絡解碼器的第二輸入之間,以及
4.根據權利要求3所述的方法,其中,所述神經網絡還包括第三零卷積模塊,所述第三零卷積模塊被連接至所述第二加法器,<...
【專利技術屬性】
技術研發人員:鐘朝亮,王平,汪潔,馮成,孫俊,
申請(專利權)人:富士通株式會社,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。