應用于定制化文生圖模型的課程多獎勵強化學習方法和裝置制造方法及圖紙

技術編號：44313566 閱讀：3 留言：0更新日期：2025-02-18 20:27

本申請提供了一種應用于定制化文生圖模型的課程多獎勵強化學習方法和裝置，涉及文生圖技術領域，旨在提升定制化文生圖模型在多個評價維度上的性能。該方法包括：獲取定制化文生圖模型根據提示詞生成的特定主體的圖片；基于多個評價維度的指標對所述圖片進行評估，得到多個指標的評估值，所述多個評價維度包括：提示詞準確性、主體準確性、人類偏好性，每個評價維度包括至少一個指標；根據每個指標的評估值的變化情況，確定每個指標的權重；根據多個所述指標的評估值和每個所述指標的權重，生成獎勵信號；根據所述獎勵信號對所述定制化文生圖模型的模型參數進行更新。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及文生圖，特別涉及一種應用于定制化文生圖模型的課程多獎勵強化學習方法和裝置。

技術介紹

1、文生圖是一種用于根據給定提示詞（prompts）生成對應圖片的任務，而定制化文生圖任務則進一步要求生成的圖片中包含用戶的定制化主體，定制化文生圖任務可以通過各種定制化文生圖模型完成。

2、但是，現有的定制化文生圖模型所生成的圖片無法在多個評價維度上表現良好，尤其對于提示詞準確性、主體準確性和人類偏好性這三個方面，往往只能夠在其中的一到兩個維度上令人滿意。因此，如何提升定制化文生圖模型在多個評價維度上的性能，是亟待解決的技術問題。

技術實現思路

1、鑒于上述問題，本申請實施例提供了一種應用于定制化文生圖模型的課程多獎勵強化學習方法和裝置，以便克服上述問題或者至少部分地解決上述問題。

2、本申請實施例的第一方面，公開了一種應用于定制化文生圖模型的課程多獎勵強化學習方法，所述方法包括：

3、獲取定制化文生圖模型根據提示詞生成的特定主體的圖片；

4、基于多個評價維度的指標對所述圖片進行評估，得到多個指標的評估值，所述多個評價維度包括：提示詞準確性、主體準確性、人類偏好性，每個評價維度包括至少一個指標；

5、根據每個指標的評估值的變化情況，確定每個指標的權重；

6、根據多個所述指標的評估值和每個所述指標的權重，生成獎勵信號；

7、根據所述獎勵信號對所述定制化文生圖模型的模型參數進行更新。

8、可選地

9、針對所述評估值的變化情況為上升的指標，賦予更小的權重，所述賦予更小的權重是指相對于上一更新輪次，該指標的權重減?。?/p>

10、針對所述評估值的變化情況為下降的指標，賦予更大的權重，所述賦予更大的權重是指相對于上一更新輪次，該指標的權重增大。

11、可選地，根據每個指標的評估值的變化情況，確定每個指標的權重，包括：

12、根據每個指標的移動平均值和移動平均標準差，得到每個指標的變化分數，所述變化分數的大小表征所述指標的評估值的變化情況；

13、根據每個指標的變化分數，確定每個指標的權重，所述指標的權重滿足：所述變化分數小的指標的權重大于所述變化分數大的指標的權重。

14、可選地，根據每個指標的變化分數，確定每個指標的權重，包括：

15、根據每個指標的變化分數，構建課程學習模型，所述課程學習模型包括第一學習項和第二學習項，所述第一學習項用于控制所有指標的權重之和滿足最小，所述第二學習項用于控制每個指標的權重在預設范圍內變化；

16、通過對所述課程學習模型進行求解，得到每個指標的初始權重；

17、將每個所述指標的初始權重和所有指標的初始權重之和的比值，作為每個指標的權重。

18、可選地，指標的移動平均值和移動平均標準差按照以下方式計算：

19、根據指標的評估值和上一更新輪次的移動平均值，得到當前更新輪次的指標的移動平均值；

20、根據指標的評估值、當前更新輪次的指標的移動平均值和上一更新輪次的移動平均標準差，計算出當前更新輪次的移動平均標準差。

21、可選地，基于多個評價維度的指標對所述圖片進行評估，得到多個指標的評估值，包括：

22、通過提示詞準確性評估模型，評估所述圖片與所述提示詞之間相近程度，得到提示詞準確性相關指標的評估值；

23、通過主體準確性評估模型，評估所述圖片中的主體與定制化主體的相近程度，得到主體準確性相關指標的評估值；

24、通過人類偏好性評估模型，評估人類對所述圖片的滿足程度，得到人類偏好性相關指標的評估值，所述人類偏好性評估模型是基于人類的標注信息所訓練的獎勵模型。

25、可選地，所述定制化文生圖模型是通過以下方式得到的：

26、獲取特定主體的樣本圖片，以及，獲取包含主體標識的提示詞文本；

27、將所述樣本圖片和所述提示詞文本輸入到文生圖模型進行加噪處理和去噪處理，得到生成圖片；

28、根據所述文生圖模型在所述加噪處理中的添加噪聲，以及，所述文生圖模型在所述去噪處理中擬合的噪聲，計算所述樣本圖片和所述生成圖片之間的損失函數值；

29、根據所述損失函數值對所述文生圖模型的模型參數進行微調，得到所述定制化文生圖模型。

30、可選地，根據所述文生圖模型在所述加噪處理中的添加噪聲，以及，所述文生圖模型在所述去噪處理中擬合的噪聲，計算所述樣本圖片和所述生成圖片之間的損失函數值，包括：

31、根據所述文生圖模型在所述加噪處理中的針對特定主體的添加噪聲和針對其他主體的添加噪聲，以及，所述文生圖模型在所述去噪處理中針對所述特定主體擬合的噪聲和針對其他主體擬合的噪聲，計算所述樣本圖片和所述生成圖片之間的損失函數值。

32、本申請實施例的第二方面，公開了一種應用于定制化文生圖模型的課程多獎勵強化學習裝置，所述裝置包括：

33、獲取模塊，用于獲取定制化文生圖模型根據提示詞生成的特定主體的圖片；

34、評估模塊，用于基于多個評價維度的指標對所述圖片進行評估，得到多個指標的評估值，所述多個評價維度包括：提示詞準確性、主體準確性、人類偏好性，每個評價維度包括至少一個指標；

35、確定模塊，用于根據每個指標的評估值的變化情況，確定每個指標的權重；

36、生成模塊，用于根據多個所述指標的評估值和每個所述指標的權重，生成獎勵信號；

37、更新模塊，用于根據所述獎勵信號對所述定制化文生圖模型的模型參數進行更新。

38、本申請實施例的第三方面，公開了一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，所述處理器執行所述計算機程序時實現本申請實施例第一方面所述的應用于定制化文生圖模型的課程多獎勵強化學習方法的步驟。

39、本申請實施例的第四方面，公開了一種計算機可讀存儲介質，其上存儲有計算機程序，該計算機程序被處理器執行時實現本申請實施例第一方面所述的應用于定制化文生圖模型的課程多獎勵強化學習方法的步驟。

40、本申請實施例的第五方面，公開了一種計算機程序產品，包括計算機程序，該計算機程序被處理器執行時實現本申請實施例第一方面所述的應用于定制化文生圖模型的課程多獎勵強化學習方法的步驟。

41、本申請實施例包括以下優點：

42、在本申請實施例中，獲取定制化文生圖模型根據提示詞生成的特定主體的圖片；并基于多個評價維度的指標對所述圖片進行評估，得到多個指標的評估值，所述多個評價維度包括：提示詞準確性、主體準確性、人類偏好性，每個評價維度包括至少一個指標；進而根據每個指標的評估值的變化情況，確定每個指標的權重，并根據多個所述指標的評估值和每個所述指標的權重，生成獎勵信號；最本文檔來自技高網...

【技術保護點】

1.一種應用于定制化文生圖模型的課程多獎勵強化學習方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，根據每個指標的評估值的變化情況，確定每個指標的權重，包括：

3.根據權利要求1所述的方法，其特征在于，根據每個指標的評估值的變化情況，確定每個指標的權重，包括：

4.根據權利要求3所述的方法，其特征在于，根據每個指標的變化分數，確定每個指標的權重，包括：

5.根據權利要求3所述的方法，其特征在于，指標的移動平均值和移動平均標準差按照以下方式計算：

6.根據權利要求1所述的方法，其特征在于，基于多個評價維度的指標對所述圖片進行評估，得到多個指標的評估值，包括：

7.根據權利要求1-6任一所述的方法，其特征在于，所述定制化文生圖模型是通過以下方式得到的：

8.根據權利要求7所述的方法，其特征在于，根據所述文生圖模型在所述加噪處理中的添加噪聲，以及，所述文生圖模型在所述去噪處理中擬合的噪聲，計算所述樣本圖片和所述生成圖片之間的損失函數值，包括：

9.一種應用于定制化文

10.一種電子設備，包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序，其特征在于，所述處理器執行所述計算機程序時實現權利要求1-8任一項所述的應用于定制化文生圖模型的課程多獎勵強化學習方法的步驟。

...

【技術特征摘要】

1.一種應用于定制化文生圖模型的課程多獎勵強化學習方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，根據每個指標的評估值的變化情況，確定每個指標的權重，包括：

3.根據權利要求1所述的方法，其特征在于，根據每個指標的評估值的變化情況，確定每個指標的權重，包括：

4.根據權利要求3所述的方法，其特征在于，根據每個指標的變化分數，確定每個指標的權重，包括：

5.根據權利要求3所述的方法，其特征在于，指標的移動平均值和移動平均標準差按照以下方式計算：

6.根據權利要求1所述的方法，其特征在于，基于多個評價維度的指標對所述圖片進行評估，得到多個指標的評估值...

【專利技術屬性】
技術研發人員：王鑫，朱文武，周煜威，
申請(專利權)人：清華大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術