System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲精品自偷自拍无码,中文无码精品一区二区三区,亚洲AV成人无码久久WWW
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>清華大學專利>正文

    應用于定制化文生圖模型的課程多獎勵強化學習方法和裝置制造方法及圖紙

    技術編號:44313566 閱讀:3 留言:0更新日期:2025-02-18 20:27
    本申請提供了一種應用于定制化文生圖模型的課程多獎勵強化學習方法和裝置,涉及文生圖技術領域,旨在提升定制化文生圖模型在多個評價維度上的性能。該方法包括:獲取定制化文生圖模型根據提示詞生成的特定主體的圖片;基于多個評價維度的指標對所述圖片進行評估,得到多個指標的評估值,所述多個評價維度包括:提示詞準確性、主體準確性、人類偏好性,每個評價維度包括至少一個指標;根據每個指標的評估值的變化情況,確定每個指標的權重;根據多個所述指標的評估值和每個所述指標的權重,生成獎勵信號;根據所述獎勵信號對所述定制化文生圖模型的模型參數進行更新。

    【技術實現步驟摘要】

    本申請涉及文生圖,特別涉及一種應用于定制化文生圖模型的課程多獎勵強化學習方法和裝置


    技術介紹

    1、文生圖是一種用于根據給定提示詞(prompts)生成對應圖片的任務,而定制化文生圖任務則進一步要求生成的圖片中包含用戶的定制化主體,定制化文生圖任務可以通過各種定制化文生圖模型完成。

    2、但是,現有的定制化文生圖模型所生成的圖片無法在多個評價維度上表現良好,尤其對于提示詞準確性、主體準確性和人類偏好性這三個方面,往往只能夠在其中的一到兩個維度上令人滿意。因此,如何提升定制化文生圖模型在多個評價維度上的性能,是亟待解決的技術問題。


    技術實現思路

    1、鑒于上述問題,本申請實施例提供了一種應用于定制化文生圖模型的課程多獎勵強化學習方法和裝置,以便克服上述問題或者至少部分地解決上述問題。

    2、本申請實施例的第一方面,公開了一種應用于定制化文生圖模型的課程多獎勵強化學習方法,所述方法包括:

    3、獲取定制化文生圖模型根據提示詞生成的特定主體的圖片;

    4、基于多個評價維度的指標對所述圖片進行評估,得到多個指標的評估值,所述多個評價維度包括:提示詞準確性、主體準確性、人類偏好性,每個評價維度包括至少一個指標;

    5、根據每個指標的評估值的變化情況,確定每個指標的權重;

    6、根據多個所述指標的評估值和每個所述指標的權重,生成獎勵信號;

    7、根據所述獎勵信號對所述定制化文生圖模型的模型參數進行更新。

    8、可選地,根據每個指標的評估值的變化情況,確定每個指標的權重,包括:

    9、針對所述評估值的變化情況為上升的指標,賦予更小的權重,所述賦予更小的權重是指相對于上一更新輪次,該指標的權重減?。?/p>

    10、針對所述評估值的變化情況為下降的指標,賦予更大的權重,所述賦予更大的權重是指相對于上一更新輪次,該指標的權重增大。

    11、可選地,根據每個指標的評估值的變化情況,確定每個指標的權重,包括:

    12、根據每個指標的移動平均值和移動平均標準差,得到每個指標的變化分數,所述變化分數的大小表征所述指標的評估值的變化情況;

    13、根據每個指標的變化分數,確定每個指標的權重,所述指標的權重滿足:所述變化分數小的指標的權重大于所述變化分數大的指標的權重。

    14、可選地,根據每個指標的變化分數,確定每個指標的權重,包括:

    15、根據每個指標的變化分數,構建課程學習模型,所述課程學習模型包括第一學習項和第二學習項,所述第一學習項用于控制所有指標的權重之和滿足最小,所述第二學習項用于控制每個指標的權重在預設范圍內變化;

    16、通過對所述課程學習模型進行求解,得到每個指標的初始權重;

    17、將每個所述指標的初始權重和所有指標的初始權重之和的比值,作為每個指標的權重。

    18、可選地,指標的移動平均值和移動平均標準差按照以下方式計算:

    19、根據指標的評估值和上一更新輪次的移動平均值,得到當前更新輪次的指標的移動平均值;

    20、根據指標的評估值、當前更新輪次的指標的移動平均值和上一更新輪次的移動平均標準差,計算出當前更新輪次的移動平均標準差。

    21、可選地,基于多個評價維度的指標對所述圖片進行評估,得到多個指標的評估值,包括:

    22、通過提示詞準確性評估模型,評估所述圖片與所述提示詞之間相近程度,得到提示詞準確性相關指標的評估值;

    23、通過主體準確性評估模型,評估所述圖片中的主體與定制化主體的相近程度,得到主體準確性相關指標的評估值;

    24、通過人類偏好性評估模型,評估人類對所述圖片的滿足程度,得到人類偏好性相關指標的評估值,所述人類偏好性評估模型是基于人類的標注信息所訓練的獎勵模型。

    25、可選地,所述定制化文生圖模型是通過以下方式得到的:

    26、獲取特定主體的樣本圖片,以及,獲取包含主體標識的提示詞文本;

    27、將所述樣本圖片和所述提示詞文本輸入到文生圖模型進行加噪處理和去噪處理,得到生成圖片;

    28、根據所述文生圖模型在所述加噪處理中的添加噪聲,以及,所述文生圖模型在所述去噪處理中擬合的噪聲,計算所述樣本圖片和所述生成圖片之間的損失函數值;

    29、根據所述損失函數值對所述文生圖模型的模型參數進行微調,得到所述定制化文生圖模型。

    30、可選地,根據所述文生圖模型在所述加噪處理中的添加噪聲,以及,所述文生圖模型在所述去噪處理中擬合的噪聲,計算所述樣本圖片和所述生成圖片之間的損失函數值,包括:

    31、根據所述文生圖模型在所述加噪處理中的針對特定主體的添加噪聲和針對其他主體的添加噪聲,以及,所述文生圖模型在所述去噪處理中針對所述特定主體擬合的噪聲和針對其他主體擬合的噪聲,計算所述樣本圖片和所述生成圖片之間的損失函數值。

    32、本申請實施例的第二方面,公開了一種應用于定制化文生圖模型的課程多獎勵強化學習裝置,所述裝置包括:

    33、獲取模塊,用于獲取定制化文生圖模型根據提示詞生成的特定主體的圖片;

    34、評估模塊,用于基于多個評價維度的指標對所述圖片進行評估,得到多個指標的評估值,所述多個評價維度包括:提示詞準確性、主體準確性、人類偏好性,每個評價維度包括至少一個指標;

    35、確定模塊,用于根據每個指標的評估值的變化情況,確定每個指標的權重;

    36、生成模塊,用于根據多個所述指標的評估值和每個所述指標的權重,生成獎勵信號;

    37、更新模塊,用于根據所述獎勵信號對所述定制化文生圖模型的模型參數進行更新。

    38、本申請實施例的第三方面,公開了一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述計算機程序時實現本申請實施例第一方面所述的應用于定制化文生圖模型的課程多獎勵強化學習方法的步驟。

    39、本申請實施例的第四方面,公開了一種計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現本申請實施例第一方面所述的應用于定制化文生圖模型的課程多獎勵強化學習方法的步驟。

    40、本申請實施例的第五方面,公開了一種計算機程序產品,包括計算機程序,該計算機程序被處理器執行時實現本申請實施例第一方面所述的應用于定制化文生圖模型的課程多獎勵強化學習方法的步驟。

    41、本申請實施例包括以下優點:

    42、在本申請實施例中,獲取定制化文生圖模型根據提示詞生成的特定主體的圖片;并基于多個評價維度的指標對所述圖片進行評估,得到多個指標的評估值,所述多個評價維度包括:提示詞準確性、主體準確性、人類偏好性,每個評價維度包括至少一個指標;進而根據每個指標的評估值的變化情況,確定每個指標的權重,并根據多個所述指標的評估值和每個所述指標的權重,生成獎勵信號;最本文檔來自技高網...

    【技術保護點】

    1.一種應用于定制化文生圖模型的課程多獎勵強化學習方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,根據每個指標的評估值的變化情況,確定每個指標的權重,包括:

    3.根據權利要求1所述的方法,其特征在于,根據每個指標的評估值的變化情況,確定每個指標的權重,包括:

    4.根據權利要求3所述的方法,其特征在于,根據每個指標的變化分數,確定每個指標的權重,包括:

    5.根據權利要求3所述的方法,其特征在于,指標的移動平均值和移動平均標準差按照以下方式計算:

    6.根據權利要求1所述的方法,其特征在于,基于多個評價維度的指標對所述圖片進行評估,得到多個指標的評估值,包括:

    7.根據權利要求1-6任一所述的方法,其特征在于,所述定制化文生圖模型是通過以下方式得到的:

    8.根據權利要求7所述的方法,其特征在于,根據所述文生圖模型在所述加噪處理中的添加噪聲,以及,所述文生圖模型在所述去噪處理中擬合的噪聲,計算所述樣本圖片和所述生成圖片之間的損失函數值,包括:

    9.一種應用于定制化文生圖模型的課程多獎勵強化學習裝置,其特征在于,所述裝置包括:

    10.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現權利要求1-8任一項所述的應用于定制化文生圖模型的課程多獎勵強化學習方法的步驟。

    ...

    【技術特征摘要】

    1.一種應用于定制化文生圖模型的課程多獎勵強化學習方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的方法,其特征在于,根據每個指標的評估值的變化情況,確定每個指標的權重,包括:

    3.根據權利要求1所述的方法,其特征在于,根據每個指標的評估值的變化情況,確定每個指標的權重,包括:

    4.根據權利要求3所述的方法,其特征在于,根據每個指標的變化分數,確定每個指標的權重,包括:

    5.根據權利要求3所述的方法,其特征在于,指標的移動平均值和移動平均標準差按照以下方式計算:

    6.根據權利要求1所述的方法,其特征在于,基于多個評價維度的指標對所述圖片進行評估,得到多個指標的評估值...

    【專利技術屬性】
    技術研發人員:王鑫,朱文武周煜威
    申請(專利權)人:清華大學,
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: av无码国产在线看免费网站| 无码人妻精品一区二区三区久久久 | 无码少妇精品一区二区免费动态| 在线观看片免费人成视频无码| 2024你懂的网站无码内射| 99久无码中文字幕一本久道| 亚洲AV无码第一区二区三区| 亚洲男人第一无码aⅴ网站| 无码精品A∨在线观看十八禁 | 无码av天天av天天爽| 久久亚洲AV无码精品色午夜麻| 国产午夜无码福利在线看网站| 久久久久亚洲Av片无码v| 无码精品蜜桃一区二区三区WW| 亚洲国产成人精品无码区二本| 亚洲va无码va在线va天堂| 国产精品va在线观看无码| 无码Aⅴ在线观看| 久久Av无码精品人妻系列 | 91无码人妻精品一区二区三区L | 色综合热无码热国产| 蜜桃AV无码免费看永久| 国产精品亚洲а∨无码播放| 狠狠躁天天躁中文字幕无码| 久久青青草原亚洲av无码| 曰韩无码无遮挡A级毛片| 成人无码Av片在线观看| 国产精品无码AV不卡| 日韩AV无码精品一二三区| 免费无码又爽又刺激高潮| 一本大道久久东京热无码AV| 日日摸日日碰人妻无码| 无码人妻精品一区二| 潮喷失禁大喷水aⅴ无码| 国产成人综合日韩精品无码不卡| 午夜无码视频一区二区三区| 中文字幕av无码不卡| 国产午夜鲁丝无码拍拍| 人妻丰满熟妇岳AV无码区HD| 亚洲av永久无码嘿嘿嘿| 一区二区无码免费视频网站|