System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 成人无码嫩草影院,亚洲日韩精品无码一区二区三区,久久无码人妻精品一区二区三区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法技術

    技術編號:44475163 閱讀:3 留言:0更新日期:2025-03-04 17:44
    本發明專利技術公開了一種基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,涉及大模型安全技術領域。該方法包括:準備正負樣本數據集和普通數據集;調整文本編碼器的參數并利用師生模型進行訓練;使用普通數據集穩定文本編碼器;設計一個綜合損失函數,結合多個數據集進行訓練優化以生成調整后的學生模型并通過文本嵌入生成最終的安全圖像。本發明專利技術通過微調文本編碼器,在處理包含敏感詞匯的文本輸入時,將這些敏感詞匯的文本嵌入轉換為對應良性詞匯的文本嵌入并使用良性的文本嵌入來引導生成安全圖像;在不改變模型生成能力的前提下避免文生圖模型生成包含敏感色情或其他受版權保護的圖像,實現對敏感內容的有效過濾、轉換及防御。

    【技術實現步驟摘要】

    本專利技術屬于大模型安全,尤其涉及一種基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法


    技術介紹

    1、近年來,文本到圖像生成模型(text-to-image?models,t2i)取得了顯著進展,允許用戶通過輸入自然語言描述(即提示詞)生成合成圖像。這類模型通常由理解輸入提示詞的語言模型和生成圖像的組件組成。例如,對比語言-圖像預訓練模型(constrastivelanguage-image?pre-training,clip)的文本編碼器或基于變換器的雙向編碼表示(bidirectional?encoder?representations?from?transformers,bert)作為語言模型,而擴散模型則用于圖像生成。以穩定擴散模型(stable?diffusion,sd)為例,其圖像生成過程從一個潛在噪聲向量開始,該噪聲向量將文本編碼器的輸出轉換為潛在圖像嵌入。隨后,sd的圖像解碼器將潛在圖像嵌入解碼為圖像。這種方法結合了語言模型和圖像生成模型的優點,使得生成的圖像能夠高度契合輸入的文本描述。

    2、文本到圖像模型通常在大量圖片數據集上進行訓練,例如sd-1.5模型在laion-5b數據集上訓練,該數據集包括從互聯網上抓取的58億張圖片,在如此龐大的數據集中,不可避免地會包含敏感、色情或暴力血腥的圖片。盡管文生圖模型可能配備了安全過濾裝置,但仍然有很大概率生成包含不適當或敏感內容的圖像,這種不受控的內容生成不僅會引發倫理問題,還可能帶來法律風險和用戶體驗問題。

    3、現有的防御方法主要包括文本提示過濾器、基于圖像檢測的事后過濾器以及對文生圖模型進行概念擦除的微調等方法。文本提示過濾器在圖像生成階段之前,通過檢查輸入的文本提示詞是否包含任何敏感詞匯來阻止圖片生成。另一種防御策略涉及事后安全檢查器,例如集成到sd中的安全過濾器,在圖像生成過程的輸出階段運行,檢測生成的圖像,以確保其不包含任何“工作場合不適宜”(not-safe-for-work,nsfw)元素:用來標示那些在工作或公共場合不適合觀看的內容。此外,最近的防御方法主要通過概念擦除,這些方法與外部安全措施有著根本的不同,因為它們修改了模型的推理指導或利用微調來積極抑制nsfw概念。

    4、文本提示過濾器容易受到對抗樣本的攻擊。對抗樣本通過修改輸入文本就可以繞過濾器,使其難以檢測和阻止敏感內容。基于圖像的過濾器(如clip)在檢測生成圖像中的敏感內容時效果有限,因為clip主要被訓練用于檢索任務,而非細節匹配任務。擦除敏感概念的方法可能無法完全消除nsfw概念,并可能無意中影響良性圖像的質量,且微調文生圖模型的方法需要大量的計算資源。


    技術實現思路

    1、本專利技術的目的在于提供一種基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,旨在不改變模型生成能力的前提下實現對敏感內容的有效過濾和轉換,阻止特定版權內容的圖片生成。可以通過以下技術方案實現:

    2、本申請實施例提供了一種基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,包括如下步驟:

    3、準備負向樣本數據集t和普通數據集d;

    4、基于負向樣本數據集t,利用大語言模型生成正向樣本數據集

    5、調整文本編碼器的參數并利用師生模型進行訓練;

    6、使用普通數據集d穩定所述文本編碼器;

    7、設計一個綜合損失函數l,結合多個數據集進行訓練優化并生成調整后的學生模型;

    8、利用調整后的學生模型進行文本嵌入,生成并輸出最終的安全圖像;

    9、其中,所述師生模型包括學生模型se(·)和教師模型te(·)。

    10、優選地,負向樣本數據集t包括敏感概念和受版權保護對象的概念;普通數據集d包括常用文本提示;正向樣本數據集為負向樣本數據集t中負向樣本的反義語句的集合。

    11、優選地,生成正向樣本數據集具體為:

    12、給定一個包含違規描述的負向樣本t;

    13、使用大語言模型生成與負向樣本t對應的正向樣本

    14、對于受版權保護對象的概念或其他待刪除的概念,將詞語的文本嵌入映射為占位符的嵌入。

    15、優選地,調整文本編碼器的參數,具體包括如下內容:

    16、學生模型se(·)和教師模型te(·)均使用與原本文生圖模型相同的預訓練編碼器權重進行初始化;

    17、僅更新學生模型se(·)的權重,使其將敏感概念的文本嵌入映射到對應的安全概念;

    18、保持教師模型te(·)的參數不變。

    19、優選地,利用師生模型進行訓練,具體為:

    20、教師模型te(·)處理正向樣本并生成對應的正向樣本文本嵌入

    21、學生模型se(·)處理負向樣本t,并生成對應的負向樣本文本嵌入se(t)。

    22、優選地,設計一個綜合損失函數l,包括:

    23、使用余弦相似度計算正向樣本文本嵌入和負向樣本文本嵌入se(t)的相似度,并定義第二損失函數l2,表示為:

    24、

    25、其中,表示學生模型se(·)生成的負向樣本文本嵌入se(t)與教師模型te(·)生成的正向樣本文本嵌入的余弦相似度。

    26、優選地,還包括:

    27、定義第一損失函數l1,表示為:

    28、

    29、其中,cos(se(d),te(d))表示學生模型se(·)和教師模型te(·)在普通數據集d上處理抽樣的普通樣本d時生成的嵌入向量的余弦相似度。

    30、優選地,還包括:

    31、結合第一損失函數l1和第二損失函數l2并定義綜合損失函數l,表示為:

    32、l=l1+β·l2;

    33、其中,β是一個權重系數,用于平衡第一損失函數l1和第二損失函數l2。

    34、優選地,利用調整后的學生模型生成最終的安全圖像,表示為:

    35、img=g(se(p));

    36、其中,se()表示調整后的學生模型,p表示輸入的文本提示。

    37、本專利技術的有益效果為:

    38、(1)本專利技術通過引入微調文本編碼器的方法,在處理包含敏感詞匯的文本輸入時,將這些敏感詞匯的文本嵌入轉換為對應良性詞匯的文本嵌入,使用良性的文本嵌入來引導圖像生成模塊,阻止危險圖片的生成,從而通過微調文本編碼器,在不改變模型生成能力的前提下避免文生圖模型生成包含敏感、色情或其他不適當內容的圖像,實現對敏感內容的有效過濾和轉換,并防范與阻止生成受版權保護的圖像。

    39、(2)本專利技術通過調整文本編碼器的參數,使其在處理包含敏感詞匯的文本輸入時,能夠將這些敏感詞匯嵌入映射到不具敏感性的良性詞匯嵌入,具體來說,將原本敏感詞匯的文本嵌入向量調整至其對應良性詞匯的文本嵌入向量附近,例如,將“裸體”這種敏感詞匯的文本嵌入映射到“穿著衣服”的文本嵌入,從而在文本嵌入階段去除敏感概念,避免生成不適當的圖像。這一調本文檔來自技高網...

    【技術保護點】

    1.基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,其特征在于:包括如下步驟:

    2.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,其特征在于:負向樣本數據集T包括敏感概念和受版權保護對象的概念;普通數據集D包括常用文本提示;正向樣本數據集為負向樣本數據集T中負向樣本的反義語句的集合。

    3.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,其特征在于:生成正向樣本數據集具體為:

    4.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,其特征在于:調整文本編碼器的參數,具體包括如下內容:

    5.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,其特征在于:利用師生模型進行訓練,具體為:

    6.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,其特征在于:設計一個綜合損失函數L,包括:

    7.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,其特征在于:還包括:

    8.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,其特征在于:還包括:

    9.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,其特征在于:利用調整后的學生模型生成最終的安全圖像,表示為:

    ...

    【技術特征摘要】

    1.基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,其特征在于:包括如下步驟:

    2.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,其特征在于:負向樣本數據集t包括敏感概念和受版權保護對象的概念;普通數據集d包括常用文本提示;正向樣本數據集為負向樣本數據集t中負向樣本的反義語句的集合。

    3.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,其特征在于:生成正向樣本數據集具體為:

    4.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法,其特征在于:調整文本編碼器的參數,具體包括如下內容:

    5.根...

    【專利技術屬性】
    技術研發人員:韓蒙潘伊翔陳敏捷駱挺林昶廷邢文鵬王濱
    申請(專利權)人:杭州君同未來科技有限責任公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: AV无码精品一区二区三区| 少妇无码太爽了不卡在线观看| 亚洲Av无码一区二区二三区| 99久久无码一区人妻a黑| 国产午夜无码福利在线看网站| 波多野结衣AV无码久久一区| 久久无码人妻一区二区三区 | 国产精品无码制服丝袜| 日韩精品无码免费专区午夜| 中文字幕无码播放免费| 中文字字幕在线中文无码| 亚洲成a∨人片在无码2023| 亚洲午夜国产精品无码老牛影视| 亚洲av永久无码精品网址| 久久精品九九热无码免贵| 乱人伦人妻中文字幕无码久久网| 亚洲午夜无码久久久久软件| 中文字幕精品无码亚洲字| 无码的免费不卡毛片视频| 亚洲AV无码男人的天堂| 99久久无码一区人妻a黑| 无码人妻精品一区二区| 亚洲精品无码久久久久| 中文无码vs无码人妻| 亚洲精品无码99在线观看| 好爽毛片一区二区三区四无码三飞| 人妻少妇偷人精品无码| 久久久无码中文字幕久...| 国产av无码专区亚洲av桃花庵 | 亚洲VA中文字幕无码毛片| 国产福利电影一区二区三区久久老子无码午夜伦不| 日韩精品无码一区二区三区不卡| 亚洲欧洲精品无码AV| 亚洲AV综合色区无码另类小说| 国产成人无码av片在线观看不卡| 无码精品蜜桃一区二区三区WW| 国产av无码久久精品| 国产精品无码永久免费888 | 曰韩无码无遮挡A级毛片| 麻豆精品无码国产在线果冻| 无码A级毛片日韩精品|