基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法技術

技術編號：44475163 閱讀：3 留言：0更新日期：2025-03-04 17:44

本發明專利技術公開了一種基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，涉及大模型安全技術領域。該方法包括：準備正負樣本數據集和普通數據集；調整文本編碼器的參數并利用師生模型進行訓練；使用普通數據集穩定文本編碼器；設計一個綜合損失函數，結合多個數據集進行訓練優化以生成調整后的學生模型并通過文本嵌入生成最終的安全圖像。本發明專利技術通過微調文本編碼器，在處理包含敏感詞匯的文本輸入時，將這些敏感詞匯的文本嵌入轉換為對應良性詞匯的文本嵌入并使用良性的文本嵌入來引導生成安全圖像；在不改變模型生成能力的前提下避免文生圖模型生成包含敏感色情或其他受版權保護的圖像，實現對敏感內容的有效過濾、轉換及防御。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于大模型安全，尤其涉及一種基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法。

技術介紹

1、近年來，文本到圖像生成模型(text-to-image?models，t2i)取得了顯著進展，允許用戶通過輸入自然語言描述(即提示詞)生成合成圖像。這類模型通常由理解輸入提示詞的語言模型和生成圖像的組件組成。例如，對比語言-圖像預訓練模型(constrastivelanguage-image?pre-training，clip)的文本編碼器或基于變換器的雙向編碼表示(bidirectional?encoder?representations?from?transformers，bert)作為語言模型，而擴散模型則用于圖像生成。以穩定擴散模型(stable?diffusion，sd)為例，其圖像生成過程從一個潛在噪聲向量開始，該噪聲向量將文本編碼器的輸出轉換為潛在圖像嵌入。隨后，sd的圖像解碼器將潛在圖像嵌入解碼為圖像。這種方法結合了語言模型和圖像生成模型的優點，使得生成的圖像能夠高度契合輸入的文本描述。

2、文本到圖像模型通常在大量圖片數據集上進行訓練，例如sd-1.5模型在laion-5b數據集上訓練，該數據集包括從互聯網上抓取的58億張圖片，在如此龐大的數據集中，不可避免地會包含敏感、色情或暴力血腥的圖片。盡管文生圖模型可能配備了安全過濾裝置，但仍然有很大概率生成包含不適當或敏感內容的圖像，這種不受控的內容生成不僅會引發倫理問題，還可能帶來法律風險和用戶體驗問題。

3、現有的防御方法主要包括文本提

4、文本提示過濾器容易受到對抗樣本的攻擊。對抗樣本通過修改輸入文本就可以繞過濾器，使其難以檢測和阻止敏感內容。基于圖像的過濾器(如clip)在檢測生成圖像中的敏感內容時效果有限，因為clip主要被訓練用于檢索任務，而非細節匹配任務。擦除敏感概念的方法可能無法完全消除nsfw概念，并可能無意中影響良性圖像的質量，且微調文生圖模型的方法需要大量的計算資源。

技術實現思路

1、本專利技術的目的在于提供一種基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，旨在不改變模型生成能力的前提下實現對敏感內容的有效過濾和轉換，阻止特定版權內容的圖片生成。可以通過以下技術方案實現：

2、本申請實施例提供了一種基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，包括如下步驟：

3、準備負向樣本數據集t和普通數據集d；

4、基于負向樣本數據集t，利用大語言模型生成正向樣本數據集

5、調整文本編碼器的參數并利用師生模型進行訓練；

6、使用普通數據集d穩定所述文本編碼器；

7、設計一個綜合損失函數l，結合多個數據集進行訓練優化并生成調整后的學生模型；

8、利用調整后的學生模型進行文本嵌入，生成并輸出最終的安全圖像；

9、其中，所述師生模型包括學生模型se(·)和教師模型te(·)。

10、優選地，負向樣本數據集t包括敏感概念和受版權保護對象的概念；普通數據集d包括常用文本提示；正向樣本數據集為負向樣本數據集t中負向樣本的反義語句的集合。

11、優選地，生成正向樣本數據集具體為：

12、給定一個包含違規描述的負向樣本t；

13、使用大語言模型生成與負向樣本t對應的正向樣本

14、對于受版權保護對象的概念或其他待刪除的概念，將詞語的文本嵌入映射為占位符的嵌入。

15、優選地，調整文本編碼器的參數，具體包括如下內容：

16、學生模型se(·)和教師模型te(·)均使用與原本文生圖模型相同的預訓練編碼器權重進行初始化；

17、僅更新學生模型se(·)的權重，使其將敏感概念的文本嵌入映射到對應的安全概念；

18、保持教師模型te(·)的參數不變。

19、優選地，利用師生模型進行訓練，具體為：

20、教師模型te(·)處理正向樣本并生成對應的正向樣本文本嵌入

21、學生模型se(·)處理負向樣本t，并生成對應的負向樣本文本嵌入se(t)。

22、優選地，設計一個綜合損失函數l，包括：

23、使用余弦相似度計算正向樣本文本嵌入和負向樣本文本嵌入se(t)的相似度，并定義第二損失函數l2，表示為：

24、

25、其中，表示學生模型se(·)生成的負向樣本文本嵌入se(t)與教師模型te(·)生成的正向樣本文本嵌入的余弦相似度。

26、優選地，還包括：

27、定義第一損失函數l1，表示為：

28、

29、其中，cos(se(d),te(d))表示學生模型se(·)和教師模型te(·)在普通數據集d上處理抽樣的普通樣本d時生成的嵌入向量的余弦相似度。

30、優選地，還包括：

31、結合第一損失函數l1和第二損失函數l2并定義綜合損失函數l，表示為：

32、l＝l1+β·l2；

33、其中，β是一個權重系數，用于平衡第一損失函數l1和第二損失函數l2。

34、優選地，利用調整后的學生模型生成最終的安全圖像，表示為：

35、img＝g(se(p))；

36、其中，se()表示調整后的學生模型，p表示輸入的文本提示。

37、本專利技術的有益效果為：

38、(1)本專利技術通過引入微調文本編碼器的方法，在處理包含敏感詞匯的文本輸入時，將這些敏感詞匯的文本嵌入轉換為對應良性詞匯的文本嵌入，使用良性的文本嵌入來引導圖像生成模塊，阻止危險圖片的生成，從而通過微調文本編碼器，在不改變模型生成能力的前提下避免文生圖模型生成包含敏感、色情或其他不適當內容的圖像，實現對敏感內容的有效過濾和轉換，并防范與阻止生成受版權保護的圖像。

39、(2)本專利技術通過調整文本編碼器的參數，使其在處理包含敏感詞匯的文本輸入時，能夠將這些敏感詞匯嵌入映射到不具敏感性的良性詞匯嵌入，具體來說，將原本敏感詞匯的文本嵌入向量調整至其對應良性詞匯的文本嵌入向量附近，例如，將“裸體”這種敏感詞匯的文本嵌入映射到“穿著衣服”的文本嵌入，從而在文本嵌入階段去除敏感概念，避免生成不適當的圖像。這一調本文檔來自技高網...

【技術保護點】

1.基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，其特征在于：包括如下步驟：

2.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，其特征在于：負向樣本數據集T包括敏感概念和受版權保護對象的概念；普通數據集D包括常用文本提示；正向樣本數據集為負向樣本數據集T中負向樣本的反義語句的集合。

3.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，其特征在于：生成正向樣本數據集具體為：

4.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，其特征在于：調整文本編碼器的參數，具體包括如下內容：

5.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，其特征在于：利用師生模型進行訓練，具體為：

6.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，其特征在于：設計一個綜合損失函數L，包括：

7.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，其特征在于：還包括：

8.根據權

9.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，其特征在于：利用調整后的學生模型生成最終的安全圖像，表示為：

...

【技術特征摘要】

1.基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，其特征在于：包括如下步驟：

2.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，其特征在于：負向樣本數據集t包括敏感概念和受版權保護對象的概念；普通數據集d包括常用文本提示；正向樣本數據集為負向樣本數據集t中負向樣本的反義語句的集合。

3.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，其特征在于：生成正向樣本數據集具體為：

4.根據權利要求1所述的基于文本嵌入優化的文生圖模型敏感內容過濾和防御方法，其特征在于：調整文本編碼器的參數，具體包括如下內容：

5.根...

【專利技術屬性】
技術研發人員：韓蒙，潘伊翔，陳敏捷，駱挺，林昶廷，邢文鵬，王濱，
申請(專利權)人：杭州君同未來科技有限責任公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

基于隨機搜索算法的大語言模型安全保護...

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術