大語言模型指令風險的檢測方法、裝置、設備及存儲介質制造方法及圖紙

技術編號：44217525 閱讀：16 留言：0更新日期：2025-02-11 13:25

本申請公開了一種大語言模型指令風險的檢測方法、裝置、設備及存儲介質，通過對大語言模型的當前指令進行了合法性校驗、領域約束檢測、基線行為檢測、指令角色檢測等體系化校驗，增強了風險指令的檢測識別能力，同時也提高了進行檢測的全面性及準確性；另外，各檢測過程均可以得到相應的檢測結果，使得檢測的過程更加透明，便于分析和理解；并且，各檢測過程具有層次化，前期檢測未通過的當前指令直接拒絕，使得檢測的效率更高。

全部詳細技術資料下載

【技術實現步驟摘要】

本申請涉及網絡安全，尤其涉及大語言模型指令風險的檢測方法、裝置、設備及存儲介質。

技術介紹

1、伴隨大語言模型(large?language?model，簡稱llm)的流行，通用大語言模型和領域大語言模型均被廣泛使用，但同時也引發了很多安全問題。由于大語言模型的應用場景、應用領域千差萬別，在大語言模型交互前、中、后的過程中對其進行風險識別、安全防護顯得至關重要。

2、傳統地，在進行大語言模型指令風險的檢測時，當前應用和研究比較多的技術大多集中在大語言模型本身的防護中，以及對大語言模型指令的合法合規校驗中，且大多為零散、獨立檢測和防護的方式，缺乏體系化檢測和防護的方案與機制。

3、因此，上述大語言模型指令風險的檢測方法存在不全面且準確性較低等問題。

技術實現思路

1、本申請旨在至少解決現有技術中存在的技術問題，為此，本申請第一方面提出一種大語言模型指令風險的檢測方法，該方法包括：

2、對大語言模型的當前指令進行合法性校驗，生成第一檢測結果；

3、在基于第一檢測結果確定當前指令合法的情況下，對當前指令進行領域約束檢測，生成第二檢測結果；其中，第二檢測結果用于指示當前指令是否超出對應的預設約束條件，預設約束條件是基于大語言模型的屬性信息、應用領域信息及應用場景信息確定的；

4、在第二檢測結果為檢測通過的情況下，對當前指令進行基線行為檢測，生成第三檢測結果；其中，第三檢測結果用于指示當前指令是否為正常行為；

5、在第三

6、在一種可能的實施方式中，合法性校驗包括合法合規校驗及指令注入校驗，對當前指令進行合法性校驗，生成第一檢測結果，包括：

7、采用預設模式匹配算法對當前指令進行合法合規校驗及指令注入校驗，生成第一檢測結果；其中，合法合規校驗用于確定當前指令中是否包括非法內容，指令注入校驗用于確定當前指令是否為覆蓋或繞過預期指令或預設約束條件的其他指令。

8、在一種可能的實施方式中，對當前指令進行領域約束檢測，生成第二檢測結果，包括：

9、對當前指令進行類型判斷，生成類型判斷結果；

10、基于類型判斷結果及預設分類類別對應的預設約束條件，生成第二檢測結果。

11、在一種可能的實施方式中，對當前指令進行基線行為檢測，生成第三檢測結果，包括：

12、獲取預設基線檢測子模型；其中，預設基線檢測子模型是基于樣本數據集訓練得到的，樣本數據集包括多個歷史指令信息、系統角色設置信息及系統交互信息；

13、通過預設基線檢測子模型對當前指令進行基線行為模式檢測，生成第三檢測結果。

14、在一種可能的實施方式中，預設基線檢測子模型的構建過程，包括：

15、獲取樣本數據集并對樣本數據集進行數據處理，生成目標數據集；其中，數據處理包括數據預處理、標準化處理、分詞處理及編碼處理；

16、對目標數據集進行聚類處理，并對聚類結果進行行為模式識別，得到識別結果；識別結果包括正常行為模式或異常行為模式，正常行為模式用于構建基線行為模式；

17、通過目標數據集中正常行為模式對應的數據對初始基線檢測子模型進行訓練，生成預設基線檢測子模型。

18、在一種可能的實施方式中，對當前指令進行指令角色檢測，生成第四檢測結果，包括：

19、對當前指令進行意圖識別及標準化處理，得到處理結果；

20、采用預設相似度算法計算處理結果與預設指令數據集中各指令的相似度；

21、基于相似度中的最大值，確定當前指令對應的目標指令級別；

22、將目標指令級別對應的目標用戶角色與當前指令對應的當前用戶角色進行比對，并根據比對結果生成第四檢測結果。

23、在一種可能的實施方式中，該方法還包括：

24、在第一檢測結果、第二檢測結果、第三檢測結果及第四檢測結果中的任一個為檢測不通過的情況下，生成錯誤信息并終止與當前指令對應的交互流程。

25、本申請第二方面提出一種大語言模型指令風險的檢測裝置，該裝置包括：

26、第一生成模塊，用于對大語言模型的當前指令進行合法性校驗，生成第一檢測結果；

27、第二生成模塊，用于在基于第一檢測結果確定當前指令合法的情況下，對當前指令進行領域約束檢測，生成第二檢測結果；其中，第二檢測結果用于指示當前指令是否超出對應的預設約束條件，預設約束條件是基于大語言模型的屬性信息、應用領域信息及應用場景信息確定的；

28、第三生成模塊，用于在第二檢測結果為檢測通過的情況下，對當前指令進行基線行為檢測，生成第三檢測結果；其中，第三檢測結果用于指示當前指令是否為正常行為；

29、第四生成模塊，用于在第三檢測結果為檢測通過的情況下，對當前指令進行指令角色檢測，生成第四檢測結果，并在第四檢測結果為檢測通過的情況下，基于當前指令進行大語言模型的交互；其中，第四檢測結果用于指示當前指令是否與當前用戶角色一致。

30、在一種可能的實施方式中，上述第一生成模塊具體用于：

31、采用預設模式匹配算法對當前指令進行合法合規校驗及指令注入校驗，生成第一檢測結果；其中，合法合規校驗用于確定當前指令中是否包括非法內容，指令注入校驗用于確定當前指令是否為覆蓋或繞過預期指令或預設約束條件的其他指令。

32、在一種可能的實施方式中，上述第二生成模塊具體用于：

33、對當前指令進行類型判斷，生成類型判斷結果；

34、基于類型判斷結果及預設分類類別對應的預設約束條件，生成第二檢測結果。

35、在一種可能的實施方式中，上述第三生成模塊具體用于：

36、獲取預設基線檢測子模型；其中，預設基線檢測子模型是基于樣本數據集訓練得到的，樣本數據集包括多個歷史指令信息、系統角色設置信息及系統交互信息；

37、通過預設基線檢測子模型對當前指令進行基線行為模式檢測，生成第三檢測結果。

38、在一種可能的實施方式中，上述第三生成模塊還用于：

39、獲取樣本數據集并對樣本數據集進行數據處理，生成目標數據集；其中，數據處理包括數據預處理、標準化處理、分詞處理及編碼處理；

40、對目標數據集進行聚類處理，并對聚類結果進行行為模式識別，得到識別結果；識別結果包括正常行為模式或異常行為模式，正常行為模式用于構建基線行為模式；

41、通過目標數據集中正常行為模式對應的數據對初始基線檢測子模型進行訓練，生成預設基線檢測子模型。

42、在一種可能的實施方式中，上述第四生成模塊具體用于：

43、對當前指令進行意圖識別及標準化處理，本文檔來自技高網...

【技術保護點】

1.一種大語言模型指令風險的檢測方法，其特征在于，所述方法包括：

2.根據權利要求1所述的方法，其特征在于，所述合法性校驗包括合法合規校驗及指令注入校驗，所述對所述當前指令進行合法性校驗，生成第一檢測結果，包括：

3.根據權利要求1或2所述的方法，其特征在于，所述對所述當前指令進行領域約束檢測，生成第二檢測結果，包括：

4.根據權利要求1或2所述的方法，其特征在于，所述對所述當前指令進行基線行為檢測，生成第三檢測結果，包括：

5.根據權利要求4所述的方法，其特征在于，所述預設基線檢測子模型的構建過程，包括：

6.根據權利要求1或2所述的方法，其特征在于，所述對所述當前指令進行指令角色檢測，生成第四檢測結果，包括：

7.根據權利要求1或2所述的方法，其特征在于，所述方法還包括：

8.一種大語言模型指令風險的檢測裝置，其特征在于，所述裝置包括：

9.一種電子設備，其特征在于，所述電子設備包括處理器和存儲器，所述存儲器中存儲有至少一條指令、至少一段程序、代碼集或指令集，所述至少一條指令、所述

10.一種計算機可讀存儲介質，其特征在于，所述存儲介質中存儲有至少一條指令、至少一段程序、代碼集或指令集，所述至少一條指令、所述至少一段程序、所述代碼集或指令集由處理器加載并執行以實現如權利要求1-7任一項所述的大語言模型指令風險的檢測方法。

...

【技術特征摘要】

1.一種大語言模型指令風險的檢測方法，其特征在于，所述方法包括：

3.根據權利要求1或2所述的方法，其特征在于，所述對所述當前指令進行領域約束檢測，生成第二檢測結果，包括：

4.根據權利要求1或2所述的方法，其特征在于，所述對所述當前指令進行基線行為檢測，生成第三檢測結果，包括：

5.根據權利要求4所述的方法，其特征在于，所述預設基線檢測子模型的構建過程，包括：

6.根據權利要求1或2所述的方法，其特征在于，所述對所述當前指令進行指令角色檢測，生成第四檢測結果，包括：

【專利技術屬性】
技術研發人員：雷小輝，楊凱，張渤琦，黃亞亞，茍寶誼，鄭瑋，
申請(專利權)人：西安四葉草信息技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術