當(dāng)前位置: 首頁 > 專利查詢>深圳市迪博企業(yè)風(fēng)險管理技術(shù)有限公司專利>正文

一種大模型越獄攻擊檢測方法技術(shù)

技術(shù)編號：44211232 閱讀：17 留言：0更新日期：2025-02-06 18:43

本申請涉及一種大模型越獄攻擊檢測方法，該方法包括：S1：基于混合專家模型和Transformer架構(gòu)構(gòu)建越獄攻擊檢測模型，越獄攻擊檢測模型包括多層MoE?Transformer結(jié)構(gòu)，并采用正無標(biāo)記學(xué)習(xí)方法訓(xùn)練越獄攻擊檢測模型；S2：獲取輸入的文本數(shù)據(jù)，并將文本數(shù)據(jù)轉(zhuǎn)換為向量表示；S3：將向量表示輸入至訓(xùn)練好的越獄攻擊檢測模型，經(jīng)過多層MoE?Transformer結(jié)構(gòu)，輸出高層特征向量；S4：高層特征向量經(jīng)過全連接層，輸出越獄攻擊概率；基于越獄攻擊概率確定越獄攻擊情況。該方法在越獄攻擊檢測的準(zhǔn)確性和效率上有顯著提升，通過自動化的檢測，確保了對大模型越獄攻擊的實時防御，降低了潛在的安全風(fēng)險。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實現(xiàn)步驟摘要】

本申請涉及越獄攻擊檢測，特別是涉及一種大模型越獄攻擊檢測方法。

技術(shù)介紹

1、隨著人工智能技術(shù)的迅速發(fā)展，特別是大規(guī)模預(yù)訓(xùn)練模型的廣泛應(yīng)用，ai模型在各個領(lǐng)域的應(yīng)用場景中變得越來越普遍。然而，隨著這些大模型被應(yīng)用到實際場景中，越獄攻擊作為一種安全威脅逐漸引起了人們的關(guān)注；越獄攻擊是指通過惡意構(gòu)造輸入，誘導(dǎo)ai模型產(chǎn)生非預(yù)期或潛在危險的輸出，進(jìn)而繞過安全機(jī)制，導(dǎo)致ai系統(tǒng)的行為失控，特別是在一些關(guān)鍵領(lǐng)域，如金融、醫(yī)療和自動駕駛等，越獄攻擊可能帶來嚴(yán)重的后果，因此越獄攻擊的檢測和防御成為確保大模型安全性的重要研究方向。

2、目前，傳統(tǒng)的檢測方法通常依賴于預(yù)先定義的規(guī)則或黑名單策略來識別潛在攻擊，這種方法在面對不斷變化和進(jìn)化的攻擊方式時，難以保持有效性和靈活性。由于越獄攻擊往往具有隱蔽性和多樣性，尤其是在惡意攻擊者不斷迭代攻擊手段的情況下，現(xiàn)有檢測技術(shù)難以捕捉到為止的攻擊模式或變種，導(dǎo)致監(jiān)測的準(zhǔn)確性和效率不足。因此，當(dāng)前的技術(shù)亟需更智能化、動態(tài)化的越獄攻擊檢測機(jī)制，以應(yīng)對復(fù)雜多變的攻擊環(huán)境。

技術(shù)實現(xiàn)思路

1、基于此，有必要提供一種大模型越獄攻擊檢測方法，該方法包括：

2、s1：基于混合專家模型和transformer架構(gòu)構(gòu)建越獄攻擊檢測模型，越獄攻擊檢測模型包括多層moe-transformer結(jié)構(gòu)，并采用正無標(biāo)記學(xué)習(xí)方法訓(xùn)練所述越獄攻擊檢測模型；

3、s2：獲取輸入的文本數(shù)據(jù)，并將所述文本數(shù)據(jù)轉(zhuǎn)換為向量表示；

4、s3：將所述向量表示輸

5、s4：所述高層特征向量經(jīng)過全連接層，輸出越獄攻擊概率；基于所述越獄攻擊概率確定越獄攻擊情況。

6、優(yōu)選的，所述文本數(shù)據(jù)經(jīng)嵌入層轉(zhuǎn)換為所述向量表示，所述向量表示包括向量序列，每個向量對應(yīng)文本數(shù)據(jù)中的一個元素，轉(zhuǎn)換公式為：

7、 x= embedding( v)；

8、其中， x表示向量表示， embedding(·)表示嵌入層； v表示輸入的文本數(shù)據(jù)。

9、優(yōu)選的，每層moe-transformer結(jié)構(gòu)的計算方式為：

10、 moe-transformer( x)= layernorm( moe( layernorm( selfattention( x)+ x))+ x)；

11、其中， moe-transformer(·)表示moe-transformer結(jié)構(gòu)； layernorm(·)表示層歸一化； moe(·)表示moe前饋網(wǎng)絡(luò)； selfattention(·)表示多頭自注意力機(jī)制； x表示向量表示。

12、優(yōu)選的，所述moe前饋網(wǎng)絡(luò)包括 k個專家網(wǎng)絡(luò)，每個所述專家網(wǎng)絡(luò)均采用兩層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)；moe前饋網(wǎng)絡(luò)的前向計算包括：

13、；

14、；

15、；

16、其中， moe(·)表示moe前饋網(wǎng)絡(luò)； x表示向量表示；表示門控網(wǎng)絡(luò)，其用于選擇某一個或多個專家網(wǎng)絡(luò)處理向量表示；表示選擇第 i個專家網(wǎng)絡(luò)處理向量表示的概率；表示第 i個專家網(wǎng)絡(luò)的輸出；表示topk機(jī)制函數(shù)，用于選擇概率最高的前 k'個專家網(wǎng)絡(luò)， k'＜ k；表示softmax激活函數(shù)；表示門控網(wǎng)絡(luò)的權(quán)重；表示門控網(wǎng)絡(luò)的偏置；表示relu激活函數(shù)；表示第 i個專家網(wǎng)絡(luò)的第一層前饋神經(jīng)網(wǎng)絡(luò)的權(quán)重；表示第 i個專家網(wǎng)絡(luò)的第二層前饋神經(jīng)網(wǎng)絡(luò)的權(quán)重；表示第 i個專家網(wǎng)絡(luò)的第一層前饋神經(jīng)網(wǎng)絡(luò)的偏置；表示第 i個專家網(wǎng)絡(luò)的第二層前饋神經(jīng)網(wǎng)絡(luò)的偏置。

17、優(yōu)選的，還包括門控網(wǎng)絡(luò)的訓(xùn)練過程，基于真實概率與門控網(wǎng)絡(luò)預(yù)測的專家網(wǎng)絡(luò)被選擇處理向量表示的概率計算損失函數(shù)，通過最小化所述損失函數(shù)調(diào)整門控網(wǎng)絡(luò)的參數(shù)；損失函數(shù)表達(dá)式為：

18、；

19、其中， l表示損失函數(shù)； k表示專家網(wǎng)絡(luò)的數(shù)量；表示第 i個專家網(wǎng)絡(luò)被選擇的真實概率；表示選擇第 i個專家網(wǎng)絡(luò)處理向量表示的概率； x表示向量表示。

20、優(yōu)選的，在訓(xùn)練好的越獄攻擊檢測模型中，第一層moe-transformer結(jié)構(gòu)的輸入為所述向量表示，余下各層moe-transformer結(jié)構(gòu)的輸入分別為其前一層的輸出，最后一層moe-transformer結(jié)構(gòu)的輸出為所述高層特征向量；所述高層特征向量經(jīng)過所述全連接層輸出所述越獄攻擊概率，全連接層的計算公式為：

21、；

22、其中， p表示越獄攻擊概率；表示sigmoid激活函數(shù)；表示全連接層的權(quán)重；表示全連接層的偏置；表示高層特征向量。

23、優(yōu)選的，所述基于所述越獄攻擊概率確定越獄攻擊情況包括：

24、將所述越獄攻擊概率與預(yù)設(shè)閾值比較，若所述越獄攻擊概率大于所述預(yù)設(shè)閾值，則判定所述文本數(shù)據(jù)為越獄攻擊，并觸發(fā)安全警報；否則，判定所述文本數(shù)據(jù)為正常數(shù)據(jù)。

25、優(yōu)選的，正無標(biāo)記學(xué)習(xí)方法訓(xùn)練越獄攻擊檢測模型的過程包括；

26、設(shè)定學(xué)習(xí)率，批量大小以及迭代次數(shù)；

27、訓(xùn)練時，所述正無標(biāo)記學(xué)習(xí)方法將已知的攻擊樣本視作正樣本，而將多個未標(biāo)記的樣本均視作未知狀態(tài)樣本；

28、越獄攻擊檢測模型對每個未知狀態(tài)樣本進(jìn)行預(yù)測，若對第 t個未知狀態(tài)樣本的預(yù)測概率超過第二預(yù)設(shè)閾值，則將第 t個所述未知狀態(tài)樣本視作正樣本；否則，保持未標(biāo)記的狀態(tài)；本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點】

1.一種大模型越獄攻擊檢測方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法，其特征在于，所述文本數(shù)據(jù)經(jīng)嵌入層轉(zhuǎn)換為所述向量表示，所述向量表示包括向量序列，每個向量對應(yīng)文本數(shù)據(jù)中的一個元素，轉(zhuǎn)換公式為：

3.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法，其特征在于，每層MoE-Transformer結(jié)構(gòu)的計算方式為：

4.根據(jù)權(quán)利要求3所述的大模型越獄攻擊檢測方法，其特征在于，所述MoE前饋網(wǎng)絡(luò)包括K個專家網(wǎng)絡(luò)，每個所述專家網(wǎng)絡(luò)均采用兩層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)；MoE前饋網(wǎng)絡(luò)的前向計算包括：

5.根據(jù)權(quán)利要求4所述的大模型越獄攻擊檢測方法，其特征在于，還包括門控網(wǎng)絡(luò)的訓(xùn)練過程，基于真實概率與門控網(wǎng)絡(luò)預(yù)測的專家網(wǎng)絡(luò)被選擇處理向量表示的概率計算損失函數(shù)，通過最小化所述損失函數(shù)調(diào)整門控網(wǎng)絡(luò)的參數(shù)；損失函數(shù)表達(dá)式為：

6.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法，其特征在于，在訓(xùn)練好的越獄攻擊檢測模型中，第一層MoE-Transformer結(jié)構(gòu)的輸入為所述向量表示，余下各層MoE-Transformer結(jié)構(gòu)的輸入

7.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法，其特征在于，所述基于所述越獄攻擊概率確定越獄攻擊情況包括：

8.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法，其特征在于，正無標(biāo)記學(xué)習(xí)方法訓(xùn)練越獄攻擊檢測模型的過程包括；

9.根據(jù)權(quán)利要求8所述的大模型越獄攻擊檢測方法，其特征在于，焦點損失的表達(dá)式為：

10.根據(jù)權(quán)利要求9所述的大模型越獄攻擊檢測方法，其特征在于，參數(shù)調(diào)整公式為：

...

【技術(shù)特征摘要】

1.一種大模型越獄攻擊檢測方法，其特征在于，包括：

3.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法，其特征在于，每層moe-transformer結(jié)構(gòu)的計算方式為：

4.根據(jù)權(quán)利要求3所述的大模型越獄攻擊檢測方法，其特征在于，所述moe前饋網(wǎng)絡(luò)包括k個專家網(wǎng)絡(luò)，每個所述專家網(wǎng)絡(luò)均采用兩層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)；moe前饋網(wǎng)絡(luò)的前向計算包括：

...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：胡為民，袁吉，鄭喜，謝麗慧，
申請(專利權(quán))人：深圳市迪博企業(yè)風(fēng)險管理技術(shù)有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)