System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本申請涉及越獄攻擊檢測,特別是涉及一種大模型越獄攻擊檢測方法。
技術(shù)介紹
1、隨著人工智能技術(shù)的迅速發(fā)展,特別是大規(guī)模預(yù)訓(xùn)練模型的廣泛應(yīng)用,ai模型在各個領(lǐng)域的應(yīng)用場景中變得越來越普遍。然而,隨著這些大模型被應(yīng)用到實際場景中,越獄攻擊作為一種安全威脅逐漸引起了人們的關(guān)注;越獄攻擊是指通過惡意構(gòu)造輸入,誘導(dǎo)ai模型產(chǎn)生非預(yù)期或潛在危險的輸出,進(jìn)而繞過安全機(jī)制,導(dǎo)致ai系統(tǒng)的行為失控,特別是在一些關(guān)鍵領(lǐng)域,如金融、醫(yī)療和自動駕駛等,越獄攻擊可能帶來嚴(yán)重的后果,因此越獄攻擊的檢測和防御成為確保大模型安全性的重要研究方向。
2、目前,傳統(tǒng)的檢測方法通常依賴于預(yù)先定義的規(guī)則或黑名單策略來識別潛在攻擊,這種方法在面對不斷變化和進(jìn)化的攻擊方式時,難以保持有效性和靈活性。由于越獄攻擊往往具有隱蔽性和多樣性,尤其是在惡意攻擊者不斷迭代攻擊手段的情況下,現(xiàn)有檢測技術(shù)難以捕捉到為止的攻擊模式或變種,導(dǎo)致監(jiān)測的準(zhǔn)確性和效率不足。因此,當(dāng)前的技術(shù)亟需更智能化、動態(tài)化的越獄攻擊檢測機(jī)制,以應(yīng)對復(fù)雜多變的攻擊環(huán)境。
技術(shù)實現(xiàn)思路
1、基于此,有必要提供一種大模型越獄攻擊檢測方法,該方法包括:
2、s1:基于混合專家模型和transformer架構(gòu)構(gòu)建越獄攻擊檢測模型,越獄攻擊檢測模型包括多層moe-transformer結(jié)構(gòu),并采用正無標(biāo)記學(xué)習(xí)方法訓(xùn)練所述越獄攻擊檢測模型;
3、s2:獲取輸入的文本數(shù)據(jù),并將所述文本數(shù)據(jù)轉(zhuǎn)換為向量表示;
4、s3:將所述向量表示輸
5、s4:所述高層特征向量經(jīng)過全連接層,輸出越獄攻擊概率;基于所述越獄攻擊概率確定越獄攻擊情況。
6、優(yōu)選的,所述文本數(shù)據(jù)經(jīng)嵌入層轉(zhuǎn)換為所述向量表示,所述向量表示包括向量序列,每個向量對應(yīng)文本數(shù)據(jù)中的一個元素,轉(zhuǎn)換公式為:
7、 x= embedding( v);
8、其中, x表示向量表示, embedding(·)表示嵌入層; v表示輸入的文本數(shù)據(jù)。
9、優(yōu)選的,每層moe-transformer結(jié)構(gòu)的計算方式為:
10、 moe-transformer( x)= layernorm( moe( layernorm( selfattention( x)+ x))+ x);
11、其中, moe-transformer(·)表示moe-transformer結(jié)構(gòu); layernorm(·)表示層歸一化; moe(·)表示moe前饋網(wǎng)絡(luò); selfattention(·)表示多頭自注意力機(jī)制; x表示向量表示。
12、優(yōu)選的,所述moe前饋網(wǎng)絡(luò)包括 k個專家網(wǎng)絡(luò),每個所述專家網(wǎng)絡(luò)均采用兩層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);moe前饋網(wǎng)絡(luò)的前向計算包括:
13、;
14、;
15、;
16、其中, moe(·)表示moe前饋網(wǎng)絡(luò); x表示向量表示;表示門控網(wǎng)絡(luò),其用于選擇某一個或多個專家網(wǎng)絡(luò)處理向量表示;表示選擇第 i個專家網(wǎng)絡(luò)處理向量表示的概率;表示第 i個專家網(wǎng)絡(luò)的輸出;表示topk機(jī)制函數(shù),用于選擇概率最高的前 k'個專家網(wǎng)絡(luò), k'< k;表示softmax激活函數(shù);表示門控網(wǎng)絡(luò)的權(quán)重;表示門控網(wǎng)絡(luò)的偏置;表示relu激活函數(shù);表示第 i個專家網(wǎng)絡(luò)的第一層前饋神經(jīng)網(wǎng)絡(luò)的權(quán)重;表示第 i個專家網(wǎng)絡(luò)的第二層前饋神經(jīng)網(wǎng)絡(luò)的權(quán)重;表示第 i個專家網(wǎng)絡(luò)的第一層前饋神經(jīng)網(wǎng)絡(luò)的偏置;表示第 i個專家網(wǎng)絡(luò)的第二層前饋神經(jīng)網(wǎng)絡(luò)的偏置。
17、優(yōu)選的,還包括門控網(wǎng)絡(luò)的訓(xùn)練過程,基于真實概率與門控網(wǎng)絡(luò)預(yù)測的專家網(wǎng)絡(luò)被選擇處理向量表示的概率計算損失函數(shù),通過最小化所述損失函數(shù)調(diào)整門控網(wǎng)絡(luò)的參數(shù);損失函數(shù)表達(dá)式為:
18、;
19、其中, l表示損失函數(shù); k表示專家網(wǎng)絡(luò)的數(shù)量;表示第 i個專家網(wǎng)絡(luò)被選擇的真實概率;表示選擇第 i個專家網(wǎng)絡(luò)處理向量表示的概率; x表示向量表示。
20、優(yōu)選的,在訓(xùn)練好的越獄攻擊檢測模型中,第一層moe-transformer結(jié)構(gòu)的輸入為所述向量表示,余下各層moe-transformer結(jié)構(gòu)的輸入分別為其前一層的輸出,最后一層moe-transformer結(jié)構(gòu)的輸出為所述高層特征向量;所述高層特征向量經(jīng)過所述全連接層輸出所述越獄攻擊概率,全連接層的計算公式為:
21、;
22、其中, p表示越獄攻擊概率;表示sigmoid激活函數(shù);表示全連接層的權(quán)重;表示全連接層的偏置;表示高層特征向量。
23、優(yōu)選的,所述基于所述越獄攻擊概率確定越獄攻擊情況包括:
24、將所述越獄攻擊概率與預(yù)設(shè)閾值比較,若所述越獄攻擊概率大于所述預(yù)設(shè)閾值,則判定所述文本數(shù)據(jù)為越獄攻擊,并觸發(fā)安全警報;否則,判定所述文本數(shù)據(jù)為正常數(shù)據(jù)。
25、優(yōu)選的,正無標(biāo)記學(xué)習(xí)方法訓(xùn)練越獄攻擊檢測模型的過程包括;
26、設(shè)定學(xué)習(xí)率,批量大小以及迭代次數(shù);
27、訓(xùn)練時,所述正無標(biāo)記學(xué)習(xí)方法將已知的攻擊樣本視作正樣本,而將多個未標(biāo)記的樣本均視作未知狀態(tài)樣本;
28、越獄攻擊檢測模型對每個未知狀態(tài)樣本進(jìn)行預(yù)測,若對第 t個未知狀態(tài)樣本的預(yù)測概率超過第二預(yù)設(shè)閾值,則將第 t個所述未知狀態(tài)樣本視作正樣本;否則,保持未標(biāo)記的狀態(tài); 本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點】
1.一種大模型越獄攻擊檢測方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,所述文本數(shù)據(jù)經(jīng)嵌入層轉(zhuǎn)換為所述向量表示,所述向量表示包括向量序列,每個向量對應(yīng)文本數(shù)據(jù)中的一個元素,轉(zhuǎn)換公式為:
3.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,每層MoE-Transformer結(jié)構(gòu)的計算方式為:
4.根據(jù)權(quán)利要求3所述的大模型越獄攻擊檢測方法,其特征在于,所述MoE前饋網(wǎng)絡(luò)包括K個專家網(wǎng)絡(luò),每個所述專家網(wǎng)絡(luò)均采用兩層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);MoE前饋網(wǎng)絡(luò)的前向計算包括:
5.根據(jù)權(quán)利要求4所述的大模型越獄攻擊檢測方法,其特征在于,還包括門控網(wǎng)絡(luò)的訓(xùn)練過程,基于真實概率與門控網(wǎng)絡(luò)預(yù)測的專家網(wǎng)絡(luò)被選擇處理向量表示的概率計算損失函數(shù),通過最小化所述損失函數(shù)調(diào)整門控網(wǎng)絡(luò)的參數(shù);損失函數(shù)表達(dá)式為:
6.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,在訓(xùn)練好的越獄攻擊檢測模型中,第一層MoE-Transformer結(jié)構(gòu)的輸入為所述向量表示,余下各層MoE-Transformer結(jié)構(gòu)的輸入
7.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,所述基于所述越獄攻擊概率確定越獄攻擊情況包括:
8.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,正無標(biāo)記學(xué)習(xí)方法訓(xùn)練越獄攻擊檢測模型的過程包括;
9.根據(jù)權(quán)利要求8所述的大模型越獄攻擊檢測方法,其特征在于,焦點損失的表達(dá)式為:
10.根據(jù)權(quán)利要求9所述的大模型越獄攻擊檢測方法,其特征在于,參數(shù)調(diào)整公式為:
...【技術(shù)特征摘要】
1.一種大模型越獄攻擊檢測方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,所述文本數(shù)據(jù)經(jīng)嵌入層轉(zhuǎn)換為所述向量表示,所述向量表示包括向量序列,每個向量對應(yīng)文本數(shù)據(jù)中的一個元素,轉(zhuǎn)換公式為:
3.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,每層moe-transformer結(jié)構(gòu)的計算方式為:
4.根據(jù)權(quán)利要求3所述的大模型越獄攻擊檢測方法,其特征在于,所述moe前饋網(wǎng)絡(luò)包括k個專家網(wǎng)絡(luò),每個所述專家網(wǎng)絡(luò)均采用兩層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);moe前饋網(wǎng)絡(luò)的前向計算包括:
5.根據(jù)權(quán)利要求4所述的大模型越獄攻擊檢測方法,其特征在于,還包括門控網(wǎng)絡(luò)的訓(xùn)練過程,基于真實概率與門控網(wǎng)絡(luò)預(yù)測的專家網(wǎng)絡(luò)被選擇處理向量表示的概率計算損失函數(shù),通過最小化所述損失函數(shù)調(diào)整門控網(wǎng)絡(luò)的參數(shù);損失函數(shù)表達(dá)式為:
...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:胡為民,袁吉,鄭喜,謝麗慧,
申請(專利權(quán))人:深圳市迪博企業(yè)風(fēng)險管理技術(shù)有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。