System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲AV无码国产在丝袜线观看,在线播放无码后入内射少妇,无码人妻丰满熟妇片毛片
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種大模型越獄攻擊檢測方法技術(shù)

    技術(shù)編號:44211232 閱讀:17 留言:0更新日期:2025-02-06 18:43
    本申請涉及一種大模型越獄攻擊檢測方法,該方法包括:S1:基于混合專家模型和Transformer架構(gòu)構(gòu)建越獄攻擊檢測模型,越獄攻擊檢測模型包括多層MoE?Transformer結(jié)構(gòu),并采用正無標(biāo)記學(xué)習(xí)方法訓(xùn)練越獄攻擊檢測模型;S2:獲取輸入的文本數(shù)據(jù),并將文本數(shù)據(jù)轉(zhuǎn)換為向量表示;S3:將向量表示輸入至訓(xùn)練好的越獄攻擊檢測模型,經(jīng)過多層MoE?Transformer結(jié)構(gòu),輸出高層特征向量;S4:高層特征向量經(jīng)過全連接層,輸出越獄攻擊概率;基于越獄攻擊概率確定越獄攻擊情況。該方法在越獄攻擊檢測的準(zhǔn)確性和效率上有顯著提升,通過自動化的檢測,確保了對大模型越獄攻擊的實時防御,降低了潛在的安全風(fēng)險。

    【技術(shù)實現(xiàn)步驟摘要】

    本申請涉及越獄攻擊檢測,特別是涉及一種大模型越獄攻擊檢測方法


    技術(shù)介紹

    1、隨著人工智能技術(shù)的迅速發(fā)展,特別是大規(guī)模預(yù)訓(xùn)練模型的廣泛應(yīng)用,ai模型在各個領(lǐng)域的應(yīng)用場景中變得越來越普遍。然而,隨著這些大模型被應(yīng)用到實際場景中,越獄攻擊作為一種安全威脅逐漸引起了人們的關(guān)注;越獄攻擊是指通過惡意構(gòu)造輸入,誘導(dǎo)ai模型產(chǎn)生非預(yù)期或潛在危險的輸出,進(jìn)而繞過安全機(jī)制,導(dǎo)致ai系統(tǒng)的行為失控,特別是在一些關(guān)鍵領(lǐng)域,如金融、醫(yī)療和自動駕駛等,越獄攻擊可能帶來嚴(yán)重的后果,因此越獄攻擊的檢測和防御成為確保大模型安全性的重要研究方向。

    2、目前,傳統(tǒng)的檢測方法通常依賴于預(yù)先定義的規(guī)則或黑名單策略來識別潛在攻擊,這種方法在面對不斷變化和進(jìn)化的攻擊方式時,難以保持有效性和靈活性。由于越獄攻擊往往具有隱蔽性和多樣性,尤其是在惡意攻擊者不斷迭代攻擊手段的情況下,現(xiàn)有檢測技術(shù)難以捕捉到為止的攻擊模式或變種,導(dǎo)致監(jiān)測的準(zhǔn)確性和效率不足。因此,當(dāng)前的技術(shù)亟需更智能化、動態(tài)化的越獄攻擊檢測機(jī)制,以應(yīng)對復(fù)雜多變的攻擊環(huán)境。


    技術(shù)實現(xiàn)思路

    1、基于此,有必要提供一種大模型越獄攻擊檢測方法,該方法包括:

    2、s1:基于混合專家模型和transformer架構(gòu)構(gòu)建越獄攻擊檢測模型,越獄攻擊檢測模型包括多層moe-transformer結(jié)構(gòu),并采用正無標(biāo)記學(xué)習(xí)方法訓(xùn)練所述越獄攻擊檢測模型;

    3、s2:獲取輸入的文本數(shù)據(jù),并將所述文本數(shù)據(jù)轉(zhuǎn)換為向量表示;

    4、s3:將所述向量表示輸入至訓(xùn)練好的越獄攻擊檢測模型,經(jīng)過多層所述moe-transformer結(jié)構(gòu),輸出高層特征向量;

    5、s4:所述高層特征向量經(jīng)過全連接層,輸出越獄攻擊概率;基于所述越獄攻擊概率確定越獄攻擊情況。

    6、優(yōu)選的,所述文本數(shù)據(jù)經(jīng)嵌入層轉(zhuǎn)換為所述向量表示,所述向量表示包括向量序列,每個向量對應(yīng)文本數(shù)據(jù)中的一個元素,轉(zhuǎn)換公式為:

    7、 x= embedding( v);

    8、其中, x表示向量表示, embedding(·)表示嵌入層; v表示輸入的文本數(shù)據(jù)。

    9、優(yōu)選的,每層moe-transformer結(jié)構(gòu)的計算方式為:

    10、 moe-transformer( x)= layernorm( moe( layernorm( selfattention( x)+ x))+ x);

    11、其中, moe-transformer(·)表示moe-transformer結(jié)構(gòu); layernorm(·)表示層歸一化; moe(·)表示moe前饋網(wǎng)絡(luò); selfattention(·)表示多頭自注意力機(jī)制; x表示向量表示。

    12、優(yōu)選的,所述moe前饋網(wǎng)絡(luò)包括 k個專家網(wǎng)絡(luò),每個所述專家網(wǎng)絡(luò)均采用兩層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);moe前饋網(wǎng)絡(luò)的前向計算包括:

    13、;

    14、;

    15、;

    16、其中, moe(·)表示moe前饋網(wǎng)絡(luò); x表示向量表示;表示門控網(wǎng)絡(luò),其用于選擇某一個或多個專家網(wǎng)絡(luò)處理向量表示;表示選擇第 i個專家網(wǎng)絡(luò)處理向量表示的概率;表示第 i個專家網(wǎng)絡(luò)的輸出;表示topk機(jī)制函數(shù),用于選擇概率最高的前 k'個專家網(wǎng)絡(luò), k'< k;表示softmax激活函數(shù);表示門控網(wǎng)絡(luò)的權(quán)重;表示門控網(wǎng)絡(luò)的偏置;表示relu激活函數(shù);表示第 i個專家網(wǎng)絡(luò)的第一層前饋神經(jīng)網(wǎng)絡(luò)的權(quán)重;表示第 i個專家網(wǎng)絡(luò)的第二層前饋神經(jīng)網(wǎng)絡(luò)的權(quán)重;表示第 i個專家網(wǎng)絡(luò)的第一層前饋神經(jīng)網(wǎng)絡(luò)的偏置;表示第 i個專家網(wǎng)絡(luò)的第二層前饋神經(jīng)網(wǎng)絡(luò)的偏置。

    17、優(yōu)選的,還包括門控網(wǎng)絡(luò)的訓(xùn)練過程,基于真實概率與門控網(wǎng)絡(luò)預(yù)測的專家網(wǎng)絡(luò)被選擇處理向量表示的概率計算損失函數(shù),通過最小化所述損失函數(shù)調(diào)整門控網(wǎng)絡(luò)的參數(shù);損失函數(shù)表達(dá)式為:

    18、;

    19、其中, l表示損失函數(shù); k表示專家網(wǎng)絡(luò)的數(shù)量;表示第 i個專家網(wǎng)絡(luò)被選擇的真實概率;表示選擇第 i個專家網(wǎng)絡(luò)處理向量表示的概率; x表示向量表示。

    20、優(yōu)選的,在訓(xùn)練好的越獄攻擊檢測模型中,第一層moe-transformer結(jié)構(gòu)的輸入為所述向量表示,余下各層moe-transformer結(jié)構(gòu)的輸入分別為其前一層的輸出,最后一層moe-transformer結(jié)構(gòu)的輸出為所述高層特征向量;所述高層特征向量經(jīng)過所述全連接層輸出所述越獄攻擊概率,全連接層的計算公式為:

    21、;

    22、其中, p表示越獄攻擊概率;表示sigmoid激活函數(shù);表示全連接層的權(quán)重;表示全連接層的偏置;表示高層特征向量。

    23、優(yōu)選的,所述基于所述越獄攻擊概率確定越獄攻擊情況包括:

    24、將所述越獄攻擊概率與預(yù)設(shè)閾值比較,若所述越獄攻擊概率大于所述預(yù)設(shè)閾值,則判定所述文本數(shù)據(jù)為越獄攻擊,并觸發(fā)安全警報;否則,判定所述文本數(shù)據(jù)為正常數(shù)據(jù)。

    25、優(yōu)選的,正無標(biāo)記學(xué)習(xí)方法訓(xùn)練越獄攻擊檢測模型的過程包括;

    26、設(shè)定學(xué)習(xí)率,批量大小以及迭代次數(shù);

    27、訓(xùn)練時,所述正無標(biāo)記學(xué)習(xí)方法將已知的攻擊樣本視作正樣本,而將多個未標(biāo)記的樣本均視作未知狀態(tài)樣本;

    28、越獄攻擊檢測模型對每個未知狀態(tài)樣本進(jìn)行預(yù)測,若對第 t個未知狀態(tài)樣本的預(yù)測概率超過第二預(yù)設(shè)閾值,則將第 t個所述未知狀態(tài)樣本視作正樣本;否則,保持未標(biāo)記的狀態(tài); 本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點】

    1.一種大模型越獄攻擊檢測方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,所述文本數(shù)據(jù)經(jīng)嵌入層轉(zhuǎn)換為所述向量表示,所述向量表示包括向量序列,每個向量對應(yīng)文本數(shù)據(jù)中的一個元素,轉(zhuǎn)換公式為:

    3.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,每層MoE-Transformer結(jié)構(gòu)的計算方式為:

    4.根據(jù)權(quán)利要求3所述的大模型越獄攻擊檢測方法,其特征在于,所述MoE前饋網(wǎng)絡(luò)包括K個專家網(wǎng)絡(luò),每個所述專家網(wǎng)絡(luò)均采用兩層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);MoE前饋網(wǎng)絡(luò)的前向計算包括:

    5.根據(jù)權(quán)利要求4所述的大模型越獄攻擊檢測方法,其特征在于,還包括門控網(wǎng)絡(luò)的訓(xùn)練過程,基于真實概率與門控網(wǎng)絡(luò)預(yù)測的專家網(wǎng)絡(luò)被選擇處理向量表示的概率計算損失函數(shù),通過最小化所述損失函數(shù)調(diào)整門控網(wǎng)絡(luò)的參數(shù);損失函數(shù)表達(dá)式為:

    6.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,在訓(xùn)練好的越獄攻擊檢測模型中,第一層MoE-Transformer結(jié)構(gòu)的輸入為所述向量表示,余下各層MoE-Transformer結(jié)構(gòu)的輸入分別為其前一層的輸出,最后一層MoE-Transformer結(jié)構(gòu)的輸出為所述高層特征向量;所述高層特征向量經(jīng)過所述全連接層輸出所述越獄攻擊概率,全連接層的計算公式為:

    7.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,所述基于所述越獄攻擊概率確定越獄攻擊情況包括:

    8.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,正無標(biāo)記學(xué)習(xí)方法訓(xùn)練越獄攻擊檢測模型的過程包括;

    9.根據(jù)權(quán)利要求8所述的大模型越獄攻擊檢測方法,其特征在于,焦點損失的表達(dá)式為:

    10.根據(jù)權(quán)利要求9所述的大模型越獄攻擊檢測方法,其特征在于,參數(shù)調(diào)整公式為:

    ...

    【技術(shù)特征摘要】

    1.一種大模型越獄攻擊檢測方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,所述文本數(shù)據(jù)經(jīng)嵌入層轉(zhuǎn)換為所述向量表示,所述向量表示包括向量序列,每個向量對應(yīng)文本數(shù)據(jù)中的一個元素,轉(zhuǎn)換公式為:

    3.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,每層moe-transformer結(jié)構(gòu)的計算方式為:

    4.根據(jù)權(quán)利要求3所述的大模型越獄攻擊檢測方法,其特征在于,所述moe前饋網(wǎng)絡(luò)包括k個專家網(wǎng)絡(luò),每個所述專家網(wǎng)絡(luò)均采用兩層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);moe前饋網(wǎng)絡(luò)的前向計算包括:

    5.根據(jù)權(quán)利要求4所述的大模型越獄攻擊檢測方法,其特征在于,還包括門控網(wǎng)絡(luò)的訓(xùn)練過程,基于真實概率與門控網(wǎng)絡(luò)預(yù)測的專家網(wǎng)絡(luò)被選擇處理向量表示的概率計算損失函數(shù),通過最小化所述損失函數(shù)調(diào)整門控網(wǎng)絡(luò)的參數(shù);損失函數(shù)表達(dá)式為:

    ...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:胡為民袁吉鄭喜謝麗慧
    申請(專利權(quán))人:深圳市迪博企業(yè)風(fēng)險管理技術(shù)有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 中文字幕无码人妻AAA片| av无码一区二区三区| 秋霞鲁丝片Av无码少妇| 亚洲中文无码永久免| 中文字幕无码久久人妻| 亚洲AV成人片无码网站| 中文字幕无码乱人伦| 日韩精品成人无码专区免费| 亚洲熟妇无码AV在线播放| 久久精品无码一区二区三区免费| 亚洲AV中文无码乱人伦下载| 国产精品无码亚洲一区二区三区 | 久久久久久国产精品无码下载| 久久av无码专区亚洲av桃花岛 | 精品无码成人久久久久久| 国产午夜片无码区在线播放| 成人年无码AV片在线观看| 精品无码人妻一区二区三区品| 亚洲真人无码永久在线| 一本之道高清无码视频| 日韩精品无码人妻免费视频| 亚洲国产精品无码中文lv| 无码粉嫩小泬无套在线观看| 人妻无码中文久久久久专区| 亚洲AV永久青草无码精品| 国产精品无码不卡一区二区三区| 无码专区HEYZO色欲AV| 亚洲最大av资源站无码av网址| 亚洲国产成人无码av在线播放| 无码精品久久久天天影视 | 国产午夜片无码区在线播放| 狠狠躁天天躁无码中文字幕| 无码日韩人妻AV一区免费l| 无码人妻精品一区二区蜜桃AV| 午夜福利无码一区二区| 无码少妇一区二区三区芒果| 国产精品成人99一区无码| 无码精品人妻一区二区三区AV| 国产高清无码视频| 久久无码专区国产精品s| 日韩av无码一区二区三区|