System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲AV无码国产在丝袜线观看,在线播放无码后入内射少妇,无码人妻丰满熟妇片毛片
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種大模型越獄攻擊檢測方法技術(shù)

    技術(shù)編號:44211232 閱讀:17 留言:0更新日期:2025-02-06 18:43
    本申請涉及一種大模型越獄攻擊檢測方法,該方法包括:S1:基于混合專家模型和Transformer架構(gòu)構(gòu)建越獄攻擊檢測模型,越獄攻擊檢測模型包括多層MoE?Transformer結(jié)構(gòu),并采用正無標(biāo)記學(xué)習(xí)方法訓(xùn)練越獄攻擊檢測模型;S2:獲取輸入的文本數(shù)據(jù),并將文本數(shù)據(jù)轉(zhuǎn)換為向量表示;S3:將向量表示輸入至訓(xùn)練好的越獄攻擊檢測模型,經(jīng)過多層MoE?Transformer結(jié)構(gòu),輸出高層特征向量;S4:高層特征向量經(jīng)過全連接層,輸出越獄攻擊概率;基于越獄攻擊概率確定越獄攻擊情況。該方法在越獄攻擊檢測的準(zhǔn)確性和效率上有顯著提升,通過自動化的檢測,確保了對大模型越獄攻擊的實時防御,降低了潛在的安全風(fēng)險。

    【技術(shù)實現(xiàn)步驟摘要】

    本申請涉及越獄攻擊檢測,特別是涉及一種大模型越獄攻擊檢測方法


    技術(shù)介紹

    1、隨著人工智能技術(shù)的迅速發(fā)展,特別是大規(guī)模預(yù)訓(xùn)練模型的廣泛應(yīng)用,ai模型在各個領(lǐng)域的應(yīng)用場景中變得越來越普遍。然而,隨著這些大模型被應(yīng)用到實際場景中,越獄攻擊作為一種安全威脅逐漸引起了人們的關(guān)注;越獄攻擊是指通過惡意構(gòu)造輸入,誘導(dǎo)ai模型產(chǎn)生非預(yù)期或潛在危險的輸出,進(jìn)而繞過安全機(jī)制,導(dǎo)致ai系統(tǒng)的行為失控,特別是在一些關(guān)鍵領(lǐng)域,如金融、醫(yī)療和自動駕駛等,越獄攻擊可能帶來嚴(yán)重的后果,因此越獄攻擊的檢測和防御成為確保大模型安全性的重要研究方向。

    2、目前,傳統(tǒng)的檢測方法通常依賴于預(yù)先定義的規(guī)則或黑名單策略來識別潛在攻擊,這種方法在面對不斷變化和進(jìn)化的攻擊方式時,難以保持有效性和靈活性。由于越獄攻擊往往具有隱蔽性和多樣性,尤其是在惡意攻擊者不斷迭代攻擊手段的情況下,現(xiàn)有檢測技術(shù)難以捕捉到為止的攻擊模式或變種,導(dǎo)致監(jiān)測的準(zhǔn)確性和效率不足。因此,當(dāng)前的技術(shù)亟需更智能化、動態(tài)化的越獄攻擊檢測機(jī)制,以應(yīng)對復(fù)雜多變的攻擊環(huán)境。


    技術(shù)實現(xiàn)思路

    1、基于此,有必要提供一種大模型越獄攻擊檢測方法,該方法包括:

    2、s1:基于混合專家模型和transformer架構(gòu)構(gòu)建越獄攻擊檢測模型,越獄攻擊檢測模型包括多層moe-transformer結(jié)構(gòu),并采用正無標(biāo)記學(xué)習(xí)方法訓(xùn)練所述越獄攻擊檢測模型;

    3、s2:獲取輸入的文本數(shù)據(jù),并將所述文本數(shù)據(jù)轉(zhuǎn)換為向量表示;

    4、s3:將所述向量表示輸入至訓(xùn)練好的越獄攻擊檢測模型,經(jīng)過多層所述moe-transformer結(jié)構(gòu),輸出高層特征向量;

    5、s4:所述高層特征向量經(jīng)過全連接層,輸出越獄攻擊概率;基于所述越獄攻擊概率確定越獄攻擊情況。

    6、優(yōu)選的,所述文本數(shù)據(jù)經(jīng)嵌入層轉(zhuǎn)換為所述向量表示,所述向量表示包括向量序列,每個向量對應(yīng)文本數(shù)據(jù)中的一個元素,轉(zhuǎn)換公式為:

    7、 x= embedding( v);

    8、其中, x表示向量表示, embedding(·)表示嵌入層; v表示輸入的文本數(shù)據(jù)。

    9、優(yōu)選的,每層moe-transformer結(jié)構(gòu)的計算方式為:

    10、 moe-transformer( x)= layernorm( moe( layernorm( selfattention( x)+ x))+ x);

    11、其中, moe-transformer(·)表示moe-transformer結(jié)構(gòu); layernorm(·)表示層歸一化; moe(·)表示moe前饋網(wǎng)絡(luò); selfattention(·)表示多頭自注意力機(jī)制; x表示向量表示。

    12、優(yōu)選的,所述moe前饋網(wǎng)絡(luò)包括 k個專家網(wǎng)絡(luò),每個所述專家網(wǎng)絡(luò)均采用兩層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);moe前饋網(wǎng)絡(luò)的前向計算包括:

    13、;

    14、;

    15、;

    16、其中, moe(·)表示moe前饋網(wǎng)絡(luò); x表示向量表示;表示門控網(wǎng)絡(luò),其用于選擇某一個或多個專家網(wǎng)絡(luò)處理向量表示;表示選擇第 i個專家網(wǎng)絡(luò)處理向量表示的概率;表示第 i個專家網(wǎng)絡(luò)的輸出;表示topk機(jī)制函數(shù),用于選擇概率最高的前 k'個專家網(wǎng)絡(luò), k'< k;表示softmax激活函數(shù);表示門控網(wǎng)絡(luò)的權(quán)重;表示門控網(wǎng)絡(luò)的偏置;表示relu激活函數(shù);表示第 i個專家網(wǎng)絡(luò)的第一層前饋神經(jīng)網(wǎng)絡(luò)的權(quán)重;表示第 i個專家網(wǎng)絡(luò)的第二層前饋神經(jīng)網(wǎng)絡(luò)的權(quán)重;表示第 i個專家網(wǎng)絡(luò)的第一層前饋神經(jīng)網(wǎng)絡(luò)的偏置;表示第 i個專家網(wǎng)絡(luò)的第二層前饋神經(jīng)網(wǎng)絡(luò)的偏置。

    17、優(yōu)選的,還包括門控網(wǎng)絡(luò)的訓(xùn)練過程,基于真實概率與門控網(wǎng)絡(luò)預(yù)測的專家網(wǎng)絡(luò)被選擇處理向量表示的概率計算損失函數(shù),通過最小化所述損失函數(shù)調(diào)整門控網(wǎng)絡(luò)的參數(shù);損失函數(shù)表達(dá)式為:

    18、;

    19、其中, l表示損失函數(shù); k表示專家網(wǎng)絡(luò)的數(shù)量;表示第 i個專家網(wǎng)絡(luò)被選擇的真實概率;表示選擇第 i個專家網(wǎng)絡(luò)處理向量表示的概率; x表示向量表示。

    20、優(yōu)選的,在訓(xùn)練好的越獄攻擊檢測模型中,第一層moe-transformer結(jié)構(gòu)的輸入為所述向量表示,余下各層moe-transformer結(jié)構(gòu)的輸入分別為其前一層的輸出,最后一層moe-transformer結(jié)構(gòu)的輸出為所述高層特征向量;所述高層特征向量經(jīng)過所述全連接層輸出所述越獄攻擊概率,全連接層的計算公式為:

    21、;

    22、其中, p表示越獄攻擊概率;表示sigmoid激活函數(shù);表示全連接層的權(quán)重;表示全連接層的偏置;表示高層特征向量。

    23、優(yōu)選的,所述基于所述越獄攻擊概率確定越獄攻擊情況包括:

    24、將所述越獄攻擊概率與預(yù)設(shè)閾值比較,若所述越獄攻擊概率大于所述預(yù)設(shè)閾值,則判定所述文本數(shù)據(jù)為越獄攻擊,并觸發(fā)安全警報;否則,判定所述文本數(shù)據(jù)為正常數(shù)據(jù)。

    25、優(yōu)選的,正無標(biāo)記學(xué)習(xí)方法訓(xùn)練越獄攻擊檢測模型的過程包括;

    26、設(shè)定學(xué)習(xí)率,批量大小以及迭代次數(shù);

    27、訓(xùn)練時,所述正無標(biāo)記學(xué)習(xí)方法將已知的攻擊樣本視作正樣本,而將多個未標(biāo)記的樣本均視作未知狀態(tài)樣本;

    28、越獄攻擊檢測模型對每個未知狀態(tài)樣本進(jìn)行預(yù)測,若對第 t個未知狀態(tài)樣本的預(yù)測概率超過第二預(yù)設(shè)閾值,則將第 t個所述未知狀態(tài)樣本視作正樣本;否則,保持未標(biāo)記的狀態(tài); 本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點】

    1.一種大模型越獄攻擊檢測方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,所述文本數(shù)據(jù)經(jīng)嵌入層轉(zhuǎn)換為所述向量表示,所述向量表示包括向量序列,每個向量對應(yīng)文本數(shù)據(jù)中的一個元素,轉(zhuǎn)換公式為:

    3.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,每層MoE-Transformer結(jié)構(gòu)的計算方式為:

    4.根據(jù)權(quán)利要求3所述的大模型越獄攻擊檢測方法,其特征在于,所述MoE前饋網(wǎng)絡(luò)包括K個專家網(wǎng)絡(luò),每個所述專家網(wǎng)絡(luò)均采用兩層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);MoE前饋網(wǎng)絡(luò)的前向計算包括:

    5.根據(jù)權(quán)利要求4所述的大模型越獄攻擊檢測方法,其特征在于,還包括門控網(wǎng)絡(luò)的訓(xùn)練過程,基于真實概率與門控網(wǎng)絡(luò)預(yù)測的專家網(wǎng)絡(luò)被選擇處理向量表示的概率計算損失函數(shù),通過最小化所述損失函數(shù)調(diào)整門控網(wǎng)絡(luò)的參數(shù);損失函數(shù)表達(dá)式為:

    6.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,在訓(xùn)練好的越獄攻擊檢測模型中,第一層MoE-Transformer結(jié)構(gòu)的輸入為所述向量表示,余下各層MoE-Transformer結(jié)構(gòu)的輸入分別為其前一層的輸出,最后一層MoE-Transformer結(jié)構(gòu)的輸出為所述高層特征向量;所述高層特征向量經(jīng)過所述全連接層輸出所述越獄攻擊概率,全連接層的計算公式為:

    7.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,所述基于所述越獄攻擊概率確定越獄攻擊情況包括:

    8.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,正無標(biāo)記學(xué)習(xí)方法訓(xùn)練越獄攻擊檢測模型的過程包括;

    9.根據(jù)權(quán)利要求8所述的大模型越獄攻擊檢測方法,其特征在于,焦點損失的表達(dá)式為:

    10.根據(jù)權(quán)利要求9所述的大模型越獄攻擊檢測方法,其特征在于,參數(shù)調(diào)整公式為:

    ...

    【技術(shù)特征摘要】

    1.一種大模型越獄攻擊檢測方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,所述文本數(shù)據(jù)經(jīng)嵌入層轉(zhuǎn)換為所述向量表示,所述向量表示包括向量序列,每個向量對應(yīng)文本數(shù)據(jù)中的一個元素,轉(zhuǎn)換公式為:

    3.根據(jù)權(quán)利要求1所述的大模型越獄攻擊檢測方法,其特征在于,每層moe-transformer結(jié)構(gòu)的計算方式為:

    4.根據(jù)權(quán)利要求3所述的大模型越獄攻擊檢測方法,其特征在于,所述moe前饋網(wǎng)絡(luò)包括k個專家網(wǎng)絡(luò),每個所述專家網(wǎng)絡(luò)均采用兩層前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu);moe前饋網(wǎng)絡(luò)的前向計算包括:

    5.根據(jù)權(quán)利要求4所述的大模型越獄攻擊檢測方法,其特征在于,還包括門控網(wǎng)絡(luò)的訓(xùn)練過程,基于真實概率與門控網(wǎng)絡(luò)預(yù)測的專家網(wǎng)絡(luò)被選擇處理向量表示的概率計算損失函數(shù),通過最小化所述損失函數(shù)調(diào)整門控網(wǎng)絡(luò)的參數(shù);損失函數(shù)表達(dá)式為:

    ...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:胡為民袁吉鄭喜謝麗慧
    申請(專利權(quán))人:深圳市迪博企業(yè)風(fēng)險管理技術(shù)有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久无码中文字幕东京热| 波多野结衣AV无码| 国产成人无码免费网站| 好硬~好爽~别进去~动态图, 69式真人无码视频免 | 无码中文字幕色专区| 本道天堂成在人线av无码免费| 国产乱人伦Av在线无码| 少妇特殊按摩高潮惨叫无码| 无码精品一区二区三区在线| 日韩成人无码影院| 亚洲一区二区三区无码国产| 大桥久未无码吹潮在线观看| 亚洲av无码一区二区三区在线播放 | 亚洲中文字幕无码中文字在线| 亚洲精品久久久久无码AV片软件| 国产AV无码专区亚洲AV手机麻豆| AAA级久久久精品无码片| 亚洲日韩精品无码专区网址| 日韩AV片无码一区二区不卡| 亚洲看片无码在线视频| 亚洲精品无码久久久久去q | 亚洲精品一级无码中文字幕| 亚洲国产精品无码久久98| 久久久久无码精品亚洲日韩 | 无码性午夜视频在线观看| 中文字幕人妻三级中文无码视频 | 中文字幕精品无码一区二区三区| 久久精品日韩av无码| 亚洲国产精品无码久久98| 亚洲一区二区三区无码国产| 97久久精品亚洲中文字幕无码 | 亚洲av永久无码嘿嘿嘿| 久久无码专区国产精品| 亚洲热妇无码AV在线播放 | 亚洲精品无码成人| 亚洲AV无码资源在线观看 | 久久青青草原亚洲AV无码麻豆| 中文字幕久无码免费久久| 曰批全过程免费视频在线观看无码| 精品无码久久久久久久动漫 | 国产aⅴ无码专区亚洲av麻豆|