System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 久久久久av无码免费网,无码精品A∨在线观看十八禁,无码人妻精品丰满熟妇区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>浙江大學專利>正文

    一種基于語義邏輯的大模型防御方法技術

    技術編號:44211197 閱讀:30 留言:0更新日期:2025-02-06 18:43
    本發明專利技術公開了一種基于語義邏輯的大模型防御方法,通過基于語義邏輯分析和模型學習技術,系統地識別和阻斷偏見的混淆效應,從而減少預訓練數據中偏見對引導過程的影響,包含一個可解釋組成,提供對生成輸出與期望方向之間對齊的洞察,增強了引導過程的可解釋性,增強了模型的透明度和用戶的信任,該方法可能減少了對人工標注和計算資源的依賴,從而提高了資源效率,通過無偏見的引導表示,提高了模型在不同任務和領域中的泛化能力,這與現有技術泛化能力有限的問題形成對比,具有高可擴展性和適應性。可以應用在不同的語言模型中,可深入了解生成的輸出與期望方向之間的一致性,從而增強轉向過程的可解釋性,同時減輕偏見的影響。

    【技術實現步驟摘要】

    本專利技術涉及人工智能安全領域,具體涉及一種基于語義邏輯的大模型防御方法


    技術介紹

    1、通過對語義邏輯的分析,解決大型語言模型(llms)在自然語言任務中可能表現出的不良屬性或偏見問題,比如語義偏見的影響、引導表示的無偏見性、引導過程的可解釋性和提高llms的安全性和可靠性。

    2、例如,將某個輸入到llms當中的句子進行語義劃分后,會產生許多小的語義變量。若有三個語義變量c,x,y。如圖1所示。

    3、若c是x和y的共同原因,即稱c是混淆變量。如圖1所述,在這個圖中,x到y的路徑通過c形成了后門路徑,因為c影響了x和y,從而引入了x和y之間的虛假相關性。

    4、圖2則展示了如何通過阻斷后門路徑來消除混淆變量的影響。在這個圖中,通過阻斷x到z的箭頭(即阻斷后門路徑),來嘗試消除c對x和y之間因果關系的干擾。這樣,就可以更準確地估計x對y的語義邏輯效果。這個例子說明了如何在大型語言模型中識別和阻斷偏見的影響。本方法則是基于這樣的語義邏輯來識別和阻斷那些可能影響模型輸出的偏見來源,以獲得更準確和無偏見的引導表示。通過這種方式,能夠減少模型輸出中的偏見,并提高模型的安全性和可靠性。

    5、基于數據的微調(fine-tuning?on?curated?datasets)。通過在經過篩選和清洗的、去除冒犯性、偏見或誤導內容的數據集上訓練語言模型,以減少模型生成有害輸出的可能性。這種方法可能無法完全捕捉到所有細微的偏見,并且需要大量的人工標注和計算資源。

    6、基于人類反饋的強化學習(reinforcement?learning?from?human?feedback,rlhf)。利用人類評估者對生成輸出的質量和安全性進行反饋,以此來訓練語言模型。該方法需要大量的人工反饋,成本高,且可能引入人為偏見。

    7、基于ai反饋的強化學習(reinforcement?learning?from?ai?feedback,?rlaif)。使用ai系統代替人類評估者提供反饋,以訓練語言模型。該方法雖然減少了人工成本,但仍然需要大量的計算資源,并且可能缺乏人類的直觀理解和判斷能力。

    8、最接近現有技術往往沒有充分考慮預訓練數據中偏見對引導過程的影響,導致引導向量可能被這些偏見所混淆,從而無法準確捕捉所需的屬性;現有方法缺乏可解釋性,這限制了模型性能的一致性和泛化能力,使得模型的決策過程不夠透明;需要大量的標注數據和計算資源,尤其是在基于人類反饋的強化學習中,人工成本很高;現有方法可能在特定任務上表現良好,但在跨任務或跨領域的泛化能力上存在局限。


    技術實現思路

    1、本專利技術針對現有技術的不足,提供了一種基于擴散模型的文本增強圖像生成方法,本專利技術是通過以下技術方案來實現的:

    2、本專利技術公開了一種基于語義邏輯的大模型防御方法,包括:

    3、s1:?獲得足量的訓練文本;

    4、s2:?將文本輸入到transformer層,得到經過transformer層中每層計算后的特征圖;

    5、s3:?通過一個線性回歸分類器對每層計算后的特征圖進行評估,線性回歸分類器通過該計算每一個特征圖后,均可得到一個向量,所述的向量中的值,表示分類為對應類別的概率,得到若干向量;

    6、s4:?對若干向量進行排序,從低到高確定哪些層對目標屬性最敏感,得到若干干預層;

    7、s5:?使用一個低秩自適應分解器lora來替換若干干預層,得到新的語言模型;

    8、s6:?使用無偏轉述后的數據,訓練新的語言模型,得到訓練后的語言模型;

    9、s7:?獲得交互文本;

    10、s8:對交互文本進行提取表征,得到提取表征后的文本。

    11、s9:?將提取表征后的文本輸入到訓練后的語言模型中,得到安全、無偏見的輸出。

    12、作為進一步地改進,本專利技術所述的使用一個低秩自適應分解器lora來替換若干干預層,得到新的語言模型具體為:若原始的中間層為,替換后的無偏見中間層則為?,數學表示為:

    13、

    14、其中,其中,b?和?a分別是大小為??和??的矩陣,且?,表示中間層的前一層。

    15、作為進一步地改進,本專利技術所述的無偏轉述具體為:無偏轉述具體為:給定輸入提示,其中s是前綴引導提示,c是語義提示,首先計算s和c的token長度,分別為和,當經過原始語言模型的第?層時,得到中間表示??,在經過上述的第?層lora后,會得到經過去迭代的中間表示??,將原始語言的中間表示集合定義為?r=?[],將無偏轉述后的中間表示的集合為?r??=?{},其中??表示非干預層,表示干預層,={},其中為非干預層,={?},其中為干預層,定義領域探測模塊:[-:?],相當于整個提示語的語義提示部分。

    16、作為進一步地改進,本專利技術所述的訓練新的語言模型具體為:所述的訓練為去偏訓練,所述的去偏訓練為通過定義預測重構損失:,和去除偏見損失:,組成最后的損失函數:,根據所述的損失函數來訓練模型,其中,celoss表示交叉熵函數,表示原始模型的輸出,表示新語言模型,表示經過無偏轉述后的輸入,表示使用梯度反轉層來反轉梯度的方向,使得在反向傳播時,梯度的方向被反轉,表示用來識別混淆概念的多層感知機,和是超參數,表示輸出的方向標簽,即期望或不期望的屬性或概念,而不是某個具體的分類(例如,真實或不真實,有害或無害等)。

    17、作為進一步地改進,本專利技術所述的s8中的提取表征具體為,使用lora對每個標記計算正負去偏見表示的差異,再計算該值的平均值,以獲得引導方向,即:

    18、。

    19、本專利技術的有益效果如下:

    20、(1)減少偏見影響。該方法通過基于語義邏輯分析和模型學習技術,系統地識別和阻斷偏見的混淆效應,從而減少預訓練數據中偏見對引導過程的影響。

    21、(2)提高可解釋性。該方法包含一個可解釋組成,提供對生成輸出與期望方向之間對齊的洞察,增強了引導過程的可解釋性,增強了模型的透明度和用戶的信任。

    22、(3)資源效率提高。與需要大量人工反饋的rlhf和rlaif方法相比,該方法可能減少了對人工標注和計算資源的依賴,從而提高了資源效率。

    23、(4)泛化能力強。該方法通過無偏見的引導表示,提高了模型在不同任務和領域中的泛化能力,這與現有技術泛化能力有限的問題形成對比,具有高可擴展性和適應性。

    24、(5)對語言模型中的轉向過程進行語義邏輯分析,確定語義提示的混雜效應及其對轉向表示的影響,最終提出了一種用于在語言模型中獲取無偏轉向表示的新框架。這一框架創新性地采用對抗性學習技術來分離語義偏差對轉向過程的影響,并能有效避免語言模型生成含有偏見的輸出。

    25、(6)該框架是一個可解釋的組件,可以應用在不同的語言模型中,可深入了解生成的輸出與期望方向之間的一致性,從而增強轉向過程的可解釋性,同時減輕偏見的本文檔來自技高網...

    【技術保護點】

    1.一種基于語義邏輯的大模型防御方法,其特征在于,包括:

    2.根據權利要求1所述的基于語義邏輯的大模型防御方法,其特征在于,所述的使用一個低秩自適應分解器LoRA來替換若干干預層,得到新的語言模型具體為:若原始的中間層為,替換后的無偏見中間層則為?,數學表示為:

    3.根據權利要求1所述的基于語義邏輯的大模型防御方法,其特征在于,所述的無偏轉述具體為:給定輸入提示,其中S是前綴引導提示,C是語義提示,首先計算S和C的Token長度,分別為和,當經過原始語言模型的第?層時,得到中間表示??,在經過上述的第?層LoRA后,會得到經過去迭代的中間表示??,將原始語言的中間表示集合定義為?R=?[],將無偏轉述后的中間表示的集合為?R??=?{},其中??表示非干預層,表示干預層,={},其中為非干預層,={?},其中為干預層,定義領域探測模塊:[-:?],相當于整個提示語的語義提示部分。

    4.根據權利要求1所述的基于語義邏輯的大模型防御方法,其特征在于,所述的訓練新的語言模型具體為:所述的訓練為去偏訓練,所述的去偏訓練為通過定義預測重構損失:,和去除偏見損失:,組成最后的損失函數:,根據所述的損失函數來訓練模型,其中,CEloss表示交叉熵函數,表示原始模型的輸出,表示新語言模型,表示經過無偏轉述后的輸入,表示使用梯度反轉層來反轉梯度的方向,使得在反向傳播時,梯度的方向被反轉,表示用來識別混淆概念的多層感知機,和是超參數,表示輸出的方向標簽,即期望或不期望的屬性或概念,而不是某個具體的分類。

    5.根據權利要求1所述的基于語義邏輯的大模型防御方法,其特征在于,所述的S8中的提取表征具體為,使用LoRA對每個標記計算正負去偏見表示的差異,再計算該值的平均值,以獲得引導方向,即:

    ...

    【技術特征摘要】

    1.一種基于語義邏輯的大模型防御方法,其特征在于,包括:

    2.根據權利要求1所述的基于語義邏輯的大模型防御方法,其特征在于,所述的使用一個低秩自適應分解器lora來替換若干干預層,得到新的語言模型具體為:若原始的中間層為,替換后的無偏見中間層則為?,數學表示為:

    3.根據權利要求1所述的基于語義邏輯的大模型防御方法,其特征在于,所述的無偏轉述具體為:給定輸入提示,其中s是前綴引導提示,c是語義提示,首先計算s和c的token長度,分別為和,當經過原始語言模型的第?層時,得到中間表示??,在經過上述的第?層lora后,會得到經過去迭代的中間表示??,將原始語言的中間表示集合定義為?r=?[],將無偏轉述后的中間表示的集合為?r??=?{},其中??表示非干預層,表示干預層,={},其中為非干預層,={?},其中為干預層,定義領域探測模塊:...

    【專利技術屬性】
    技術研發人員:褚志軒鄭昊倫孫浥塵王渤軒任奎
    申請(專利權)人:浙江大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲一区AV无码少妇电影| 国产成人无码a区在线观看视频免费| 无码精品人妻一区二区三区免费| 无码国产69精品久久久久孕妇| 中文字幕日韩精品无码内射| 精品国产a∨无码一区二区三区| 精品无码av无码专区| 91精品国产综合久久四虎久久无码一级 | 亚洲AV成人无码天堂| 无码精品久久一区二区三区| 日韩国产精品无码一区二区三区| 人妻丰满?V无码久久不卡| 亚洲熟妇av午夜无码不卡| 无码人妻一区二区三区在线视频 | 国产精品久久无码一区二区三区网 | 免费无码av片在线观看| 久久无码av亚洲精品色午夜 | 亚洲Av永久无码精品三区在线| 国产成人无码a区在线观看视频免费| 亚洲av永久无码精品天堂久久| 中文字幕av无码一区二区三区电影| 免费无码AV电影在线观看| 亚洲AV成人噜噜无码网站| 无码无遮挡又大又爽又黄的视频 | 国产免费AV片无码永久免费| 亚洲中文字幕无码中文| 久久人妻无码中文字幕| 午夜无码A级毛片免费视频| 亚洲日韩欧洲无码av夜夜摸| gogo少妇无码肉肉视频| 国产午夜无码片免费| 在线精品无码字幕无码AV| 中文字幕精品无码亚洲字| 熟妇人妻中文a∨无码| 中文国产成人精品久久亚洲精品AⅤ无码精品 | 用舌头去添高潮无码视频 | 少妇人妻偷人精品无码视频 | 亚洲AV永久无码精品放毛片| 亚洲av无码兔费综合| 国产精品成人一区无码| 亚洲av无码成人精品区在线播放|