System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及關系抽取方法,特別涉及網絡安全關系抽取方法。
技術介紹
1、隨著信息技術的快速發展和網絡環境的不斷更新,全球范圍內關注網絡空間安全問題的程度不斷提高。網絡安全知識圖譜作為一種創新工具,可以對大量、多源、異構的安全數據進行細粒度的深度關聯分析和挖掘。網絡安全知識圖譜的構建技術主要有關系的提取環節、安全實體的識別環節與屬性的抽取環節等步驟,在這當中,安全關系提取技術是網絡安全知識圖譜構建的最主要技術。自然語言處理領域(natural?language?processing,nlp任務)的一個關鍵任務是關系抽取,其目標是從文本中識別出實體之間的關聯關系。隨著深度學習技術的發展,關系抽取技術在網絡安全、威脅情報等領域的應用和研究也日趨成熟。
2、在現有的自然語言處理(nlp)研究里中,語法信息,特別是依賴樹,已成為改進關系提取的重要工具。依賴樹能夠捕獲句子中詞語之間的依賴關系,為自然語言處理任務(nlp)中的語義分析提供有力的指導。通過分析數據集中與給定實體相關的上下文信息,依賴樹在關系提取任務中發揮著至關重要的作用。但同時不容忽視的是,現有研究在利用依賴樹時常常面臨噪聲的困擾。依賴樹的噪聲問題主要源于其自動生成過程中的不確定性。在構建依賴樹時,算法需要確定詞語之間的依賴關系,并據此建立樹狀結構。但是,由于自然語言的復雜性和多樣性,算法往往難以準確判斷所有詞語之間的依賴關系,從而導致生成的依賴樹包含噪聲。
3、為了降低依賴樹的噪聲對關系提取的影響,通過對目前國內外研究的學習與分析,本專利技術學習了模
技術實現思路
1、本專利技術要解決的技術問題是,提高模型捕捉原始文本中依賴關系的準確性,同時減少噪聲數據造成的影響,更加準確的預測網絡中的安全關系。
2、為了實現上述目的,本專利技術采用了以下技術方案:
3、第一方面,本專利技術提供了一種一種網絡安全關系抽取方法,包括如下步驟:
4、s1:獲得安全事件數據集,對安全事件數據集中的數據進行清洗和預處理,獲得初始數據集;對所述初始數據集中的數據進行切分標記,將完成標記的所述初始數據集按照預設比例分為訓練數據集和測試數據集;
5、s2:構建關系抽取預測模型,所述關系抽取預測模型包括關系抽取一級模型,關系抽取二級模型和輸出層;所述關系抽取一級模型包括數據轉化層和關系抽取層;
6、s3:將訓練數據集輸入所述關系抽取一級模型,得到訓練集中每一個數據對應的第一綜合序列,所述第一綜合序列為包含有數據文本信息和依賴關系的綜合序列,所述第一綜合序列組成第一輸出集;
7、將所述第一輸出集輸入至所述關系抽取二級模型,得到與每一個所述第一綜合序列對應的第二綜合系列,所述第二綜合序列為包含有第一綜合序列中全局信息和局部細節的綜合序列,所述第二綜合序列組成第二輸出集;
8、將所述第二輸出集輸入至輸出層,獲得與每一個所述第二綜合序列對應的安全事件預測結果組成的安全事件預測結果集,根據所述安全事件預測結果集對所述關系預抽取模型的參數進行調整;
9、s4:將測試數據集數據輸入所述關系預抽取模型,得到對應的所述安全事件預測結果集,并根據結果計算所述模型的性能參數,若所述性能參數高于預設值,則將該預關系抽取模型保存為安全關系抽取模型,若所述性能參數未達到預設值,則重復步驟s3。
10、作為本專利技術的一種優選技術方案,所述s1中,使用2n個標記對劃分出的主體和客體的邊界首尾進行標記,其中其中,n≥2,所述主體和客體為數據集中記載的自然語言中的符合自然語言定義的主體和客體。
11、作為本專利技術的一種優選技術方案,所述s1中,對所述數據集進行預處理時,首先對每一個數據集中的數據x生成依賴樹,并對依賴樹進行剪枝。
12、作為本專利技術的一種優選技術方案,所述s1中,所述剪枝的規則根據所述數據x中的各個實體間的在所述依賴樹中的依賴關系、所述實體在整個數據集的出現頻率和所述實體的重要性確定,用以去除出現頻率、重要程度低于預設值實體和影響程度小于預設值的依賴關系。
13、作為本專利技術的一種優選技術方案,所述s3中,所述數據轉化層通過捕捉輸入數據中文本上下文信息,將其轉化為包含語義信息的對應的隱藏向量,所述關系抽取層將所述隱藏向量轉化為第一綜合序列。
14、作為本專利技術的一種優選技術方案,其特征在于,所述s3中的關系抽取二級模型將進一步捕捉所述第一綜合序列中從前往后的數據信息和從后往前的數據信息,并輸出對應的所述第二綜合序列。
15、作為本專利技術的一種優選技術方案,所述s4中,將micro-f1作為所述關系預抽取模型的性能參數。
16、第二方面,本專利技術提供了一種網絡安全關系抽取系統,所述系統包括:
17、輸入模塊,控制模塊,數據處理模塊,預測模塊,存儲模塊;
18、其中,所述輸入模塊用于收集網絡安全事件數據并輸入數據處理模塊;
19、所述控制模塊用于存儲計算機程序,也用于通過所述程序對所述數據處理模塊和所述分類模塊下達指令;
20、所述程序用于實現實施例第一方面的任一項所述方法;
21、所述數據處理模塊用于根據所述指令對數據進行處理,所述數據處理模塊還用于根據所述指令建立數據模型;
22、所述預測模塊用于根據所述指令和所述數據模型對所述處理模塊處理過的數據進行安全關系的抽取預測;
23、所述存儲模塊用于根據所述預測模塊的輸出結果;
24、所述存儲模塊也用于存儲所述數據模型。
25、第三方面,本專利技術提供了一種終端,包括預測器、輸入設備、輸出設備、控制器,所述輸入設備、輸出設備、預測器和控制器相互連接,其中,所述控制器用于存儲網絡安全關系抽取程序,所述網絡安全關系抽取程序程序用于實現實施例第一方面的任一項所述方法,所述控制器還用于根據所述程序對所述預測器下達指令,所述控制器還用于收集、標記以及對數據進行預處理、訓練數據模型,所述預測器用于根據所述程序指令和所述數據模型,對數據集網絡安全關系進行抽取,獲得對應的網絡安全關系數據集。
26、與現有技術相比,本專利技術的有益效果如下:
27、融合bilstm模型能夠顯著提高模型的性能,而引入bert-large編碼器則能夠進一步提升模型的性能,同時使用兩者的時候,模型的性能得到了更大幅度的提升。同時,本專利技術根據每對實體對在依賴樹中的依賴關系,以及其在整個訓練數據集中的出現頻率和重要性,設定了剪枝規則。使模型更好地識別并去除那些對模型預測結果影響較小的依賴關系,從而使得模型能夠更加專注于真正重要的特征。
28、因此,本文檔來自技高網...
【技術保護點】
1.一種網絡安全關系抽取方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的一種網絡安全關系抽取方法,其特征在于,所述S1中,使用2n個標記對劃分出的主體和客體的邊界首尾進行標記,其中其中,n≥2,所述主體和客體為數據集中記載的自然語言中的符合自然語言定義的主體和客體。
3.根據權利要求1所述的一種網絡安全關系抽取方法,其特征在于,所述S1中,對所述數據集進行預處理時,首先對每一個數據集中的數據X生成依賴樹TX,并對依賴樹進行剪枝。
4.根據權利要求3所述的一種網絡安全關系抽取方法,其特征在于,所述S1中,所述剪枝的規則根據所述數據X中的各個實體間的在所述依賴樹中的依賴關系、所述實體在整個數據集的出現頻率和所述實體的重要性確定,用以去除出現頻率、重要程度低于預設值實體和影響程度小于預設值的依賴關系。
5.根據權利要求1所述的一種網絡安全關系抽取方法,其特征在于,所述S3中,所述數據轉化層通過捕捉輸入數據中文本上下文信息,將其轉化為包含語義信息的對應的隱藏向量,所述關系抽取層將所述隱藏向量轉化為第一綜合序列。
6.根
7.根據權利要求1所述的一種網絡安全關系抽取方法,其特征在于,所述S4中,將Micro-F1作為所述關系預抽取模型的性能參數。
8.一種網絡安全關系抽取系統,其特征在于,所述系統包括:
9.一種終端,其特征在于,包括預測器、輸入設備、輸出設備、控制器,所述輸入設備、輸出設備、預測器和控制器相互連接,其中,所述控制器用于存儲網絡安全關系抽取程序,所述網絡安全關系抽取程序程序用于實現權利要求1-7任一項所述方法,所述控制器還用于根據所述程序對所述預測器下達指令,所述控制器還用于收集、標記以及對數據進行預處理、訓練數據模型,所述預測器用于根據所述程序指令和所述數據模型,對數據集網絡安全關系進行抽取,獲得對應的網絡安全關系數據集。
...【技術特征摘要】
1.一種網絡安全關系抽取方法,其特征在于,包括如下步驟:
2.根據權利要求1所述的一種網絡安全關系抽取方法,其特征在于,所述s1中,使用2n個標記對劃分出的主體和客體的邊界首尾進行標記,其中其中,n≥2,所述主體和客體為數據集中記載的自然語言中的符合自然語言定義的主體和客體。
3.根據權利要求1所述的一種網絡安全關系抽取方法,其特征在于,所述s1中,對所述數據集進行預處理時,首先對每一個數據集中的數據x生成依賴樹tx,并對依賴樹進行剪枝。
4.根據權利要求3所述的一種網絡安全關系抽取方法,其特征在于,所述s1中,所述剪枝的規則根據所述數據x中的各個實體間的在所述依賴樹中的依賴關系、所述實體在整個數據集的出現頻率和所述實體的重要性確定,用以去除出現頻率、重要程度低于預設值實體和影響程度小于預設值的依賴關系。
5.根據權利要求1所述的一種網絡安全關系抽取方法,其特征在于,所述s3中,所述數據轉化層通過捕捉輸入數據中文本上下文信息,將其轉化為包含語義信息的對應的隱藏向量...
【專利技術屬性】
技術研發人員:尚文利,陳瑞琪,肖樂杰,時昊天,常志偉,周正,王博文,
申請(專利權)人:廣州大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。