System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及網絡安全,具體是一種基于自然語言技術的安全數據識別方法及系統。
技術介紹
1、隨著信息技術的飛速發展,網絡攻擊手段不斷翻新,安全威脅的復雜性和多樣性持續增加。專利技術人在對現有的安全數據識別的研究中發現以下問題:
2、1、數據稀缺,在很多情況下,尤其是對于新型的網絡安全事件或罕見的攻擊模式,能夠收集到的用于訓練的數據量非常有限,從而導致傳統的安全數據識別方法難以充分學習到各種安全事件的特征,導致模型的泛化能力不足,無法準確識別新出現的或不常見的安全異常情況;
3、2、適應網絡安全環境變化方面表現欠佳,網絡安全環境處于動態變化之中,新的攻擊策略和安全威脅不斷涌現,因此,現有的固化的安全數據識別往往不能及時調整和更新,難以有效地應對這些變化;
4、3、對安全數據的處理上往往不夠全面深入,數據類型識別、分析和語義遷移等方面的能力有限,無法精準地識別異常安全數據,難以給網絡安全防護提供有針對性的決策支持,從而給網絡安全帶來了巨大風險。
5、自然語言技術的快速發展為使得利用對安全數據的充分挖掘,從而解決上述問題提供了必要的技術手段,因此,綜上所述,現有技術亟需一個新的基于自然語言技術的安全數據識別的技術方案。
技術實現思路
1、本申請的目的在于提供一種基于自然語言技術的安全數據識別方法及系統,以解決上述
技術介紹
中提出的技術問題。
2、為實現上述目的,本申請公開了以下技術方案:
3、第一方面,本申請公開了一種基于
4、s1:收集歷史的小樣本的安全數據;其中,所述安全數據用于網絡安全事件的描述;
5、s2:利用所述安全數據生成增強安全數據;其中,所述增強安全數據的規模遠大于所述安全數據的規模;
6、s3:利用所述增強安全數據訓練安全數據識別模型并輸出;其中,所述安全數據識別模型用于基于所述安全數據,進行數據類型識別、數據類型分析和語義遷移,輸出對應的異常安全數據,所述異常安全數據為所述安全數據中表征網路安全異常的安全數據;
7、s4:當存在生成的實時安全數據時,運行所述安全數據識別模型輸出對應的實時異常安全數據;
8、s5:利用預訓練的反饋機制更新所述安全數據模型,并重新執行步驟s1~s3。
9、作為優選,所述歷史的小樣本的安全數據的收集過程,具體包括:
10、確定所述歷史的小樣本的安全數據的來源,該來源至少包括網絡安全日志和安全事件報告;其中,針對所述網絡安全日志,利用預設的數據采集程序,定時掃描存儲位置,基于日志格式和標識,篩選出與網絡安全事件對應的記錄,并分析日志結構,提取對應的信息字段,利用自然語言技術轉化該記錄與該信息字段,得到對應的所述安全數據;其中,針對所述安全事件報告,利用預設的與安全管理系統的接口,讀取并利用自然語言技術轉化對應的安全事件報告,得到對應的所述安全數據;
11、確定小樣本的樣本規模,該樣本規模與所述網絡安全日志的規模和所述安全事件的規模成正相關。
12、作為優選,所述增強安全數據的生成過程,具體包括:
13、對所述安全數據進行數據增強,得到所述增強安全數據;其中,所述數據增強至少包括隨機替換文本、新增或刪除本文和文本回譯。
14、作為優選,所述安全數據識別模型的訓練過程,具體包括:
15、利用深度學習構建安全數據識別預模型,利用所述增強安全數據訓練所述安全數據識別預模型執行以下步驟a1~a4:
16、a1:獲取所述安全數據;
17、a2:利用預設的注意力機制對所述安全數據進行所述數據類型識別、所述數據類型分析和所述語義遷移,得到對應的安全特征;其中,所述注意力機制用于對輸入的所述安全數據分配對應的連續的權重并進行所述數據類型分析和所述語義遷移;
18、a3:利用所述安全特征在預設的異常安全特征庫中進行匹配,當匹配到對應的異常安全特征時,標記對應的該安全特征;其中,所述異常安全特征庫中存儲有與所述異常安全數據對應的所述異常安全特征;
19、a4:輸出與步驟a3標記的所述安全特征對應的所述安全數據并定義為所述異常安全數據;
20、將滿足預設的準確率閾值的所述安全數據識別預模型定義為安全數據識別模型并輸出。
21、作為優選,步驟s2中的所述數據類型分析和所述語義遷移,具體包括:
22、a20:利用預設的數據類型標簽對所述安全數據進行所述數據類型識別,當識別到存在對應的所述數據類型標簽時得到對應的所述安全特征并執行步驟a3,否則執行步驟a21~a22;
23、a21:利用所述注意力機制進行所述數據類型分析;其中,所述數據類型分析具體為:
24、利用所述注意力機制對輸入的所述安全數據分配對應的連續的所述權重,計算所述安全數據對應的特征向量,并輸出;
25、a22:利用所述注意力機制進行所述語義遷移;其中,所述語義遷移具體為:
26、調用預設的語義數據庫,利用所述安全數據對應的所述特征向量在所述語義數據庫中進行匹配,輸出匹配結果,將該安全數據對應的語義遷移為該匹配結果對應的語義后得到對應的所述安全特征并執行步驟a3;其中,所述語義數據中存儲有具有語義遷移關系的所述特征向量對應的語義,所述語義遷移關系用于表征所述安全數據之間具有進行語義遷移的關系。
27、作為優選,所述實時安全數據的生成過程,具體包括:
28、持續監測網絡中的數據包流量,提取得到對應的所述實時安全數據;
29、持續監測網絡中的進程活動,提取得到對應的所述實時安全數據。
30、作為優選,所述實時異常安全數據的輸出過程,具體包括:
31、s40:持續判斷是否存在所述實時安全數據,是則執行步驟s41,否則重復執行步驟s40;
32、s41:利用預設的注意力機制對所述實時安全數據進行所述數據類型識別、實時數據類型分析和實時語義遷移,得到對應的實時安全特征;
33、s42:利用所述實時安全特征在所述異常安全特征庫中進行匹配,當匹配到對應的異常安全特征時,標記對應的該實時安全特征;
34、s43:輸出與步驟s42標記的所述安全特征對應的所述實時安全數據并定義為所述實時異常安全數據。
35、作為優選,步驟s41中的所述實時數據類型分析和所述實時語義遷移,具體包括:
36、s410:利用所述數據類型標簽對所述實時安全數據進行所述數據類型識別,當識別到存在對應的所述數據類型標簽時得到對應的所述實時安全特征并執行步驟s43,否則執行步驟s411~s412;
37、s411:利用所述注意力機制進行所述實時數據類型分析;其中,所述實時數據類型分析具體為:
38、利用所述注意力機制對輸入的所述實時安全數據分配對應的連續的所述權重,計本文檔來自技高網...
【技術保護點】
1.一種基于自然語言技術的安全數據識別方法,其特征在于,該方法包括:
2.根據權利要求1所述的基于自然語言技術的安全數據識別方法,其特征在于,所述歷史的小樣本的安全數據的收集過程,具體包括:
3.根據權利要求1所述的基于自然語言技術的安全數據識別方法,其特征在于,所述增強安全數據的生成過程,具體包括:
4.根據權利要求1所述的基于自然語言技術的安全數據識別方法,其特征在于,所述安全數據識別模型的訓練過程,具體包括:
5.根據權利要求4所述的基于自然語言技術的安全數據識別方法,其特征在于,步驟S2中的所述數據類型分析和所述語義遷移,具體包括:
6.根據權利要求1所述的基于自然語言技術的安全數據識別方法,其特征在于,所述實時安全數據的生成過程,具體包括:
7.根據權利要求5所述的基于自然語言技術的安全數據識別方法,其特征在于,所述實時異常安全數據的輸出過程,具體包括:
8.根據權利要求7所述的基于自然語言技術的安全數據識別方法,其特征在于,步驟S41中的所述實時數據類型分析和所述實時語義遷移,具體包括
9.根據權利要求1所述的基于自然語言技術的安全數據識別方法,其特征在于,所述安全數據模型的更新過程,具體包括:
10.一種基于自然語言技術的安全數據識別系統,該系統適用如權利要求1-9任意一項所述的基于自然語言技術的安全數據識別方法,其特征在于,該系統包括:
...【技術特征摘要】
1.一種基于自然語言技術的安全數據識別方法,其特征在于,該方法包括:
2.根據權利要求1所述的基于自然語言技術的安全數據識別方法,其特征在于,所述歷史的小樣本的安全數據的收集過程,具體包括:
3.根據權利要求1所述的基于自然語言技術的安全數據識別方法,其特征在于,所述增強安全數據的生成過程,具體包括:
4.根據權利要求1所述的基于自然語言技術的安全數據識別方法,其特征在于,所述安全數據識別模型的訓練過程,具體包括:
5.根據權利要求4所述的基于自然語言技術的安全數據識別方法,其特征在于,步驟s2中的所述數據類型分析和所述語義遷移,具體包括:
6.根據權利要求1所述的基于自然...
【專利技術屬性】
技術研發人員:潘遠,楊航,高雨杰,
申請(專利權)人:中國南方電網有限責任公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。