一種基于大語言模型的知識圖譜涉詐主體分析和補全方法技術

技術編號：43576672 閱讀：10 留言：0更新日期：2024-12-06 17:43

本發明專利技術提供一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，對原始采集到的涉詐網站樣本和正常網站樣本進行清洗，再對涉詐實體進行抽取和關系梳理，然后通過知識圖譜映射到圖數據庫中得到預處理后的結構化數據并進行知識圖譜優化，基于大預言模型對知識圖譜進行鏈接推理和鏈接補全，使用PageRank算法計算知識圖譜中每個節點之間相互的鏈接權重，獲取到每個節點的在全局圖譜中的關系權重，然后計算節點之間的相似度，找出與已知涉詐節點相似的所有未知涉詐節點。本發明專利技術將基于大語言模型補全的知識圖譜應用于涉詐關系補全和涉詐主體發掘領域，通過相似性探求涉詐實體間關系網絡，利用模型進行實體關系的補全和詐騙主體的分析。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及電數字數據處理，具體涉及一種基于大語言模型的知識圖譜涉詐主體分析和補全方法。

技術介紹

1、欺詐主體是網絡詐騙活動中關鍵主體，擔當著傳播網絡違法內容的關鍵角色。通常成熟的欺詐主體都有嚴密的組織結構與協同作業模式，這些詐騙資源和詐騙團隊相互交織，形成了一個規模龐大的詐騙生態系統，傳統的單一維度的研究方式很難梳理其關系，因此非常適合通過知識圖譜的圖結構對其進行研究。盡管學術界已著手對識別欺詐主體展開了諸多探究，但對于詐騙資源內部關聯性的深入分析仍處于初步階段，主要是一些單一類型詐騙主體的分析，并未對其進行關聯分析和挖掘。

2、其中，專利【cn117675348a】主要是對基于知識圖譜對涉詐短信進行分析，基于知識圖譜的關聯分析功能，采用相似度計算方法，對目標短信端口是否為新的涉詐短信端口進行預測；專利

3、【cn116521892a】根據實時獲得的銀行內系統的詐騙資訊信息，實時構建知識圖譜并進行分析；專利【cn114124576a】通過對設計好的詐騙網站的團伙分析結構存入知識圖譜中，通過數據進行比對和計算，判別是否為已知團伙的詐騙網站并分析詐騙網站之間的關聯關系并深入挖掘隱藏的信息線索；專利【cn113254844a】主要是只針對詐騙網站，通過對識別到的詐騙網站進行圖片特征提取和網站信息關系構建，實現檢測傳統的詐騙網站，主動去發現新樣本的詐騙網站；專利【cn113641827a】把網絡詐騙案件信息與犯罪團伙聯系起來，通過知識圖譜進行分析和犯罪團伙的分析；專利【cn112035677a】根據受騙人信

4、以上不僅對詐騙主體之間的關系發掘不夠深入且對詐騙主體的詐騙方式研究較為單一，且沒有挖掘出同一團伙的不同詐騙途徑之間的關聯，且轉換過程中難免存在涉詐鏈接缺失，需要人工補全的情況，無法應對現實生活中數據缺失，關聯復雜的情況。

技術實現思路

1、本專利技術是為了解決詐騙鏈接信息存在殘缺的問題，提供一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，將基于大語言模型補全的知識圖譜應用于涉詐關系補全和涉詐主體發掘領域，通過相似性探求涉詐實體間關系網絡，利用模型進行實體關系的補全和詐騙主體的分析。

2、本專利技術提供一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，包括以下步驟：

3、s1、對原始采集到的涉詐網站樣本和正常網站樣本進行清洗、去掉隨機變動或隨機引用的數據信息得到待分析數據；

4、s2、對待分析數據的涉詐實體進行抽取和關系梳理得到涉詐知識圖譜實體-關系，然后通過知識圖譜映射到圖數據庫中得到預處理后的結構化數據；

5、s3、進行知識圖譜優化，對預處理后的結構化數據進行實體融合、去除冗余，以使每個實體在知識圖譜中只出現一次；

6、s4、基于大預言模型對知識圖譜進行鏈接推理和鏈接補全；

7、s5、使用pagerank算法計算知識圖譜中每個節點之間相互的鏈接權重，獲取到每個節點的在全局圖譜中的關系權重，然后計算節點之間的相似度，找出與已知涉詐節點相似的所有未知涉詐節點，一種基于大語言模型的知識圖譜涉詐主體分析和補全方法完成。

8、本專利技術所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，作為優選方式，步驟s1包括以下步驟：

9、s11、對涉詐網站樣本和正常網站樣本進行標注，采用爬蟲抓取涉詐網站樣本和正常網站樣本的備案信息、ip地址并抓取網站源碼；從已知的或者公開的流量數據獲取涉詐短信數據、正常短信數據、涉詐app數據和正常app數據并得到原始數據；

10、s12、對原始數據中的網站數據進行清洗，然后針對源碼進行清洗、確定網站框架結構md5值，以去掉隨機變動或隨機引用的數據信息；然后對原始數據的網站撥測ip地址、確認ip歸屬地、爬取網站的備案信息并得到待分析數據；

11、s13、將待分析數據通過設計好的涉詐知識圖譜映射到圖數據庫并保存在關系型數據庫neo4j中。

12、本專利技術所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，作為優選方式，步驟s12中，網站數據的清洗方法為：清洗掉網站文本內容，只保留標簽信息；

13、源碼的清洗方式為：清洗掉網站源碼中包含的文本信息，只保留源碼中所有標簽和響應頭名稱。

14、本專利技術所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，作為優選方式，步驟s2中，涉詐知識圖譜的實體-關系包括：頭節點實體h、關系r和尾結點實體t；

15、關系r包括：位于、備案于、鏈接到、吏屬于、基于、擁有者是、指向；

16、對應的頭節點實體h和尾結點實體t依次為：ip-ip撥測地址、網站-備案號、短信-網站、短信短鏈-短信主體、網站-網站源碼框架md5值、ip撥測地址包括國內/國際、城市地名；

17、關系r為擁有者是時，對應的頭節點實體h和尾結點實體t包括：網站-涉詐主體、app-涉詐主體、短信-涉詐主體；

18、關系r為指向時，對應的頭節點實體h和尾結點實體t包括：短信-網站、網站-ip；

19、關系r為相似度時，對應的頭節點實體h和尾結點實體t包括：網站-網站、主體-主體。

20、本專利技術所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，作為優選方式，步驟s2中，對待分析數據的涉詐命名實體進行識別，將同一名稱的實體進行關聯、關系合并得到涉詐知識圖譜實體-關系。

21、本專利技術所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，作為優選方式，使用基于大語言模型chatglm的命名實體識別和關系抽取策略進行涉詐命名實體識別；

22、對于短信，在輸入時要求大語言模型chatglm自動返回實體名稱，模型自動抽取短信和app中的主體名稱，其中app提取包內顯示的app名稱，短信采用大模型提問的方式。

23、本專利技術所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，作為優選方式，步驟s3中，知識圖譜優化的方法為：對預處理后的結構化數據(h,r,t)去除冗余，當同一命名實體指向不同短信和網站時，進行實體相似度計算并將網站實體的相似度標注在網站實體之間，對同名實體的相關關系進行合并、去重；

24、實體相似度計算的方法為：

25、

26、其中，θ為實體相似度，a，b均為網站實體特征向量；

27、網站實體特征向量包括拼接的文本向量embedding和one-hot向量信息；

28、文本向量embedding的轉化方法為：基于word2vec模型提取網站實體名稱的文本embedding信息，轉化為向量；

29、one-hot向量信息的轉化方法為：將與網站實體關聯的源碼、ip和備案號轉化為固定長度20～50維度one-hot向量信息本文檔來自技高網...

【技術保護點】

1.一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：包括以下步驟：

2.根據權利要求1所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：步驟S1包括以下步驟：

3.根據權利要求2所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：步驟S12中，所述網站數據的清洗方法為：清洗掉網站文本內容，只保留標簽信息；

4.根據權利要求1所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：步驟S2中，所述涉詐知識圖譜的實體-關系包括：頭節點實體h、關系r和尾結點實體t；

5.根據權利要求1所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：步驟S2中，對所述待分析數據的涉詐命名實體進行識別，將同一名稱的實體進行關聯、關系合并得到所述涉詐知識圖譜實體-關系。

6.根據權利要求5所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：使用基于大語言模型ChatGLM的命名實體識別和關系抽取策略進行涉詐命名實體識別；

7.根據

8.根據權利要求1所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：步驟S4中，知識圖譜鏈接補全的方法為：使用大語言模型進行小樣本預訓練，輸入批量的已知樣本、已知涉詐域名與備案號、已知部分涉詐主體和大量相似網址關系、涉詐主體與已知app關系，預測部分關系；

9.根據權利要求8所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：閾值為0.85。

10.根據權利要求1所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：步驟S5中，構建網站主體之間的鏈接關系圖并進行迭代計算，直到收斂為止；在每一次迭代中，每個網頁的得分都會被重新計算，并更新到下一次迭代中；最后，按照實體得分的大小對搜索結果進行排序，輸出排名前幾位的網頁即為涉詐主體；

...

【技術特征摘要】

1.一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：包括以下步驟：

2.根據權利要求1所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：步驟s1包括以下步驟：

3.根據權利要求2所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：步驟s12中，所述網站數據的清洗方法為：清洗掉網站文本內容，只保留標簽信息；

4.根據權利要求1所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：步驟s2中，所述涉詐知識圖譜的實體-關系包括：頭節點實體h、關系r和尾結點實體t；

5.根據權利要求1所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：步驟s2中，對所述待分析數據的涉詐命名實體進行識別，將同一名稱的實體進行關聯、關系合并得到所述涉詐知識圖譜實體-關系。

6.根據權利要求5所述的一種基于大語言模型的知識圖譜涉詐主體分析和補全方法，其特征在于：使用基于大語言模型chatglm的命名實體識別和關系抽取策略進行涉詐命名實體識別；

7.根據權利要求1所...

【專利技術屬性】
技術研發人員：王生福，王洪威，馮磊，程振球，馬梁龑，馬正坤，
申請(專利權)人：王生福，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

一種水質污染物檢測裝置制造方法及圖紙

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術