System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及數據處理,具體來說涉及一種基于大模型的政策文本去噪與關聯事項提取方法及系統。
技術介紹
1、政策文件的整理和分析是政府部門、研究機構以及企業在政策制定、研究和決策過程中至關重要的環節。傳統的政策文件的整理和分析通常依靠領域專家進行人工處理,專家通過閱讀、理解和歸納政策文本來提取關鍵信息和關聯事項。這種方法雖然可以獲得高質量的結果,但其效率低下,成本高昂,難以滿足大規模政策文本處理的需求。此外,基于規則的政策文件處理方法可以依賴于預定義的規則和模板進行文本處理。該方法在處理格式化和結構化文本時效果較好,但在面對非結構化和復雜文本時,其效果顯著下降。
2、隨著機器學習技術的發展,基于機器學習的自然語言處理(naturallanguageprocessing,nlp)技術逐漸應用于政策文本處理。該方法通過訓練模型來自動化識別和提取文本信息,極大地提高了處理效率。然而,傳統的nlp和早期深度學習模型在語義理解和關聯提取方面能力不足,難以處理復雜的政策文本關系。此外,由于政策發文來源于不同的地區和部門,不同級別、部門的政策側重不同,現有技術難以消除噪音,且難以將不同級別的政策進行關聯以提取合并信息并保持文本一致性。
技術實現思路
1、本專利技術的目的在于提供一種基于大模型的政策文本去噪與關聯事項提取方法及系統,利用大模型和自然語言處理技術對政策文本進行分類和去噪,提高政策文本信息提取的準確性,減少了噪音干擾。
2、為實現上述目的,本專利技術公開了如下技術方案
3、本專利技術一方面提供了一種基于大模型的政策文本去噪與關聯事項提取方法,該方法包括以下步驟:
4、收集不同來源的政策文本,構建政策知識庫;
5、利用大模型對所述政策知識庫中的政策文本進行分類,所述大模型為基于自然語言處理技術的預訓練語言模型;
6、從分類后的政策文本中提取具體的事項,并基于預定義的規則對提取的事項進行初步分解;
7、構建政策事項的關聯度矩陣,所述關聯度矩陣用于表示不同事項之間的關聯度,將初步分解的事項與已分解入庫的事項進行關聯,并根據事項之間的相似度更新事項之間的協同矩陣;
8、基于已關聯的事項進行政策關聯,構建政策知識圖譜,所述政策知識圖譜用于表示政策文本中事項之間的關系。
9、可選地,上述的政策文本去噪與關聯事項提取方法,還包括以下步驟:
10、復核事項之間的關聯關系,復核過程包括專家評審和/或自動化檢測,并將復核后的事項錄入到標準化事項庫中;
11、基于所述標準化事項庫對所述大模型進行優化,所述優化過程包括調整模型參數和更新訓練數據。
12、優選地,上述的方法中,所述收集不同來源的政策文本,構建政策知識庫,包括:
13、收集政策文本,政策文本的來源包括政策文檔、申報通知、學術文章及實施細則;
14、對收集的政策文本進行數據清洗處理,包括文本去重、去除無關信息及格式統一;
15、將清洗后的政策文本存儲在政策知識庫中,所述政策知識庫為可查詢數據庫。
16、進一步的,上述的方法中,所述利用大模型對所述政策知識庫中的政策文本進行分類,包括:
17、識別所述政策知識庫中每個政策文本的關鍵特征,為不同類別的政策文本建立分類知識庫;
18、將人工分類標注數據作為訓練集對大模型進行訓練,并利用訓練后的大模型對政策文本進行預分類;
19、對大模型的預分類結果進行人工抽樣核驗,并對大模型評估準確率低的政策文本數據進行人工標注;
20、將經過人工標注后的政策文本數據作為訓練集繼續對大模型進行訓練,以優化大模型的分類性能;
21、利用優化后的大模型對所述政策知識庫中的政策文本進行自動分類。
22、進一步的,上述的方法中,所述從分類后的政策文本中提取具體的事項,并基于預定義的規則對提取的事項進行初步分解,包括:
23、確定用于識別和提取事項的關鍵詞;
24、利用大模型對分類后的政策文本進行細粒度分析,識別出包含具體事項的段落或句子,并根據預定義的規則,從識別出的段落或句子中提取具體的事項,所述預定義規則包括識別事項的句型結構和術語;
25、通過自然語言處理nlp方法對提取的事項進行初步分解,得到政策事項文本。
26、進一步的,上述的方法中,所述構建政策事項的關聯度矩陣,將初步分解的事項與已分解入庫的事項進行關聯,并根據事項之間的相似度更新事項之間的協同矩陣,包括:
27、將所述政策事項文本轉換為特征向量;
28、使用聚類算法對所述特征向量進行聚類,得到不同類別的政策事項;
29、對每個聚類內部的政策事項,使用lsh方法計算兩兩政策事項之間的相似度,構建每個聚類內部的關聯度矩陣;
30、對所述初步分解的事項,使用lsh方法基于其特征向量尋找相關聚類,計算其與所述相關聚類內已分解入庫的事項的相似度,并根據所計算的相似度將所述初步分解的事項與已分解入庫的事項進行關聯;
31、根據所述初步分解的事項與其相關聚類內事項的相似度,采用哈希表動態更新事項之間的協同矩陣。
32、進一步的,上述的方法中,所述基于已關聯的事項進行政策關聯,構建政策知識圖譜,包括:
33、在已建立的協同矩陣中提取事項之間的關系,包括相似度和/或關聯度;
34、為每個政策事項創建一個節點,所述節點的屬性包括事項的名稱、內容和/或分類;
35、根據提取事項之間的關系在所述節點之間創建邊,所述邊的屬性包括關系類型、相似度和/或關聯度;
36、基于所述節點和所述邊構建知識圖譜,并將構建的知識圖譜存儲到圖數據庫中。
37、進一步的,上述的方法中,所述復核事項之間的關聯關系,包括:
38、如果對提取的事項存在分解或者關聯錯誤,則通過人工修改事項分解或者關聯,或通過大模型重新進行事項分解或者關聯。
39、本專利技術另一方面提供了一種基于大模型的政策文本去噪與關聯事項提取系統,所述系統包括:
40、政策文本收集模塊,用于收集不同來源的政策文本,構建政策知識庫;
41、政策文本分類模塊,用于利用大模型對所述政策知識庫中的政策文本進行分類,所述大模型為基于自然語言處理技術的預訓練語言模型;
42、事項提取分解模塊,用于從分類后的政策文本中提取具體的事項,并基于預定義的規則對提取的事項進行初步分解;
43、矩陣構建更新模塊,用于構建政策事項的關聯度矩陣,所述關聯度矩陣用于表示不同事項之間的關聯度,將初步分解的事項與已分解入庫的事項進行關聯,并根據事項之間的相似度更新事項之間的協同矩陣;
44、知識圖譜構建模塊,用于基于已關聯的事項進行政策關聯,構建政策知識圖譜,所述政策知識圖譜用于表示政策文本中事項之間的關系。本文檔來自技高網...
【技術保護點】
1.基于大模型的政策文本去噪與關聯事項提取方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,還包括以下步驟:
3.根據權利要求2所述的方法,其特征在于,所述收集不同來源的政策文本,構建政策知識庫,包括:
4.根據權利要求3所述的方法,其特征在于,所述利用大模型對所述政策知識庫中的政策文本進行分類,包括:
5.根據權利要求4所述的方法,其特征在于,所述從分類后的政策文本中提取具體的事項,并基于預定義的規則對提取的事項進行初步分解,包括:
6.根據權利要求5所述的方法,其特征在于,所述構建政策事項的關聯度矩陣,將初步分解的事項與已分解入庫的事項進行關聯,并根據事項之間的相似度更新事項之間的協同矩陣,包括:
7.根據權利要求6所述的方法,其特征在于,所述基于已關聯的事項進行政策關聯,構建政策知識圖譜,包括:
8.根據權利要求2-7任一項所述的方法,其特征在于,所述復核事項之間的關聯關系,包括:
9.基于大模型的政策文本去噪與關聯事項提取系統,其特征在于,所述系統包括
10.一種電子設備,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,其特征在于,所述處理器執行所述計算機程序時實現如權利要求1至8中任一項所述的基于大模型的政策文本去噪與關聯事項提取方法。
...【技術特征摘要】
1.基于大模型的政策文本去噪與關聯事項提取方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,還包括以下步驟:
3.根據權利要求2所述的方法,其特征在于,所述收集不同來源的政策文本,構建政策知識庫,包括:
4.根據權利要求3所述的方法,其特征在于,所述利用大模型對所述政策知識庫中的政策文本進行分類,包括:
5.根據權利要求4所述的方法,其特征在于,所述從分類后的政策文本中提取具體的事項,并基于預定義的規則對提取的事項進行初步分解,包括:
6.根據權利要求5所述的方法,其特征在于,所述構建政策事項的關聯度矩陣,將初步分解的事項...
【專利技術屬性】
技術研發人員:董愛平,嚴世振,夏曉東,龔祖明,徐雪陽,
申請(專利權)人:江蘇風云科技服務有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。