System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及自然語言處理領域和深度學習,具體是一種情報檢索方法。
技術介紹
1、大數據時代,開源網站產生了海量多源科技情報數據,這些數據已經成為科技領域的核心資源。科技情報數據具有多樣化的特點,其結構存在不一致性,難以直接進行存儲和檢索。
2、現有技術在應對多源科技情報數據的檢索時,仍存在一些缺點。首先,多源科技情報數據的文本結構多樣,現有技術在將數據轉換為統一結構后,未能有效評估轉換質量,清洗掉低質量數據。其次,信息提取包括摘要和關鍵詞的提取,能夠有效概述科技情報的內容。針對摘要提取和關鍵詞提取,現有研究大多采用不同的算法;此外,不同語言的文本內容也需要使用不同的算法進行處理。最后,在數據存儲和檢索方面,mongodb是常用的文本數據存儲工具,通過全文檢索技術幫助用戶查找所需數據。然而,其核心部件分詞器在處理科技領域的情報文本時往往難以準確分詞,因此導致查詢的準確性較低。為了提高科技情報檢索的準確性,需要進一步分析和解決現有方法的缺點。
技術實現思路
1、為克服現有技術的不足,本專利技術提供了一種情報檢索方法,解決現有技術存在的檢索的全面性和準確性低等問題。
2、本專利技術解決上述問題所采用的技術方案是:
3、一種情報檢索方法,包括以下步驟:
4、s1,情報數據轉化和清洗:將格式各異的數據轉換為統一的文本格式數據,并清洗轉換后的文本;
5、s2,信息提取:提取文本的信息;
6、s3,數據保存和索引構建:將情
7、作為一種優選的技術方案,步驟s1中,清洗轉換后的文本時,首先使用python編寫規則自動統計數據長度,對于長度為0的空白文本予以刪除;然后使用箱型圖對亂碼的英文文本進行異常識別并進行清洗;以及,使用jieba算法對亂碼的中文文本進行文本分詞,去除停用詞,并用正則表達式去除標點符號,清洗掉詞語平均長度低于閾值的異常文本。
8、作為一種優選的技術方案,步驟s2中,通過chatglm提取文本的摘要和關鍵詞信息。
9、作為一種優選的技術方案,步驟s2中,基于一個輸入文本x=[x1,…xn]得到多個文本跨度{s1,…sm},每個跨度用一個標記替換,形成一個損壞的文本xcorrupt,對輸入文本的多個文本跨度進行隨機排列得到z,所有可能的排列集合為zm,chatglm的訓練公式為式(1):
10、
11、其中,x1,…xn分別表示第1至第n個輸入字符,i表示文本跨度編號,s1,…sm分別表示第1至第m個文本跨度,表示最大化目標函數,θ表示模型參數,pθ(·)表示與θ相關的條件概率,表示對所有可能得跨度排列z的期望,zm表示跨度排列的集合,sz<i表示之前預測的跨度,表示在給定xcorrupt和sz<i的情況下預測第i個跨度的對數條件概率。
12、作為一種優選的技術方案,步驟s3中,將情報數據的信息保存到數據庫中,對標題、關鍵詞、摘要分別建立升序索引。
13、作為一種優選的技術方案,步驟s3中,通過chatglm和qwen推理分詞、tf-idf評估詞語重要性、拓展詞庫三個步驟,構建領域詞典。
14、作為一種優選的技術方案,使用chatglm和qwen推理分詞時,采用jaccard相似度計算兩個模型推理分詞結果的一致性,獲得初始領域詞典:對jaccard閾值等于1的分詞結果,直接保留;對jaccard閾值小于1、大于等于0.8的分詞結果,交由人工處理,選擇一條作為分詞結果;對jaccard閾值小于0.8的分詞結果,交由人工分詞處理;jaccard相似度的計算公式為式(2):
15、
16、其中,針對一段語料,a是chatglm推理分詞得到的詞語集合,b是qwen推理分詞得到的詞語集合,jaccard(a,b)表示集合a和集合b的jaccard相似度,|a|表示集合a的元素個數,|b|表示集合b的元素個數,|a∩b|表示集合a和集合b的交集的元素個數,|a∪b|表示集合a和集合b的并集的元素個數。
17、作為一種優選的技術方案,使用tf-idf算法處理初始領域詞典,保留tf-idf值高于設定閾值的關鍵詞語,tf-idf算法計算公式為式(3)-(5):
18、
19、其中,i表示詞條的編號,j表示文檔的編號,k表示詞條編號,屬于文檔dj中詞語的一種,ni,j表示詞條ti在文檔dj中出現的次數,nk,j表示詞條tk在文檔dj中出現的次數,∑knk,j表示文檔dj的總詞語數量,tfij表示詞條ti在文檔dj中出現的頻率;
20、
21、其中,|d|表示所有文檔數量,|{j:ti∈dj}|表示包含詞條ti的數量;
22、tf-idf=tf*idf?????????(5)
23、其中,tf-idf表示詞語的重要度。
24、作為一種優選的技術方案,步驟s3中,將英文正文直接保存到數據庫中,使用領域詞典將中文正文分詞后保存到數據庫中,對正文建立文本索引。
25、作為一種優選的技術方案,建立升序索引和文本索引后,引入檢索邏輯符、運算符對各個索引組合檢索。
26、作為一種優選的技術方案,
27、本專利技術相比于現有技術,具有以下有益效果:
28、(1)本專利技術通過對多源科技情報數據的轉換和清洗,保證了數據的一致性和質量;
29、(2)本專利技術利用chatglm提取數據的關鍵詞和摘要,在此基礎上將文本各信息保存到數據庫并進一步建立多種索引,建立多種索引后,結合檢索邏輯符和運算符使用,從而實現對科技情報數據全面和準確地檢索。
本文檔來自技高網...【技術保護點】
1.一種情報檢索方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種情報檢索方法,其特征在于,步驟S1中,清洗轉換后的文本時,首先使用python編寫規則自動統計數據長度,對于長度為0的空白文本予以刪除;然后使用箱型圖對亂碼的英文文本進行異常識別并進行清洗;以及,使用jieba算法對亂碼的中文文本進行文本分詞,去除停用詞,并用正則表達式去除標點符號,清洗掉詞語平均長度低于閾值的異常文本。
3.根據權利要求1所述的一種情報檢索方法,其特征在于,步驟S2中,通過ChatGLM提取文本的摘要和關鍵詞信息。
4.根據權利要求3所述的一種情報檢索方法,其特征在于,步驟S2中,基于一個輸入文本x=[x1,…xn]得到多個文本跨度{s1,…sm},每個跨度用一個標記替換,形成一個損壞的文本xcorrupt,對輸入文本的多個文本跨度進行隨機排列得到z,所有可能的排列集合為Zm,ChatGLM的訓練公式為式(1):
5.根據權利要求1所述的一種情報檢索方法,其特征在于,步驟S3中,將情報數據的信息保存到數據庫中,對標題、關鍵詞、摘要分別建立
6.根據權利要求5所述的一種情報檢索方法,其特征在于,步驟S3中,通過ChatGLM和Qwen推理分詞、TF-IDF評估詞語重要性、拓展詞庫三個步驟,構建領域詞典。
7.根據權利要求6所述的一種情報檢索方法,其特征在于,使用ChatGLM和Qwen推理分詞時,采用Jaccard相似度計算兩個模型推理分詞結果的一致性,獲得初始領域詞典:對Jaccard閾值等于1的分詞結果,直接保留;對Jaccard閾值小于1、大于等于0.8的分詞結果,交由人工處理,選擇一條作為分詞結果;對Jaccard閾值小于0.8的分詞結果,交由人工分詞處理;Jaccard相似度的計算公式為式(2):
8.根據權利要求7所述的一種情報檢索方法,其特征在于,使用TF-IDF算法處理初始領域詞典,保留TF-IDF值高于設定閾值的關鍵詞語,TF-IDF算法計算公式為式(3)-(5):
9.根據權利要求5至8任一項所述的一種情報檢索方法,其特征在于,步驟S3中,將英文正文直接保存到數據庫中,使用領域詞典將中文正文分詞后保存到數據庫中,對正文建立文本索引。
10.根據權利要求9所述的一種情報檢索方法,其特征在于,建立升序索引和文本索引后,引入檢索邏輯符、運算符對各個索引組合檢索。
...【技術特征摘要】
1.一種情報檢索方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的一種情報檢索方法,其特征在于,步驟s1中,清洗轉換后的文本時,首先使用python編寫規則自動統計數據長度,對于長度為0的空白文本予以刪除;然后使用箱型圖對亂碼的英文文本進行異常識別并進行清洗;以及,使用jieba算法對亂碼的中文文本進行文本分詞,去除停用詞,并用正則表達式去除標點符號,清洗掉詞語平均長度低于閾值的異常文本。
3.根據權利要求1所述的一種情報檢索方法,其特征在于,步驟s2中,通過chatglm提取文本的摘要和關鍵詞信息。
4.根據權利要求3所述的一種情報檢索方法,其特征在于,步驟s2中,基于一個輸入文本x=[x1,…xn]得到多個文本跨度{s1,…sm},每個跨度用一個標記替換,形成一個損壞的文本xcorrupt,對輸入文本的多個文本跨度進行隨機排列得到z,所有可能的排列集合為zm,chatglm的訓練公式為式(1):
5.根據權利要求1所述的一種情報檢索方法,其特征在于,步驟s3中,將情報數據的信息保存到數據庫中,對標題、關鍵詞、摘要分別建立升序索引。
6.根據權利要求5所述的一種情報檢索方法,...
【專利技術屬性】
技術研發人員:寧彬彬,湯娟,劉鈺馨,徐強,李捷,高曉利,李林莉,
申請(專利權)人:四川九洲電器集團有限責任公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。