一種情報檢索方法技術

技術編號：44234775 閱讀：10 留言：0更新日期：2025-02-11 13:36

本發明專利技術涉及自然語言處理領域和深度學習技術領域，公開了一種情報檢索方法，包括以下步驟：S1，情報數據轉化和清洗：將格式各異的數據轉換為統一的文本格式數據，并清洗轉換后的文本；S2，信息提取：提取文本的信息；S3，數據保存和索引構建：將情報數據的信息保存到數據庫中，并對信息建立索引。本發明專利技術解決了現有技術存在的檢索的全面性和準確性低等問題。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及自然語言處理領域和深度學習，具體是一種情報檢索方法。

技術介紹

1、大數據時代，開源網站產生了海量多源科技情報數據，這些數據已經成為科技領域的核心資源。科技情報數據具有多樣化的特點，其結構存在不一致性，難以直接進行存儲和檢索。

2、現有技術在應對多源科技情報數據的檢索時，仍存在一些缺點。首先，多源科技情報數據的文本結構多樣，現有技術在將數據轉換為統一結構后，未能有效評估轉換質量，清洗掉低質量數據。其次，信息提取包括摘要和關鍵詞的提取，能夠有效概述科技情報的內容。針對摘要提取和關鍵詞提取，現有研究大多采用不同的算法；此外，不同語言的文本內容也需要使用不同的算法進行處理。最后，在數據存儲和檢索方面，mongodb是常用的文本數據存儲工具，通過全文檢索技術幫助用戶查找所需數據。然而，其核心部件分詞器在處理科技領域的情報文本時往往難以準確分詞，因此導致查詢的準確性較低。為了提高科技情報檢索的準確性，需要進一步分析和解決現有方法的缺點。

技術實現思路

1、為克服現有技術的不足，本專利技術提供了一種情報檢索方法，解決現有技術存在的檢索的全面性和準確性低等問題。

2、本專利技術解決上述問題所采用的技術方案是：

3、一種情報檢索方法，包括以下步驟：

4、s1，情報數據轉化和清洗：將格式各異的數據轉換為統一的文本格式數據，并清洗轉換后的文本；

5、s2，信息提取：提取文本的信息；

6、s3，數據保存和索引構建：將情

7、作為一種優選的技術方案，步驟s1中，清洗轉換后的文本時，首先使用python編寫規則自動統計數據長度，對于長度為0的空白文本予以刪除；然后使用箱型圖對亂碼的英文文本進行異常識別并進行清洗；以及，使用jieba算法對亂碼的中文文本進行文本分詞，去除停用詞，并用正則表達式去除標點符號，清洗掉詞語平均長度低于閾值的異常文本。

8、作為一種優選的技術方案，步驟s2中，通過chatglm提取文本的摘要和關鍵詞信息。

9、作為一種優選的技術方案，步驟s2中，基于一個輸入文本x＝[x1,…xn]得到多個文本跨度{s1,…sm}，每個跨度用一個標記替換，形成一個損壞的文本xcorrupt，對輸入文本的多個文本跨度進行隨機排列得到z，所有可能的排列集合為zm，chatglm的訓練公式為式(1)：

10、

11、其中，x1,…xn分別表示第1至第n個輸入字符，i表示文本跨度編號，s1,…sm分別表示第1至第m個文本跨度，表示最大化目標函數，θ表示模型參數，pθ(·)表示與θ相關的條件概率，表示對所有可能得跨度排列z的期望，zm表示跨度排列的集合，sz＜i表示之前預測的跨度，表示在給定xcorrupt和sz＜i的情況下預測第i個跨度的對數條件概率。

12、作為一種優選的技術方案，步驟s3中，將情報數據的信息保存到數據庫中，對標題、關鍵詞、摘要分別建立升序索引。

13、作為一種優選的技術方案，步驟s3中，通過chatglm和qwen推理分詞、tf-idf評估詞語重要性、拓展詞庫三個步驟，構建領域詞典。

14、作為一種優選的技術方案，使用chatglm和qwen推理分詞時，采用jaccard相似度計算兩個模型推理分詞結果的一致性，獲得初始領域詞典：對jaccard閾值等于1的分詞結果，直接保留；對jaccard閾值小于1、大于等于0.8的分詞結果，交由人工處理，選擇一條作為分詞結果；對jaccard閾值小于0.8的分詞結果，交由人工分詞處理；jaccard相似度的計算公式為式(2)：

15、

16、其中，針對一段語料，a是chatglm推理分詞得到的詞語集合，b是qwen推理分詞得到的詞語集合，jaccard(a,b)表示集合a和集合b的jaccard相似度，|a|表示集合a的元素個數，|b|表示集合b的元素個數，|a∩b|表示集合a和集合b的交集的元素個數，|a∪b|表示集合a和集合b的并集的元素個數。

17、作為一種優選的技術方案，使用tf-idf算法處理初始領域詞典，保留tf-idf值高于設定閾值的關鍵詞語，tf-idf算法計算公式為式(3)-(5)：

18、

19、其中，i表示詞條的編號，j表示文檔的編號，k表示詞條編號，屬于文檔dj中詞語的一種，ni,j表示詞條ti在文檔dj中出現的次數，nk,j表示詞條tk在文檔dj中出現的次數，∑knk,j表示文檔dj的總詞語數量，tfij表示詞條ti在文檔dj中出現的頻率；

20、

21、其中，|d|表示所有文檔數量，|{j:ti∈dj}|表示包含詞條ti的數量；

22、tf-idf＝tf*idf?????????(5)

23、其中，tf-idf表示詞語的重要度。

24、作為一種優選的技術方案，步驟s3中，將英文正文直接保存到數據庫中，使用領域詞典將中文正文分詞后保存到數據庫中，對正文建立文本索引。

25、作為一種優選的技術方案，建立升序索引和文本索引后，引入檢索邏輯符、運算符對各個索引組合檢索。

26、作為一種優選的技術方案，

27、本專利技術相比于現有技術，具有以下有益效果：

28、(1)本專利技術通過對多源科技情報數據的轉換和清洗，保證了數據的一致性和質量；

29、(2)本專利技術利用chatglm提取數據的關鍵詞和摘要，在此基礎上將文本各信息保存到數據庫并進一步建立多種索引，建立多種索引后，結合檢索邏輯符和運算符使用，從而實現對科技情報數據全面和準確地檢索。

本文檔來自技高網...

【技術保護點】

1.一種情報檢索方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種情報檢索方法，其特征在于，步驟S1中，清洗轉換后的文本時，首先使用python編寫規則自動統計數據長度，對于長度為0的空白文本予以刪除；然后使用箱型圖對亂碼的英文文本進行異常識別并進行清洗；以及，使用jieba算法對亂碼的中文文本進行文本分詞，去除停用詞，并用正則表達式去除標點符號，清洗掉詞語平均長度低于閾值的異常文本。

3.根據權利要求1所述的一種情報檢索方法，其特征在于，步驟S2中，通過ChatGLM提取文本的摘要和關鍵詞信息。

4.根據權利要求3所述的一種情報檢索方法，其特征在于，步驟S2中，基于一個輸入文本x＝[x1,…xn]得到多個文本跨度{s1,…sm}，每個跨度用一個標記替換，形成一個損壞的文本xcorrupt，對輸入文本的多個文本跨度進行隨機排列得到z，所有可能的排列集合為Zm，ChatGLM的訓練公式為式(1)：

5.根據權利要求1所述的一種情報檢索方法，其特征在于，步驟S3中，將情報數據的信息保存到數據庫中，對標題、關鍵詞、摘要分別建立升序索引。

6.根據權利要求5所述的一種情報檢索方法，其特征在于，步驟S3中，通過ChatGLM和Qwen推理分詞、TF-IDF評估詞語重要性、拓展詞庫三個步驟，構建領域詞典。

7.根據權利要求6所述的一種情報檢索方法，其特征在于，使用ChatGLM和Qwen推理分詞時，采用Jaccard相似度計算兩個模型推理分詞結果的一致性，獲得初始領域詞典：對Jaccard閾值等于1的分詞結果，直接保留；對Jaccard閾值小于1、大于等于0.8的分詞結果，交由人工處理，選擇一條作為分詞結果；對Jaccard閾值小于0.8的分詞結果，交由人工分詞處理；Jaccard相似度的計算公式為式(2)：

8.根據權利要求7所述的一種情報檢索方法，其特征在于，使用TF-IDF算法處理初始領域詞典，保留TF-IDF值高于設定閾值的關鍵詞語，TF-IDF算法計算公式為式(3)-(5)：

9.根據權利要求5至8任一項所述的一種情報檢索方法，其特征在于，步驟S3中，將英文正文直接保存到數據庫中，使用領域詞典將中文正文分詞后保存到數據庫中，對正文建立文本索引。

10.根據權利要求9所述的一種情報檢索方法，其特征在于，建立升序索引和文本索引后，引入檢索邏輯符、運算符對各個索引組合檢索。

...

【技術特征摘要】

1.一種情報檢索方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的一種情報檢索方法，其特征在于，步驟s1中，清洗轉換后的文本時，首先使用python編寫規則自動統計數據長度，對于長度為0的空白文本予以刪除；然后使用箱型圖對亂碼的英文文本進行異常識別并進行清洗；以及，使用jieba算法對亂碼的中文文本進行文本分詞，去除停用詞，并用正則表達式去除標點符號，清洗掉詞語平均長度低于閾值的異常文本。

3.根據權利要求1所述的一種情報檢索方法，其特征在于，步驟s2中，通過chatglm提取文本的摘要和關鍵詞信息。

4.根據權利要求3所述的一種情報檢索方法，其特征在于，步驟s2中，基于一個輸入文本x＝[x1,…xn]得到多個文本跨度{s1,…sm}，每個跨度用一個標記替換，形成一個損壞的文本xcorrupt，對輸入文本的多個文本跨度進行隨機排列得到z，所有可能的排列集合為zm，chatglm的訓練公式為式(1)：

5.根據權利要求1所述的一種情報檢索方法，其特征在于，步驟s3中，將情報數據的信息保存到數據庫中，對標題、關鍵詞、摘要分別建立升序索引。

6.根據權利要求5所述的一種情報檢索方法，...

【專利技術屬性】
技術研發人員：寧彬彬，湯娟，劉鈺馨，徐強，李捷，高曉利，李林莉，
申請(專利權)人：四川九洲電器集團有限責任公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術