System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码精品A∨在线观看,亚洲AV无码无限在线观看不卡,久久亚洲精品中文字幕无码
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種情報檢索方法技術

    技術編號:44234775 閱讀:10 留言:0更新日期:2025-02-11 13:36
    本發明專利技術涉及自然語言處理領域和深度學習技術領域,公開了一種情報檢索方法,包括以下步驟:S1,情報數據轉化和清洗:將格式各異的數據轉換為統一的文本格式數據,并清洗轉換后的文本;S2,信息提取:提取文本的信息;S3,數據保存和索引構建:將情報數據的信息保存到數據庫中,并對信息建立索引。本發明專利技術解決了現有技術存在的檢索的全面性和準確性低等問題。

    【技術實現步驟摘要】

    本專利技術涉及自然語言處理領域和深度學習,具體是一種情報檢索方法


    技術介紹

    1、大數據時代,開源網站產生了海量多源科技情報數據,這些數據已經成為科技領域的核心資源。科技情報數據具有多樣化的特點,其結構存在不一致性,難以直接進行存儲和檢索。

    2、現有技術在應對多源科技情報數據的檢索時,仍存在一些缺點。首先,多源科技情報數據的文本結構多樣,現有技術在將數據轉換為統一結構后,未能有效評估轉換質量,清洗掉低質量數據。其次,信息提取包括摘要和關鍵詞的提取,能夠有效概述科技情報的內容。針對摘要提取和關鍵詞提取,現有研究大多采用不同的算法;此外,不同語言的文本內容也需要使用不同的算法進行處理。最后,在數據存儲和檢索方面,mongodb是常用的文本數據存儲工具,通過全文檢索技術幫助用戶查找所需數據。然而,其核心部件分詞器在處理科技領域的情報文本時往往難以準確分詞,因此導致查詢的準確性較低。為了提高科技情報檢索的準確性,需要進一步分析和解決現有方法的缺點。


    技術實現思路

    1、為克服現有技術的不足,本專利技術提供了一種情報檢索方法,解決現有技術存在的檢索的全面性和準確性低等問題。

    2、本專利技術解決上述問題所采用的技術方案是:

    3、一種情報檢索方法,包括以下步驟:

    4、s1,情報數據轉化和清洗:將格式各異的數據轉換為統一的文本格式數據,并清洗轉換后的文本;

    5、s2,信息提取:提取文本的信息;

    6、s3,數據保存和索引構建:將情報數據的信息保存到數據庫中,并對信息建立索引。

    7、作為一種優選的技術方案,步驟s1中,清洗轉換后的文本時,首先使用python編寫規則自動統計數據長度,對于長度為0的空白文本予以刪除;然后使用箱型圖對亂碼的英文文本進行異常識別并進行清洗;以及,使用jieba算法對亂碼的中文文本進行文本分詞,去除停用詞,并用正則表達式去除標點符號,清洗掉詞語平均長度低于閾值的異常文本。

    8、作為一種優選的技術方案,步驟s2中,通過chatglm提取文本的摘要和關鍵詞信息。

    9、作為一種優選的技術方案,步驟s2中,基于一個輸入文本x=[x1,…xn]得到多個文本跨度{s1,…sm},每個跨度用一個標記替換,形成一個損壞的文本xcorrupt,對輸入文本的多個文本跨度進行隨機排列得到z,所有可能的排列集合為zm,chatglm的訓練公式為式(1):

    10、

    11、其中,x1,…xn分別表示第1至第n個輸入字符,i表示文本跨度編號,s1,…sm分別表示第1至第m個文本跨度,表示最大化目標函數,θ表示模型參數,pθ(·)表示與θ相關的條件概率,表示對所有可能得跨度排列z的期望,zm表示跨度排列的集合,sz<i表示之前預測的跨度,表示在給定xcorrupt和sz<i的情況下預測第i個跨度的對數條件概率。

    12、作為一種優選的技術方案,步驟s3中,將情報數據的信息保存到數據庫中,對標題、關鍵詞、摘要分別建立升序索引。

    13、作為一種優選的技術方案,步驟s3中,通過chatglm和qwen推理分詞、tf-idf評估詞語重要性、拓展詞庫三個步驟,構建領域詞典。

    14、作為一種優選的技術方案,使用chatglm和qwen推理分詞時,采用jaccard相似度計算兩個模型推理分詞結果的一致性,獲得初始領域詞典:對jaccard閾值等于1的分詞結果,直接保留;對jaccard閾值小于1、大于等于0.8的分詞結果,交由人工處理,選擇一條作為分詞結果;對jaccard閾值小于0.8的分詞結果,交由人工分詞處理;jaccard相似度的計算公式為式(2):

    15、

    16、其中,針對一段語料,a是chatglm推理分詞得到的詞語集合,b是qwen推理分詞得到的詞語集合,jaccard(a,b)表示集合a和集合b的jaccard相似度,|a|表示集合a的元素個數,|b|表示集合b的元素個數,|a∩b|表示集合a和集合b的交集的元素個數,|a∪b|表示集合a和集合b的并集的元素個數。

    17、作為一種優選的技術方案,使用tf-idf算法處理初始領域詞典,保留tf-idf值高于設定閾值的關鍵詞語,tf-idf算法計算公式為式(3)-(5):

    18、

    19、其中,i表示詞條的編號,j表示文檔的編號,k表示詞條編號,屬于文檔dj中詞語的一種,ni,j表示詞條ti在文檔dj中出現的次數,nk,j表示詞條tk在文檔dj中出現的次數,∑knk,j表示文檔dj的總詞語數量,tfij表示詞條ti在文檔dj中出現的頻率;

    20、

    21、其中,|d|表示所有文檔數量,|{j:ti∈dj}|表示包含詞條ti的數量;

    22、tf-idf=tf*idf?????????(5)

    23、其中,tf-idf表示詞語的重要度。

    24、作為一種優選的技術方案,步驟s3中,將英文正文直接保存到數據庫中,使用領域詞典將中文正文分詞后保存到數據庫中,對正文建立文本索引。

    25、作為一種優選的技術方案,建立升序索引和文本索引后,引入檢索邏輯符、運算符對各個索引組合檢索。

    26、作為一種優選的技術方案,

    27、本專利技術相比于現有技術,具有以下有益效果:

    28、(1)本專利技術通過對多源科技情報數據的轉換和清洗,保證了數據的一致性和質量;

    29、(2)本專利技術利用chatglm提取數據的關鍵詞和摘要,在此基礎上將文本各信息保存到數據庫并進一步建立多種索引,建立多種索引后,結合檢索邏輯符和運算符使用,從而實現對科技情報數據全面和準確地檢索。

    本文檔來自技高網...

    【技術保護點】

    1.一種情報檢索方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的一種情報檢索方法,其特征在于,步驟S1中,清洗轉換后的文本時,首先使用python編寫規則自動統計數據長度,對于長度為0的空白文本予以刪除;然后使用箱型圖對亂碼的英文文本進行異常識別并進行清洗;以及,使用jieba算法對亂碼的中文文本進行文本分詞,去除停用詞,并用正則表達式去除標點符號,清洗掉詞語平均長度低于閾值的異常文本。

    3.根據權利要求1所述的一種情報檢索方法,其特征在于,步驟S2中,通過ChatGLM提取文本的摘要和關鍵詞信息。

    4.根據權利要求3所述的一種情報檢索方法,其特征在于,步驟S2中,基于一個輸入文本x=[x1,…xn]得到多個文本跨度{s1,…sm},每個跨度用一個標記替換,形成一個損壞的文本xcorrupt,對輸入文本的多個文本跨度進行隨機排列得到z,所有可能的排列集合為Zm,ChatGLM的訓練公式為式(1):

    5.根據權利要求1所述的一種情報檢索方法,其特征在于,步驟S3中,將情報數據的信息保存到數據庫中,對標題、關鍵詞、摘要分別建立升序索引。

    6.根據權利要求5所述的一種情報檢索方法,其特征在于,步驟S3中,通過ChatGLM和Qwen推理分詞、TF-IDF評估詞語重要性、拓展詞庫三個步驟,構建領域詞典。

    7.根據權利要求6所述的一種情報檢索方法,其特征在于,使用ChatGLM和Qwen推理分詞時,采用Jaccard相似度計算兩個模型推理分詞結果的一致性,獲得初始領域詞典:對Jaccard閾值等于1的分詞結果,直接保留;對Jaccard閾值小于1、大于等于0.8的分詞結果,交由人工處理,選擇一條作為分詞結果;對Jaccard閾值小于0.8的分詞結果,交由人工分詞處理;Jaccard相似度的計算公式為式(2):

    8.根據權利要求7所述的一種情報檢索方法,其特征在于,使用TF-IDF算法處理初始領域詞典,保留TF-IDF值高于設定閾值的關鍵詞語,TF-IDF算法計算公式為式(3)-(5):

    9.根據權利要求5至8任一項所述的一種情報檢索方法,其特征在于,步驟S3中,將英文正文直接保存到數據庫中,使用領域詞典將中文正文分詞后保存到數據庫中,對正文建立文本索引。

    10.根據權利要求9所述的一種情報檢索方法,其特征在于,建立升序索引和文本索引后,引入檢索邏輯符、運算符對各個索引組合檢索。

    ...

    【技術特征摘要】

    1.一種情報檢索方法,其特征在于,包括以下步驟:

    2.根據權利要求1所述的一種情報檢索方法,其特征在于,步驟s1中,清洗轉換后的文本時,首先使用python編寫規則自動統計數據長度,對于長度為0的空白文本予以刪除;然后使用箱型圖對亂碼的英文文本進行異常識別并進行清洗;以及,使用jieba算法對亂碼的中文文本進行文本分詞,去除停用詞,并用正則表達式去除標點符號,清洗掉詞語平均長度低于閾值的異常文本。

    3.根據權利要求1所述的一種情報檢索方法,其特征在于,步驟s2中,通過chatglm提取文本的摘要和關鍵詞信息。

    4.根據權利要求3所述的一種情報檢索方法,其特征在于,步驟s2中,基于一個輸入文本x=[x1,…xn]得到多個文本跨度{s1,…sm},每個跨度用一個標記替換,形成一個損壞的文本xcorrupt,對輸入文本的多個文本跨度進行隨機排列得到z,所有可能的排列集合為zm,chatglm的訓練公式為式(1):

    5.根據權利要求1所述的一種情報檢索方法,其特征在于,步驟s3中,將情報數據的信息保存到數據庫中,對標題、關鍵詞、摘要分別建立升序索引。

    6.根據權利要求5所述的一種情報檢索方法,...

    【專利技術屬性】
    技術研發人員:寧彬彬湯娟劉鈺馨徐強李捷高曉利李林莉
    申請(專利權)人:四川九洲電器集團有限責任公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲AV综合色区无码一区爱AV | 无码精品人妻一区二区三区漫画 | 国内精品人妻无码久久久影院导航 | 超清无码一区二区三区| 亚洲日韩中文无码久久| 无码射肉在线播放视频| 久久av高潮av无码av喷吹| 无码精品A∨在线观看免费| 办公室丝袜激情无码播放| 99精品一区二区三区无码吞精| 中文字幕人妻三级中文无码视频 | 精品无码无人网站免费视频| 亚洲AV无码之日韩精品| 亚洲综合无码无在线观看| 久久国产加勒比精品无码| 国产精品亚洲а∨无码播放麻豆| 久久无码人妻一区二区三区| 亚洲自偷自偷偷色无码中文| h无码动漫在线观看| 成人免费a级毛片无码网站入口 | 国产精品xxxx国产喷水亚洲国产精品无码久久一区 | AV大片在线无码永久免费| 亚洲中文字幕无码一区| 下载天堂国产AV成人无码精品网站| 秋霞鲁丝片Av无码少妇| 亚洲av成人无码久久精品| 亚洲欧洲无码AV电影在线观看| 亚洲国产成人精品无码久久久久久综合 | 麻豆aⅴ精品无码一区二区 | 小泽玛丽无码视频一区| 久久亚洲精品无码网站| 亚洲av无码一区二区三区四区| 91精品日韩人妻无码久久不卡| 久久久久久AV无码免费网站| 亚洲AV无码专区国产乱码电影| 国产午夜鲁丝无码拍拍| 无码人妻丰满熟妇区五十路百度| 午夜福利av无码一区二区| 日韩网红少妇无码视频香港| 在线看无码的免费网站| 亚洲AV永久无码精品网站在线观看|