一種全文檢索方法及其檢索系統技術方案

技術編號：38324931 閱讀：21 留言：0更新日期：2023-07-29 09:07

本發明專利技術公開了一種全文檢索方法及其檢索系統，涉及全文檢索技術領域，方法包括以下步驟：S1、文章預處理，對文章進行識別，將各種格式文章的文字轉換成文本文件格式，并為文章的每個字和詞建立文字索引，指出該字或詞出現在文章中出現的位置和次數；該全文檢索方法及其檢索系統，通過將文章的公式進行識別后轉換成文本文件格式儲存，并對公式字符和公式分別建立一級公式索引和二級公式索引，分別檢索包含相應公式字符的公式，然后再根據檢索出的公式檢索公式所在的文章，及其在文章中出現的位置和出現次數，使得檢索公式時不用在文章文字的部分檢索，減小了檢索的范圍。減小了檢索的范圍。減小了檢索的范圍。

全部詳細技術資料下載

【技術實現步驟摘要】
一種全文檢索方法及其檢索系統

[0001]本專利技術涉及全文檢索
，具體涉及一種全文檢索方法及其檢索系統。

技術介紹

[0002]全文檢索是指計算機索引程序通過掃描文章中的每一個詞，對每一個詞建立一個索引，指明該詞在文章中出現的次數和位置，當用戶查詢時，檢索程序就根據事先建立的索引進行查找，并將查找的結果反饋給用戶的檢索方式。這個過程類似于通過字典中的檢索字表查字的過程。
[0003]然而現有的全文檢索主要的是對文章的文本部分進行檢索，對于非文本文件格式的文字，如PDF格式、圖片格式記載的文字就需要將其識別后轉換成文本文件格式進行檢索，而一些用戶在學習、做學術研究等情況下時，需要使用公式，這就需要對公式進行檢索，而一般的全文檢索系統對公式的識別準確率不高，這就導致用戶不方便使用公式直接進行檢索，具有一定的不便性。

技術實現思路

[0004]本專利技術的目的是提供一種全文檢索方法及其檢索系統，以解決現有技術中的上述不足之處。
[0005]為了實現上述目的，本專利技術提供如下技術方案：一種全文檢索方法，方法包括以下步驟：S1、文章預處理，對文章進行識別，將各種格式文章的文字轉換成文本文件格式，并為文章的每個字和詞建立文字索引，指出該字或詞出現在文章中出現的位置和次數；S2、將文章識別時，識別為公式的部分提取出來，對公式進行識別后轉換成相應的文本文件格式的公式字符，并為其建立公式索引，所述公式索引包括一級公式索引和二級公式索引，所述一級公式索引用于指出公式字符出現的公式，所述二級公式索

【技術保護點】

【技術特征摘要】
1.一種全文檢索方法，其特征在于：方法包括以下步驟：S1、文章預處理，對文章進行識別，將各種格式文章的文字轉換成文本文件格式，并為文章的每個字和詞建立文字索引，指出該字或詞出現在文章中出現的位置和次數；S2、將文章識別時，識別為公式的部分提取出來，對公式進行識別后轉換成相應的文本文件格式的公式字符，并為其建立公式索引，所述公式索引包括一級公式索引和二級公式索引，所述一級公式索引用于指出公式字符出現的公式，所述二級公式索引用于指出一級公式索引指出的公式出現在文章中的位置和次數；S3、通過公式輸入器在搜索框中輸入公式字符，對公式進行檢索，對公式進行檢索的方式包括精確檢索和模糊檢索，進行所述精確檢索時，對輸入的公式字符進行一一檢索，使得檢索出的公式包含與輸入的公式字符相同的部分；進行所述模糊檢索時，將輸入的公式字符中的一到三個字符采用任意字符替換，對公式進行檢索，并檢索與輸入的公式字符公式意義相同的公式。2.根據權利要求1所述的一種全文檢索方法，其特征在于：輸入公式字符后，識別公式字符中的運算符，并根據運算符的意義將根據簡化公式轉換成其他相應的等式，并按照轉換后的等式的公式字符進行檢索。3.根據權利要求1所述的一種全文檢索方法，其特征在于：進行所述模糊檢索時輸入的公式字符大于五個，且僅檢索匹配率大于p的公式，用戶可在檢索時設置p的值，p取值范圍大于百分之六十，匹配率P公式計算公式為：，其中，n為輸入的公式字符的數量，a檢索時使用的任意字符的數量。4.根據權利要求3所述的一種全文檢索方法，其特征在于：進行所述模糊檢索時，將檢索結果按計算出的匹配率的高低降序排列。5.根據權利要求1所述的一種全文檢索方法，其特征在于：進行所述精確檢索時，將檢索的結果按精確率J的高低降序排列，所述精確率J的計算公式為：，其中，n為輸入的公式字符的數量，N為檢索出的公式的公式字符的數量。6.一種全文檢索系統，應用于根據權利要求1
?
5任一項所述的一種全文檢索方法，其特征在于：包括文章文字處理單元，其用于將文章中非文本文件格式的文字識別轉換成文本文件格式，并建立文字索引；文章公式處理單元，其用于識別文章中的公式，并將公式中的各字符轉換成所述公式字符，并為公式字符和公式分別建立所述一級公式索引和二級公式索引，所述文章公式處理單元包括文本公式字符模塊，其用于建立公式字符庫并儲...

【專利技術屬性】
技術研發人員：盧國棟，李靜，王峰，宋丙華，江洲，
申請(專利權)人：山東網安安全技術有限公司，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術