本發明專利技術公開了一種全文檢索方法及其檢索系統,涉及全文檢索技術領域,方法包括以下步驟:S1、文章預處理,對文章進行識別,將各種格式文章的文字轉換成文本文件格式,并為文章的每個字和詞建立文字索引,指出該字或詞出現在文章中出現的位置和次數;該全文檢索方法及其檢索系統,通過將文章的公式進行識別后轉換成文本文件格式儲存,并對公式字符和公式分別建立一級公式索引和二級公式索引,分別檢索包含相應公式字符的公式,然后再根據檢索出的公式檢索公式所在的文章,及其在文章中出現的位置和出現次數,使得檢索公式時不用在文章文字的部分檢索,減小了檢索的范圍。減小了檢索的范圍。減小了檢索的范圍。
【技術實現步驟摘要】
一種全文檢索方法及其檢索系統
[0001]本專利技術涉及全文檢索
,具體涉及一種全文檢索方法及其檢索系統。
技術介紹
[0002]全文檢索是指計算機索引程序通過掃描文章中的每一個詞,對每一個詞建立一個索引,指明該詞在文章中出現的次數和位置,當用戶查詢時,檢索程序就根據事先建立的索引進行查找,并將查找的結果反饋給用戶的檢索方式。這個過程類似于通過字典中的檢索字表查字的過程。
[0003]然而現有的全文檢索主要的是對文章的文本部分進行檢索,對于非文本文件格式的文字,如PDF格式、圖片格式記載的文字就需要將其識別后轉換成文本文件格式進行檢索,而一些用戶在學習、做學術研究等情況下時,需要使用公式,這就需要對公式進行檢索,而一般的全文檢索系統對公式的識別準確率不高,這就導致用戶不方便使用公式直接進行檢索,具有一定的不便性。
技術實現思路
[0004]本專利技術的目的是提供一種全文檢索方法及其檢索系統,以解決現有技術中的上述不足之處。
[0005]為了實現上述目的,本專利技術提供如下技術方案:一種全文檢索方法,方法包括以下步驟:S1、文章預處理,對文章進行識別,將各種格式文章的文字轉換成文本文件格式,并為文章的每個字和詞建立文字索引,指出該字或詞出現在文章中出現的位置和次數;S2、將文章識別時,識別為公式的部分提取出來,對公式進行識別后轉換成相應的文本文件格式的公式字符,并為其建立公式索引,所述公式索引包括一級公式索引和二級公式索引,所述一級公式索引用于指出公式字符出現的公式,所述二級公式索引用于指出一級公式索引指出的公式出現在文章中的位置和次數;S3、通過公式輸入器在搜索框中輸入公式字符,對公式進行檢索,對公式進行檢索的方式包括精確檢索和模糊檢索,進行所述精確檢索時,對輸入的公式字符進行一一檢索,使得檢索出的公式包含與輸入的公式字符相同的部分;進行所述模糊檢索時,將輸入的公式字符中的一到三個字符采用任意字符替換,對公式進行檢索,并檢索與輸入的公式字符公式意義相同的公式。
[0006]進一步的,輸入公式字符后,識別公式字符中的運算符,并根據運算符的意義將根據簡化公式轉換成其他相應的等式,并按照轉換后的等式的公式字符進行檢索。
[0007]進一步的,進行所述模糊檢索時輸入的公式字符大于五個,且僅檢索匹配率大于p的公式,用戶可在檢索時設置p的值,p取值范圍大于百分之六十,匹配率P公式計算公式為:,
其中,n為輸入的公式字符的數量,a檢索時使用的任意字符的數量。
[0008]進一步的,進行所述模糊檢索時,將檢索結果按計算出的匹配率的高低降序排列。
[0009]進一步的,進行所述精確檢索時,將檢索的結果按精確率J的高低降序排列,所述精確率J的計算公式為:,其中,n為輸入的公式字符的數量,N為檢索出的公式的公式字符的數量。
[0010]一種全文檢索系統,包括文章文字處理單元,其用于將文章中非文本文件格式的文字識別轉換成文本文件格式,并建立文字索引;文章公式處理單元,其用于識別文章中的公式,并將公式中的各字符轉換成所述公式字符,并為公式字符和公式分別建立所述一級公式索引和二級公式索引,所述文章公式處理單元包括文本公式字符模塊,其用于建立公式字符庫并儲存,公式字符庫內儲存公式字符包括各種字體的數學運算符號、大小寫英文字母、希臘字母和數字;公式標記模塊,其用于將文章中的公式標記出來待識別;公式識別算法模塊,其用于采用基于CNN模型的公式符號識別算法識別公式圖像,并輸出為公式字符保存;公式索引建立模塊,其用于為識別出來公式字符建立所述一級公式索引,并為公式建立所述二級公式索引;符號等效模塊,其用于建立并儲存等效運算符號庫,其用于將簡化的運算符號轉換成等效的數學運算符號后再進行檢索或儲存;公式等效模塊,其用于建立并儲存公式簡化等式庫,其用于將公式轉換成簡化前或簡化后的公式;檢索系統還包括檢索輸入單元,其用于輸入需要檢索內容,對需要檢索的內容進行檢索,并將檢索結果按一定規則排序。
[0011]進一步的,文章處理單元包括文字識別轉換模塊,其用于使用文字識別工具將非文本文件格式的文字識別并轉換成文本文件格式儲存起來;文字索引建立模塊,其用于為文章的單個文字和詞分別建立所述文字索引。
[0012]進一步的,所述檢索輸入單元包括檢索輸入模塊,其用于用戶輸入需要檢索的內容,并對輸入內容進行檢索;公式鍵盤模塊,其用于用戶通過公式鍵盤模塊輸入數學運算符號、希臘字母到檢索輸入模塊。
[0013]進一步的,所述基于CNN模型的公式符號識別算法步驟為:M1、將所述公式圖像進行處理后作為特征圖輸入輸入層;M2、卷積層對前一層的特征圖進行特征提取,得到本層的特征圖,公式為:,其中,f為激活函數,Kernel為卷積核,M
j
為選定的一組輸入特征圖,l為當前網絡層號,B為偏值,i表示第i個類別;M3、采樣層通過最大池化操作降低卷積層輸出特征圖的分辨率,在保持高分辨率特征圖的特征的同時消除偏移和圖像的扭曲,下次神經元的輸入的計算公式為:,其中,n為縮放因子,u表示采樣操作,y表示上一層的輸出;
M4、輸出層對于第 i 個類別,輸出層的第 i 個單元輸出為 1,其他為 0,并采用隨機對角LM算法學習,其對每個連接權值采用不同的學習速率,學習速率根據待學習參數的二階導數進行調整公式為:,其中,為全局學習速率,用來避免式中分母過小而導致學習速率過大的問題,為誤差函數E關于權重參數w的二階導數的估計值。
[0014]與現有技術相比,本專利技術提供的一種全文檢索方法及其檢索系統,通過將文章的公式進行識別后轉換成文本文件格式儲存,并對公式字符和公式分別建立一級公式索引和二級公式索引,分別檢索包含相應公式字符的公式,然后再根據檢索出的公式檢索公式所在的文章,及其在文章中出現的位置和出現次數,使得檢索公式時不用在文章文字的部分檢索,減小了檢索的范圍。
[0015]與現有技術相比,本專利技術提供的一種全文檢索方法及其檢索系統,通過符號等效模塊將簡化的運算符號轉換成等效的數學運算符號后再進行檢索或儲存,通過公式等效模塊將公式轉換成簡化前或簡化后的公式后再進行檢索,使得檢索更靈活。
附圖說明
[0016]為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本專利技術中記載的一些實施例,對于本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。
[0017]圖1為本專利技術實施例提供的方法步驟圖;圖2為本專利技術實施例提供的系統框圖;圖3為本專利技術實施例提供的基于CNN模型的公式符號識別算法步驟圖。
[0018]附圖標記說明:1、文章文字處理單元;11、文字識別轉換模塊;12、文字索引建立模塊;2、文章公式處理單元;21、公式字符模塊;22、公式標記模塊;23、公式識別算法模塊;24、公式索引建立模塊;25、符號等效模塊;26、公式等效模塊;3、檢索輸入單元;31、檢索輸入模塊;32、公式鍵盤模塊。
...
【技術保護點】
【技術特征摘要】
1.一種全文檢索方法,其特征在于:方法包括以下步驟:S1、文章預處理,對文章進行識別,將各種格式文章的文字轉換成文本文件格式,并為文章的每個字和詞建立文字索引,指出該字或詞出現在文章中出現的位置和次數;S2、將文章識別時,識別為公式的部分提取出來,對公式進行識別后轉換成相應的文本文件格式的公式字符,并為其建立公式索引,所述公式索引包括一級公式索引和二級公式索引,所述一級公式索引用于指出公式字符出現的公式,所述二級公式索引用于指出一級公式索引指出的公式出現在文章中的位置和次數;S3、通過公式輸入器在搜索框中輸入公式字符,對公式進行檢索,對公式進行檢索的方式包括精確檢索和模糊檢索,進行所述精確檢索時,對輸入的公式字符進行一一檢索,使得檢索出的公式包含與輸入的公式字符相同的部分;進行所述模糊檢索時,將輸入的公式字符中的一到三個字符采用任意字符替換,對公式進行檢索,并檢索與輸入的公式字符公式意義相同的公式。2.根據權利要求1所述的一種全文檢索方法,其特征在于:輸入公式字符后,識別公式字符中的運算符,并根據運算符的意義將根據簡化公式轉換成其他相應的等式,并按照轉換后的等式的公式字符進行檢索。3.根據權利要求1所述的一種全文檢索方法,其特征在于:進行所述模糊檢索時輸入的公式字符大于五個,且僅檢索匹配率大于p的公式,用戶可在檢索時設置p的值,p取值范圍大于百分之六十,匹配率P公式計算公式為:,其中,n為輸入的公式字符的數量,a檢索時使用的任意字符的數量。4.根據權利要求3所述的一種全文檢索方法,其特征在于:進行所述模糊檢索時,將檢索結果按計算出的匹配率的高低降序排列。5.根據權利要求1所述的一種全文檢索方法,其特征在于:進行所述精確檢索時,將檢索的結果按精確率J的高低降序排列,所述精確率J的計算公式為:,其中,n為輸入的公式字符的數量,N為檢索出的公式的公式字符的數量。6.一種全文檢索系統,應用于根據權利要求1
?
5任一項所述的一種全文檢索方法,其特征在于:包括文章文字處理單元,其用于將文章中非文本文件格式的文字識別轉換成文本文件格式,并建立文字索引;文章公式處理單元,其用于識別文章中的公式,并將公式中的各字符轉換成所述公式字符,并為公式字符和公式分別建立所述一級公式索引和二級公式索引,所述文章公式處理單元包括文本公式字符模塊,其用于建立公式字符庫并儲...
【專利技術屬性】
技術研發人員:盧國棟,李靜,王峰,宋丙華,江洲,
申請(專利權)人:山東網安安全技術有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。