System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據檢索,特別是涉及一種引文鏈接速度的優化方法及裝置、存儲介質、計算機設備。
技術介紹
1、引文鏈接是將文后作者編寫的參考文獻,通過分析計算,以其字符信息在題錄庫中找到對應文獻的過程。隨著互聯網技術的發展以及國內科技的進步,國內的科技文獻增長量逐年遞增。從而導致了兩個問題:第一、待鏈接的引文越來越多;第二、被檢索的題錄庫越來越龐大。在實際數據計算中,導致引文鏈接的檢索時間越來越長。目前,采用優化檢索引擎的方式來檢索這種海量級別的數據,如采用多線程并發等技術提高效率。但是,現有的引文鏈接方案沒有根據數據自身特征找到可優化效率的辦法。
技術實現思路
1、有鑒于此,本專利技術提供一種引文鏈接速度的優化方法及裝置、存儲介質、計算機設備,主要目的在于解決現有引文鏈接時采用的檢索引擎優化方案缺乏對數據自身特征的優化考慮的問題。
2、依據本專利技術一個方面,提供了一種引文鏈接速度的優化方法,包括:
3、獲取預設的多層級劃分規則,并基于所述多層級劃分規則對文獻題錄數據池進行劃分處理,得到多個子文獻題錄數據池;
4、基于所述多層級劃分規則提取待鏈接引文信息中的關鍵字,并基于所述關鍵字對所述待鏈接引文信息進行分類處理,得到目標引文信息類別;
5、獲取引文信息類別與子文獻題錄數據池之間的關聯關系,并基于所述關聯關系確定與所述目標引文信息類別相對應的目標子文獻題錄數據池;
6、從所述目標子文獻題錄數據池中檢索出與所述待鏈接引文信息相
7、進一步地,所述基于所述多層級劃分規則對文獻題錄數據池進行劃分處理,得到多個子文獻題錄數據池,包括:
8、獲取所述多層級劃分規則中各個層級相對應的層級特征;并對所述層級特征進行組合處理,得到與各個子文獻題錄數據池相對應的文獻特征信息;
9、按照層級的先后順序基于所述層級特征對所述文獻題錄數據池中的文獻信息依次進行篩選處理,得到與各個所述文獻特征信息相對應的所述子文獻題錄數據池。
10、進一步地,所述按照層級的先后順序基于所述層級特征對所述文獻題錄數據池中的文獻信息依次進行篩選處理,包括:
11、獲取第一層級特征,并基于所述第一層級特征對所述文獻題錄數據池中的文獻信息進行篩選處理,得到第一層級篩選結果;
12、獲取第二層級特征,并基于所述第二層級特征對所述第一層級篩選結果中的文獻信息進行篩選處理,得到第二層級篩選結果;
13、獲取第三層級特征,并基于所述第三層級特征對所述第二層級篩選結果中的文獻信息進行篩選處理,得到第三層級篩選結果。
14、進一步地,所述基于所述多層級劃分規則提取待鏈接引文信息中的關鍵字,包括:
15、識別所述待鏈接引文信息中的分隔點,并基于所述分隔點對所述待鏈接引文信息進行分塊處理,得到待鏈接引文分塊結果;
16、獲取所述多層級劃分規則中各個層級相對應的層級特征;
17、基于所述層級特征從所述待鏈接引文分塊結果中提取所述關鍵字。
18、進一步地,所述基于所述關鍵字對所述待鏈接引文信息進行分類處理,得到目標引文信息類別之前,所述方法還包括:
19、設定與所述子文獻題錄數據池數量相等的多個引文信息類別;所述引文信息類別與各個所述子文獻題錄數據池具有相同的文獻特征信息;
20、獲取引文信息樣本數據集,并對所述引文信息樣本數據集中的引文信息樣本進行分塊處理,得到分塊結果;
21、從所述分塊結果中提取關鍵字信息,并基于所述關鍵字信息對引文分類模型進行訓練處理,得到用于識別所述引文信息類別的引文分類模型。
22、進一步地,所述獲取引文信息類別與子文獻題錄數據池之間的關聯關系之前,所述方法還包括:
23、分別獲取所述子文獻題錄數據池的文獻特征信息;并獲取具有相同所述文獻特征信息的引文信息類別;
24、將所述文獻特征信息和所述文獻特征類別相關聯,得到所述引文信息類別與子文獻題錄數據池之間的關聯關系。
25、進一步地,所述方法還包括:
26、按照預設的時間間隔獲取新增文獻數據;
27、基于所述多層級劃分規則對所述新增文獻數據進行劃分處理,得到新增文獻劃分結果;
28、基于所述新增文獻劃分結果對各個所述子文獻題錄數據池進行數據更新處理,得到更新后的子文獻題錄數據池。
29、依據本專利技術另一個方面,提供了一種引文鏈接速度的優化裝置,包括:
30、數據池劃分模塊,用于獲取預設的多層級劃分規則,并基于所述多層級劃分規則對文獻題錄數據池進行劃分處理,得到多個子文獻題錄數據池;
31、引文分類模塊,用于基于所述多層級劃分規則提取待鏈接引文信息中的關鍵字,并基于所述關鍵字對所述待鏈接引文信息進行分類處理,得到目標引文信息類別;
32、目標確定模塊,用于獲取引文信息類別與子文獻題錄數據池之間的關聯關系,并基于所述關聯關系確定與所述目標引文信息類別相對應的目標子文獻題錄數據池;
33、檢索模塊,用于從所述目標子文獻題錄數據池中檢索出與所述待鏈接引文信息相對應的目標文獻信息,并基于所述目標文獻信息建立文獻鏈接。
34、進一步地,所述數據池劃分模塊包括:
35、文獻特征提取單元,用于獲取所述多層級劃分規則中各個層級相對應的層級特征;并對所述層級特征進行組合處理,得到與各個子文獻題錄數據池相對應的文獻特征信息;
36、篩選劃分單元,用于按照層級的先后順序基于所述層級特征對所述文獻題錄數據池中的文獻信息依次進行篩選處理,得到與各個所述文獻特征信息相對應的所述子文獻題錄數據池。
37、進一步地,所述篩選劃分單元還用于:
38、獲取第一層級特征,并基于所述第一層級特征對所述文獻題錄數據池中的文獻信息進行篩選處理,得到第一層級篩選結果;
39、獲取第二層級特征,并基于所述第二層級特征對所述第一層級篩選結果中的文獻信息進行篩選處理,得到第二層級篩選結果;
40、獲取第三層級特征,并基于所述第三層級特征對所述第二層級篩選結果中的文獻信息進行篩選處理,得到第三層級篩選結果。
41、進一步地,所述引文分類模塊還用于:
42、識別所述待鏈接引文信息中的分隔點,并基于所述分隔點對所述待鏈接引文信息進行分塊處理,得到待鏈接引文分塊結果;
43、獲取所述多層級劃分規則中各個層級相對應的層級特征;
44、基于所述層級特征從所述待鏈接引文分塊結果中提取所述關鍵字。
45、進一步地,所述裝置還包括分類模型訓練模塊,用于:
46、設定與所述子文獻題錄數據池數量相等的多個引文信息類別;所述引文信息類別與各個所述子文獻題錄數據池具有相同的文獻特征信息;
47、獲取本文檔來自技高網...
【技術保護點】
1.一種引文鏈接速度的優化方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述多層級劃分規則對文獻題錄數據池進行劃分處理,得到多個子文獻題錄數據池,包括:
3.根據權利要求2所述的方法,其特征在于,所述按照層級的先后順序基于所述層級特征對所述文獻題錄數據池中的文獻信息依次進行篩選處理,包括:
4.根據權利要求1所述的方法,其特征在于,所述基于所述多層級劃分規則提取待鏈接引文信息中的關鍵字,包括:
5.根據權利要求1所述的方法,其特征在于,所述基于所述關鍵字對所述待鏈接引文信息進行分類處理,得到目標引文信息類別之前,所述方法還包括:
6.根據權利要求1所述的方法,其特征在于,所述獲取引文信息類別與子文獻題錄數據池之間的關聯關系之前,所述方法還包括:
7.根據權利要求1~6任一項所述的方法,其特征在于,所述方法還包括:
8.一種引文鏈接速度的優化裝置,其特征在于,包括:
9.一種存儲介質,所述存儲介質中存儲有至少一可執行指令,所述可執行指令執行如權利要求1-7中
10.一種計算機設備,包括處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;
...【技術特征摘要】
1.一種引文鏈接速度的優化方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述基于所述多層級劃分規則對文獻題錄數據池進行劃分處理,得到多個子文獻題錄數據池,包括:
3.根據權利要求2所述的方法,其特征在于,所述按照層級的先后順序基于所述層級特征對所述文獻題錄數據池中的文獻信息依次進行篩選處理,包括:
4.根據權利要求1所述的方法,其特征在于,所述基于所述多層級劃分規則提取待鏈接引文信息中的關鍵字,包括:
5.根據權利要求1所述的方法,其特征在于,所述基于所述關鍵字對所述待鏈接引文信息進行分類處理,得到目標引文信息類別之前...
【專利技術屬性】
技術研發人員:薛德軍,鄧凱,陳琳,徐乾,
申請(專利權)人:同方知網數字出版技術股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。