System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本申請涉及自然語言處理,具體而言,涉及一種檢索系統的文本排序方法、裝置、電子設備及存儲介質。
技術介紹
1、現有技術的生成式搜索引擎中,粗召回策略主要著眼于段落文本的局部語義特性,忽視了全局上下文、關鍵詞和主題等結構中蘊含的豐富語義信息。這種偏頗可能導致對文本深層含義和上下文背景的理解不足,從而使得檢索結果與用戶的查詢意圖產生偏差。精排方法主要采用的是基于cross-encoding結構的模型,這種模型能夠有效地實現用戶查詢與候選集之間的直接交互,從而達成更優的語義匹配效果。然而,當用戶查詢的主語與候選集的主語不一致,而其他描述內容相同時,這種情況下往往無法實現理想的匹配結果。
2、加之生成式檢索系統中,由于文本分塊向量化的處理方式,候選集數據的質量不高,直接影響了初步召回和精確排序的效果。文本的可讀性較低和質量不佳,會對答案生成產生不利影響。
技術實現思路
1、本申請的目的在于提供一種檢索系統的文本排序方法、裝置、電子設備及存儲介質,可以實現檢索過程中對候選文本的精準排序,提高候選數據的質量以及對文檔解析效果,利用粗略排序和精確排序兩種方式,增強對于文本主語、主題的理解,強化多粒度語義特征,顯著提升了檢索系統的整體性能和用戶滿意度。
2、第一方面,本申請實施例提供了一種檢索系統的文本排序方法,所述方法包括:
3、獲取經過預處理后的用戶輸入文本;
4、對所述用戶輸入文本進行多維度特征解析,得到待檢索數據;
5、根據預先構建
6、根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果。
7、在上述實現過程中,通過對用戶輸入的文本進行多維度解析,再結合知識庫文檔進行粗略排序和精確排序,可以實現檢索過程中對候選文本的精準排序,提高候選數據的質量以及對文檔解析效果,利用粗略排序和精確排序兩種方式,增強對于文本主語、主題的理解,強化多粒度語義特征,顯著提升了檢索系統的整體性能和用戶滿意度。
8、進一步地,構建知識庫文檔的步驟,包括:
9、提取用于構建所述知識庫文檔的初始文檔中的表格信息、圖片信息和文本數據;
10、對所述表格信息、圖片信息和文本數據進行向量化,得到分段文本;
11、對所述分段文本進行優化,得到優化后的分段文本;
12、根據所述優化后的分段文本構建所述知識庫文檔,所述知識庫文檔為包含多個子文檔的文檔集合,每個所述子文檔包含至少一個所述分段文本。
13、在上述實現過程中,分別對表格信息、圖片信息和文本數據進行處理,進而再進行向量化,可以提高向量化過程中各類數據的融合程度,減少向量化過程中關鍵信息的丟失,提高精確度。
14、進一步地,所述對所述表格信息、圖片信息和文本數據進行向量化,得到分段文本的步驟,包括:
15、獲取所述表格信息的上下文信息;
16、根據所述上下文信息生成所述表格信息的總結性文本;
17、根據所述圖片信息獲得所述圖片信息的總結性文本;
18、對所述表格信息的總結性文本、所述圖片信息的總結性文本和所述文本數據進行向量化,并保留對應的層級結構關系,得到所述分段文本。
19、在上述實現過程中,對表格信息的總結性文本、所述圖片信息的總結性文本和所述文本數據進行向量化,保留文本數據的層級結構關系,使得到的分段文本語義特征更加明確,可以增加分段文本的信息熵。
20、進一步地,所述根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據的步驟,包括:
21、對所述知識庫文檔進行查詢,得到所述知識庫中每個子文檔的主題信息以及每個所述子文檔中的分段文本的主題信息;
22、分別將所述待檢索數據的主題信息與每個所述子文檔的主題信息以及每個所述子文檔中的分段文本的主題信息進行匹配;
23、若所述待檢索數據的主題信息與每個所述子文檔的主題信息以及每個所述子文檔中的分段文本的主題信息均一致,確定所述子文檔為第一候選數據;
24、根據所述第一候選數據獲得所述候選數據。
25、在上述實現過程中,根據分段文本對知識庫文檔進行檢索,并選取出候選數據進行粗略排序,可以快速、準確地將知識庫文檔中符合分段文本主題的數據進行篩選,減少出錯概率,降低誤差。
26、進一步地,所述根據所述第一候選數據獲得所述候選數據的步驟,包括:
27、提取所述第一候選數據中具有不同細粒度的語義特征;
28、將所述待檢索數據的語義特征與所述第一候選數據的語義特征根據細粒度進行匹配;
29、去除所述第一候選數據中,語義信息的細粒度與所述待檢索數據的語義信息的細粒度不匹配的第一候選數據,得到所述候選數據。
30、在上述實現過程中,針對不同細粒度的語義特征進行匹配,選取出第一候選數據中語義特征最匹配的是數據,提高候選數據的可用性和精確性,確保檢索過程的有效進行。
31、進一步地,所述根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果的步驟,包括:
32、根據所述精確排序模型對所述候選數據進行評估,得到所述候選數據的預估評分;
33、確定所述預估評分符合評估閾值的候選數據為第二候選數據;
34、對所述第二候選數據進行二次校驗,得到第三候選數據;
35、對所述第三候選數據進行數據填充,得到所述排序結果。
36、在上述實現過程中,根據精確排序模型對候選數據進行評估后進而進行二次校驗、數據填充,可以多維度對候選數據進行校準,提高精確排序的結果,并且可以細化對候選數據的選取,使得排序結果更加接近用戶意圖。
37、進一步地,所述對所述第二候選數據進行二次校驗,得到第三候選數據的步驟,包括:
38、獲取所述待檢索數據的主語信息;
39、將所述待檢索數據的主語信息與所述第二候選數據的主語信息進行匹配;
40、過濾所述第二候選數據中主語信息與所述待檢索數據的主語信息不匹配的數據,得到所述第三候選數據。
41、在上述實現過程中,根據主語信息進行匹配,實現對第二候選數據的二次過濾和校準,可以提高數據精度,完善排序過程。
42、第二方面,本申請實施例還提供了一種檢索系統的文本排序裝置,所述裝置包括:
43、獲取模塊,用于獲取經過預處理后的用戶輸入文本;
44、多維度特征解析模塊,用于對所述用戶輸入文本進行多維度特征解析,得到待檢索數據;
45、粗略排序模塊,用于根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據;
46、精確排序模塊,用于根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果。
47、在上述實現本文檔來自技高網...
【技術保護點】
1.一種檢索系統的文本排序方法,其特征在于,所述方法包括:
2.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,構建知識庫文檔的步驟,包括:
3.根據權利要求2所述的檢索系統的文本排序方法,其特征在于,所述對所述表格信息、圖片信息和文本數據進行向量化,得到分段文本的步驟,包括:
4.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,所述根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據的步驟,包括:
5.根據權利要求4所述的檢索系統的文本排序方法,其特征在于,所述根據所述第一候選數據獲得所述候選數據的步驟,包括:
6.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,所述根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果的步驟,包括:
7.根據權利要求6所述的檢索系統的文本排序方法,其特征在于,所述對所述第二候選數據進行二次校驗,得到第三候選數據的步驟,包括:
8.一種檢索系統的文本排序裝置,其特征在于,所述裝置包括:
9.一種電子設
10.一種存儲介質,其特征在于,其存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述的檢索系統的文本排序方法。
...【技術特征摘要】
1.一種檢索系統的文本排序方法,其特征在于,所述方法包括:
2.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,構建知識庫文檔的步驟,包括:
3.根據權利要求2所述的檢索系統的文本排序方法,其特征在于,所述對所述表格信息、圖片信息和文本數據進行向量化,得到分段文本的步驟,包括:
4.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,所述根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據的步驟,包括:
5.根據權利要求4所述的檢索系統的文本排序方法,其特征在于,所述根據所述第一候選數據獲得所述候選數據的步驟,包括:
6.根據權利要求1所述的檢索系統的文本排序方法,...
【專利技術屬性】
技術研發人員:黃思遠,唐江濤,薛鋒,趙巍巍,陳杰,
申請(專利權)人:北京微步在線科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。