System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 国99精品无码一区二区三区,日韩人妻无码一区二区三区综合部,无码人妻精品一二三区免费
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種檢索系統的文本排序方法、裝置、電子設備制造方法及圖紙

    技術編號:43243936 閱讀:17 留言:0更新日期:2024-11-05 17:27
    本申請提供一種檢索系統的文本排序方法、裝置、電子設備及存儲介質,其中,該方法包括:獲取經過預處理后的用戶輸入文本;對所述用戶輸入文本進行多維度特征解析,得到待檢索數據;根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據;根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果。實施本申請,可以實現檢索過程中對候選文本的精準排序,提高候選數據的質量以及對文檔解析效果,利用粗略排序和精確排序兩種方式,增強對于文本主語、主題的理解,強化多粒度語義特征,顯著提升了檢索系統的整體性能和用戶滿意度。

    【技術實現步驟摘要】

    本申請涉及自然語言處理,具體而言,涉及一種檢索系統的文本排序方法、裝置、電子設備及存儲介質。


    技術介紹

    1、現有技術的生成式搜索引擎中,粗召回策略主要著眼于段落文本的局部語義特性,忽視了全局上下文、關鍵詞和主題等結構中蘊含的豐富語義信息。這種偏頗可能導致對文本深層含義和上下文背景的理解不足,從而使得檢索結果與用戶的查詢意圖產生偏差。精排方法主要采用的是基于cross-encoding結構的模型,這種模型能夠有效地實現用戶查詢與候選集之間的直接交互,從而達成更優的語義匹配效果。然而,當用戶查詢的主語與候選集的主語不一致,而其他描述內容相同時,這種情況下往往無法實現理想的匹配結果。

    2、加之生成式檢索系統中,由于文本分塊向量化的處理方式,候選集數據的質量不高,直接影響了初步召回和精確排序的效果。文本的可讀性較低和質量不佳,會對答案生成產生不利影響。


    技術實現思路

    1、本申請的目的在于提供一種檢索系統的文本排序方法、裝置、電子設備及存儲介質,可以實現檢索過程中對候選文本的精準排序,提高候選數據的質量以及對文檔解析效果,利用粗略排序和精確排序兩種方式,增強對于文本主語、主題的理解,強化多粒度語義特征,顯著提升了檢索系統的整體性能和用戶滿意度。

    2、第一方面,本申請實施例提供了一種檢索系統的文本排序方法,所述方法包括:

    3、獲取經過預處理后的用戶輸入文本;

    4、對所述用戶輸入文本進行多維度特征解析,得到待檢索數據;

    5、根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據;

    6、根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果。

    7、在上述實現過程中,通過對用戶輸入的文本進行多維度解析,再結合知識庫文檔進行粗略排序和精確排序,可以實現檢索過程中對候選文本的精準排序,提高候選數據的質量以及對文檔解析效果,利用粗略排序和精確排序兩種方式,增強對于文本主語、主題的理解,強化多粒度語義特征,顯著提升了檢索系統的整體性能和用戶滿意度。

    8、進一步地,構建知識庫文檔的步驟,包括:

    9、提取用于構建所述知識庫文檔的初始文檔中的表格信息、圖片信息和文本數據;

    10、對所述表格信息、圖片信息和文本數據進行向量化,得到分段文本;

    11、對所述分段文本進行優化,得到優化后的分段文本;

    12、根據所述優化后的分段文本構建所述知識庫文檔,所述知識庫文檔為包含多個子文檔的文檔集合,每個所述子文檔包含至少一個所述分段文本。

    13、在上述實現過程中,分別對表格信息、圖片信息和文本數據進行處理,進而再進行向量化,可以提高向量化過程中各類數據的融合程度,減少向量化過程中關鍵信息的丟失,提高精確度。

    14、進一步地,所述對所述表格信息、圖片信息和文本數據進行向量化,得到分段文本的步驟,包括:

    15、獲取所述表格信息的上下文信息;

    16、根據所述上下文信息生成所述表格信息的總結性文本;

    17、根據所述圖片信息獲得所述圖片信息的總結性文本;

    18、對所述表格信息的總結性文本、所述圖片信息的總結性文本和所述文本數據進行向量化,并保留對應的層級結構關系,得到所述分段文本。

    19、在上述實現過程中,對表格信息的總結性文本、所述圖片信息的總結性文本和所述文本數據進行向量化,保留文本數據的層級結構關系,使得到的分段文本語義特征更加明確,可以增加分段文本的信息熵。

    20、進一步地,所述根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據的步驟,包括:

    21、對所述知識庫文檔進行查詢,得到所述知識庫中每個子文檔的主題信息以及每個所述子文檔中的分段文本的主題信息;

    22、分別將所述待檢索數據的主題信息與每個所述子文檔的主題信息以及每個所述子文檔中的分段文本的主題信息進行匹配;

    23、若所述待檢索數據的主題信息與每個所述子文檔的主題信息以及每個所述子文檔中的分段文本的主題信息均一致,確定所述子文檔為第一候選數據;

    24、根據所述第一候選數據獲得所述候選數據。

    25、在上述實現過程中,根據分段文本對知識庫文檔進行檢索,并選取出候選數據進行粗略排序,可以快速、準確地將知識庫文檔中符合分段文本主題的數據進行篩選,減少出錯概率,降低誤差。

    26、進一步地,所述根據所述第一候選數據獲得所述候選數據的步驟,包括:

    27、提取所述第一候選數據中具有不同細粒度的語義特征;

    28、將所述待檢索數據的語義特征與所述第一候選數據的語義特征根據細粒度進行匹配;

    29、去除所述第一候選數據中,語義信息的細粒度與所述待檢索數據的語義信息的細粒度不匹配的第一候選數據,得到所述候選數據。

    30、在上述實現過程中,針對不同細粒度的語義特征進行匹配,選取出第一候選數據中語義特征最匹配的是數據,提高候選數據的可用性和精確性,確保檢索過程的有效進行。

    31、進一步地,所述根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果的步驟,包括:

    32、根據所述精確排序模型對所述候選數據進行評估,得到所述候選數據的預估評分;

    33、確定所述預估評分符合評估閾值的候選數據為第二候選數據;

    34、對所述第二候選數據進行二次校驗,得到第三候選數據;

    35、對所述第三候選數據進行數據填充,得到所述排序結果。

    36、在上述實現過程中,根據精確排序模型對候選數據進行評估后進而進行二次校驗、數據填充,可以多維度對候選數據進行校準,提高精確排序的結果,并且可以細化對候選數據的選取,使得排序結果更加接近用戶意圖。

    37、進一步地,所述對所述第二候選數據進行二次校驗,得到第三候選數據的步驟,包括:

    38、獲取所述待檢索數據的主語信息;

    39、將所述待檢索數據的主語信息與所述第二候選數據的主語信息進行匹配;

    40、過濾所述第二候選數據中主語信息與所述待檢索數據的主語信息不匹配的數據,得到所述第三候選數據。

    41、在上述實現過程中,根據主語信息進行匹配,實現對第二候選數據的二次過濾和校準,可以提高數據精度,完善排序過程。

    42、第二方面,本申請實施例還提供了一種檢索系統的文本排序裝置,所述裝置包括:

    43、獲取模塊,用于獲取經過預處理后的用戶輸入文本;

    44、多維度特征解析模塊,用于對所述用戶輸入文本進行多維度特征解析,得到待檢索數據;

    45、粗略排序模塊,用于根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據;

    46、精確排序模塊,用于根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果。

    47、在上述實現本文檔來自技高網...

    【技術保護點】

    1.一種檢索系統的文本排序方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,構建知識庫文檔的步驟,包括:

    3.根據權利要求2所述的檢索系統的文本排序方法,其特征在于,所述對所述表格信息、圖片信息和文本數據進行向量化,得到分段文本的步驟,包括:

    4.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,所述根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據的步驟,包括:

    5.根據權利要求4所述的檢索系統的文本排序方法,其特征在于,所述根據所述第一候選數據獲得所述候選數據的步驟,包括:

    6.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,所述根據預先構建的精確排序模型對所述候選數據進行精確排序,得到排序結果的步驟,包括:

    7.根據權利要求6所述的檢索系統的文本排序方法,其特征在于,所述對所述第二候選數據進行二次校驗,得到第三候選數據的步驟,包括:

    8.一種檢索系統的文本排序裝置,其特征在于,所述裝置包括:

    9.一種電子設備,其特征在于,包括存儲器及處理器,所述存儲器用于存儲計算機程序,所述處理器運行所述計算機程序以使所述電子設備執行根據權利要求1至7中任一項所述的檢索系統的文本排序方法。

    10.一種存儲介質,其特征在于,其存儲有計算機程序,所述計算機程序被處理器執行時實現如權利要求1至7中任一項所述的檢索系統的文本排序方法。

    ...

    【技術特征摘要】

    1.一種檢索系統的文本排序方法,其特征在于,所述方法包括:

    2.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,構建知識庫文檔的步驟,包括:

    3.根據權利要求2所述的檢索系統的文本排序方法,其特征在于,所述對所述表格信息、圖片信息和文本數據進行向量化,得到分段文本的步驟,包括:

    4.根據權利要求1所述的檢索系統的文本排序方法,其特征在于,所述根據預先構建的知識庫文檔對所述待檢索數據進行粗略排序,得到候選數據的步驟,包括:

    5.根據權利要求4所述的檢索系統的文本排序方法,其特征在于,所述根據所述第一候選數據獲得所述候選數據的步驟,包括:

    6.根據權利要求1所述的檢索系統的文本排序方法,...

    【專利技術屬性】
    技術研發人員:黃思遠唐江濤薛鋒趙巍巍陳杰
    申請(專利權)人:北京微步在線科技有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 激情无码人妻又粗又大| 精品久久久无码中文字幕边打电话 | 狠狠爱无码一区二区三区| 无码人妻一区二区三区av| gogo少妇无码肉肉视频| av无码免费一区二区三区| r级无码视频在线观看| 99无码人妻一区二区三区免费 | 五月天无码在线观看| 无码乱码av天堂一区二区| 中文字幕无码久久精品青草| 久久精品无码一区二区三区免费| 亚洲人成网亚洲欧洲无码久久| 无码人妻精品一区二区三区不卡| 亚洲精品无码永久在线观看你懂的| 色综合热无码热国产| 中文字幕人成无码人妻| 少妇伦子伦精品无码STYLES| 国产亚洲精品无码拍拍拍色欲| 免费无码又爽又黄又刺激网站| 一本大道在线无码一区| 精品无码日韩一区二区三区不卡 | 麻豆亚洲AV成人无码久久精品| 久久精品中文无码资源站| 国产在线无码一区二区三区视频| 免费无码一区二区| 日韩AV无码精品一二三区| 亚洲国产精品无码中文lv| 亚洲中文无码永久免| 91久久九九无码成人网站| 日韩精品无码一本二本三本| 日韩av无码中文字幕| 日日麻批免费40分钟无码| 久久亚洲精品成人无码网站| 人妻少妇伦在线无码专区视频| 久久精品中文无码资源站| 亚洲中文字幕无码mv| 亚洲中文字幕无码爆乳app| 亚洲国产成人精品无码区二本 | 无码毛片视频一区二区本码| 精品无码av一区二区三区|