System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及數(shù)據(jù)處理,特別是涉及一種基于智能分詞的書(shū)籍內(nèi)容檢索方法、裝置和計(jì)算機(jī)設(shè)備。
技術(shù)介紹
1、隨著數(shù)字化進(jìn)程的推進(jìn),書(shū)籍和文檔資源的管理與檢索成為企業(yè)知識(shí)管理的核心問(wèn)題之一。企業(yè)通常需要在大規(guī)模文檔庫(kù)中快速定位與業(yè)務(wù)相關(guān)的信息,以支持決策、研發(fā)及運(yùn)營(yíng)。然而,目前信息檢索領(lǐng)域的傳統(tǒng)技術(shù)在實(shí)際應(yīng)用中面臨一個(gè)普遍難題:如何在信息覆蓋度和語(yǔ)義一致性之間取得平衡。
2、傳統(tǒng)方法大多基于關(guān)鍵詞匹配或統(tǒng)計(jì)模型技術(shù),如tf-idf模型或簡(jiǎn)單的詞向量方法。這些方法能夠覆蓋較多的潛在相關(guān)信息,但在深層語(yǔ)義理解方面能力有限,常常導(dǎo)致以下問(wèn)題:第一,信息覆蓋度過(guò)高,導(dǎo)致相關(guān)性不足。傳統(tǒng)方法在提高檢索范圍時(shí),容易引入大量噪聲信息,由于僅依賴(lài)關(guān)鍵詞或淺層語(yǔ)義,檢索結(jié)果可能包含大量無(wú)關(guān)文檔或片段,用戶(hù)需要耗費(fèi)額外的時(shí)間篩選真正相關(guān)的信息。第二,語(yǔ)義一致性難以保障。檢索結(jié)果中的內(nèi)容通常缺乏上下文一致性,片段之間可能出現(xiàn)邏輯脫節(jié)或語(yǔ)義沖突,難以形成清晰的知識(shí)鏈條。這種問(wèn)題在需要整合多層次信息時(shí)尤為明顯,例如從短語(yǔ)到句子再到段落的綜合分析。第三,長(zhǎng)文檔處理能力不足。面對(duì)復(fù)雜的長(zhǎng)文檔,傳統(tǒng)方法無(wú)法有效地分塊并提取多層次語(yǔ)義信息,僅能提供零散的文檔片段,無(wú)法滿(mǎn)足用戶(hù)對(duì)語(yǔ)義完整性和邏輯連貫性的要求。
3、上述問(wèn)題凸顯了信息覆蓋度和語(yǔ)義一致性之間的矛盾:一方面,提高信息覆蓋度可能導(dǎo)致語(yǔ)義一致性下降;另一方面,過(guò)于追求語(yǔ)義一致性可能導(dǎo)致信息覆蓋度不足,遺漏潛在的相關(guān)內(nèi)容。傳統(tǒng)信息檢索方法難以在這兩者之間找到有效的平衡,無(wú)法充分滿(mǎn)足企業(yè)對(duì)于高效、
技術(shù)實(shí)現(xiàn)思路
1、基于此,有必要針對(duì)上述技術(shù)問(wèn)題,提供一種基于智能分詞的書(shū)籍內(nèi)容檢索方法、裝置和計(jì)算機(jī)設(shè)備。
2、一種基于智能分詞的書(shū)籍內(nèi)容檢索方法,所述方法包括:
3、對(duì)新增書(shū)籍進(jìn)行智能分詞處理,得到對(duì)應(yīng)的分詞結(jié)果,對(duì)所述分詞結(jié)果進(jìn)行基于語(yǔ)義關(guān)聯(lián)規(guī)則的分塊處理,得到多個(gè)分塊;
4、獲取每一分塊的抽取式摘要,根據(jù)所述抽取式摘要調(diào)整原始提示模板得到第一語(yǔ)義提取提示模板,利用微調(diào)后的局部語(yǔ)義提取大模型和第一語(yǔ)義提取提示模板對(duì)每一分塊進(jìn)行語(yǔ)義提取,得到每一分塊的輸出文本;
5、獲取新增書(shū)籍的生成式摘要,根據(jù)所述生成式摘要和原始提示模板構(gòu)建第二語(yǔ)義提取提示模板,將每一分塊的輸出文本和所述第二語(yǔ)義提取提示模板輸入全局語(yǔ)義提取大模型中,輸出新增書(shū)籍的語(yǔ)義簡(jiǎn)介并向量化存儲(chǔ)至語(yǔ)義簡(jiǎn)介庫(kù)中;
6、獲取用戶(hù)檢索語(yǔ)句,根據(jù)用戶(hù)檢索語(yǔ)句的向量表示在所述語(yǔ)義簡(jiǎn)介庫(kù)中進(jìn)行相似度匹配,輸出匹配結(jié)果,將排名靠前的匹配結(jié)果以及對(duì)應(yīng)的語(yǔ)義簡(jiǎn)介反饋至用戶(hù)界面。
7、一種基于智能分詞的書(shū)籍內(nèi)容檢索裝置,所述裝置包括:
8、分塊處理模塊,用于對(duì)新增書(shū)籍進(jìn)行智能分詞處理,得到對(duì)應(yīng)的分詞結(jié)果,對(duì)所述分詞結(jié)果進(jìn)行基于語(yǔ)義關(guān)聯(lián)規(guī)則的分塊處理,得到多個(gè)分塊;
9、分塊語(yǔ)義提取模塊,用于獲取每一分塊的抽取式摘要,根據(jù)所述抽取式摘要調(diào)整原始提示模板得到第一語(yǔ)義提取提示模板,利用微調(diào)后的局部語(yǔ)義提取大模型和第一語(yǔ)義提取提示模板對(duì)每一分塊進(jìn)行語(yǔ)義提取,得到每一分塊的輸出文本;
10、語(yǔ)義簡(jiǎn)介提取模塊,用于獲取新增書(shū)籍的生成式摘要,根據(jù)所述生成式摘要和原始提示模板構(gòu)建第二語(yǔ)義提取提示模板,將每一分塊的輸出文本和所述第二語(yǔ)義提取提示模板輸入全局語(yǔ)義提取大模型中,輸出新增書(shū)籍的語(yǔ)義簡(jiǎn)介并向量化存儲(chǔ)至語(yǔ)義簡(jiǎn)介庫(kù)中;
11、檢索輸出模塊,用于獲取用戶(hù)檢索語(yǔ)句,根據(jù)用戶(hù)檢索語(yǔ)句的向量表示在所述語(yǔ)義簡(jiǎn)介庫(kù)中進(jìn)行相似度匹配,輸出匹配結(jié)果,將排名靠前的匹配結(jié)果以及對(duì)應(yīng)的語(yǔ)義簡(jiǎn)介反饋至用戶(hù)界面。
12、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)以下步驟:
13、對(duì)新增書(shū)籍進(jìn)行智能分詞處理,得到對(duì)應(yīng)的分詞結(jié)果,對(duì)所述分詞結(jié)果進(jìn)行基于語(yǔ)義關(guān)聯(lián)規(guī)則的分塊處理,得到多個(gè)分塊;
14、獲取每一分塊的抽取式摘要,根據(jù)所述抽取式摘要調(diào)整原始提示模板得到第一語(yǔ)義提取提示模板,利用微調(diào)后的局部語(yǔ)義提取大模型和第一語(yǔ)義提取提示模板對(duì)每一分塊進(jìn)行語(yǔ)義提取,得到每一分塊的輸出文本;
15、獲取新增書(shū)籍的生成式摘要,根據(jù)所述生成式摘要和原始提示模板構(gòu)建第二語(yǔ)義提取提示模板,將每一分塊的輸出文本和所述第二語(yǔ)義提取提示模板輸入全局語(yǔ)義提取大模型中,輸出新增書(shū)籍的語(yǔ)義簡(jiǎn)介并向量化存儲(chǔ)至語(yǔ)義簡(jiǎn)介庫(kù)中;
16、獲取用戶(hù)檢索語(yǔ)句,根據(jù)用戶(hù)檢索語(yǔ)句的向量表示在所述語(yǔ)義簡(jiǎn)介庫(kù)中進(jìn)行相似度匹配,輸出匹配結(jié)果,將排名靠前的匹配結(jié)果以及對(duì)應(yīng)的語(yǔ)義簡(jiǎn)介反饋至用戶(hù)界面。
17、上述基于智能分詞的書(shū)籍內(nèi)容檢索方法、裝置和計(jì)算機(jī)設(shè)備,通過(guò)智能分詞把新增書(shū)籍文本細(xì)化為語(yǔ)義單元,實(shí)現(xiàn)廣泛信息覆蓋,依據(jù)語(yǔ)義關(guān)聯(lián)規(guī)則進(jìn)行分塊,保證各塊語(yǔ)義相對(duì)統(tǒng)一,初步平衡信息覆蓋度與語(yǔ)義一致性,為長(zhǎng)文檔處理打下基礎(chǔ),通過(guò)抽取式摘要精準(zhǔn)提煉分塊關(guān)鍵信息,在維持信息重要性覆蓋的同時(shí)壓縮信息,依此調(diào)整語(yǔ)義提取模板,使得后續(xù)提取圍繞核心語(yǔ)義,強(qiáng)化語(yǔ)義一致性,有利于助力多層次語(yǔ)義提取時(shí)兩者平衡推進(jìn)。通過(guò)生成式摘要從整體把握書(shū)籍核心,結(jié)合分塊輸出構(gòu)建語(yǔ)義簡(jiǎn)介,能夠把控整體語(yǔ)義方向,提升信息覆蓋,依據(jù)其構(gòu)建的模板引導(dǎo)模型生成語(yǔ)義簡(jiǎn)介,有利于保障與各層級(jí)語(yǔ)義協(xié)調(diào)。從而使得用戶(hù)在檢索時(shí)的語(yǔ)義匹配能深入語(yǔ)義層面,實(shí)現(xiàn)全面搜索且精準(zhǔn)定位。本專(zhuān)利技術(shù)實(shí)施例,能夠提高智能檢索服務(wù)的高效性和精準(zhǔn)性。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于智能分詞的書(shū)籍內(nèi)容檢索方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)新增書(shū)籍內(nèi)容進(jìn)行智能分詞處理,得到對(duì)應(yīng)的分詞結(jié)果包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述分詞結(jié)果進(jìn)行基于語(yǔ)義關(guān)聯(lián)規(guī)則的分塊處理,得到多個(gè)分塊包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述抽取式摘要調(diào)整原始提示模板得到第一語(yǔ)義提取提示模板包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用微調(diào)后的局部語(yǔ)義提取大模型和第一語(yǔ)義提取提示模板對(duì)每一分塊進(jìn)行語(yǔ)義提取,得到每一分塊的輸出文本包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,利用微調(diào)后的大語(yǔ)言模型與第一語(yǔ)義提取提示模板進(jìn)行交互,逐步提取分塊內(nèi)各級(jí)語(yǔ)義信息,得到每一分塊的輸出文本包括:
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述生成式摘要和原始提示模板構(gòu)建第二語(yǔ)義提取提示模板包括:
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,將每一分塊的輸出文本和所述第二語(yǔ)義提取提示模板輸入全局語(yǔ)義提取大模型中,輸出
9.一種基于智能分詞的書(shū)籍內(nèi)容檢索裝置,其特征在于,所述裝置包括:
10.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至8中任一項(xiàng)所述方法的步驟。
...【技術(shù)特征摘要】
1.一種基于智能分詞的書(shū)籍內(nèi)容檢索方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)新增書(shū)籍內(nèi)容進(jìn)行智能分詞處理,得到對(duì)應(yīng)的分詞結(jié)果包括:
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,對(duì)所述分詞結(jié)果進(jìn)行基于語(yǔ)義關(guān)聯(lián)規(guī)則的分塊處理,得到多個(gè)分塊包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述抽取式摘要調(diào)整原始提示模板得到第一語(yǔ)義提取提示模板包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,利用微調(diào)后的局部語(yǔ)義提取大模型和第一語(yǔ)義提取提示模板對(duì)每一分塊進(jìn)行語(yǔ)義提取,得到每一分塊的輸出文本包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:劉躍華,溫柔,文婧嫻,
申請(qǐng)(專(zhuān)利權(quán))人:湖南正宇軟件技術(shù)開(kāi)發(fā)有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。