當(dāng)前位置: 首頁(yè) > 專(zhuān)利查詢(xún)>湖南正宇軟件技術(shù)開(kāi)發(fā)有限公司專(zhuān)利>正文

基于智能分詞的書(shū)籍內(nèi)容檢索方法、裝置和計(jì)算機(jī)設(shè)備制造方法及圖紙

技術(shù)編號(hào)：44458508 閱讀：3 留言：0更新日期：2025-02-28 19:05

本申請(qǐng)涉及一種基于智能分詞的書(shū)籍內(nèi)容檢索方法、裝置和計(jì)算機(jī)設(shè)備。方法包括：獲取新增書(shū)籍的分詞結(jié)果，對(duì)分詞結(jié)果進(jìn)行分塊處理得到多個(gè)分塊；獲取每一分塊的抽取式摘要，根據(jù)抽取式摘要調(diào)整原始提示模板得到第一語(yǔ)義提取提示模板，利用微調(diào)后的局部語(yǔ)義提取大模型和第一語(yǔ)義提取提示模板對(duì)每一分塊進(jìn)行語(yǔ)義提取得到每一分塊的輸出文本；獲取新增書(shū)籍的生成式摘要，根據(jù)生成式摘要和原始提示模板構(gòu)建第二語(yǔ)義提取提示模板，將每一分塊的輸出文本和第二語(yǔ)義提取提示模板輸入全局語(yǔ)義提取大模型中，輸出新增書(shū)籍的語(yǔ)義簡(jiǎn)介并存儲(chǔ)至語(yǔ)義簡(jiǎn)介庫(kù)；根據(jù)用戶(hù)檢索語(yǔ)句在語(yǔ)義簡(jiǎn)介庫(kù)中進(jìn)行檢索。采用本方法能夠提高智能檢索的高效性和精準(zhǔn)性。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本申請(qǐng)涉及數(shù)據(jù)處理，特別是涉及一種基于智能分詞的書(shū)籍內(nèi)容檢索方法、裝置和計(jì)算機(jī)設(shè)備。

技術(shù)介紹

1、隨著數(shù)字化進(jìn)程的推進(jìn)，書(shū)籍和文檔資源的管理與檢索成為企業(yè)知識(shí)管理的核心問(wèn)題之一。企業(yè)通常需要在大規(guī)模文檔庫(kù)中快速定位與業(yè)務(wù)相關(guān)的信息，以支持決策、研發(fā)及運(yùn)營(yíng)。然而，目前信息檢索領(lǐng)域的傳統(tǒng)技術(shù)在實(shí)際應(yīng)用中面臨一個(gè)普遍難題：如何在信息覆蓋度和語(yǔ)義一致性之間取得平衡。

2、傳統(tǒng)方法大多基于關(guān)鍵詞匹配或統(tǒng)計(jì)模型技術(shù)，如tf-idf模型或簡(jiǎn)單的詞向量方法。這些方法能夠覆蓋較多的潛在相關(guān)信息，但在深層語(yǔ)義理解方面能力有限，常常導(dǎo)致以下問(wèn)題：第一，信息覆蓋度過(guò)高，導(dǎo)致相關(guān)性不足。傳統(tǒng)方法在提高檢索范圍時(shí)，容易引入大量噪聲信息，由于僅依賴(lài)關(guān)鍵詞或淺層語(yǔ)義，檢索結(jié)果可能包含大量無(wú)關(guān)文檔或片段，用戶(hù)需要耗費(fèi)額外的時(shí)間篩選真正相關(guān)的信息。第二，語(yǔ)義一致性難以保障。檢索結(jié)果中的內(nèi)容通常缺乏上下文一致性，片段之間可能出現(xiàn)邏輯脫節(jié)或語(yǔ)義沖突，難以形成清晰的知識(shí)鏈條。這種問(wèn)題在需要整合多層次信息時(shí)尤為明顯，例如從短語(yǔ)到句子再到段落的綜合分析。第三，長(zhǎng)文檔處理能力不足。面對(duì)復(fù)雜的長(zhǎng)文檔，傳統(tǒng)方法無(wú)法有效地分塊并提取多層次語(yǔ)義信息，僅能提供零散的文檔片段，無(wú)法滿(mǎn)足用戶(hù)對(duì)語(yǔ)義完整性和邏輯連貫性的要求。

3、上述問(wèn)題凸顯了信息覆蓋度和語(yǔ)義一致性之間的矛盾：一方面，提高信息覆蓋度可能導(dǎo)致語(yǔ)義一致性下降；另一方面，過(guò)于追求語(yǔ)義一致性可能導(dǎo)致信息覆蓋度不足，遺漏潛在的相關(guān)內(nèi)容。傳統(tǒng)信息檢索方法難以在這兩者之間找到有效的平衡，無(wú)法充分滿(mǎn)足企業(yè)對(duì)于高效、精準(zhǔn)信息檢索的需求。

技術(shù)實(shí)現(xiàn)思路

1、基于此，有必要針對(duì)上述技術(shù)問(wèn)題，提供一種基于智能分詞的書(shū)籍內(nèi)容檢索方法、裝置和計(jì)算機(jī)設(shè)備。

2、一種基于智能分詞的書(shū)籍內(nèi)容檢索方法，所述方法包括：

3、對(duì)新增書(shū)籍進(jìn)行智能分詞處理，得到對(duì)應(yīng)的分詞結(jié)果，對(duì)所述分詞結(jié)果進(jìn)行基于語(yǔ)義關(guān)聯(lián)規(guī)則的分塊處理，得到多個(gè)分塊；

4、獲取每一分塊的抽取式摘要，根據(jù)所述抽取式摘要調(diào)整原始提示模板得到第一語(yǔ)義提取提示模板，利用微調(diào)后的局部語(yǔ)義提取大模型和第一語(yǔ)義提取提示模板對(duì)每一分塊進(jìn)行語(yǔ)義提取，得到每一分塊的輸出文本；

5、獲取新增書(shū)籍的生成式摘要，根據(jù)所述生成式摘要和原始提示模板構(gòu)建第二語(yǔ)義提取提示模板，將每一分塊的輸出文本和所述第二語(yǔ)義提取提示模板輸入全局語(yǔ)義提取大模型中，輸出新增書(shū)籍的語(yǔ)義簡(jiǎn)介并向量化存儲(chǔ)至語(yǔ)義簡(jiǎn)介庫(kù)中；

6、獲取用戶(hù)檢索語(yǔ)句，根據(jù)用戶(hù)檢索語(yǔ)句的向量表示在所述語(yǔ)義簡(jiǎn)介庫(kù)中進(jìn)行相似度匹配，輸出匹配結(jié)果，將排名靠前的匹配結(jié)果以及對(duì)應(yīng)的語(yǔ)義簡(jiǎn)介反饋至用戶(hù)界面。

7、一種基于智能分詞的書(shū)籍內(nèi)容檢索裝置，所述裝置包括：

8、分塊處理模塊，用于對(duì)新增書(shū)籍進(jìn)行智能分詞處理，得到對(duì)應(yīng)的分詞結(jié)果，對(duì)所述分詞結(jié)果進(jìn)行基于語(yǔ)義關(guān)聯(lián)規(guī)則的分塊處理，得到多個(gè)分塊；

9、分塊語(yǔ)義提取模塊，用于獲取每一分塊的抽取式摘要，根據(jù)所述抽取式摘要調(diào)整原始提示模板得到第一語(yǔ)義提取提示模板，利用微調(diào)后的局部語(yǔ)義提取大模型和第一語(yǔ)義提取提示模板對(duì)每一分塊進(jìn)行語(yǔ)義提取，得到每一分塊的輸出文本；

10、語(yǔ)義簡(jiǎn)介提取模塊，用于獲取新增書(shū)籍的生成式摘要，根據(jù)所述生成式摘要和原始提示模板構(gòu)建第二語(yǔ)義提取提示模板，將每一分塊的輸出文本和所述第二語(yǔ)義提取提示模板輸入全局語(yǔ)義提取大模型中，輸出新增書(shū)籍的語(yǔ)義簡(jiǎn)介并向量化存儲(chǔ)至語(yǔ)義簡(jiǎn)介庫(kù)中；

11、檢索輸出模塊，用于獲取用戶(hù)檢索語(yǔ)句，根據(jù)用戶(hù)檢索語(yǔ)句的向量表示在所述語(yǔ)義簡(jiǎn)介庫(kù)中進(jìn)行相似度匹配，輸出匹配結(jié)果，將排名靠前的匹配結(jié)果以及對(duì)應(yīng)的語(yǔ)義簡(jiǎn)介反饋至用戶(hù)界面。

12、一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)以下步驟：

13、對(duì)新增書(shū)籍進(jìn)行智能分詞處理，得到對(duì)應(yīng)的分詞結(jié)果，對(duì)所述分詞結(jié)果進(jìn)行基于語(yǔ)義關(guān)聯(lián)規(guī)則的分塊處理，得到多個(gè)分塊；

14、獲取每一分塊的抽取式摘要，根據(jù)所述抽取式摘要調(diào)整原始提示模板得到第一語(yǔ)義提取提示模板，利用微調(diào)后的局部語(yǔ)義提取大模型和第一語(yǔ)義提取提示模板對(duì)每一分塊進(jìn)行語(yǔ)義提取，得到每一分塊的輸出文本；

15、獲取新增書(shū)籍的生成式摘要，根據(jù)所述生成式摘要和原始提示模板構(gòu)建第二語(yǔ)義提取提示模板，將每一分塊的輸出文本和所述第二語(yǔ)義提取提示模板輸入全局語(yǔ)義提取大模型中，輸出新增書(shū)籍的語(yǔ)義簡(jiǎn)介并向量化存儲(chǔ)至語(yǔ)義簡(jiǎn)介庫(kù)中；

16、獲取用戶(hù)檢索語(yǔ)句，根據(jù)用戶(hù)檢索語(yǔ)句的向量表示在所述語(yǔ)義簡(jiǎn)介庫(kù)中進(jìn)行相似度匹配，輸出匹配結(jié)果，將排名靠前的匹配結(jié)果以及對(duì)應(yīng)的語(yǔ)義簡(jiǎn)介反饋至用戶(hù)界面。

17、上述基于智能分詞的書(shū)籍內(nèi)容檢索方法、裝置和計(jì)算機(jī)設(shè)備，通過(guò)智能分詞把新增書(shū)籍文本細(xì)化為語(yǔ)義單元，實(shí)現(xiàn)廣泛信息覆蓋，依據(jù)語(yǔ)義關(guān)聯(lián)規(guī)則進(jìn)行分塊，保證各塊語(yǔ)義相對(duì)統(tǒng)一，初步平衡信息覆蓋度與語(yǔ)義一致性，為長(zhǎng)文檔處理打下基礎(chǔ)，通過(guò)抽取式摘要精準(zhǔn)提煉分塊關(guān)鍵信息，在維持信息重要性覆蓋的同時(shí)壓縮信息，依此調(diào)整語(yǔ)義提取模板，使得后續(xù)提取圍繞核心語(yǔ)義，強(qiáng)化語(yǔ)義一致性，有利于助力多層次語(yǔ)義提取時(shí)兩者平衡推進(jìn)。通過(guò)生成式摘要從整體把握書(shū)籍核心，結(jié)合分塊輸出構(gòu)建語(yǔ)義簡(jiǎn)介，能夠把控整體語(yǔ)義方向，提升信息覆蓋，依據(jù)其構(gòu)建的模板引導(dǎo)模型生成語(yǔ)義簡(jiǎn)介，有利于保障與各層級(jí)語(yǔ)義協(xié)調(diào)。從而使得用戶(hù)在檢索時(shí)的語(yǔ)義匹配能深入語(yǔ)義層面，實(shí)現(xiàn)全面搜索且精準(zhǔn)定位。本專(zhuān)利技術(shù)實(shí)施例，能夠提高智能檢索服務(wù)的高效性和精準(zhǔn)性。

本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種基于智能分詞的書(shū)籍內(nèi)容檢索方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，對(duì)新增書(shū)籍內(nèi)容進(jìn)行智能分詞處理，得到對(duì)應(yīng)的分詞結(jié)果包括：

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，對(duì)所述分詞結(jié)果進(jìn)行基于語(yǔ)義關(guān)聯(lián)規(guī)則的分塊處理，得到多個(gè)分塊包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)所述抽取式摘要調(diào)整原始提示模板得到第一語(yǔ)義提取提示模板包括：

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，利用微調(diào)后的局部語(yǔ)義提取大模型和第一語(yǔ)義提取提示模板對(duì)每一分塊進(jìn)行語(yǔ)義提取，得到每一分塊的輸出文本包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，利用微調(diào)后的大語(yǔ)言模型與第一語(yǔ)義提取提示模板進(jìn)行交互，逐步提取分塊內(nèi)各級(jí)語(yǔ)義信息，得到每一分塊的輸出文本包括：

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)所述生成式摘要和原始提示模板構(gòu)建第二語(yǔ)義提取提示模板包括：

8.根據(jù)權(quán)利要求7所述的方法，其特征在于，將每一分塊的輸出文本和所述第二語(yǔ)義提取提示模板輸入全局語(yǔ)義提取大模型中，輸出

9.一種基于智能分詞的書(shū)籍內(nèi)容檢索裝置，其特征在于，所述裝置包括：

10.一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至8中任一項(xiàng)所述方法的步驟。

...

【技術(shù)特征摘要】

1.一種基于智能分詞的書(shū)籍內(nèi)容檢索方法，其特征在于，所述方法包括：

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，對(duì)新增書(shū)籍內(nèi)容進(jìn)行智能分詞處理，得到對(duì)應(yīng)的分詞結(jié)果包括：

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，根據(jù)所述抽取式摘要調(diào)整原始提示模板得到第一語(yǔ)義提取提示模板包括：

6.根據(jù)權(quán)利要求5所述的方法，其特征在于，...

【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員：劉躍華，溫柔，文婧嫻，
申請(qǐng)(專(zhuān)利權(quán))人：湖南正宇軟件技術(shù)開(kāi)發(fā)有限公司，
類(lèi)型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專(zhuān)利的主人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)