System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)實(shí)施例涉及知識問答,尤其涉及一種檢索增強(qiáng)方法、裝置、電子設(shè)備及存儲介質(zhì)。
技術(shù)介紹
1、工程行業(yè)存在品類繁多、內(nèi)容復(fù)雜、專業(yè)性高的各類知識文件,包括:行業(yè)規(guī)范、企業(yè)規(guī)范、設(shè)計(jì)規(guī)格書、報(bào)告、工程來往文函、工程質(zhì)量安全技術(shù)資料,歷史項(xiàng)目資料等。
2、傳統(tǒng)知識庫一般采用大語言模型來進(jìn)行問題搜索,通過大規(guī)模的預(yù)訓(xùn)練來學(xué)習(xí)文本數(shù)據(jù)中的模式和特征,從而具備強(qiáng)大的文本生成和理解能力,在自然語言處理任務(wù)中表現(xiàn)出色,然而在工程咨詢、工程設(shè)計(jì)、工程管理等垂直領(lǐng)域,企業(yè)往往自建知識庫,儲存企業(yè)沉淀的知識、技術(shù)資料、歷史項(xiàng)目資料等,通用大語言模型由于沒有針對該垂直領(lǐng)域進(jìn)行學(xué)習(xí),回答時(shí)缺乏依據(jù),無法基于知識庫進(jìn)行精準(zhǔn)回答。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)提供了一種檢索增強(qiáng)方法、裝置、電子設(shè)備及存儲介質(zhì),以解決現(xiàn)有技術(shù)通過大語言模型進(jìn)行查找無法基于知識庫進(jìn)行精準(zhǔn)回答的問題。
2、根據(jù)本專利技術(shù)的一方面,提供了一種檢索增強(qiáng)方法,包括:
3、通過數(shù)據(jù)連接器對知識庫中的文件進(jìn)行語料提取,通過元數(shù)據(jù)識別器提取文件中的關(guān)鍵信息并識別元數(shù)據(jù);
4、通過切塊分割器對提取的語料進(jìn)行文本切割得到至少一個(gè)文本塊;
5、通過向量計(jì)算庫對所述至少一個(gè)文本塊進(jìn)行向量化處理得到低維向量索引,基于所述元數(shù)據(jù)與所述低維向量索引合并生成多維向量索引并存儲到向量數(shù)據(jù)庫中;
6、對用戶問題進(jìn)行向量化處理后通過多維索引管理器在所述向量數(shù)據(jù)庫中進(jìn)行查找確定出多個(gè)候選文本語
7、通過結(jié)果合成器對所述候選文本語料和用戶問題進(jìn)行預(yù)設(shè)處理后結(jié)合歷史會話文本生成提示詞,所述預(yù)設(shè)處理包括通過融合排名算法從所述候選文本語料中提取權(quán)重高的候選文本語料,壓縮無關(guān)內(nèi)容;
8、通過結(jié)果合成器將所述提示詞輸入大模型輸出查詢內(nèi)容,對所述查詢內(nèi)容進(jìn)行歸納推理后生成檢索結(jié)果。
9、根據(jù)本專利技術(shù)的另一方面,提供了一種檢索增強(qiáng)裝置,包括:
10、提取模塊,用于通過數(shù)據(jù)連接器對知識庫中的文件進(jìn)行語料提取,通過元數(shù)據(jù)識別器提取文件中的關(guān)鍵信息并識別元數(shù)據(jù);
11、切割模塊,用于通過切塊分割器對提取的語料進(jìn)行文本切割得到至少一個(gè)文本塊;
12、合并模塊,用于通過向量計(jì)算庫對所述至少一個(gè)文本塊進(jìn)行向量化處理得到低維向量索引,基于所述元數(shù)據(jù)與所述低維向量索引合并生成多維向量索引并存儲到向量數(shù)據(jù)庫中;
13、查找模塊,用于對用戶問題進(jìn)行向量化處理后通過多維索引管理器在所述向量數(shù)據(jù)庫中進(jìn)行查找確定出多個(gè)候選文本語料;
14、處理模塊,用于通過結(jié)果合成器對所述候選文本語料和用戶問題進(jìn)行預(yù)設(shè)處理后結(jié)合歷史會話文本生成提示詞,所述預(yù)設(shè)處理包括通過融合排名算法從所述候選文本語料中提取權(quán)重高的候選文本語料,壓縮無關(guān)內(nèi)容;
15、生成模塊,用于通過結(jié)果合成器將所述提示詞輸入大模型輸出查詢內(nèi)容,對所述查詢內(nèi)容進(jìn)行歸納推理后生成檢索結(jié)果。
16、根據(jù)本專利技術(shù)的另一方面,提供了一種電子設(shè)備,所述電子設(shè)備包括:至少一個(gè)處理器;以及與所述至少一個(gè)處理器通信連接的存儲器;
17、其中,所述存儲器存儲有可被所述至少一個(gè)處理器執(zhí)行的計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本專利技術(shù)任一實(shí)施例所述的檢索增強(qiáng)方法。
18、根據(jù)本專利技術(shù)的另一方面,提供了一種計(jì)算機(jī)可讀存儲介質(zhì),所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算機(jī)指令,所述計(jì)算機(jī)指令用于使處理器執(zhí)行時(shí)實(shí)現(xiàn)本專利技術(shù)任一實(shí)施例所述的檢索增強(qiáng)方法。
19、本專利技術(shù)實(shí)施例的技術(shù)方案,通過大語言模型和知識檢索,解決了現(xiàn)有技術(shù)直接使用大模型進(jìn)行問答查詢問題時(shí)由于通用大語言模型由于沒有針對工程領(lǐng)域領(lǐng)域進(jìn)行學(xué)習(xí)導(dǎo)致查詢結(jié)果準(zhǔn)確率較低的問題,取到了提高知識查找的準(zhǔn)確性的有益效果。
20、應(yīng)當(dāng)理解,本部分所描述的內(nèi)容并非旨在標(biāo)識本專利技術(shù)的實(shí)施例的關(guān)鍵或重要特征,也不用于限制本專利技術(shù)的范圍。本專利技術(shù)的其它特征將通過以下的說明書而變得容易理解。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種檢索增強(qiáng)方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特在于,通過切塊分割器對提取的語料進(jìn)行文本切割得到至少一個(gè)文本塊,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述頁面文本塊集合、所述段落文本塊集合以及所述句子文本塊集合均包括以下內(nèi)容:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過結(jié)果合成器對所述候選文本語料和用戶問題進(jìn)行預(yù)設(shè)處理后結(jié)合歷史會話文本生成提示詞,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)用戶問題,通過融合排名算法從所述候選文本語料中提取權(quán)重高的候選文本語料,壓縮無關(guān)內(nèi)容得到最終文本語料,包括:
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述元數(shù)據(jù)命中加權(quán)操作包括:
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述聚合文本操作包括:
8.一種檢索增強(qiáng)裝置,其特征在于,所述裝置包括:
9.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
10.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)存儲有計(jì)算
...【技術(shù)特征摘要】
1.一種檢索增強(qiáng)方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特在于,通過切塊分割器對提取的語料進(jìn)行文本切割得到至少一個(gè)文本塊,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述頁面文本塊集合、所述段落文本塊集合以及所述句子文本塊集合均包括以下內(nèi)容:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過結(jié)果合成器對所述候選文本語料和用戶問題進(jìn)行預(yù)設(shè)處理后結(jié)合歷史會話文本生成提示詞,包括:
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)用戶問題,通過融合排名算法從...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:孔晶,左智,黃杰,
申請(專利權(quán))人:上海普華科技發(fā)展股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。