System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及計(jì)算機(jī),具體地涉及一種基于互聯(lián)網(wǎng)搜索的大語(yǔ)言模型增強(qiáng)方法、裝置及設(shè)備。
技術(shù)介紹
1、網(wǎng)絡(luò)搜索引擎是用戶從互聯(lián)網(wǎng)上主動(dòng)獲取信息最主要的方式之一,傳統(tǒng)的搜索引擎被動(dòng)的接受用戶的搜索請(qǐng)求,然后展示排序后的搜索結(jié)果列表。這種模式下搜索引擎和用戶的交互性弱,用戶需要自行分辨、提取和總結(jié)檢索結(jié)果中的有效信息。在此背景下,結(jié)合大語(yǔ)言模型和信息檢索技術(shù)的檢索增強(qiáng)生成技術(shù)會(huì)在未來的互聯(lián)網(wǎng)中扮演越來越重要的作用。應(yīng)用于檢索增強(qiáng)生成技術(shù)后,搜索引擎會(huì)將檢索結(jié)果精煉后連同用戶請(qǐng)求一起輸入大語(yǔ)言模型,以生成最終的回答。
2、由于大語(yǔ)言模型輸入窗口的限制,對(duì)檢索結(jié)果精煉這一步驟尤其關(guān)鍵。現(xiàn)有的檢索結(jié)果精煉算法包括:切片-重排和摘要生成等,其方法主要是從純文本中優(yōu)化檢索結(jié)果。但搜索引擎的檢索結(jié)果主要以超文本標(biāo)記語(yǔ)言(hyper?text?markup?language,html)格式存在,如果將html文本優(yōu)化簡(jiǎn)化為純文本優(yōu)化,可能會(huì)出現(xiàn)內(nèi)容和結(jié)構(gòu)信息的丟失,無(wú)法提取核心內(nèi)容。精煉算法的效果不佳進(jìn)而會(huì)影響大語(yǔ)言模型的輸出質(zhì)量,其最終生成的回答可能無(wú)法達(dá)到理想效果,影響用戶體驗(yàn)。
技術(shù)實(shí)現(xiàn)思路
1、有鑒于此,本申請(qǐng)?zhí)峁┮环N基于互聯(lián)網(wǎng)搜索的大語(yǔ)言模型增強(qiáng)方法、裝置及設(shè)備,以利于解決現(xiàn)有技術(shù)中檢索結(jié)果精煉效果不佳的問題。
2、第一方面,本申請(qǐng)實(shí)施例提供了一種基于互聯(lián)網(wǎng)搜索的大語(yǔ)言模型增強(qiáng)方法,包括:
3、響應(yīng)于用戶的搜索請(qǐng)求,獲取檢索結(jié)果數(shù)據(jù);
4、基于所述
5、基于所述第一檢索精煉數(shù)據(jù)構(gòu)建第二塊樹,第二塊樹的顆粒度小于所述第一塊樹的顆粒度;
6、基于路徑生成模型對(duì)所述第二塊樹進(jìn)行第二剪枝操作,得到第二檢索精煉數(shù)據(jù),所述第二檢索精煉數(shù)據(jù)用于輸入大語(yǔ)言模型生成與所述搜索請(qǐng)求相符合的回答。
7、一種可選地實(shí)施例中,所述基于所述檢索結(jié)果數(shù)據(jù)構(gòu)建第一塊樹block?tree,包括:
8、基于文檔清洗算法對(duì)所述檢索結(jié)果數(shù)據(jù)進(jìn)行處理;
9、對(duì)處理后的檢索結(jié)果數(shù)據(jù)進(jìn)行格式轉(zhuǎn)換,生成對(duì)應(yīng)的dom樹;
10、基于第一塊樹構(gòu)造算法對(duì)所述dom樹進(jìn)行處理,構(gòu)建所述第一塊樹。
11、一種可選地實(shí)施例中,所述基于文檔清洗算法對(duì)所述檢索結(jié)果數(shù)據(jù)進(jìn)行處理,包括:
12、清除所述檢索結(jié)果數(shù)據(jù)中的層疊樣式表css格式文本和javascript腳本;
13、清除所述檢索結(jié)果數(shù)據(jù)中超文本標(biāo)記語(yǔ)言html標(biāo)簽的屬性;
14、對(duì)html文檔進(jìn)行標(biāo)簽合并,組合生成單一的html文檔。
15、一種可選地實(shí)施例中,所述基于第一塊樹構(gòu)造算法對(duì)所述dom樹進(jìn)行處理,構(gòu)建所述第一塊樹,包括:
16、基于廣度優(yōu)先算法遍歷所述dom樹的各個(gè)節(jié)點(diǎn);
17、對(duì)于任一節(jié)點(diǎn),檢測(cè)到當(dāng)前節(jié)點(diǎn)所包含的所有內(nèi)容的總詞數(shù)小于預(yù)設(shè)的詞數(shù)閾值時(shí),合并當(dāng)前節(jié)點(diǎn)的所有內(nèi)容,并將合并后的節(jié)點(diǎn)內(nèi)容視為一個(gè)塊;
18、對(duì)于任一節(jié)點(diǎn),檢測(cè)到當(dāng)前節(jié)點(diǎn)所包含的所有內(nèi)容的總詞數(shù)大于或等于所述詞數(shù)閾值時(shí),不對(duì)當(dāng)前節(jié)點(diǎn)進(jìn)行操作并遍歷當(dāng)前節(jié)點(diǎn)的子節(jié)點(diǎn)。
19、一種可選地實(shí)施例中,所述并基于嵌入式模型對(duì)所述第一塊樹進(jìn)行第一剪枝操作,得到第一檢索精煉數(shù)據(jù),包括:
20、基于所述嵌入式模型計(jì)算所述第一塊樹中每個(gè)塊與所述用戶的搜索請(qǐng)求的相關(guān)性;
21、基于相關(guān)性由小到大的順序?qū)λ龅谝粔K樹的塊依次進(jìn)行剪枝操作;
22、對(duì)完成剪枝操作的第一塊樹進(jìn)行格式轉(zhuǎn)換,得到所述第一檢索精煉數(shù)據(jù)。
23、一種可選地實(shí)施例中,所述并基于路徑生成模型對(duì)所述第二塊樹進(jìn)行第二剪枝操作,得到第二檢索精煉數(shù)據(jù),包括:
24、基于所述路徑生成模型計(jì)算在當(dāng)前用戶的搜索請(qǐng)求條件下,所述第二塊樹中每個(gè)塊的路徑生成概率;
25、基于路徑生成概率由小到大的順序?qū)λ龅诙K樹的塊依次進(jìn)行剪枝操作;
26、對(duì)完成剪枝操作的第二塊樹進(jìn)行格式轉(zhuǎn)換,得到所述第二檢索精煉數(shù)據(jù)。
27、一種可選地實(shí)施例中,所述基于所述路徑生成模型計(jì)算在當(dāng)前用戶的搜索請(qǐng)求條件下,所述第二塊樹中每個(gè)塊的路徑生成概率,包括:
28、構(gòu)建與所述第二塊樹對(duì)應(yīng)的令牌樹token?tree,所述令牌樹包含多個(gè)序列,每個(gè)序列包含至少一個(gè)節(jié)點(diǎn);
29、基于所述路徑生成模型計(jì)算所述令牌樹同一序列中各個(gè)節(jié)點(diǎn)的第一概率;
30、基于深度優(yōu)先算法遍歷所述令牌樹的各個(gè)節(jié)點(diǎn),對(duì)于遍歷的任一節(jié)點(diǎn),基于當(dāng)前節(jié)點(diǎn)在所述令牌樹的路徑以及所述令牌樹各節(jié)點(diǎn)的第一概率確定當(dāng)前節(jié)點(diǎn)的路徑生成概率。
31、第二方面,本申請(qǐng)實(shí)施例提供了一種基于互聯(lián)網(wǎng)搜索的大語(yǔ)言模型增強(qiáng)裝置,包括:
32、獲取模塊,用于響應(yīng)于用戶的搜索請(qǐng)求,獲取檢索結(jié)果數(shù)據(jù);
33、第一處理模塊,用于基于所述檢索結(jié)果數(shù)據(jù)構(gòu)建第一塊樹block?tree,并基于嵌入式模型對(duì)所述第一塊樹進(jìn)行第一剪枝操作,得到第一檢索精煉數(shù)據(jù);
34、第二處理模塊,用于基于所述第一檢索精煉數(shù)據(jù)構(gòu)建第二塊樹,第二塊樹的顆粒度小于所述第一塊樹的顆粒度;
35、所述第二處理模塊,還用于基于路徑生成模型對(duì)所述第二塊樹進(jìn)行第二剪枝操作,得到第二檢索精煉數(shù)據(jù),所述第二檢索精煉數(shù)據(jù)用于輸入大語(yǔ)言模型生成與所述搜索請(qǐng)求相符合的回答。
36、第三方面,本申請(qǐng)實(shí)施例提供了一種電子設(shè)備,包括用于存儲(chǔ)計(jì)算機(jī)程序指令的存儲(chǔ)器和用于執(zhí)行程序指令的處理器,其中,當(dāng)該計(jì)算機(jī)程序指令被所述處理器執(zhí)行時(shí),觸發(fā)所述電子設(shè)備執(zhí)行上述第一方面任一項(xiàng)所述的方法。
37、第四方面,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在所述程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行第一方面任一項(xiàng)所述的方法。
38、第五方面,本申請(qǐng)實(shí)施例提供了一種計(jì)算機(jī)程序產(chǎn)品,所述計(jì)算機(jī)程序產(chǎn)品包含可執(zhí)行指令,當(dāng)所述可執(zhí)行指令在計(jì)算機(jī)上執(zhí)行時(shí),使得計(jì)算機(jī)執(zhí)行第一方面任一項(xiàng)所述的方法。
39、采用本申請(qǐng)實(shí)施例所提供的方案,響應(yīng)于用戶的搜索請(qǐng)求,獲取檢索結(jié)果數(shù)據(jù);基于檢索結(jié)果數(shù)據(jù)構(gòu)建第一塊樹block?tree,并基于嵌入式模型對(duì)第一塊樹進(jìn)行第一剪枝操作,得到第一檢索精煉數(shù)據(jù);基于第一檢索精煉數(shù)據(jù)構(gòu)建第二塊樹,并基于路徑生成模型對(duì)第二塊樹進(jìn)行第二剪枝操作,得到第二檢索精煉數(shù)據(jù),第二檢索精煉數(shù)據(jù)用于輸入大語(yǔ)言模型生成與搜索請(qǐng)求相符合的回答。本申請(qǐng)實(shí)施例中,嵌入式模型精煉速度較快,路徑生成模型精煉的粒度更細(xì),通過結(jié)合嵌入式模型和路徑生成模型對(duì)檢索結(jié)果數(shù)據(jù)進(jìn)行精煉,可得到質(zhì)量較高的檢索精煉數(shù)據(jù),進(jìn)而提高大語(yǔ)言模型的回答質(zhì)量。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于互聯(lián)網(wǎng)搜索的大語(yǔ)言模型增強(qiáng)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述檢索結(jié)果數(shù)據(jù)構(gòu)建第一塊樹Block?Tree,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于文檔清洗算法對(duì)所述檢索結(jié)果數(shù)據(jù)進(jìn)行處理,包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于第一塊樹構(gòu)造算法對(duì)所述DOM樹進(jìn)行處理,構(gòu)建所述第一塊樹,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述并基于嵌入式模型對(duì)所述第一塊樹進(jìn)行第一剪枝操作,得到第一檢索精煉數(shù)據(jù),包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述并基于路徑生成模型對(duì)所述第二塊樹進(jìn)行第二剪枝操作,得到第二檢索精煉數(shù)據(jù),包括:
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述基于所述路徑生成模型計(jì)算在當(dāng)前用戶的搜索請(qǐng)求條件下,所述第二塊樹中每個(gè)塊的路徑生成概率,包括:
8.一種基于互聯(lián)網(wǎng)搜索的大語(yǔ)言模型增強(qiáng)裝置,其特征在于,包括:
9.一種電子設(shè)備,其特征在于,包括用于存儲(chǔ)計(jì)算機(jī)程序指令
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)包括存儲(chǔ)的程序,其中,在所述程序運(yùn)行時(shí)控制所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)所在設(shè)備執(zhí)行權(quán)利要求1至7中任意一項(xiàng)所述的方法。
...【技術(shù)特征摘要】
1.一種基于互聯(lián)網(wǎng)搜索的大語(yǔ)言模型增強(qiáng)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述基于所述檢索結(jié)果數(shù)據(jù)構(gòu)建第一塊樹block?tree,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于文檔清洗算法對(duì)所述檢索結(jié)果數(shù)據(jù)進(jìn)行處理,包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述基于第一塊樹構(gòu)造算法對(duì)所述dom樹進(jìn)行處理,構(gòu)建所述第一塊樹,包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述并基于嵌入式模型對(duì)所述第一塊樹進(jìn)行第一剪枝操作,得到第一檢索精煉數(shù)據(jù),包括:
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述并基于路徑生成模型對(duì)所述第二塊樹進(jìn)行第二剪...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:竇志成,譚杰駿,文繼榮,王文,王蟒,陳煒鵬,
申請(qǐng)(專利權(quán))人:中國(guó)人民大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。