System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及檢索增強(qiáng)生成,具體為一種基于深度學(xué)習(xí)的rag檢索優(yōu)化方法、系統(tǒng)及電子設(shè)備。
技術(shù)介紹
1、在rag(檢索增強(qiáng)生成)檢索領(lǐng)域,當(dāng)知識庫文檔較多的時(shí)候,文本塊成正比的多,可以達(dá)到數(shù)百萬級別,此時(shí)將用戶的問題向量化后從數(shù)百萬級別的文本塊索引計(jì)算召回?cái)?shù)個(gè)文本塊會(huì)使得效率較低,召回速度慢,影響用戶體驗(yàn)。
2、rag現(xiàn)有的方法和實(shí)現(xiàn)原理,將文檔中的文本塊進(jìn)行分塊后,向量化存儲構(gòu)建索引,隨后將問題向量化后與知識庫中的文本塊求相似,召回出topk文本塊返回給大模型生成答案。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)的目的在于提供一種基于深度學(xué)習(xí)的rag檢索優(yōu)化方法、系統(tǒng)及電子設(shè)備,以解決上述
技術(shù)介紹
中提出的問題。
2、通過采用上述技術(shù)方案,實(shí)現(xiàn)了知識庫分類粗召回,可彌補(bǔ)采用以往的全量文本塊召回導(dǎo)致的耗時(shí)長的缺陷。
3、本專利技術(shù)的目的是采用下述技術(shù)方案實(shí)現(xiàn)的:
4、本專利技術(shù)第一方面提供了一種基于深度學(xué)習(xí)的rag檢索優(yōu)化方法,所述方法包括:
5、將存儲于不同場景的知識庫中的各類文檔進(jìn)行預(yù)處理;
6、將預(yù)處理后的文本塊進(jìn)行分詞處理,獲得文本塊分詞處理后的語料;
7、獲取待檢索的用戶問題,將用戶問題和文檔中的文本塊進(jìn)行向量化;將向量化后的文本塊通過python?annoy框架近似搜索算法構(gòu)建向量搜索庫,得到問題向量的相似向量;
8、利用tf-idf算法,基于文本塊分詞后的語料,提取出文本塊的關(guān)鍵詞;利用文
9、基于訓(xùn)練好的tf-idf模型,抽取輸入問題和文本塊的關(guān)鍵詞集合的相似度,分類召回目標(biāo)知識庫。
10、可選的,所述將存儲于不同場景的知識庫中的各類文檔進(jìn)行預(yù)處理包括:
11、獲取文檔集合中的所有文檔,根據(jù)文檔的不同內(nèi)容按照不同的場景劃分,并分別存儲至不同的場景知識庫中;
12、針對場景知識庫中的每種文檔類型,基于語義分割算法,按照設(shè)定的字?jǐn)?shù)截?cái)啵瑢⒉煌膱鼍爸R庫中的各類文檔分為若干文本塊;
13、將文本塊的數(shù)據(jù)作為待處理文本;對所述待處理文本進(jìn)行分詞、去停用詞、剔除特殊符號的異常處理,對異常處理后的文本數(shù)據(jù)進(jìn)行過濾;獲得過濾無效語義的文本塊。
14、可選的,所述獲得預(yù)先訓(xùn)練的tf-idf模型包括:
15、獲取文檔基于文本塊的關(guān)鍵詞和所述相似向量,生成語義空間;
16、對所述語義空間進(jìn)行增強(qiáng)處理,獲得語義空間中的粒度信息,以及語義空間上下文信息;
17、基于編碼器,學(xué)習(xí)語義空間中的粒度信息,以及語義空間上下文信息;獲得語義空間中數(shù)據(jù)之間的相關(guān)性,獲得語義空間中數(shù)據(jù)相關(guān)度表示;
18、其中,所述基于編碼器,學(xué)習(xí)語義空間中的粒度信息,以及語義空間上下文信息獲得語義空間中數(shù)據(jù)之間的相關(guān)性,獲得語義空間中數(shù)據(jù)相關(guān)度表示包括:將原始語義空間作為輸入向量輸入到編碼器中進(jìn)行編碼時(shí),合并原始語義空間每一層的數(shù)據(jù)相關(guān)度表示,通過組合所有層的語義空間中數(shù)據(jù)相關(guān)度表示,獲得最終的語義空間中數(shù)據(jù)相關(guān)度表示;
19、通過對比原始語義空間中的數(shù)據(jù)之間的相關(guān)度;通過計(jì)算語義空間中數(shù)據(jù)間的相關(guān)度得分,獲得不同文檔類型之間的關(guān)聯(lián)關(guān)系;
20、采用樣本選擇器,在基于關(guān)聯(lián)關(guān)系的相關(guān)度得分降序排序結(jié)果中選取預(yù)設(shè)數(shù)量的關(guān)聯(lián)數(shù)據(jù)形成正樣本集,其余數(shù)據(jù)形成負(fù)樣本集,并定義正樣本集與負(fù)樣本集之間對比學(xué)習(xí)的損失函數(shù);
21、以最小化損失為目標(biāo)進(jìn)行模型訓(xùn)練,直到獲得訓(xùn)練后滿足所述目標(biāo)的tf-idf模型。
22、可選的,所述基于訓(xùn)練好的tf-idf模型,抽取輸入問題和文本塊的關(guān)鍵詞集合的相似度,分類召回目標(biāo)知識庫包括:通過訓(xùn)練好的tf-idf模型進(jìn)行抽取,輸入問題和文本塊的關(guān)鍵詞集合,按照與問題query分?jǐn)?shù)由高到低排序,依次選取預(yù)設(shè)數(shù)量的文本塊代碼;
23、通過向量化相似和關(guān)鍵詞,利用tf-idf抽取關(guān)鍵詞結(jié)合bm25算法召回目標(biāo)場景知識庫,對輸入問題進(jìn)行所屬知識庫的分類。
24、第二方面,本專利技術(shù)提供了一種基于深度學(xué)習(xí)的rag檢索優(yōu)化系統(tǒng),所述系統(tǒng)包括:
25、預(yù)處理模塊,用于將存儲于不同場景的知識庫中的各類文檔進(jìn)行預(yù)處理;
26、分詞處理模塊,用于將預(yù)處理后的文本塊進(jìn)行分詞處理,獲得文本塊分詞處理后的語料;
27、相似計(jì)算模塊,用于獲取待檢索的用戶問題,將用戶問題和文檔中的文本塊進(jìn)行向量化;將向量化后的文本塊通過python?annoy框架近似搜索算法構(gòu)建向量搜索庫,得到問題向量的相似向量;
28、訓(xùn)練模塊,用于利用tf-idf算法,基于文本塊分詞后的語料,提取出文本塊的關(guān)鍵詞;利用文本塊的關(guān)鍵詞和所述相似向量進(jìn)行模型訓(xùn)練;
29、召回模塊,用于基于訓(xùn)練好的tf-idf模型,抽取輸入問題和文本塊的關(guān)鍵詞集合的相似度,分類召回目標(biāo)知識庫。
30、可選的,所述預(yù)處理模塊包括:
31、獲取單元,用于獲取文檔集合中的所有文檔,根據(jù)文檔的不同內(nèi)容按照不同的場景劃分,并分別存儲至不同的場景知識庫中;
32、分割單元,用于針對場景知識庫中的每種文檔類型,基于語義分割算法,按照設(shè)定的字?jǐn)?shù)截?cái)啵瑢⒉煌膱鼍爸R庫中的各類文檔分為若干文本塊;
33、篩除單元,用于將文本塊的數(shù)據(jù)作為待處理文本;對所述待處理文本進(jìn)行分詞、去停用詞、剔除特殊符號的異常處理,對異常處理后的文本數(shù)據(jù)進(jìn)行過濾;獲得過濾無效語義的文本塊。
34、可選的,所述訓(xùn)練模塊包括:
35、生成單元,用于獲取文檔基于文本塊的關(guān)鍵詞和所述相似向量,生成語義空間;
36、處理單元,用于對所述語義空間進(jìn)行增強(qiáng)處理,獲得語義空間中的粒度信息,以及語義空間上下文信息;
37、學(xué)習(xí)單元,用于基于編碼器,學(xué)習(xí)語義空間中的粒度信息,以及語義空間上下文信息;獲得語義空間中數(shù)據(jù)之間的相關(guān)性,獲得語義空間中數(shù)據(jù)相關(guān)度表示;
38、其中,所述基于編碼器,學(xué)習(xí)語義空間中的粒度信息,以及語義空間上下文信息獲得語義空間中數(shù)據(jù)之間的相關(guān)性,獲得語義空間中數(shù)據(jù)相關(guān)度表示包括:將原始語義空間作為輸入向量輸入到編碼器中進(jìn)行編碼時(shí),合并原始語義空間每一層的數(shù)據(jù)相關(guān)度表示,通過組合所有層的語義空間中數(shù)據(jù)相關(guān)度表示,獲得最終的語義空間中數(shù)據(jù)相關(guān)度表示;
39、對比單元,用于通過對比原始語義空間中的數(shù)據(jù)之間的相關(guān)度;通過計(jì)算語義空間中數(shù)據(jù)間的相關(guān)度得分,獲得不同文檔類型之間的關(guān)聯(lián)關(guān)系;
40、定義單元,用于采用樣本選擇器,在基于關(guān)聯(lián)關(guān)系的相關(guān)度得分降序排序結(jié)果中選取預(yù)設(shè)數(shù)量的關(guān)聯(lián)數(shù)據(jù)形成正樣本集,其余數(shù)據(jù)形成負(fù)樣本集,并定義正樣本集與負(fù)樣本集之間對比學(xué)習(xí)的損失函數(shù);
41、訓(xùn)練單元,用于以最小化損失為目標(biāo)進(jìn)行模型訓(xùn)練,直到獲得訓(xùn)練后滿足所述目標(biāo)的tf-idf模型。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種基于深度學(xué)習(xí)的RAG檢索優(yōu)化方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的RAG檢索優(yōu)化方法,其特征在于,所述將存儲于不同場景的知識庫中的各類文檔進(jìn)行預(yù)處理包括:
3.根據(jù)權(quán)利要求1所述的RAG檢索優(yōu)化方法,其特征在于,所述獲得預(yù)先訓(xùn)練的TF-IDF模型包括:
4.根據(jù)權(quán)利要求1所述的RAG檢索優(yōu)化方法,其特征在于,所述基于訓(xùn)練好的TF-IDF模型,抽取輸入問題和文本塊的關(guān)鍵詞集合的相似度,分類召回目標(biāo)知識庫包括:通過訓(xùn)練好的TF-IDF模型進(jìn)行抽取,輸入問題和文本塊的關(guān)鍵詞集合,按照與問題query分?jǐn)?shù)由高到低排序,依次選取預(yù)設(shè)數(shù)量的文本塊代碼;
5.一種基于深度學(xué)習(xí)的RAG檢索優(yōu)化系統(tǒng),其特征在于,所述系統(tǒng)包括:
6.根據(jù)權(quán)利要求5所述的RAG檢索優(yōu)化系統(tǒng),其特征在于,所述預(yù)處理模塊包括:
7.根據(jù)權(quán)利要求5所述的RAG檢索優(yōu)化系統(tǒng),其特征在于,所述訓(xùn)練模塊包括:
8.根據(jù)權(quán)利要求7所述的RAG檢索優(yōu)化系統(tǒng),其特征在于,所述召回模塊包括:選取單元,用于通過訓(xùn)練好的TF-ID
9.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)中存儲有計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述權(quán)利要求1至4任一項(xiàng)中所述的方法的步驟。
10.一種電子裝置,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)所述權(quán)利要求1至4任一項(xiàng)中所述的方法的步驟。
...【技術(shù)特征摘要】
1.一種基于深度學(xué)習(xí)的rag檢索優(yōu)化方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的rag檢索優(yōu)化方法,其特征在于,所述將存儲于不同場景的知識庫中的各類文檔進(jìn)行預(yù)處理包括:
3.根據(jù)權(quán)利要求1所述的rag檢索優(yōu)化方法,其特征在于,所述獲得預(yù)先訓(xùn)練的tf-idf模型包括:
4.根據(jù)權(quán)利要求1所述的rag檢索優(yōu)化方法,其特征在于,所述基于訓(xùn)練好的tf-idf模型,抽取輸入問題和文本塊的關(guān)鍵詞集合的相似度,分類召回目標(biāo)知識庫包括:通過訓(xùn)練好的tf-idf模型進(jìn)行抽取,輸入問題和文本塊的關(guān)鍵詞集合,按照與問題query分?jǐn)?shù)由高到低排序,依次選取預(yù)設(shè)數(shù)量的文本塊代碼;
5.一種基于深度學(xué)習(xí)的rag檢索優(yōu)化系統(tǒng),其特征在于,所述系統(tǒng)包括:
6.根據(jù)權(quán)利要求5所述的rag檢索優(yōu)化...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:劉寓非,劉帥,王偉偉,馮超,宋公樸,陳洪武,
申請(專利權(quán))人:上海圓擎信息科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。