System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 西西午夜无码大胆啪啪国模,亚洲av中文无码乱人伦在线r▽,亚洲AV无码一区二区二三区软件
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于深度學(xué)習(xí)的RAG檢索優(yōu)化方法、系統(tǒng)及電子設(shè)備技術(shù)方案

    技術(shù)編號:44264767 閱讀:5 留言:0更新日期:2025-02-14 22:08
    本發(fā)明專利技術(shù)公開了一種基于深度學(xué)習(xí)的RAG檢索優(yōu)化方法、系統(tǒng)及電子設(shè)備,包括將存儲于不同場景的知識庫中的各類文檔進(jìn)行預(yù)處理;將預(yù)處理后的文本塊進(jìn)行分詞處理,獲得文本塊分詞處理后的語料;獲取待檢索的用戶問題,將用戶問題和文檔中的文本塊進(jìn)行向量化;將向量化后的文本塊通過python?Annoy框架近似搜索算法構(gòu)建向量搜索庫,得到問題向量的相似向量;利用TF?IDF算法,基于文本塊分詞后的語料,提取出文本塊的關(guān)鍵詞;利用文本塊的關(guān)鍵詞和所述相似向量進(jìn)行模型訓(xùn)練;基于訓(xùn)練好的TF?IDF模型,抽取輸入問題和文本塊的關(guān)鍵詞集合的相似度,分類召回目標(biāo)知識庫。上述方案利用深度學(xué)習(xí)實(shí)現(xiàn)知識庫分類粗召回,可彌補(bǔ)采用以往的全量文本塊召回導(dǎo)致的耗時(shí)長的缺陷。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及檢索增強(qiáng)生成,具體為一種基于深度學(xué)習(xí)的rag檢索優(yōu)化方法、系統(tǒng)及電子設(shè)備。


    技術(shù)介紹

    1、在rag(檢索增強(qiáng)生成)檢索領(lǐng)域,當(dāng)知識庫文檔較多的時(shí)候,文本塊成正比的多,可以達(dá)到數(shù)百萬級別,此時(shí)將用戶的問題向量化后從數(shù)百萬級別的文本塊索引計(jì)算召回?cái)?shù)個(gè)文本塊會(huì)使得效率較低,召回速度慢,影響用戶體驗(yàn)。

    2、rag現(xiàn)有的方法和實(shí)現(xiàn)原理,將文檔中的文本塊進(jìn)行分塊后,向量化存儲構(gòu)建索引,隨后將問題向量化后與知識庫中的文本塊求相似,召回出topk文本塊返回給大模型生成答案。


    技術(shù)實(shí)現(xiàn)思路

    1、本專利技術(shù)的目的在于提供一種基于深度學(xué)習(xí)的rag檢索優(yōu)化方法、系統(tǒng)及電子設(shè)備,以解決上述
    技術(shù)介紹
    中提出的問題。

    2、通過采用上述技術(shù)方案,實(shí)現(xiàn)了知識庫分類粗召回,可彌補(bǔ)采用以往的全量文本塊召回導(dǎo)致的耗時(shí)長的缺陷。

    3、本專利技術(shù)的目的是采用下述技術(shù)方案實(shí)現(xiàn)的:

    4、本專利技術(shù)第一方面提供了一種基于深度學(xué)習(xí)的rag檢索優(yōu)化方法,所述方法包括:

    5、將存儲于不同場景的知識庫中的各類文檔進(jìn)行預(yù)處理;

    6、將預(yù)處理后的文本塊進(jìn)行分詞處理,獲得文本塊分詞處理后的語料;

    7、獲取待檢索的用戶問題,將用戶問題和文檔中的文本塊進(jìn)行向量化;將向量化后的文本塊通過python?annoy框架近似搜索算法構(gòu)建向量搜索庫,得到問題向量的相似向量;

    8、利用tf-idf算法,基于文本塊分詞后的語料,提取出文本塊的關(guān)鍵詞;利用文本塊的關(guān)鍵詞和所述相似向量進(jìn)行模型訓(xùn)練;

    9、基于訓(xùn)練好的tf-idf模型,抽取輸入問題和文本塊的關(guān)鍵詞集合的相似度,分類召回目標(biāo)知識庫。

    10、可選的,所述將存儲于不同場景的知識庫中的各類文檔進(jìn)行預(yù)處理包括:

    11、獲取文檔集合中的所有文檔,根據(jù)文檔的不同內(nèi)容按照不同的場景劃分,并分別存儲至不同的場景知識庫中;

    12、針對場景知識庫中的每種文檔類型,基于語義分割算法,按照設(shè)定的字?jǐn)?shù)截?cái)啵瑢⒉煌膱鼍爸R庫中的各類文檔分為若干文本塊;

    13、將文本塊的數(shù)據(jù)作為待處理文本;對所述待處理文本進(jìn)行分詞、去停用詞、剔除特殊符號的異常處理,對異常處理后的文本數(shù)據(jù)進(jìn)行過濾;獲得過濾無效語義的文本塊。

    14、可選的,所述獲得預(yù)先訓(xùn)練的tf-idf模型包括:

    15、獲取文檔基于文本塊的關(guān)鍵詞和所述相似向量,生成語義空間;

    16、對所述語義空間進(jìn)行增強(qiáng)處理,獲得語義空間中的粒度信息,以及語義空間上下文信息;

    17、基于編碼器,學(xué)習(xí)語義空間中的粒度信息,以及語義空間上下文信息;獲得語義空間中數(shù)據(jù)之間的相關(guān)性,獲得語義空間中數(shù)據(jù)相關(guān)度表示;

    18、其中,所述基于編碼器,學(xué)習(xí)語義空間中的粒度信息,以及語義空間上下文信息獲得語義空間中數(shù)據(jù)之間的相關(guān)性,獲得語義空間中數(shù)據(jù)相關(guān)度表示包括:將原始語義空間作為輸入向量輸入到編碼器中進(jìn)行編碼時(shí),合并原始語義空間每一層的數(shù)據(jù)相關(guān)度表示,通過組合所有層的語義空間中數(shù)據(jù)相關(guān)度表示,獲得最終的語義空間中數(shù)據(jù)相關(guān)度表示;

    19、通過對比原始語義空間中的數(shù)據(jù)之間的相關(guān)度;通過計(jì)算語義空間中數(shù)據(jù)間的相關(guān)度得分,獲得不同文檔類型之間的關(guān)聯(lián)關(guān)系;

    20、采用樣本選擇器,在基于關(guān)聯(lián)關(guān)系的相關(guān)度得分降序排序結(jié)果中選取預(yù)設(shè)數(shù)量的關(guān)聯(lián)數(shù)據(jù)形成正樣本集,其余數(shù)據(jù)形成負(fù)樣本集,并定義正樣本集與負(fù)樣本集之間對比學(xué)習(xí)的損失函數(shù);

    21、以最小化損失為目標(biāo)進(jìn)行模型訓(xùn)練,直到獲得訓(xùn)練后滿足所述目標(biāo)的tf-idf模型。

    22、可選的,所述基于訓(xùn)練好的tf-idf模型,抽取輸入問題和文本塊的關(guān)鍵詞集合的相似度,分類召回目標(biāo)知識庫包括:通過訓(xùn)練好的tf-idf模型進(jìn)行抽取,輸入問題和文本塊的關(guān)鍵詞集合,按照與問題query分?jǐn)?shù)由高到低排序,依次選取預(yù)設(shè)數(shù)量的文本塊代碼;

    23、通過向量化相似和關(guān)鍵詞,利用tf-idf抽取關(guān)鍵詞結(jié)合bm25算法召回目標(biāo)場景知識庫,對輸入問題進(jìn)行所屬知識庫的分類。

    24、第二方面,本專利技術(shù)提供了一種基于深度學(xué)習(xí)的rag檢索優(yōu)化系統(tǒng),所述系統(tǒng)包括:

    25、預(yù)處理模塊,用于將存儲于不同場景的知識庫中的各類文檔進(jìn)行預(yù)處理;

    26、分詞處理模塊,用于將預(yù)處理后的文本塊進(jìn)行分詞處理,獲得文本塊分詞處理后的語料;

    27、相似計(jì)算模塊,用于獲取待檢索的用戶問題,將用戶問題和文檔中的文本塊進(jìn)行向量化;將向量化后的文本塊通過python?annoy框架近似搜索算法構(gòu)建向量搜索庫,得到問題向量的相似向量;

    28、訓(xùn)練模塊,用于利用tf-idf算法,基于文本塊分詞后的語料,提取出文本塊的關(guān)鍵詞;利用文本塊的關(guān)鍵詞和所述相似向量進(jìn)行模型訓(xùn)練;

    29、召回模塊,用于基于訓(xùn)練好的tf-idf模型,抽取輸入問題和文本塊的關(guān)鍵詞集合的相似度,分類召回目標(biāo)知識庫。

    30、可選的,所述預(yù)處理模塊包括:

    31、獲取單元,用于獲取文檔集合中的所有文檔,根據(jù)文檔的不同內(nèi)容按照不同的場景劃分,并分別存儲至不同的場景知識庫中;

    32、分割單元,用于針對場景知識庫中的每種文檔類型,基于語義分割算法,按照設(shè)定的字?jǐn)?shù)截?cái)啵瑢⒉煌膱鼍爸R庫中的各類文檔分為若干文本塊;

    33、篩除單元,用于將文本塊的數(shù)據(jù)作為待處理文本;對所述待處理文本進(jìn)行分詞、去停用詞、剔除特殊符號的異常處理,對異常處理后的文本數(shù)據(jù)進(jìn)行過濾;獲得過濾無效語義的文本塊。

    34、可選的,所述訓(xùn)練模塊包括:

    35、生成單元,用于獲取文檔基于文本塊的關(guān)鍵詞和所述相似向量,生成語義空間;

    36、處理單元,用于對所述語義空間進(jìn)行增強(qiáng)處理,獲得語義空間中的粒度信息,以及語義空間上下文信息;

    37、學(xué)習(xí)單元,用于基于編碼器,學(xué)習(xí)語義空間中的粒度信息,以及語義空間上下文信息;獲得語義空間中數(shù)據(jù)之間的相關(guān)性,獲得語義空間中數(shù)據(jù)相關(guān)度表示;

    38、其中,所述基于編碼器,學(xué)習(xí)語義空間中的粒度信息,以及語義空間上下文信息獲得語義空間中數(shù)據(jù)之間的相關(guān)性,獲得語義空間中數(shù)據(jù)相關(guān)度表示包括:將原始語義空間作為輸入向量輸入到編碼器中進(jìn)行編碼時(shí),合并原始語義空間每一層的數(shù)據(jù)相關(guān)度表示,通過組合所有層的語義空間中數(shù)據(jù)相關(guān)度表示,獲得最終的語義空間中數(shù)據(jù)相關(guān)度表示;

    39、對比單元,用于通過對比原始語義空間中的數(shù)據(jù)之間的相關(guān)度;通過計(jì)算語義空間中數(shù)據(jù)間的相關(guān)度得分,獲得不同文檔類型之間的關(guān)聯(lián)關(guān)系;

    40、定義單元,用于采用樣本選擇器,在基于關(guān)聯(lián)關(guān)系的相關(guān)度得分降序排序結(jié)果中選取預(yù)設(shè)數(shù)量的關(guān)聯(lián)數(shù)據(jù)形成正樣本集,其余數(shù)據(jù)形成負(fù)樣本集,并定義正樣本集與負(fù)樣本集之間對比學(xué)習(xí)的損失函數(shù);

    41、訓(xùn)練單元,用于以最小化損失為目標(biāo)進(jìn)行模型訓(xùn)練,直到獲得訓(xùn)練后滿足所述目標(biāo)的tf-idf模型。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于深度學(xué)習(xí)的RAG檢索優(yōu)化方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的RAG檢索優(yōu)化方法,其特征在于,所述將存儲于不同場景的知識庫中的各類文檔進(jìn)行預(yù)處理包括:

    3.根據(jù)權(quán)利要求1所述的RAG檢索優(yōu)化方法,其特征在于,所述獲得預(yù)先訓(xùn)練的TF-IDF模型包括:

    4.根據(jù)權(quán)利要求1所述的RAG檢索優(yōu)化方法,其特征在于,所述基于訓(xùn)練好的TF-IDF模型,抽取輸入問題和文本塊的關(guān)鍵詞集合的相似度,分類召回目標(biāo)知識庫包括:通過訓(xùn)練好的TF-IDF模型進(jìn)行抽取,輸入問題和文本塊的關(guān)鍵詞集合,按照與問題query分?jǐn)?shù)由高到低排序,依次選取預(yù)設(shè)數(shù)量的文本塊代碼;

    5.一種基于深度學(xué)習(xí)的RAG檢索優(yōu)化系統(tǒng),其特征在于,所述系統(tǒng)包括:

    6.根據(jù)權(quán)利要求5所述的RAG檢索優(yōu)化系統(tǒng),其特征在于,所述預(yù)處理模塊包括:

    7.根據(jù)權(quán)利要求5所述的RAG檢索優(yōu)化系統(tǒng),其特征在于,所述訓(xùn)練模塊包括:

    8.根據(jù)權(quán)利要求7所述的RAG檢索優(yōu)化系統(tǒng),其特征在于,所述召回模塊包括:選取單元,用于通過訓(xùn)練好的TF-IDF模型進(jìn)行抽取,輸入問題和文本塊的關(guān)鍵詞集合,按照與問題query分?jǐn)?shù)由高到低排序,依次選取預(yù)設(shè)數(shù)量的文本塊代碼;

    9.一種計(jì)算機(jī)可讀存儲介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲介質(zhì)中存儲有計(jì)算機(jī)程序,其中,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)所述權(quán)利要求1至4任一項(xiàng)中所述的方法的步驟。

    10.一種電子裝置,包括存儲器、處理器以及存儲在所述存儲器上并可在所述處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)所述權(quán)利要求1至4任一項(xiàng)中所述的方法的步驟。

    ...

    【技術(shù)特征摘要】

    1.一種基于深度學(xué)習(xí)的rag檢索優(yōu)化方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的rag檢索優(yōu)化方法,其特征在于,所述將存儲于不同場景的知識庫中的各類文檔進(jìn)行預(yù)處理包括:

    3.根據(jù)權(quán)利要求1所述的rag檢索優(yōu)化方法,其特征在于,所述獲得預(yù)先訓(xùn)練的tf-idf模型包括:

    4.根據(jù)權(quán)利要求1所述的rag檢索優(yōu)化方法,其特征在于,所述基于訓(xùn)練好的tf-idf模型,抽取輸入問題和文本塊的關(guān)鍵詞集合的相似度,分類召回目標(biāo)知識庫包括:通過訓(xùn)練好的tf-idf模型進(jìn)行抽取,輸入問題和文本塊的關(guān)鍵詞集合,按照與問題query分?jǐn)?shù)由高到低排序,依次選取預(yù)設(shè)數(shù)量的文本塊代碼;

    5.一種基于深度學(xué)習(xí)的rag檢索優(yōu)化系統(tǒng),其特征在于,所述系統(tǒng)包括:

    6.根據(jù)權(quán)利要求5所述的rag檢索優(yōu)化...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:劉寓非劉帥王偉偉馮超宋公樸陳洪武
    申請(專利權(quán))人:上海圓擎信息科技有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av日韩av无码av| 亚洲av永久无码精品漫画 | 无码国内精品久久人妻蜜桃| 亚洲av永久无码制服河南实里| AV无码久久久久不卡网站下载| 亚洲午夜无码AV毛片久久| 亚洲成a人片在线观看无码专区 | 无码一区二区三区在线观看| 亚洲色无码国产精品网站可下载| 亚洲自偷自偷偷色无码中文| 久久久久无码精品国产h动漫| 日韩av无码久久精品免费| 一本一道AV无码中文字幕| 无码成人AAAAA毛片| AV无码精品一区二区三区| 色欲狠狠躁天天躁无码中文字幕| 少妇无码太爽了不卡视频在线看| 亚洲国产精品无码久久| 久久久无码一区二区三区| 亚洲精品无码乱码成人| 免费a级毛片无码a∨免费软件 | 无码H黄肉动漫在线观看网站| 亚洲精品色午夜无码专区日韩| 亚洲综合最新无码专区| 亚洲AV无码一区二三区| 日韩精品无码久久一区二区三| 丰满亚洲大尺度无码无码专线| 亚洲精品无码久久久久秋霞 | 亚洲AV无码XXX麻豆艾秋| 日韩人妻精品无码一区二区三区 | 人妻av中文字幕无码专区| 国产精品久久久久无码av| 69天堂人成无码麻豆免费视频 | 亚洲大尺度无码无码专线一区| 欧洲精品久久久av无码电影 | 精品欧洲AV无码一区二区男男| 久久久久久久亚洲Av无码| 无码乱肉视频免费大全合集| 成人免费午夜无码视频| 日韩av片无码一区二区不卡电影| 18禁超污无遮挡无码免费网站国产|