System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲va中文字幕无码久久不卡,精品无码综合一区,日本无码一区二区三区白峰美
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于長時程增強的檢索生成優化方法、介質及系統技術方案

    技術編號:44405779 閱讀:2 留言:0更新日期:2025-02-25 10:19
    本發明專利技術涉及基于長時程增強的檢索生成優化方法、介質及系統,包括:根據用戶輸入的查詢問題,檢索得到若干文本塊;計算每個文本塊與查詢問題的相似度;根據相似度,確定每個文本塊的注入次數;根據每個文本塊的注入次數,分批迭代輸入生成模型,直至最高注入次數結束,得到最終生成答案。其關鍵在于通過引入長時程增強機制,優化RAG系統的生成過程。通過文檔塊的相似度計算和分批多次注入策略,提高模型對高質量信息的利用率,從而顯著提升生成答案的事實準確性和一致性。

    【技術實現步驟摘要】

    本專利技術涉及大語言生成模型領域,特別是涉及一種基于長時程增強的檢索生成優化方法、介質及系統


    技術介紹

    1、在傳統的語言生成模型中,模型依賴于內在參數和訓練數據生成答案,但這種方法有明顯的局限性,尤其是在特定領域中,模型常常因為知識的滯后性或局限性而無法提供準確答案。為了克服這一問題,檢索增強生成技術(retrieval-augmented?generation,rag)應運而生。rag通過檢索外部知識庫,結合生成模型的推理能力,解決了模型僅依賴內部訓練數據導致的知識不足問題。rag技術的核心目標是通過檢索現有知識庫中的相關信息,結合生成模型,為用戶提供精準且可靠的答案,減少生成內容的“幻覺”現象,確保文本更具事實性和準確性。如圖1所示,rag系統通常采用以下基本流程:

    2、建立索引:?rag在初始化階段會對知識庫進行清洗和切分,將較長的文檔按照語義單元切割為較小的“塊”,然后通過嵌入模型將這些塊轉換為語義向量,并創建相應的索引。這一過程在離線狀態下進行,并存儲在向量數據庫中,以便加速后續的在線檢索;

    3、檢索:當用戶提出查詢問題時,系統會使用相同的嵌入模型,將問題轉換為向量,到向量塊數據庫中進行檢索,計算查詢問題的問題向量與數據庫中的文檔塊向量之間的相似度。系統會選擇相似度最高的文檔塊作為增強上下文信息,用于后續的生成階段;

    4、生成:?在生成階段,rag將檢索到的文檔塊與用戶問題合并,生成一個綜合提示交給大語言模型進行回答。如果有歷史對話信息,系統也可以將其合并到提示中,以支持多輪對話生成。

    5、在rag的基礎上,高級rag引入了多種優化策略:

    6、檢索前優化:通過優化文本切分、索引構建和查詢問題重寫,提升檢索的準確性。特別是語義切分技術,可以將長文本按照語義內聚性切割成更小、更相關的塊,以避免信息湮沒和語義截斷的問題。

    7、檢索優化:高級rag中,檢索階段通過微調嵌入模型或采用動態嵌入技術,提升了查詢問題與文檔之間的匹配度。此外,混合搜索技術通過結合向量搜索和關鍵字搜索,進一步提高了檢索的準確性。

    8、檢索后優化:在生成之前,通過提示壓縮和重新排序優化檢索到的上下文,確保生成模型只使用最相關的信息,減少生成錯誤答案的幾率。

    9、經過上述優化策略,高級rag相較于rag在結果性能上明顯更優。但是,盡管系統能夠通過檢索外部知識庫并結合生成模型的推理能力及各種優化策略來提高答案的正確率,但對有用信息的利用還嚴重不足,生成模型在構建答案時仍然未能準確把握有效信息的重要性,導致生成的答案不夠準確或存在幻覺問題,即生成虛假的、不真實的信息,如何對其優化以進一步提高答案的正確率,是該領域亟待解決的技術問題。


    技術實現思路

    1、為解決上述技術問題的至少一個,本專利技術提供一種基于長時程增強的檢索生成優化方法,包括:

    2、s1:根據用戶輸入的查詢問題,檢索得到若干文本塊;

    3、s2:計算每個文本塊與查詢問題的相似度;

    4、s3:根據相似度,確定每個文本塊的注入次數;

    5、s4:根據每個文本塊的注入次數,分批迭代輸入生成模型,直至最高注入次數結束,得到最終生成答案。

    6、進一步地,步驟s1,包括:

    7、s11:將知識庫中的原始文檔分塊,并生成上下文信息;

    8、s12:構建包含上下文信息的完整文本塊,并轉換為向量表示,存儲至向量數據庫;

    9、s13:根據用戶查詢問題,轉換為向量表示,檢索向量數據庫,得到若干文本塊。

    10、進一步地,步驟s2,包括:

    11、s21:計算每個文本塊與查詢問題的相似性評分;

    12、s22:統計所有文本塊與查詢問題的相似性評分總和;

    13、s23:根據每個文本塊與查詢問題的相似性評分和相似性評分總和的比值,確定每個文本塊的權重,為每個文本塊與查詢問題的相似度。

    14、進一步地,步驟s3,包括:

    15、s31:根據相似度,將文本塊劃分為若干等級分組;

    16、s32:根據等級分組的高低,降序確定每個文本塊的注入次數;

    17、進一步地,步驟s3,包括:

    18、根據相似度,采用公式(3)計算每個文本塊的注入次數;

    19、(3)

    20、其中,表示第i個文本塊的注入次數;表示第i個文本塊的權重;表示相似性評分;表示相似性評分最大值;表示相似性評分最小值;表示單注入規模因子;c表示總注入規模因子。

    21、進一步地,步驟s4,包括:

    22、s41:根據待注入的文檔塊,確定輸入集;

    23、s42:將輸入集,注入生成模型,得到輸出;

    24、s43:將每個文檔塊的輸入次數減1,判斷每個文檔塊的輸入次數是否為0,若是則在輸入集中刪除該文檔塊,若否則不做處理,得到更新后的輸入集;

    25、s44:判斷更新后的輸入集是否為空,若是則繼續步驟s45,若否則返回步驟s42;

    26、s45:融合各次輸出,得到最終生成答案。

    27、進一步地,步驟s4,包括:

    28、s41’:根據待注入的文檔塊,確定輸入集;

    29、s42’:將輸入集,注入生成模型,得到輸出;

    30、s43’:將每個文檔塊的輸入次數減1,判斷每個文檔塊的輸入次數是否為0,若是則在輸入集中刪除該文檔塊,若否則不做處理,得到更新后的輸入集;

    31、s44’:判斷更新后的輸入集是否為空,若是則結束,若否則將生成當前輸出的摘要補入更新后的輸入集中,動態更新輸入集,返回步驟s42’。

    32、進一步地,步驟s4,還包括:

    33、計算前一次迭代的輸出,與下一次迭代待輸入的各文本塊之間的更新相似度;

    34、根據各文本塊的更新相似度,動態更新每個文本塊的注入次數。

    35、另一方面,本專利技術還提供一種計算機可讀存儲介質,其上存儲有用于上述任意的檢索生成優化方法的計算機程序。

    36、另一方面,本專利技術還提供一種計算機系統,包括上述計算機可讀存儲介質和一個或多個處理器;

    37、所述處理器,被配置為運行所述計算機程序。

    38、本專利技術提供的一種基于長時程增強的檢索生成優化方法、介質及系統,將神經科學中的長時程增強(ltp)原理應用于檢索增強生成(rag)技術,通過引入長時程增強機制,優化rag系統的生成過程。具體的,借鑒ltp原理,通過文檔塊的相似度計算和分批多次注入策略,提高模型對高質量信息的利用率,從而顯著提升生成答案的事實準確性和一致性。

    本文檔來自技高網...

    【技術保護點】

    1.一種基于長時程增強的檢索生成優化方法,其特征在于,包括:

    2.根據權利要求1所述的檢索生成優化方法,其特征在于,步驟S1,包括:

    3.根據權利要求1所述的檢索生成優化方法,其特征在于,步驟S2,包括:

    4.根據權利要求1所述的檢索生成優化方法,其特征在于,步驟S3,包括:

    5.根據權利要求1所述的檢索生成優化方法,其特征在于,步驟S3,包括:

    6.根據權利要求1所述的檢索生成優化方法,其特征在于,步驟S4,包括:

    7.根據權利要求1所述的檢索生成優化方法,其特征在于,步驟S4,包括:

    8.根據權利要求6-7任意一項所述的檢索生成優化方法,其特征在于,步驟S4,還包括:

    9.一種計算機可讀存儲介質,其特征在于,其上存儲有用于執行權利要求1-8任意一項所述的檢索生成優化方法的計算機程序。

    10.一種計算機系統,其特征在于,包括權利要求9所述的計算機可讀存儲介質和一個或多個處理器;

    【技術特征摘要】

    1.一種基于長時程增強的檢索生成優化方法,其特征在于,包括:

    2.根據權利要求1所述的檢索生成優化方法,其特征在于,步驟s1,包括:

    3.根據權利要求1所述的檢索生成優化方法,其特征在于,步驟s2,包括:

    4.根據權利要求1所述的檢索生成優化方法,其特征在于,步驟s3,包括:

    5.根據權利要求1所述的檢索生成優化方法,其特征在于,步驟s3,包括:

    6.根據權利要求1所述的檢索生成優化方法...

    【專利技術屬性】
    技術研發人員:聶笑一張藝李曉雨張海濤朱幸輝
    申請(專利權)人:湖南農業大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 真人无码作爱免费视频| 久久青青草原亚洲av无码app| 无码熟妇人妻AV在线影院| 久久久久久国产精品无码超碰| 亚洲最大天堂无码精品区| HEYZO无码中文字幕人妻| 成年免费a级毛片免费看无码| 人妻无码一区二区不卡无码av| 无码成人AAAAA毛片| 无码人妻精品一区二区| 精品无码中出一区二区| 亚洲的天堂av无码| 国产精品99无码一区二区| 免费A级毛片无码无遮挡内射| 中文无码精品一区二区三区| 中文字幕AV无码一区二区三区 | 无码人妻一区二区三区在线 | 免费无码黄十八禁网站在线观看| 潮喷无码正在播放| 无码免费午夜福利片在线| 高h纯肉无码视频在线观看| 免费无码又爽又黄又刺激网站| 亚洲一区二区三区无码国产 | 成人无码区免费A片视频WWW| 国产在线无码精品电影网| 无码视频免费一区二三区| AA区一区二区三无码精片| 久久亚洲精品AB无码播放| 无码专区一va亚洲v专区在线| 无码国产精品一区二区免费I6 | 永久免费无码网站在线观看| 久久久久亚洲AV成人无码| 下载天堂国产AV成人无码精品网站| 色窝窝无码一区二区三区成人网站 | 免费无码AV电影在线观看| 人妻夜夜添夜夜无码AV| 亚洲AV综合色区无码一区| 中文无码久久精品| 久久久久亚洲AV成人无码网站 | 最新亚洲人成无码网www电影| 成人无码区免费A片视频WWW|