一種RAG系統(tǒng)優(yōu)化方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)技術(shù)方案

技術(shù)編號：43292889 閱讀：11 留言：0更新日期：2024-11-12 16:12

本發(fā)明專利技術(shù)公開了一種RAG系統(tǒng)優(yōu)化方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)，包括將文檔轉(zhuǎn)換為圖像；對圖像進(jìn)行分析，識別出錨框的四個(gè)坐標(biāo)和目標(biāo)類別；對圖像中的文本內(nèi)容進(jìn)行提取，生成帶有結(jié)構(gòu)化標(biāo)記的文檔；從帶有結(jié)構(gòu)化標(biāo)記的文檔中有序提取標(biāo)題，將標(biāo)題輸入大語言模型中，生成層級關(guān)系的標(biāo)題；將層級關(guān)系的標(biāo)題替換原始標(biāo)題，生成摘要信息；以各層級標(biāo)題為分割點(diǎn)生成多個(gè)文檔分塊；將每個(gè)文檔分塊轉(zhuǎn)換為高維向量；基于向量搜索和關(guān)鍵詞搜索，確定檢索的最終結(jié)果。本發(fā)明專利技術(shù)顯著提升了RAG系統(tǒng)在復(fù)雜問答任務(wù)中的表現(xiàn)，能夠有效區(qū)分相似文檔并更好地理解文檔全局語義，最終提供更加準(zhǔn)確和全面的回答，有效緩解了傳統(tǒng)方法在應(yīng)對復(fù)雜文檔場景時(shí)的局限性。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及大型語言模型優(yōu)化，尤其涉及一種rag系統(tǒng)優(yōu)化方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)。

技術(shù)介紹

1、隨著人工智能技術(shù)和自然語言處理技術(shù)的快速發(fā)展，大型語言模型（llm）在各個(gè)領(lǐng)域中得到了廣泛的應(yīng)用，尤其是在問答（qa）領(lǐng)域。llm通過其強(qiáng)大的語言生成能力，可以在多種場景下提供高質(zhì)量的回答。然而，單純依賴llm進(jìn)行問答仍然面臨若干技術(shù)挑戰(zhàn)，包括幻覺問題、時(shí)效性問題以及數(shù)據(jù)安全問題。為了解決這些問題，研究者提出了通過微調(diào)大模型來提升其性能的方法。然而，微調(diào)大型語言模型通常需要消耗大量的計(jì)算資源和時(shí)間，這限制了其在資源受限環(huán)境中的應(yīng)用。

2、為此，業(yè)界提出了多種高效微調(diào)技術(shù)，如lora（低秩自適應(yīng)）、qlora（量化低秩自適應(yīng)）等，這些方法通過降低模型參數(shù)的調(diào)整復(fù)雜性，有效減少了微調(diào)過程中的計(jì)算資源消耗和時(shí)間成本。此外，分布式訓(xùn)練中的數(shù)據(jù)并行和張量并行技術(shù)也被應(yīng)用于加速微調(diào)過程。然而，即使采用這些技術(shù)，仍然無法徹底解決時(shí)效性問題。隨著文檔更新頻率的加快和知識快速更迭，依賴頻繁微調(diào)以保持模型的準(zhǔn)確性和時(shí)效性在實(shí)際應(yīng)用中仍然面臨巨大挑戰(zhàn)，尤其在需要迅速適應(yīng)最新信息的場景中，這種方法的局限性尤為突出。

3、作為解決上述問題的有效途徑，基于檢索增強(qiáng)生成（rag）的方法應(yīng)運(yùn)而生。rag系統(tǒng)通過結(jié)合信息檢索和生成模型的優(yōu)勢，在問答任務(wù)中不僅依賴llm的生成能力，還從外部檢索語料庫中獲取與查詢相關(guān)的文本片段，并將其作為上下文輸入到生成模型中，從而生成更加準(zhǔn)確和實(shí)時(shí)的答案。與單純依賴生成模型的傳統(tǒng)方法相比，rag系統(tǒng)顯著

4、盡管基于rag的方法在提升大型語言模型問答性能方面取得了顯著進(jìn)展，但現(xiàn)有的rag系統(tǒng)仍然存在明顯的局限性。首先，標(biāo)準(zhǔn)的rag系統(tǒng)通常將文檔表示為非結(jié)構(gòu)化的文本塊，這種方式在處理大規(guī)模、結(jié)構(gòu)相似的文檔時(shí)，表現(xiàn)出明顯的不足。當(dāng)面對如各型號手機(jī)產(chǎn)品手冊、公司財(cái)務(wù)報(bào)告和醫(yī)療診斷與治療手冊等內(nèi)容和結(jié)構(gòu)高度相似的文檔時(shí)，現(xiàn)有系統(tǒng)難以有效區(qū)分文檔之間的差異。當(dāng)系統(tǒng)無法準(zhǔn)確區(qū)分這些相似文檔時(shí)，往往會導(dǎo)致檢索結(jié)果不精確，從而影響生成答案的準(zhǔn)確性和相關(guān)性。這種局限性在多文檔問答場景中尤為突出，因?yàn)槎辔臋n問答不僅需要處理單個(gè)文檔，還必須考慮文檔之間的關(guān)系和差異。其次，現(xiàn)有rag方法在處理復(fù)雜語境時(shí)的局限性也不容忽視。現(xiàn)有的大多數(shù)rag系統(tǒng)僅從語料庫中檢索少量且連續(xù)的文本塊，這限制了對文檔全局語義結(jié)構(gòu)的理解。這種方法在處理簡單問答時(shí)可能能夠滿足需求，但在需要整合多個(gè)文檔部分知識的復(fù)雜問題上表現(xiàn)欠佳。由于缺乏對文檔全局結(jié)構(gòu)和內(nèi)容的深入理解，rag系統(tǒng)難以提供全面且連貫的回答。這在處理跨章節(jié)或涉及復(fù)雜語義層次的問題時(shí)尤其明顯，檢索到的文本塊無法提供足夠的上下文支持，導(dǎo)致生成的答案缺乏深度和廣度，無法滿足實(shí)際應(yīng)用中的需求。

技術(shù)實(shí)現(xiàn)思路

1、針對上述問題中存在的不足之處，本專利技術(shù)提供一種rag系統(tǒng)優(yōu)化方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)。

2、為實(shí)現(xiàn)上述目的，本專利技術(shù)提供一種rag系統(tǒng)優(yōu)化方法，包括：

3、將pdf文檔的每一頁轉(zhuǎn)換為圖像；

4、利用目標(biāo)檢測模型對圖像進(jìn)行分析，識別出錨框的四個(gè)坐標(biāo)和目標(biāo)類別，目標(biāo)類別包括文章標(biāo)題、章節(jié)標(biāo)題和正文；

5、基于目標(biāo)類別所在的頁碼信息和目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序；

6、利用ocr模型對圖像中的文本內(nèi)容進(jìn)行提取，并將提取的文本依據(jù)排序結(jié)果進(jìn)行合并，生成帶有結(jié)構(gòu)化標(biāo)記的文檔；

7、從帶有結(jié)構(gòu)化標(biāo)記的文檔中有序提取標(biāo)題，并將標(biāo)題嵌入提示詞中輸入大語言模型中，生成層級關(guān)系的標(biāo)題；

8、將層級關(guān)系的標(biāo)題替換帶有結(jié)構(gòu)化標(biāo)記的文檔中的原始標(biāo)題，并為每個(gè)層級生成摘要信息；

9、帶有結(jié)構(gòu)化標(biāo)記的文檔以各層級標(biāo)題為分割點(diǎn)生成多個(gè)文檔分塊，文檔分塊包括層級標(biāo)題、層級摘要和正文；

10、利用向量模型將每個(gè)文檔分塊轉(zhuǎn)換為用于支持向量搜索的高維向量；

11、基于高維向量的向量搜索和關(guān)鍵詞的關(guān)鍵詞搜索，確定檢索的最終結(jié)果。

12、優(yōu)選的是，錨框的四個(gè)坐標(biāo)和目標(biāo)類別，表示如下：

13、；

14、其中，和分別為錨框的左上角和右下角坐標(biāo)，為目標(biāo)類別。

15、優(yōu)選的是，基于目標(biāo)類別所在的頁碼信息和目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序包括：

16、目標(biāo)類別所在的頁碼信息排序，排序關(guān)鍵在于目標(biāo)類別所在的頁碼和其左上角坐標(biāo)，排序得分的計(jì)算公式如下：

17、；

18、其中，是用于調(diào)整不同維度權(quán)重的系數(shù)，表示目標(biāo)類別所在的頁面編號，和分別表示目標(biāo)類別在頁面中的橫向和縱向位置。

19、優(yōu)選的是，對于一個(gè)根標(biāo)題，其經(jīng)過大語言模型處理并注入層級關(guān)系后的標(biāo)題表示為：

20、；

21、對于一個(gè)非根標(biāo)題，其層級標(biāo)題則由其父級的層級標(biāo)題和當(dāng)前標(biāo)題連接而成，表示為：

22、；

23、其中，表示當(dāng)前標(biāo)題的父級標(biāo)題，函數(shù)用于將父級的層級標(biāo)題與當(dāng)前標(biāo)題進(jìn)行基于設(shè)定分隔符的字符串連接，從而生成完整的層級標(biāo)題。

24、優(yōu)選的是，將層級關(guān)系的標(biāo)題替換帶有結(jié)構(gòu)化標(biāo)記的文檔中的原始標(biāo)題，并為每個(gè)層級生成摘要信息包括：

25、對于葉子節(jié)點(diǎn)，摘要信息由大語言模型根據(jù)該節(jié)點(diǎn)對應(yīng)的正文內(nèi)容生成，可以表示為：

26、；

27、在生成所有葉子節(jié)點(diǎn)的摘要后，通過拓?fù)渑判蛑饘酉蛏蠀R總每個(gè)父節(jié)點(diǎn)的摘要信息；對于非葉子節(jié)點(diǎn)，其摘要不僅依賴于自身的正文內(nèi)容，還需要整合其所有子節(jié)點(diǎn)的摘要信息，以形成更為全面的概述，具體公式如下：

28、；

29、其中，表示該非葉子節(jié)點(diǎn)的每個(gè)子節(jié)點(diǎn)的摘要，表示該非葉子節(jié)點(diǎn)的正文內(nèi)容。

30、優(yōu)選的是，基于高維向量的向量搜索和關(guān)鍵詞的關(guān)鍵詞搜索，確定檢索的最終結(jié)果包括：

31、對向量搜索的余弦相似度得分和關(guān)鍵詞搜索的bm25得分進(jìn)行歸一化處理，將它們線性映射到0到1的范圍內(nèi)，通過加權(quán)平均融合歸一化后的分?jǐn)?shù)，生成最終的綜合評分，表示為：

32、；

33、其中，和分別是向量搜索和關(guān)鍵詞搜索的權(quán)重系數(shù)。

34、本申請還提供一種rag系統(tǒng)優(yōu)化系統(tǒng)，包括：

35、轉(zhuǎn)換模塊，用于將pdf文檔的每一頁轉(zhuǎn)換為圖像；

36、識別模塊，用于利用目標(biāo)檢測模型對所述圖像進(jìn)行分析，識別出錨框的四個(gè)坐標(biāo)和目標(biāo)類別，所述目標(biāo)類別包括文章標(biāo)題、章節(jié)標(biāo)題和正文；

37、排序模塊，用于基于所述目標(biāo)類別所在的頁碼信息和所述目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序；

38、提取模塊，用于利用ocr模型對所述圖像中的文本內(nèi)容進(jìn)行提取，并將提取的文本依據(jù)排序結(jié)果進(jìn)行合并，生成帶有結(jié)構(gòu)化標(biāo)記的文檔；

39、大語言模型模塊，用于從所述帶本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種RAG系統(tǒng)優(yōu)化方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的RAG系統(tǒng)優(yōu)化方法，其特征在于，所述錨框的四個(gè)坐標(biāo)和目標(biāo)類別，表示如下：

3.根據(jù)權(quán)利要求2所述的RAG系統(tǒng)優(yōu)化方法，其特征在于，基于所述目標(biāo)類別所在的頁碼信息和所述目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序包括：

4.根據(jù)權(quán)利要求3所述的RAG系統(tǒng)優(yōu)化方法，其特征在于，對于一個(gè)根標(biāo)題，其經(jīng)過所述大語言模型處理并注入層級關(guān)系后的標(biāo)題表示為：

5.根據(jù)權(quán)利要求4所述的RAG系統(tǒng)優(yōu)化方法，其特征在于，將所述層級關(guān)系的標(biāo)題替換所述帶有結(jié)構(gòu)化標(biāo)記的文檔中的原始標(biāo)題，并為每個(gè)層級生成摘要信息包括：

6.根據(jù)權(quán)利要求5所述的RAG系統(tǒng)優(yōu)化方法，其特征在于，基于所述高維向量的向量搜索和關(guān)鍵詞的關(guān)鍵詞搜索，確定檢索的最終結(jié)果包括：

7.一種RAG系統(tǒng)優(yōu)化系統(tǒng)，其特征在于，包括：

8.一種電子設(shè)備，其特征在于，包括至少一個(gè)處理單元以及至少一個(gè)存儲單元，其中，所述存儲單元存儲有計(jì)算機(jī)程序，當(dāng)所述程序被所述處理單元執(zhí)行時(shí)，使得所述處理單元執(zhí)行權(quán)利要求1～6任

9.一種存儲介質(zhì)，其特征在于，其存儲有可由電子電子設(shè)備執(zhí)行的計(jì)算機(jī)程序，當(dāng)所述程序在所述電子電子設(shè)備上運(yùn)行時(shí)，使得所述電子電子設(shè)備執(zhí)行權(quán)利要求1～6任一權(quán)利要求所述的方法。

...

【技術(shù)特征摘要】

1.一種rag系統(tǒng)優(yōu)化方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的rag系統(tǒng)優(yōu)化方法，其特征在于，所述錨框的四個(gè)坐標(biāo)和目標(biāo)類別，表示如下：

3.根據(jù)權(quán)利要求2所述的rag系統(tǒng)優(yōu)化方法，其特征在于，基于所述目標(biāo)類別所在的頁碼信息和所述目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序包括：

4.根據(jù)權(quán)利要求3所述的rag系統(tǒng)優(yōu)化方法，其特征在于，對于一個(gè)根標(biāo)題，其經(jīng)過所述大語言模型處理并注入層級關(guān)系后的標(biāo)題表示為：

5.根據(jù)權(quán)利要求4所述的rag系統(tǒng)優(yōu)化方法，其特征在于，將所述層級關(guān)系的標(biāo)題替換所述帶有結(jié)構(gòu)化標(biāo)記的文檔中的原始標(biāo)題，并為每個(gè)層級生成摘要信息包括：...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：蘇政暉，王翱宇，吉梁茜，王羽中，陳雪兒，蔣咪，
申請(專利權(quán))人：杭州諧云科技有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評論

還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)

一種RAG系統(tǒng)優(yōu)化方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)技術(shù)方案

一種RAG系統(tǒng)優(yōu)化方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)技術(shù)方案