System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及大型語言模型優(yōu)化,尤其涉及一種rag系統(tǒng)優(yōu)化方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)。
技術(shù)介紹
1、隨著人工智能技術(shù)和自然語言處理技術(shù)的快速發(fā)展,大型語言模型(llm)在各個(gè)領(lǐng)域中得到了廣泛的應(yīng)用,尤其是在問答(qa)領(lǐng)域。llm通過其強(qiáng)大的語言生成能力,可以在多種場景下提供高質(zhì)量的回答。然而,單純依賴llm進(jìn)行問答仍然面臨若干技術(shù)挑戰(zhàn),包括幻覺問題、時(shí)效性問題以及數(shù)據(jù)安全問題。為了解決這些問題,研究者提出了通過微調(diào)大模型來提升其性能的方法。然而,微調(diào)大型語言模型通常需要消耗大量的計(jì)算資源和時(shí)間,這限制了其在資源受限環(huán)境中的應(yīng)用。
2、為此,業(yè)界提出了多種高效微調(diào)技術(shù),如lora(低秩自適應(yīng))、qlora(量化低秩自適應(yīng))等,這些方法通過降低模型參數(shù)的調(diào)整復(fù)雜性,有效減少了微調(diào)過程中的計(jì)算資源消耗和時(shí)間成本。此外,分布式訓(xùn)練中的數(shù)據(jù)并行和張量并行技術(shù)也被應(yīng)用于加速微調(diào)過程。然而,即使采用這些技術(shù),仍然無法徹底解決時(shí)效性問題。隨著文檔更新頻率的加快和知識快速更迭,依賴頻繁微調(diào)以保持模型的準(zhǔn)確性和時(shí)效性在實(shí)際應(yīng)用中仍然面臨巨大挑戰(zhàn),尤其在需要迅速適應(yīng)最新信息的場景中,這種方法的局限性尤為突出。
3、作為解決上述問題的有效途徑,基于檢索增強(qiáng)生成(rag)的方法應(yīng)運(yùn)而生。rag系統(tǒng)通過結(jié)合信息檢索和生成模型的優(yōu)勢,在問答任務(wù)中不僅依賴llm的生成能力,還從外部檢索語料庫中獲取與查詢相關(guān)的文本片段,并將其作為上下文輸入到生成模型中,從而生成更加準(zhǔn)確和實(shí)時(shí)的答案。與單純依賴生成模型的傳統(tǒng)方法相比,rag系統(tǒng)顯著
4、盡管基于rag的方法在提升大型語言模型問答性能方面取得了顯著進(jìn)展,但現(xiàn)有的rag系統(tǒng)仍然存在明顯的局限性。首先,標(biāo)準(zhǔn)的rag系統(tǒng)通常將文檔表示為非結(jié)構(gòu)化的文本塊,這種方式在處理大規(guī)模、結(jié)構(gòu)相似的文檔時(shí),表現(xiàn)出明顯的不足。當(dāng)面對如各型號手機(jī)產(chǎn)品手冊、公司財(cái)務(wù)報(bào)告和醫(yī)療診斷與治療手冊等內(nèi)容和結(jié)構(gòu)高度相似的文檔時(shí),現(xiàn)有系統(tǒng)難以有效區(qū)分文檔之間的差異。當(dāng)系統(tǒng)無法準(zhǔn)確區(qū)分這些相似文檔時(shí),往往會導(dǎo)致檢索結(jié)果不精確,從而影響生成答案的準(zhǔn)確性和相關(guān)性。這種局限性在多文檔問答場景中尤為突出,因?yàn)槎辔臋n問答不僅需要處理單個(gè)文檔,還必須考慮文檔之間的關(guān)系和差異。其次,現(xiàn)有rag方法在處理復(fù)雜語境時(shí)的局限性也不容忽視。現(xiàn)有的大多數(shù)rag系統(tǒng)僅從語料庫中檢索少量且連續(xù)的文本塊,這限制了對文檔全局語義結(jié)構(gòu)的理解。這種方法在處理簡單問答時(shí)可能能夠滿足需求,但在需要整合多個(gè)文檔部分知識的復(fù)雜問題上表現(xiàn)欠佳。由于缺乏對文檔全局結(jié)構(gòu)和內(nèi)容的深入理解,rag系統(tǒng)難以提供全面且連貫的回答。這在處理跨章節(jié)或涉及復(fù)雜語義層次的問題時(shí)尤其明顯,檢索到的文本塊無法提供足夠的上下文支持,導(dǎo)致生成的答案缺乏深度和廣度,無法滿足實(shí)際應(yīng)用中的需求。
技術(shù)實(shí)現(xiàn)思路
1、針對上述問題中存在的不足之處,本專利技術(shù)提供一種rag系統(tǒng)優(yōu)化方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)。
2、為實(shí)現(xiàn)上述目的,本專利技術(shù)提供一種rag系統(tǒng)優(yōu)化方法,包括:
3、將pdf文檔的每一頁轉(zhuǎn)換為圖像;
4、利用目標(biāo)檢測模型對圖像進(jìn)行分析,識別出錨框的四個(gè)坐標(biāo)和目標(biāo)類別,目標(biāo)類別包括文章標(biāo)題、章節(jié)標(biāo)題和正文;
5、基于目標(biāo)類別所在的頁碼信息和目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序;
6、利用ocr模型對圖像中的文本內(nèi)容進(jìn)行提取,并將提取的文本依據(jù)排序結(jié)果進(jìn)行合并,生成帶有結(jié)構(gòu)化標(biāo)記的文檔;
7、從帶有結(jié)構(gòu)化標(biāo)記的文檔中有序提取標(biāo)題,并將標(biāo)題嵌入提示詞中輸入大語言模型中,生成層級關(guān)系的標(biāo)題;
8、將層級關(guān)系的標(biāo)題替換帶有結(jié)構(gòu)化標(biāo)記的文檔中的原始標(biāo)題,并為每個(gè)層級生成摘要信息;
9、帶有結(jié)構(gòu)化標(biāo)記的文檔以各層級標(biāo)題為分割點(diǎn)生成多個(gè)文檔分塊,文檔分塊包括層級標(biāo)題、層級摘要和正文;
10、利用向量模型將每個(gè)文檔分塊轉(zhuǎn)換為用于支持向量搜索的高維向量;
11、基于高維向量的向量搜索和關(guān)鍵詞的關(guān)鍵詞搜索,確定檢索的最終結(jié)果。
12、優(yōu)選的是,錨框的四個(gè)坐標(biāo)和目標(biāo)類別,表示如下:
13、;
14、其中,和分別為錨框的左上角和右下角坐標(biāo),為目標(biāo)類別。
15、優(yōu)選的是,基于目標(biāo)類別所在的頁碼信息和目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序包括:
16、目標(biāo)類別所在的頁碼信息排序,排序關(guān)鍵在于目標(biāo)類別所在的頁碼和其左上角坐標(biāo),排序得分的計(jì)算公式如下:
17、;
18、其中,是用于調(diào)整不同維度權(quán)重的系數(shù),表示目標(biāo)類別所在的頁面編號,和分別表示目標(biāo)類別在頁面中的橫向和縱向位置。
19、優(yōu)選的是,對于一個(gè)根標(biāo)題,其經(jīng)過大語言模型處理并注入層級關(guān)系后的標(biāo)題表示為:
20、;
21、對于一個(gè)非根標(biāo)題,其層級標(biāo)題則由其父級的層級標(biāo)題和當(dāng)前標(biāo)題連接而成,表示為:
22、;
23、其中,表示當(dāng)前標(biāo)題的父級標(biāo)題,函數(shù)用于將父級的層級標(biāo)題與當(dāng)前標(biāo)題進(jìn)行基于設(shè)定分隔符的字符串連接,從而生成完整的層級標(biāo)題。
24、優(yōu)選的是,將層級關(guān)系的標(biāo)題替換帶有結(jié)構(gòu)化標(biāo)記的文檔中的原始標(biāo)題,并為每個(gè)層級生成摘要信息包括:
25、對于葉子節(jié)點(diǎn),摘要信息由大語言模型根據(jù)該節(jié)點(diǎn)對應(yīng)的正文內(nèi)容生成,可以表示為:
26、;
27、在生成所有葉子節(jié)點(diǎn)的摘要后,通過拓?fù)渑判蛑饘酉蛏蠀R總每個(gè)父節(jié)點(diǎn)的摘要信息;對于非葉子節(jié)點(diǎn),其摘要不僅依賴于自身的正文內(nèi)容,還需要整合其所有子節(jié)點(diǎn)的摘要信息,以形成更為全面的概述,具體公式如下:
28、;
29、其中,表示該非葉子節(jié)點(diǎn)的每個(gè)子節(jié)點(diǎn)的摘要,表示該非葉子節(jié)點(diǎn)的正文內(nèi)容。
30、優(yōu)選的是,基于高維向量的向量搜索和關(guān)鍵詞的關(guān)鍵詞搜索,確定檢索的最終結(jié)果包括:
31、對向量搜索的余弦相似度得分和關(guān)鍵詞搜索的bm25得分進(jìn)行歸一化處理,將它們線性映射到0到1的范圍內(nèi),通過加權(quán)平均融合歸一化后的分?jǐn)?shù),生成最終的綜合評分,表示為:
32、;
33、其中,和分別是向量搜索和關(guān)鍵詞搜索的權(quán)重系數(shù)。
34、本申請還提供一種rag系統(tǒng)優(yōu)化系統(tǒng),包括:
35、轉(zhuǎn)換模塊,用于將pdf文檔的每一頁轉(zhuǎn)換為圖像;
36、識別模塊,用于利用目標(biāo)檢測模型對所述圖像進(jìn)行分析,識別出錨框的四個(gè)坐標(biāo)和目標(biāo)類別,所述目標(biāo)類別包括文章標(biāo)題、章節(jié)標(biāo)題和正文;
37、排序模塊,用于基于所述目標(biāo)類別所在的頁碼信息和所述目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序;
38、提取模塊,用于利用ocr模型對所述圖像中的文本內(nèi)容進(jìn)行提取,并將提取的文本依據(jù)排序結(jié)果進(jìn)行合并,生成帶有結(jié)構(gòu)化標(biāo)記的文檔;
39、大語言模型模塊,用于從所述帶本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種RAG系統(tǒng)優(yōu)化方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的RAG系統(tǒng)優(yōu)化方法,其特征在于,所述錨框的四個(gè)坐標(biāo)和目標(biāo)類別,表示如下:
3.根據(jù)權(quán)利要求2所述的RAG系統(tǒng)優(yōu)化方法,其特征在于,基于所述目標(biāo)類別所在的頁碼信息和所述目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序包括:
4.根據(jù)權(quán)利要求3所述的RAG系統(tǒng)優(yōu)化方法,其特征在于,對于一個(gè)根標(biāo)題,其經(jīng)過所述大語言模型處理并注入層級關(guān)系后的標(biāo)題表示為:
5.根據(jù)權(quán)利要求4所述的RAG系統(tǒng)優(yōu)化方法,其特征在于,將所述層級關(guān)系的標(biāo)題替換所述帶有結(jié)構(gòu)化標(biāo)記的文檔中的原始標(biāo)題,并為每個(gè)層級生成摘要信息包括:
6.根據(jù)權(quán)利要求5所述的RAG系統(tǒng)優(yōu)化方法,其特征在于,基于所述高維向量的向量搜索和關(guān)鍵詞的關(guān)鍵詞搜索,確定檢索的最終結(jié)果包括:
7.一種RAG系統(tǒng)優(yōu)化系統(tǒng),其特征在于,包括:
8.一種電子設(shè)備,其特征在于,包括至少一個(gè)處理單元以及至少一個(gè)存儲單元,其中,所述存儲單元存儲有計(jì)算機(jī)程序,當(dāng)所述程序被所述處理單元執(zhí)行時(shí),使得所述處理單元執(zhí)行權(quán)利要求1~6任
9.一種存儲介質(zhì),其特征在于,其存儲有可由電子電子設(shè)備執(zhí)行的計(jì)算機(jī)程序,當(dāng)所述程序在所述電子電子設(shè)備上運(yùn)行時(shí),使得所述電子電子設(shè)備執(zhí)行權(quán)利要求1~6任一權(quán)利要求所述的方法。
...【技術(shù)特征摘要】
1.一種rag系統(tǒng)優(yōu)化方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的rag系統(tǒng)優(yōu)化方法,其特征在于,所述錨框的四個(gè)坐標(biāo)和目標(biāo)類別,表示如下:
3.根據(jù)權(quán)利要求2所述的rag系統(tǒng)優(yōu)化方法,其特征在于,基于所述目標(biāo)類別所在的頁碼信息和所述目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序包括:
4.根據(jù)權(quán)利要求3所述的rag系統(tǒng)優(yōu)化方法,其特征在于,對于一個(gè)根標(biāo)題,其經(jīng)過所述大語言模型處理并注入層級關(guān)系后的標(biāo)題表示為:
5.根據(jù)權(quán)利要求4所述的rag系統(tǒng)優(yōu)化方法,其特征在于,將所述層級關(guān)系的標(biāo)題替換所述帶有結(jié)構(gòu)化標(biāo)記的文檔中的原始標(biāo)題,并為每個(gè)層級生成摘要信息包括:...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:蘇政暉,王翱宇,吉梁茜,王羽中,陳雪兒,蔣咪,
申請(專利權(quán))人:杭州諧云科技有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。