System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码人妻久久久一区二区三区,亚洲av无码一区二区乱子伦as ,高清无码午夜福利在线观看
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種RAG系統(tǒng)優(yōu)化方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)技術(shù)方案

    技術(shù)編號:43292889 閱讀:11 留言:0更新日期:2024-11-12 16:12
    本發(fā)明專利技術(shù)公開了一種RAG系統(tǒng)優(yōu)化方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì),包括將文檔轉(zhuǎn)換為圖像;對圖像進(jìn)行分析,識別出錨框的四個(gè)坐標(biāo)和目標(biāo)類別;對圖像中的文本內(nèi)容進(jìn)行提取,生成帶有結(jié)構(gòu)化標(biāo)記的文檔;從帶有結(jié)構(gòu)化標(biāo)記的文檔中有序提取標(biāo)題,將標(biāo)題輸入大語言模型中,生成層級關(guān)系的標(biāo)題;將層級關(guān)系的標(biāo)題替換原始標(biāo)題,生成摘要信息;以各層級標(biāo)題為分割點(diǎn)生成多個(gè)文檔分塊;將每個(gè)文檔分塊轉(zhuǎn)換為高維向量;基于向量搜索和關(guān)鍵詞搜索,確定檢索的最終結(jié)果。本發(fā)明專利技術(shù)顯著提升了RAG系統(tǒng)在復(fù)雜問答任務(wù)中的表現(xiàn),能夠有效區(qū)分相似文檔并更好地理解文檔全局語義,最終提供更加準(zhǔn)確和全面的回答,有效緩解了傳統(tǒng)方法在應(yīng)對復(fù)雜文檔場景時(shí)的局限性。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及大型語言模型優(yōu)化,尤其涉及一種rag系統(tǒng)優(yōu)化方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)。


    技術(shù)介紹

    1、隨著人工智能技術(shù)和自然語言處理技術(shù)的快速發(fā)展,大型語言模型(llm)在各個(gè)領(lǐng)域中得到了廣泛的應(yīng)用,尤其是在問答(qa)領(lǐng)域。llm通過其強(qiáng)大的語言生成能力,可以在多種場景下提供高質(zhì)量的回答。然而,單純依賴llm進(jìn)行問答仍然面臨若干技術(shù)挑戰(zhàn),包括幻覺問題、時(shí)效性問題以及數(shù)據(jù)安全問題。為了解決這些問題,研究者提出了通過微調(diào)大模型來提升其性能的方法。然而,微調(diào)大型語言模型通常需要消耗大量的計(jì)算資源和時(shí)間,這限制了其在資源受限環(huán)境中的應(yīng)用。

    2、為此,業(yè)界提出了多種高效微調(diào)技術(shù),如lora(低秩自適應(yīng))、qlora(量化低秩自適應(yīng))等,這些方法通過降低模型參數(shù)的調(diào)整復(fù)雜性,有效減少了微調(diào)過程中的計(jì)算資源消耗和時(shí)間成本。此外,分布式訓(xùn)練中的數(shù)據(jù)并行和張量并行技術(shù)也被應(yīng)用于加速微調(diào)過程。然而,即使采用這些技術(shù),仍然無法徹底解決時(shí)效性問題。隨著文檔更新頻率的加快和知識快速更迭,依賴頻繁微調(diào)以保持模型的準(zhǔn)確性和時(shí)效性在實(shí)際應(yīng)用中仍然面臨巨大挑戰(zhàn),尤其在需要迅速適應(yīng)最新信息的場景中,這種方法的局限性尤為突出。

    3、作為解決上述問題的有效途徑,基于檢索增強(qiáng)生成(rag)的方法應(yīng)運(yùn)而生。rag系統(tǒng)通過結(jié)合信息檢索和生成模型的優(yōu)勢,在問答任務(wù)中不僅依賴llm的生成能力,還從外部檢索語料庫中獲取與查詢相關(guān)的文本片段,并將其作為上下文輸入到生成模型中,從而生成更加準(zhǔn)確和實(shí)時(shí)的答案。與單純依賴生成模型的傳統(tǒng)方法相比,rag系統(tǒng)顯著減少了幻覺現(xiàn)象,提升了回答的準(zhǔn)確性,并在一定程度上解決了時(shí)效性問題,同時(shí)避免了頻繁微調(diào)的需求,顯著降低了資源消耗。

    4、盡管基于rag的方法在提升大型語言模型問答性能方面取得了顯著進(jìn)展,但現(xiàn)有的rag系統(tǒng)仍然存在明顯的局限性。首先,標(biāo)準(zhǔn)的rag系統(tǒng)通常將文檔表示為非結(jié)構(gòu)化的文本塊,這種方式在處理大規(guī)模、結(jié)構(gòu)相似的文檔時(shí),表現(xiàn)出明顯的不足。當(dāng)面對如各型號手機(jī)產(chǎn)品手冊、公司財(cái)務(wù)報(bào)告和醫(yī)療診斷與治療手冊等內(nèi)容和結(jié)構(gòu)高度相似的文檔時(shí),現(xiàn)有系統(tǒng)難以有效區(qū)分文檔之間的差異。當(dāng)系統(tǒng)無法準(zhǔn)確區(qū)分這些相似文檔時(shí),往往會導(dǎo)致檢索結(jié)果不精確,從而影響生成答案的準(zhǔn)確性和相關(guān)性。這種局限性在多文檔問答場景中尤為突出,因?yàn)槎辔臋n問答不僅需要處理單個(gè)文檔,還必須考慮文檔之間的關(guān)系和差異。其次,現(xiàn)有rag方法在處理復(fù)雜語境時(shí)的局限性也不容忽視。現(xiàn)有的大多數(shù)rag系統(tǒng)僅從語料庫中檢索少量且連續(xù)的文本塊,這限制了對文檔全局語義結(jié)構(gòu)的理解。這種方法在處理簡單問答時(shí)可能能夠滿足需求,但在需要整合多個(gè)文檔部分知識的復(fù)雜問題上表現(xiàn)欠佳。由于缺乏對文檔全局結(jié)構(gòu)和內(nèi)容的深入理解,rag系統(tǒng)難以提供全面且連貫的回答。這在處理跨章節(jié)或涉及復(fù)雜語義層次的問題時(shí)尤其明顯,檢索到的文本塊無法提供足夠的上下文支持,導(dǎo)致生成的答案缺乏深度和廣度,無法滿足實(shí)際應(yīng)用中的需求。


    技術(shù)實(shí)現(xiàn)思路

    1、針對上述問題中存在的不足之處,本專利技術(shù)提供一種rag系統(tǒng)優(yōu)化方法、系統(tǒng)、電子設(shè)備及存儲介質(zhì)。

    2、為實(shí)現(xiàn)上述目的,本專利技術(shù)提供一種rag系統(tǒng)優(yōu)化方法,包括:

    3、將pdf文檔的每一頁轉(zhuǎn)換為圖像;

    4、利用目標(biāo)檢測模型對圖像進(jìn)行分析,識別出錨框的四個(gè)坐標(biāo)和目標(biāo)類別,目標(biāo)類別包括文章標(biāo)題、章節(jié)標(biāo)題和正文;

    5、基于目標(biāo)類別所在的頁碼信息和目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序;

    6、利用ocr模型對圖像中的文本內(nèi)容進(jìn)行提取,并將提取的文本依據(jù)排序結(jié)果進(jìn)行合并,生成帶有結(jié)構(gòu)化標(biāo)記的文檔;

    7、從帶有結(jié)構(gòu)化標(biāo)記的文檔中有序提取標(biāo)題,并將標(biāo)題嵌入提示詞中輸入大語言模型中,生成層級關(guān)系的標(biāo)題;

    8、將層級關(guān)系的標(biāo)題替換帶有結(jié)構(gòu)化標(biāo)記的文檔中的原始標(biāo)題,并為每個(gè)層級生成摘要信息;

    9、帶有結(jié)構(gòu)化標(biāo)記的文檔以各層級標(biāo)題為分割點(diǎn)生成多個(gè)文檔分塊,文檔分塊包括層級標(biāo)題、層級摘要和正文;

    10、利用向量模型將每個(gè)文檔分塊轉(zhuǎn)換為用于支持向量搜索的高維向量;

    11、基于高維向量的向量搜索和關(guān)鍵詞的關(guān)鍵詞搜索,確定檢索的最終結(jié)果。

    12、優(yōu)選的是,錨框的四個(gè)坐標(biāo)和目標(biāo)類別,表示如下:

    13、;

    14、其中,和分別為錨框的左上角和右下角坐標(biāo),為目標(biāo)類別。

    15、優(yōu)選的是,基于目標(biāo)類別所在的頁碼信息和目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序包括:

    16、目標(biāo)類別所在的頁碼信息排序,排序關(guān)鍵在于目標(biāo)類別所在的頁碼和其左上角坐標(biāo),排序得分的計(jì)算公式如下:

    17、;

    18、其中,是用于調(diào)整不同維度權(quán)重的系數(shù),表示目標(biāo)類別所在的頁面編號,和分別表示目標(biāo)類別在頁面中的橫向和縱向位置。

    19、優(yōu)選的是,對于一個(gè)根標(biāo)題,其經(jīng)過大語言模型處理并注入層級關(guān)系后的標(biāo)題表示為:

    20、;

    21、對于一個(gè)非根標(biāo)題,其層級標(biāo)題則由其父級的層級標(biāo)題和當(dāng)前標(biāo)題連接而成,表示為:

    22、;

    23、其中,表示當(dāng)前標(biāo)題的父級標(biāo)題,函數(shù)用于將父級的層級標(biāo)題與當(dāng)前標(biāo)題進(jìn)行基于設(shè)定分隔符的字符串連接,從而生成完整的層級標(biāo)題。

    24、優(yōu)選的是,將層級關(guān)系的標(biāo)題替換帶有結(jié)構(gòu)化標(biāo)記的文檔中的原始標(biāo)題,并為每個(gè)層級生成摘要信息包括:

    25、對于葉子節(jié)點(diǎn),摘要信息由大語言模型根據(jù)該節(jié)點(diǎn)對應(yīng)的正文內(nèi)容生成,可以表示為:

    26、;

    27、在生成所有葉子節(jié)點(diǎn)的摘要后,通過拓?fù)渑判蛑饘酉蛏蠀R總每個(gè)父節(jié)點(diǎn)的摘要信息;對于非葉子節(jié)點(diǎn),其摘要不僅依賴于自身的正文內(nèi)容,還需要整合其所有子節(jié)點(diǎn)的摘要信息,以形成更為全面的概述,具體公式如下:

    28、;

    29、其中,表示該非葉子節(jié)點(diǎn)的每個(gè)子節(jié)點(diǎn)的摘要,表示該非葉子節(jié)點(diǎn)的正文內(nèi)容。

    30、優(yōu)選的是,基于高維向量的向量搜索和關(guān)鍵詞的關(guān)鍵詞搜索,確定檢索的最終結(jié)果包括:

    31、對向量搜索的余弦相似度得分和關(guān)鍵詞搜索的bm25得分進(jìn)行歸一化處理,將它們線性映射到0到1的范圍內(nèi),通過加權(quán)平均融合歸一化后的分?jǐn)?shù),生成最終的綜合評分,表示為:

    32、;

    33、其中,和分別是向量搜索和關(guān)鍵詞搜索的權(quán)重系數(shù)。

    34、本申請還提供一種rag系統(tǒng)優(yōu)化系統(tǒng),包括:

    35、轉(zhuǎn)換模塊,用于將pdf文檔的每一頁轉(zhuǎn)換為圖像;

    36、識別模塊,用于利用目標(biāo)檢測模型對所述圖像進(jìn)行分析,識別出錨框的四個(gè)坐標(biāo)和目標(biāo)類別,所述目標(biāo)類別包括文章標(biāo)題、章節(jié)標(biāo)題和正文;

    37、排序模塊,用于基于所述目標(biāo)類別所在的頁碼信息和所述目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序;

    38、提取模塊,用于利用ocr模型對所述圖像中的文本內(nèi)容進(jìn)行提取,并將提取的文本依據(jù)排序結(jié)果進(jìn)行合并,生成帶有結(jié)構(gòu)化標(biāo)記的文檔;

    39、大語言模型模塊,用于從所述帶本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種RAG系統(tǒng)優(yōu)化方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的RAG系統(tǒng)優(yōu)化方法,其特征在于,所述錨框的四個(gè)坐標(biāo)和目標(biāo)類別,表示如下:

    3.根據(jù)權(quán)利要求2所述的RAG系統(tǒng)優(yōu)化方法,其特征在于,基于所述目標(biāo)類別所在的頁碼信息和所述目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序包括:

    4.根據(jù)權(quán)利要求3所述的RAG系統(tǒng)優(yōu)化方法,其特征在于,對于一個(gè)根標(biāo)題,其經(jīng)過所述大語言模型處理并注入層級關(guān)系后的標(biāo)題表示為:

    5.根據(jù)權(quán)利要求4所述的RAG系統(tǒng)優(yōu)化方法,其特征在于,將所述層級關(guān)系的標(biāo)題替換所述帶有結(jié)構(gòu)化標(biāo)記的文檔中的原始標(biāo)題,并為每個(gè)層級生成摘要信息包括:

    6.根據(jù)權(quán)利要求5所述的RAG系統(tǒng)優(yōu)化方法,其特征在于,基于所述高維向量的向量搜索和關(guān)鍵詞的關(guān)鍵詞搜索,確定檢索的最終結(jié)果包括:

    7.一種RAG系統(tǒng)優(yōu)化系統(tǒng),其特征在于,包括:

    8.一種電子設(shè)備,其特征在于,包括至少一個(gè)處理單元以及至少一個(gè)存儲單元,其中,所述存儲單元存儲有計(jì)算機(jī)程序,當(dāng)所述程序被所述處理單元執(zhí)行時(shí),使得所述處理單元執(zhí)行權(quán)利要求1~6任一權(quán)利要求所述的方法。

    9.一種存儲介質(zhì),其特征在于,其存儲有可由電子電子設(shè)備執(zhí)行的計(jì)算機(jī)程序,當(dāng)所述程序在所述電子電子設(shè)備上運(yùn)行時(shí),使得所述電子電子設(shè)備執(zhí)行權(quán)利要求1~6任一權(quán)利要求所述的方法。

    ...

    【技術(shù)特征摘要】

    1.一種rag系統(tǒng)優(yōu)化方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的rag系統(tǒng)優(yōu)化方法,其特征在于,所述錨框的四個(gè)坐標(biāo)和目標(biāo)類別,表示如下:

    3.根據(jù)權(quán)利要求2所述的rag系統(tǒng)優(yōu)化方法,其特征在于,基于所述目標(biāo)類別所在的頁碼信息和所述目標(biāo)類別在頁面的坐標(biāo)位置進(jìn)行排序包括:

    4.根據(jù)權(quán)利要求3所述的rag系統(tǒng)優(yōu)化方法,其特征在于,對于一個(gè)根標(biāo)題,其經(jīng)過所述大語言模型處理并注入層級關(guān)系后的標(biāo)題表示為:

    5.根據(jù)權(quán)利要求4所述的rag系統(tǒng)優(yōu)化方法,其特征在于,將所述層級關(guān)系的標(biāo)題替換所述帶有結(jié)構(gòu)化標(biāo)記的文檔中的原始標(biāo)題,并為每個(gè)層級生成摘要信息包括:...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:蘇政暉,王翱宇,吉梁茜,王羽中,陳雪兒,蔣咪
    申請(專利權(quán))人:杭州諧云科技有限公司,
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 亚洲日韩精品无码专区网站| 人妻少妇偷人精品无码| 免费无码又爽又刺激高潮| 爆乳无码AV一区二区三区| 免费无码午夜福利片| 无码丰满少妇2在线观看| 无码av中文一区二区三区桃花岛| 久久精品无码一区二区三区日韩| 激情无码人妻又粗又大中国人 | 免费无码AV电影在线观看| 国产人成无码视频在线观看| 国产乱子伦精品无码码专区| 无码中文字幕色专区| 精品无码AV无码免费专区| 伊人久久精品无码av一区| 无码av中文一区二区三区桃花岛| 少妇无码一区二区三区| 亚洲精品无码专区久久久 | 日产无码1区2区在线观看| 日韩AV无码久久一区二区| 亚洲精品无码成人片在线观看 | 91精品久久久久久无码| 亚洲精品无码国产| 狠狠躁天天躁无码中文字幕 | 国精品无码一区二区三区左线| 免费a级毛片无码a∨蜜芽试看| 无码久久精品国产亚洲Av影片| 国产精品无码一区二区在线观一| 色欲AV永久无码精品无码| 中文字幕人成无码免费视频| 欧洲成人午夜精品无码区久久 | 久久精品国产亚洲AV无码麻豆| 亚洲综合无码精品一区二区三区| 潮喷大喷水系列无码久久精品| av无码精品一区二区三区四区| 国产成人亚洲精品无码AV大片| 无码的免费不卡毛片视频| 永久免费无码日韩视频| 久久无码精品一区二区三区| 好硬~好爽~别进去~动态图, 69式真人无码视频免 | 亚洲国产成人无码AV在线|