System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 在线播放无码高潮的视频,免费无遮挡无码永久视频,人妻av无码一区二区三区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種大模型的知識(shí)庫構(gòu)建方法及系統(tǒng)技術(shù)方案

    技術(shù)編號(hào):44298896 閱讀:10 留言:0更新日期:2025-02-18 20:17
    本發(fā)明專利技術(shù)公開了一種大模型的知識(shí)庫構(gòu)建方法及系統(tǒng),涉及信息技術(shù)領(lǐng)域,包括:預(yù)處理多源異構(gòu)文件,提取并標(biāo)準(zhǔn)化內(nèi)容;將文本切片并向量化,保留上下文信息;將向量化數(shù)據(jù)存入向量庫,執(zhí)行索引和優(yōu)化。本發(fā)明專利技術(shù)提供的大模型的知識(shí)庫構(gòu)建方法在知識(shí)庫的構(gòu)建上采用了一套功能齊全的文檔抽取方法,有效的解決了垂直領(lǐng)域文檔的特異性定制化要求,提升了系統(tǒng)的行業(yè)屬性和行業(yè)性能;在提取出來的文本進(jìn)入知識(shí)庫的過程中充分考慮到了行業(yè)特點(diǎn)和行業(yè)屬性,有定制化的高性能的向量化過程;設(shè)計(jì)高可用和高性能的向量庫架構(gòu),使得滿足功能需求的同時(shí),也滿足了增刪改查的性能需求。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及信息,具體為一種大模型的知識(shí)庫構(gòu)建方法及系統(tǒng)。


    技術(shù)介紹

    1、2023年,大語言模型爆發(fā)元年,不管是closeai出品的gpt系列模型,還是llama系列開源模型、google的gemini等模型等,其表現(xiàn)能力都讓人嘆為觀止,大語言模型在自然語言領(lǐng)域的表現(xiàn)都遠(yuǎn)超以往任何模型。但是大語言模型也存在很多不足:在處理一些專業(yè)領(lǐng)域的知識(shí)時(shí),會(huì)表現(xiàn)出知識(shí)缺失,這時(shí)候大語言模型可能無法提供準(zhǔn)確答案。在解決此類問題時(shí),數(shù)據(jù)科學(xué)家們通常使用的方法是對(duì)模型進(jìn)行微調(diào)來適應(yīng)特定領(lǐng)域的知識(shí),將知識(shí)參數(shù)化,盡管這種方法取得了卓越的效果,但是其缺點(diǎn)在于成本高昂,需要專業(yè)技術(shù)知識(shí)。

    2、針對(duì)大語言模型的另一種解決方案:參數(shù)化知識(shí)(微調(diào))存在極大局限性,難以保留訓(xùn)練語料庫中的所有知識(shí),每一次知識(shí)的更新都要消耗大量的計(jì)算資源去訓(xùn)練模型。模型參數(shù)無法動(dòng)態(tài)更新,參數(shù)化知識(shí)會(huì)隨時(shí)過時(shí)。但是相比較于參數(shù)化知識(shí)(即通過模型微調(diào)來適應(yīng)專業(yè)知識(shí)),非參數(shù)化知識(shí),即存儲(chǔ)在外部的知識(shí)源。更加方便、易于擴(kuò)展。這種方法使得開發(fā)人員無需為每一個(gè)特定任務(wù)重新訓(xùn)練整個(gè)龐大的模型。他們可以簡單地給模型加上一個(gè)知識(shí)庫,通過這種方式增加模型的信息輸入,從而提高回答的精確性。為了融合兩種方式的優(yōu)缺點(diǎn),模型可以采取半?yún)?shù)化的方法,將非參數(shù)化的語料庫數(shù)據(jù)庫與參數(shù)化模型相結(jié)合,這種方法被稱為檢索增強(qiáng)生成。

    3、為了進(jìn)行檢索增強(qiáng),需要有一個(gè)龐大的數(shù)據(jù)知識(shí)庫作為基礎(chǔ),如何構(gòu)建知識(shí)庫,并對(duì)其進(jìn)行檢索是目前面臨的主要問題。


    技術(shù)實(shí)現(xiàn)思路</p>

    1、鑒于上述存在的問題,提出了本專利技術(shù)。

    2、因此,本專利技術(shù)解決的技術(shù)問題是:現(xiàn)有的大模型知識(shí)庫構(gòu)建方法存在對(duì)多源異構(gòu)數(shù)據(jù)處理不夠高效,切片與向量化精度不足,向量庫檢索效率低下的問題,以及如何提升知識(shí)庫構(gòu)建的效率和檢索精度的優(yōu)化問題。

    3、為解決上述技術(shù)問題,本專利技術(shù)提供如下技術(shù)方案:一種大模型的知識(shí)庫構(gòu)建方法,包括:

    4、預(yù)處理多源異構(gòu)文件,提取并標(biāo)準(zhǔn)化內(nèi)容;

    5、將文本切片并向量化,保留上下文信息;

    6、將向量化數(shù)據(jù)存入向量庫,執(zhí)行索引和優(yōu)化。

    7、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案,其中:所述多源異構(gòu)文件包括結(jié)構(gòu)化數(shù)據(jù)文件、半結(jié)構(gòu)化數(shù)據(jù)文件和非結(jié)構(gòu)化數(shù)據(jù)文件;

    8、所述提取并標(biāo)準(zhǔn)化內(nèi)容包括對(duì)結(jié)構(gòu)化數(shù)據(jù)文件直接提取文本內(nèi)容;

    9、對(duì)半結(jié)構(gòu)化數(shù)據(jù)文件提取文字內(nèi)容,將格式信息轉(zhuǎn)換為統(tǒng)一的標(biāo)記格式;

    10、對(duì)非結(jié)構(gòu)化數(shù)據(jù)文件使用光學(xué)字符識(shí)別技術(shù)提取文本,對(duì)文檔中的特殊格式內(nèi)容進(jìn)行解析和處理。

    11、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案,其中:所述文檔中的特殊格式內(nèi)容包括檢測(cè)表格區(qū)域,使用目標(biāo)檢測(cè)模型識(shí)別有邊框和無邊框的表格;

    12、針對(duì)有邊框表格,識(shí)別單元格邊框并進(jìn)行ocr處理;

    13、針對(duì)無邊框表格,直接使用ocr識(shí)別,通過錨框坐標(biāo)確定文本的行列關(guān)系;

    14、對(duì)于跨頁或跨切片的表格數(shù)據(jù),提取表頭信息,并在切片中保留表頭;

    15、優(yōu)化寬幅表格,通過非結(jié)構(gòu)化描述強(qiáng)化遠(yuǎn)距離列之間的關(guān)系。

    16、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案,其中:所述將文本切片并向量化包括根據(jù)基座大模型的輸入最大token數(shù)來初步確定設(shè)定的切片長度,對(duì)不同類型特殊文本制定對(duì)應(yīng)的分片策略。

    17、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案,其中:所述切片長度表示為,

    18、l=encding(lh+lprompt+∑lcontent+lseq)

    19、其中,lh是大模型的基本信息,lprompt是本次問題制定的特殊prompt和填充進(jìn)去的本次問題組合之后的句子長度,∑lconnant是rag中作為大模型提示段落的文字總長度,∑lseq是大模型支持的多輪對(duì)話的上下文句子總長度,encding表示encding模型。

    20、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案,其中:所述分片策略包括針對(duì)markdown類型的文檔,在切片時(shí)優(yōu)先將同一層級(jí)標(biāo)題下的內(nèi)容放入同一切片中;

    21、若無法完整容納,將句子或段落保留在同一切片內(nèi);

    22、切片的重合部分長度根據(jù)文本的語義結(jié)構(gòu)動(dòng)態(tài)調(diào)整,若重合部分不足以覆蓋前一切片的句子,則在切片內(nèi)容中插入原文標(biāo)題信息。

    23、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案,其中:所述將向量化數(shù)據(jù)存入向量庫,執(zhí)行索引和優(yōu)化包括基于工業(yè)領(lǐng)域的數(shù)據(jù)特點(diǎn),選擇向量數(shù)據(jù)庫,其最小存儲(chǔ)單元為collection,依據(jù)文本向量化模型或切片大小劃分不同collection,通過payload字段進(jìn)行數(shù)據(jù)區(qū)分;

    24、選擇payload字段區(qū)分行業(yè)和主題,字段包括行業(yè)、段落id、內(nèi)容來源id,并為字段建立索引;

    25、使用冷熱分離技術(shù)將高頻訪問的數(shù)據(jù)段落存入熱庫,而低頻訪問的數(shù)據(jù)存入冷庫,在搜索時(shí),優(yōu)先在熱庫中查詢,若無法滿足需求再轉(zhuǎn)向冷庫;

    26、在搜索過程中,先進(jìn)行初始向量化參數(shù)的相似度搜索,重排搜索結(jié)果后,根據(jù)文檔id去不同的collection中檢索相關(guān)段落,搜索完成后,通過整合各部分內(nèi)容生成最終的回答輸出,所有數(shù)據(jù)存儲(chǔ)在同一個(gè)collection下,并通過metadata字段區(qū)分不同的行業(yè)和領(lǐng)域知識(shí)。

    27、本專利技術(shù)的另外一個(gè)目的是提供一種大模型的知識(shí)庫構(gòu)建系統(tǒng),其能通過構(gòu)建大模型的知識(shí)庫構(gòu)建系統(tǒng),解決了現(xiàn)有知識(shí)庫構(gòu)建方法中的多源異構(gòu)數(shù)據(jù)處理不一致,向量化后檢索不精準(zhǔn),檢索速度慢問題。

    28、為解決上述技術(shù)問題,本專利技術(shù)提供如下技術(shù)方案:一種大模型的知識(shí)庫構(gòu)建系統(tǒng),包括:文本預(yù)處理模塊、文本切片模塊以及知識(shí)庫構(gòu)建模塊;

    29、所述文本預(yù)處理模塊用于預(yù)處理多源異構(gòu)文件,提取并標(biāo)準(zhǔn)化內(nèi)容;

    30、所述文本切片模塊用于將文本切片并向量化,保留上下文信息;

    31、所述知識(shí)庫構(gòu)建模塊用于將向量化數(shù)據(jù)存入向量庫,執(zhí)行索引和優(yōu)化。

    32、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述大模型的知識(shí)庫構(gòu)建方法的步驟。

    33、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述大模型的知識(shí)庫構(gòu)建方法的步驟。

    34、本專利技術(shù)的有益效果:本專利技術(shù)提供的大模型的知識(shí)庫構(gòu)建方法在知識(shí)庫的構(gòu)建上采用了一套功能齊全的文檔抽取方法,有效的解決了垂直領(lǐng)域文檔的特異性定制化要求,提升了系統(tǒng)的行業(yè)屬性和行業(yè)性能;

    35、在提取出來的文本進(jìn)入知識(shí)庫的過程中充分考慮到了行業(yè)特點(diǎn)和行業(yè)屬性,有定制化的高性能的向量化過程;

    36、設(shè)計(jì)高可用和高性能的向量庫架構(gòu),使得滿足功能需求的同時(shí),也滿足了增刪改查的性能需求。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種大模型的知識(shí)庫構(gòu)建方法,其特征在于,包括:

    2.如權(quán)利要求1所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述多源異構(gòu)文件包括結(jié)構(gòu)化數(shù)據(jù)文件、半結(jié)構(gòu)化數(shù)據(jù)文件和非結(jié)構(gòu)化數(shù)據(jù)文件;

    3.如權(quán)利要求2所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述文檔中的特殊格式內(nèi)容包括檢測(cè)表格區(qū)域,使用目標(biāo)檢測(cè)模型識(shí)別有邊框和無邊框的表格;

    4.如權(quán)利要求3所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述將文本切片并向量化包括根據(jù)基座大模型的輸入最大token數(shù)來初步確定設(shè)定的切片長度,對(duì)不同類型特殊文本制定對(duì)應(yīng)的分片策略。

    5.如權(quán)利要求4所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述切片長度表示為,

    6.如權(quán)利要求5所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述分片策略包括針對(duì)Markdown類型的文檔,在切片時(shí)優(yōu)先將同一層級(jí)標(biāo)題下的內(nèi)容放入同一切片中;

    7.如權(quán)利要求6所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述將向量化數(shù)據(jù)存入向量庫,執(zhí)行索引和優(yōu)化包括基于工業(yè)領(lǐng)域的數(shù)據(jù)特點(diǎn),選擇向量數(shù)據(jù)庫,其最小存儲(chǔ)單元為collection,依據(jù)文本向量化模型或切片大小劃分不同collection,通過payload字段進(jìn)行數(shù)據(jù)區(qū)分;

    8.一種采用如權(quán)利要求1~7任一所述的大模型的知識(shí)庫構(gòu)建方法的系統(tǒng),其特征在于,包括:

    9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的大模型的知識(shí)庫構(gòu)建方法的步驟。

    10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的大模型的知識(shí)庫構(gòu)建方法的步驟。

    ...

    【技術(shù)特征摘要】

    1.一種大模型的知識(shí)庫構(gòu)建方法,其特征在于,包括:

    2.如權(quán)利要求1所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述多源異構(gòu)文件包括結(jié)構(gòu)化數(shù)據(jù)文件、半結(jié)構(gòu)化數(shù)據(jù)文件和非結(jié)構(gòu)化數(shù)據(jù)文件;

    3.如權(quán)利要求2所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述文檔中的特殊格式內(nèi)容包括檢測(cè)表格區(qū)域,使用目標(biāo)檢測(cè)模型識(shí)別有邊框和無邊框的表格;

    4.如權(quán)利要求3所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述將文本切片并向量化包括根據(jù)基座大模型的輸入最大token數(shù)來初步確定設(shè)定的切片長度,對(duì)不同類型特殊文本制定對(duì)應(yīng)的分片策略。

    5.如權(quán)利要求4所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述切片長度表示為,

    6.如權(quán)利要求5所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述分片策略包括針對(duì)markdown類型的文檔,在切片時(shí)優(yōu)先將同一...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:胡杰英陳學(xué)鵬李勇飛錢奎省,毛旭初,卞志剛汪江,
    申請(qǐng)(專利權(quán))人:朗坤智慧科技股份有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 久久亚洲AV成人无码国产 | 无码人妻丰满熟妇啪啪网站| 国产成人无码久久久精品一| 少妇人妻无码精品视频| 无码av无码天堂资源网| 无码国产福利av私拍| 波多野结衣VA无码中文字幕电影| 亚洲精品色午夜无码专区日韩| 99久久国产热无码精品免费| 中文字幕乱码无码人妻系列蜜桃| 亚洲AV无码成人专区| 亚洲VA中文字幕不卡无码| 国产做无码视频在线观看| 亚洲精品无码久久久久久久| 国产a级理论片无码老男人| 永久免费无码网站在线观看| 欲色aV无码一区二区人妻| 人妻丰满熟妇无码区免费| 国产精品99久久久精品无码 | 成年轻人电影www无码| 无码视频一区二区三区在线观看| 亚洲熟妇少妇任你躁在线观看无码 | 少妇人妻偷人精品无码视频| 精品亚洲成α人无码成α在线观看 | 久久久无码精品人妻一区| 久久久无码人妻精品无码| 亚洲av福利无码无一区二区 | 亚洲精品无码乱码成人| 精品无码综合一区| 国精品无码一区二区三区在线蜜臀| 无码人妻AⅤ一区二区三区水密桃 无码欧精品亚洲日韩一区夜夜嗨 无码免费又爽又高潮喷水的视频 无码毛片一区二区三区中文字幕 无码毛片一区二区三区视频免费播放 | 亚洲国产精品无码久久久| 无码囯产精品一区二区免费 | 中文字幕无码成人免费视频| 欧洲精品久久久av无码电影| 亚洲AV无码国产精品色| 精品人妻无码区在线视频| 亚洲天堂2017无码中文| 国产精品无码亚洲精品2021| 精品无码成人久久久久久| 无码的免费不卡毛片视频|