本發(fā)明專利技術(shù)公開了一種大模型的知識(shí)庫構(gòu)建方法及系統(tǒng),涉及信息技術(shù)領(lǐng)域,包括:預(yù)處理多源異構(gòu)文件,提取并標(biāo)準(zhǔn)化內(nèi)容;將文本切片并向量化,保留上下文信息;將向量化數(shù)據(jù)存入向量庫,執(zhí)行索引和優(yōu)化。本發(fā)明專利技術(shù)提供的大模型的知識(shí)庫構(gòu)建方法在知識(shí)庫的構(gòu)建上采用了一套功能齊全的文檔抽取方法,有效的解決了垂直領(lǐng)域文檔的特異性定制化要求,提升了系統(tǒng)的行業(yè)屬性和行業(yè)性能;在提取出來的文本進(jìn)入知識(shí)庫的過程中充分考慮到了行業(yè)特點(diǎn)和行業(yè)屬性,有定制化的高性能的向量化過程;設(shè)計(jì)高可用和高性能的向量庫架構(gòu),使得滿足功能需求的同時(shí),也滿足了增刪改查的性能需求。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及信息,具體為一種大模型的知識(shí)庫構(gòu)建方法及系統(tǒng)。
技術(shù)介紹
1、2023年,大語言模型爆發(fā)元年,不管是closeai出品的gpt系列模型,還是llama系列開源模型、google的gemini等模型等,其表現(xiàn)能力都讓人嘆為觀止,大語言模型在自然語言領(lǐng)域的表現(xiàn)都遠(yuǎn)超以往任何模型。但是大語言模型也存在很多不足:在處理一些專業(yè)領(lǐng)域的知識(shí)時(shí),會(huì)表現(xiàn)出知識(shí)缺失,這時(shí)候大語言模型可能無法提供準(zhǔn)確答案。在解決此類問題時(shí),數(shù)據(jù)科學(xué)家們通常使用的方法是對(duì)模型進(jìn)行微調(diào)來適應(yīng)特定領(lǐng)域的知識(shí),將知識(shí)參數(shù)化,盡管這種方法取得了卓越的效果,但是其缺點(diǎn)在于成本高昂,需要專業(yè)技術(shù)知識(shí)。
2、針對(duì)大語言模型的另一種解決方案:參數(shù)化知識(shí)(微調(diào))存在極大局限性,難以保留訓(xùn)練語料庫中的所有知識(shí),每一次知識(shí)的更新都要消耗大量的計(jì)算資源去訓(xùn)練模型。模型參數(shù)無法動(dòng)態(tài)更新,參數(shù)化知識(shí)會(huì)隨時(shí)過時(shí)。但是相比較于參數(shù)化知識(shí)(即通過模型微調(diào)來適應(yīng)專業(yè)知識(shí)),非參數(shù)化知識(shí),即存儲(chǔ)在外部的知識(shí)源。更加方便、易于擴(kuò)展。這種方法使得開發(fā)人員無需為每一個(gè)特定任務(wù)重新訓(xùn)練整個(gè)龐大的模型。他們可以簡單地給模型加上一個(gè)知識(shí)庫,通過這種方式增加模型的信息輸入,從而提高回答的精確性。為了融合兩種方式的優(yōu)缺點(diǎn),模型可以采取半?yún)?shù)化的方法,將非參數(shù)化的語料庫數(shù)據(jù)庫與參數(shù)化模型相結(jié)合,這種方法被稱為檢索增強(qiáng)生成。
3、為了進(jìn)行檢索增強(qiáng),需要有一個(gè)龐大的數(shù)據(jù)知識(shí)庫作為基礎(chǔ),如何構(gòu)建知識(shí)庫,并對(duì)其進(jìn)行檢索是目前面臨的主要問題。
技術(shù)實(shí)現(xiàn)思路</p>1、鑒于上述存在的問題,提出了本專利技術(shù)。
2、因此,本專利技術(shù)解決的技術(shù)問題是:現(xiàn)有的大模型知識(shí)庫構(gòu)建方法存在對(duì)多源異構(gòu)數(shù)據(jù)處理不夠高效,切片與向量化精度不足,向量庫檢索效率低下的問題,以及如何提升知識(shí)庫構(gòu)建的效率和檢索精度的優(yōu)化問題。
3、為解決上述技術(shù)問題,本專利技術(shù)提供如下技術(shù)方案:一種大模型的知識(shí)庫構(gòu)建方法,包括:
4、預(yù)處理多源異構(gòu)文件,提取并標(biāo)準(zhǔn)化內(nèi)容;
5、將文本切片并向量化,保留上下文信息;
6、將向量化數(shù)據(jù)存入向量庫,執(zhí)行索引和優(yōu)化。
7、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案,其中:所述多源異構(gòu)文件包括結(jié)構(gòu)化數(shù)據(jù)文件、半結(jié)構(gòu)化數(shù)據(jù)文件和非結(jié)構(gòu)化數(shù)據(jù)文件;
8、所述提取并標(biāo)準(zhǔn)化內(nèi)容包括對(duì)結(jié)構(gòu)化數(shù)據(jù)文件直接提取文本內(nèi)容;
9、對(duì)半結(jié)構(gòu)化數(shù)據(jù)文件提取文字內(nèi)容,將格式信息轉(zhuǎn)換為統(tǒng)一的標(biāo)記格式;
10、對(duì)非結(jié)構(gòu)化數(shù)據(jù)文件使用光學(xué)字符識(shí)別技術(shù)提取文本,對(duì)文檔中的特殊格式內(nèi)容進(jìn)行解析和處理。
11、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案,其中:所述文檔中的特殊格式內(nèi)容包括檢測(cè)表格區(qū)域,使用目標(biāo)檢測(cè)模型識(shí)別有邊框和無邊框的表格;
12、針對(duì)有邊框表格,識(shí)別單元格邊框并進(jìn)行ocr處理;
13、針對(duì)無邊框表格,直接使用ocr識(shí)別,通過錨框坐標(biāo)確定文本的行列關(guān)系;
14、對(duì)于跨頁或跨切片的表格數(shù)據(jù),提取表頭信息,并在切片中保留表頭;
15、優(yōu)化寬幅表格,通過非結(jié)構(gòu)化描述強(qiáng)化遠(yuǎn)距離列之間的關(guān)系。
16、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案,其中:所述將文本切片并向量化包括根據(jù)基座大模型的輸入最大token數(shù)來初步確定設(shè)定的切片長度,對(duì)不同類型特殊文本制定對(duì)應(yīng)的分片策略。
17、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案,其中:所述切片長度表示為,
18、l=encding(lh+lprompt+∑lcontent+lseq)
19、其中,lh是大模型的基本信息,lprompt是本次問題制定的特殊prompt和填充進(jìn)去的本次問題組合之后的句子長度,∑lconnant是rag中作為大模型提示段落的文字總長度,∑lseq是大模型支持的多輪對(duì)話的上下文句子總長度,encding表示encding模型。
20、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案,其中:所述分片策略包括針對(duì)markdown類型的文檔,在切片時(shí)優(yōu)先將同一層級(jí)標(biāo)題下的內(nèi)容放入同一切片中;
21、若無法完整容納,將句子或段落保留在同一切片內(nèi);
22、切片的重合部分長度根據(jù)文本的語義結(jié)構(gòu)動(dòng)態(tài)調(diào)整,若重合部分不足以覆蓋前一切片的句子,則在切片內(nèi)容中插入原文標(biāo)題信息。
23、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案,其中:所述將向量化數(shù)據(jù)存入向量庫,執(zhí)行索引和優(yōu)化包括基于工業(yè)領(lǐng)域的數(shù)據(jù)特點(diǎn),選擇向量數(shù)據(jù)庫,其最小存儲(chǔ)單元為collection,依據(jù)文本向量化模型或切片大小劃分不同collection,通過payload字段進(jìn)行數(shù)據(jù)區(qū)分;
24、選擇payload字段區(qū)分行業(yè)和主題,字段包括行業(yè)、段落id、內(nèi)容來源id,并為字段建立索引;
25、使用冷熱分離技術(shù)將高頻訪問的數(shù)據(jù)段落存入熱庫,而低頻訪問的數(shù)據(jù)存入冷庫,在搜索時(shí),優(yōu)先在熱庫中查詢,若無法滿足需求再轉(zhuǎn)向冷庫;
26、在搜索過程中,先進(jìn)行初始向量化參數(shù)的相似度搜索,重排搜索結(jié)果后,根據(jù)文檔id去不同的collection中檢索相關(guān)段落,搜索完成后,通過整合各部分內(nèi)容生成最終的回答輸出,所有數(shù)據(jù)存儲(chǔ)在同一個(gè)collection下,并通過metadata字段區(qū)分不同的行業(yè)和領(lǐng)域知識(shí)。
27、本專利技術(shù)的另外一個(gè)目的是提供一種大模型的知識(shí)庫構(gòu)建系統(tǒng),其能通過構(gòu)建大模型的知識(shí)庫構(gòu)建系統(tǒng),解決了現(xiàn)有知識(shí)庫構(gòu)建方法中的多源異構(gòu)數(shù)據(jù)處理不一致,向量化后檢索不精準(zhǔn),檢索速度慢問題。
28、為解決上述技術(shù)問題,本專利技術(shù)提供如下技術(shù)方案:一種大模型的知識(shí)庫構(gòu)建系統(tǒng),包括:文本預(yù)處理模塊、文本切片模塊以及知識(shí)庫構(gòu)建模塊;
29、所述文本預(yù)處理模塊用于預(yù)處理多源異構(gòu)文件,提取并標(biāo)準(zhǔn)化內(nèi)容;
30、所述文本切片模塊用于將文本切片并向量化,保留上下文信息;
31、所述知識(shí)庫構(gòu)建模塊用于將向量化數(shù)據(jù)存入向量庫,執(zhí)行索引和優(yōu)化。
32、一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述大模型的知識(shí)庫構(gòu)建方法的步驟。
33、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述大模型的知識(shí)庫構(gòu)建方法的步驟。
34、本專利技術(shù)的有益效果:本專利技術(shù)提供的大模型的知識(shí)庫構(gòu)建方法在知識(shí)庫的構(gòu)建上采用了一套功能齊全的文檔抽取方法,有效的解決了垂直領(lǐng)域文檔的特異性定制化要求,提升了系統(tǒng)的行業(yè)屬性和行業(yè)性能;
35、在提取出來的文本進(jìn)入知識(shí)庫的過程中充分考慮到了行業(yè)特點(diǎn)和行業(yè)屬性,有定制化的高性能的向量化過程;
36、設(shè)計(jì)高可用和高性能的向量庫架構(gòu),使得滿足功能需求的同時(shí),也滿足了增刪改查的性能需求。
本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種大模型的知識(shí)庫構(gòu)建方法,其特征在于,包括:
2.如權(quán)利要求1所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述多源異構(gòu)文件包括結(jié)構(gòu)化數(shù)據(jù)文件、半結(jié)構(gòu)化數(shù)據(jù)文件和非結(jié)構(gòu)化數(shù)據(jù)文件;
3.如權(quán)利要求2所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述文檔中的特殊格式內(nèi)容包括檢測(cè)表格區(qū)域,使用目標(biāo)檢測(cè)模型識(shí)別有邊框和無邊框的表格;
4.如權(quán)利要求3所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述將文本切片并向量化包括根據(jù)基座大模型的輸入最大token數(shù)來初步確定設(shè)定的切片長度,對(duì)不同類型特殊文本制定對(duì)應(yīng)的分片策略。
5.如權(quán)利要求4所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述切片長度表示為,
6.如權(quán)利要求5所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述分片策略包括針對(duì)Markdown類型的文檔,在切片時(shí)優(yōu)先將同一層級(jí)標(biāo)題下的內(nèi)容放入同一切片中;
7.如權(quán)利要求6所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述將向量化數(shù)據(jù)存入向量庫,執(zhí)行索引和優(yōu)化包括基于工業(yè)領(lǐng)域的數(shù)據(jù)特點(diǎn),選擇向量數(shù)據(jù)庫,其最小存儲(chǔ)單元為collection,依據(jù)文本向量化模型或切片大小劃分不同collection,通過payload字段進(jìn)行數(shù)據(jù)區(qū)分;
8.一種采用如權(quán)利要求1~7任一所述的大模型的知識(shí)庫構(gòu)建方法的系統(tǒng),其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的大模型的知識(shí)庫構(gòu)建方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的大模型的知識(shí)庫構(gòu)建方法的步驟。
...
【技術(shù)特征摘要】
1.一種大模型的知識(shí)庫構(gòu)建方法,其特征在于,包括:
2.如權(quán)利要求1所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述多源異構(gòu)文件包括結(jié)構(gòu)化數(shù)據(jù)文件、半結(jié)構(gòu)化數(shù)據(jù)文件和非結(jié)構(gòu)化數(shù)據(jù)文件;
3.如權(quán)利要求2所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述文檔中的特殊格式內(nèi)容包括檢測(cè)表格區(qū)域,使用目標(biāo)檢測(cè)模型識(shí)別有邊框和無邊框的表格;
4.如權(quán)利要求3所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述將文本切片并向量化包括根據(jù)基座大模型的輸入最大token數(shù)來初步確定設(shè)定的切片長度,對(duì)不同類型特殊文本制定對(duì)應(yīng)的分片策略。
5.如權(quán)利要求4所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述切片長度表示為,
6.如權(quán)利要求5所述的大模型的知識(shí)庫構(gòu)建方法,其特征在于:所述分片策略包括針對(duì)markdown類型的文檔,在切片時(shí)優(yōu)先將同一...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:胡杰英,陳學(xué)鵬,李勇飛,錢奎省,毛旭初,卞志剛,汪江,
申請(qǐng)(專利權(quán))人:朗坤智慧科技股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。