一種大模型的知識(shí)庫構(gòu)建方法及系統(tǒng)技術(shù)方案

技術(shù)編號(hào)：44298896 閱讀：10 留言：0更新日期：2025-02-18 20:17

本發(fā)明專利技術(shù)公開了一種大模型的知識(shí)庫構(gòu)建方法及系統(tǒng)，涉及信息技術(shù)領(lǐng)域，包括：預(yù)處理多源異構(gòu)文件，提取并標(biāo)準(zhǔn)化內(nèi)容；將文本切片并向量化，保留上下文信息；將向量化數(shù)據(jù)存入向量庫，執(zhí)行索引和優(yōu)化。本發(fā)明專利技術(shù)提供的大模型的知識(shí)庫構(gòu)建方法在知識(shí)庫的構(gòu)建上采用了一套功能齊全的文檔抽取方法，有效的解決了垂直領(lǐng)域文檔的特異性定制化要求，提升了系統(tǒng)的行業(yè)屬性和行業(yè)性能；在提取出來的文本進(jìn)入知識(shí)庫的過程中充分考慮到了行業(yè)特點(diǎn)和行業(yè)屬性，有定制化的高性能的向量化過程；設(shè)計(jì)高可用和高性能的向量庫架構(gòu)，使得滿足功能需求的同時(shí)，也滿足了增刪改查的性能需求。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及信息，具體為一種大模型的知識(shí)庫構(gòu)建方法及系統(tǒng)。

技術(shù)介紹

1、2023年，大語言模型爆發(fā)元年，不管是closeai出品的gpt系列模型，還是llama系列開源模型、google的gemini等模型等，其表現(xiàn)能力都讓人嘆為觀止，大語言模型在自然語言領(lǐng)域的表現(xiàn)都遠(yuǎn)超以往任何模型。但是大語言模型也存在很多不足：在處理一些專業(yè)領(lǐng)域的知識(shí)時(shí)，會(huì)表現(xiàn)出知識(shí)缺失，這時(shí)候大語言模型可能無法提供準(zhǔn)確答案。在解決此類問題時(shí)，數(shù)據(jù)科學(xué)家們通常使用的方法是對(duì)模型進(jìn)行微調(diào)來適應(yīng)特定領(lǐng)域的知識(shí)，將知識(shí)參數(shù)化，盡管這種方法取得了卓越的效果，但是其缺點(diǎn)在于成本高昂，需要專業(yè)技術(shù)知識(shí)。

2、針對(duì)大語言模型的另一種解決方案：參數(shù)化知識(shí)(微調(diào))存在極大局限性，難以保留訓(xùn)練語料庫中的所有知識(shí)，每一次知識(shí)的更新都要消耗大量的計(jì)算資源去訓(xùn)練模型。模型參數(shù)無法動(dòng)態(tài)更新，參數(shù)化知識(shí)會(huì)隨時(shí)過時(shí)。但是相比較于參數(shù)化知識(shí)(即通過模型微調(diào)來適應(yīng)專業(yè)知識(shí))，非參數(shù)化知識(shí)，即存儲(chǔ)在外部的知識(shí)源。更加方便、易于擴(kuò)展。這種方法使得開發(fā)人員無需為每一個(gè)特定任務(wù)重新訓(xùn)練整個(gè)龐大的模型。他們可以簡單地給模型加上一個(gè)知識(shí)庫，通過這種方式增加模型的信息輸入，從而提高回答的精確性。為了融合兩種方式的優(yōu)缺點(diǎn)，模型可以采取半?yún)?shù)化的方法，將非參數(shù)化的語料庫數(shù)據(jù)庫與參數(shù)化模型相結(jié)合，這種方法被稱為檢索增強(qiáng)生成。

3、為了進(jìn)行檢索增強(qiáng)，需要有一個(gè)龐大的數(shù)據(jù)知識(shí)庫作為基礎(chǔ)，如何構(gòu)建知識(shí)庫，并對(duì)其進(jìn)行檢索是目前面臨的主要問題。

技術(shù)實(shí)現(xiàn)思路</p>

1、鑒于上述存在的問題，提出了本專利技術(shù)。

2、因此，本專利技術(shù)解決的技術(shù)問題是：現(xiàn)有的大模型知識(shí)庫構(gòu)建方法存在對(duì)多源異構(gòu)數(shù)據(jù)處理不夠高效，切片與向量化精度不足，向量庫檢索效率低下的問題，以及如何提升知識(shí)庫構(gòu)建的效率和檢索精度的優(yōu)化問題。

3、為解決上述技術(shù)問題，本專利技術(shù)提供如下技術(shù)方案：一種大模型的知識(shí)庫構(gòu)建方法，包括：

4、預(yù)處理多源異構(gòu)文件，提取并標(biāo)準(zhǔn)化內(nèi)容；

5、將文本切片并向量化，保留上下文信息；

6、將向量化數(shù)據(jù)存入向量庫，執(zhí)行索引和優(yōu)化。

7、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案，其中：所述多源異構(gòu)文件包括結(jié)構(gòu)化數(shù)據(jù)文件、半結(jié)構(gòu)化數(shù)據(jù)文件和非結(jié)構(gòu)化數(shù)據(jù)文件；

8、所述提取并標(biāo)準(zhǔn)化內(nèi)容包括對(duì)結(jié)構(gòu)化數(shù)據(jù)文件直接提取文本內(nèi)容；

9、對(duì)半結(jié)構(gòu)化數(shù)據(jù)文件提取文字內(nèi)容，將格式信息轉(zhuǎn)換為統(tǒng)一的標(biāo)記格式；

10、對(duì)非結(jié)構(gòu)化數(shù)據(jù)文件使用光學(xué)字符識(shí)別技術(shù)提取文本，對(duì)文檔中的特殊格式內(nèi)容進(jìn)行解析和處理。

11、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案，其中：所述文檔中的特殊格式內(nèi)容包括檢測(cè)表格區(qū)域，使用目標(biāo)檢測(cè)模型識(shí)別有邊框和無邊框的表格；

12、針對(duì)有邊框表格，識(shí)別單元格邊框并進(jìn)行ocr處理；

13、針對(duì)無邊框表格，直接使用ocr識(shí)別，通過錨框坐標(biāo)確定文本的行列關(guān)系；

14、對(duì)于跨頁或跨切片的表格數(shù)據(jù)，提取表頭信息，并在切片中保留表頭；

15、優(yōu)化寬幅表格，通過非結(jié)構(gòu)化描述強(qiáng)化遠(yuǎn)距離列之間的關(guān)系。

16、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案，其中：所述將文本切片并向量化包括根據(jù)基座大模型的輸入最大token數(shù)來初步確定設(shè)定的切片長度，對(duì)不同類型特殊文本制定對(duì)應(yīng)的分片策略。

17、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案，其中：所述切片長度表示為，

18、l＝encding(lh+lprompt+∑lcontent+lseq)

19、其中，lh是大模型的基本信息，lprompt是本次問題制定的特殊prompt和填充進(jìn)去的本次問題組合之后的句子長度，∑lconnant是rag中作為大模型提示段落的文字總長度，∑lseq是大模型支持的多輪對(duì)話的上下文句子總長度，encding表示encding模型。

20、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案，其中：所述分片策略包括針對(duì)markdown類型的文檔，在切片時(shí)優(yōu)先將同一層級(jí)標(biāo)題下的內(nèi)容放入同一切片中；

21、若無法完整容納，將句子或段落保留在同一切片內(nèi)；

22、切片的重合部分長度根據(jù)文本的語義結(jié)構(gòu)動(dòng)態(tài)調(diào)整，若重合部分不足以覆蓋前一切片的句子，則在切片內(nèi)容中插入原文標(biāo)題信息。

23、作為本專利技術(shù)所述的大模型的知識(shí)庫構(gòu)建方法的一種優(yōu)選方案，其中：所述將向量化數(shù)據(jù)存入向量庫，執(zhí)行索引和優(yōu)化包括基于工業(yè)領(lǐng)域的數(shù)據(jù)特點(diǎn)，選擇向量數(shù)據(jù)庫，其最小存儲(chǔ)單元為collection，依據(jù)文本向量化模型或切片大小劃分不同collection，通過payload字段進(jìn)行數(shù)據(jù)區(qū)分；

24、選擇payload字段區(qū)分行業(yè)和主題，字段包括行業(yè)、段落id、內(nèi)容來源id，并為字段建立索引；

25、使用冷熱分離技術(shù)將高頻訪問的數(shù)據(jù)段落存入熱庫，而低頻訪問的數(shù)據(jù)存入冷庫，在搜索時(shí)，優(yōu)先在熱庫中查詢，若無法滿足需求再轉(zhuǎn)向冷庫；

26、在搜索過程中，先進(jìn)行初始向量化參數(shù)的相似度搜索，重排搜索結(jié)果后，根據(jù)文檔id去不同的collection中檢索相關(guān)段落，搜索完成后，通過整合各部分內(nèi)容生成最終的回答輸出，所有數(shù)據(jù)存儲(chǔ)在同一個(gè)collection下，并通過metadata字段區(qū)分不同的行業(yè)和領(lǐng)域知識(shí)。

27、本專利技術(shù)的另外一個(gè)目的是提供一種大模型的知識(shí)庫構(gòu)建系統(tǒng)，其能通過構(gòu)建大模型的知識(shí)庫構(gòu)建系統(tǒng)，解決了現(xiàn)有知識(shí)庫構(gòu)建方法中的多源異構(gòu)數(shù)據(jù)處理不一致，向量化后檢索不精準(zhǔn)，檢索速度慢問題。

28、為解決上述技術(shù)問題，本專利技術(shù)提供如下技術(shù)方案：一種大模型的知識(shí)庫構(gòu)建系統(tǒng)，包括：文本預(yù)處理模塊、文本切片模塊以及知識(shí)庫構(gòu)建模塊；

29、所述文本預(yù)處理模塊用于預(yù)處理多源異構(gòu)文件，提取并標(biāo)準(zhǔn)化內(nèi)容；

30、所述文本切片模塊用于將文本切片并向量化，保留上下文信息；

31、所述知識(shí)庫構(gòu)建模塊用于將向量化數(shù)據(jù)存入向量庫，執(zhí)行索引和優(yōu)化。

32、一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述大模型的知識(shí)庫構(gòu)建方法的步驟。

33、一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述大模型的知識(shí)庫構(gòu)建方法的步驟。

34、本專利技術(shù)的有益效果：本專利技術(shù)提供的大模型的知識(shí)庫構(gòu)建方法在知識(shí)庫的構(gòu)建上采用了一套功能齊全的文檔抽取方法，有效的解決了垂直領(lǐng)域文檔的特異性定制化要求，提升了系統(tǒng)的行業(yè)屬性和行業(yè)性能；

35、在提取出來的文本進(jìn)入知識(shí)庫的過程中充分考慮到了行業(yè)特點(diǎn)和行業(yè)屬性，有定制化的高性能的向量化過程；

36、設(shè)計(jì)高可用和高性能的向量庫架構(gòu)，使得滿足功能需求的同時(shí)，也滿足了增刪改查的性能需求。

本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種大模型的知識(shí)庫構(gòu)建方法，其特征在于，包括：

2.如權(quán)利要求1所述的大模型的知識(shí)庫構(gòu)建方法，其特征在于：所述多源異構(gòu)文件包括結(jié)構(gòu)化數(shù)據(jù)文件、半結(jié)構(gòu)化數(shù)據(jù)文件和非結(jié)構(gòu)化數(shù)據(jù)文件；

3.如權(quán)利要求2所述的大模型的知識(shí)庫構(gòu)建方法，其特征在于：所述文檔中的特殊格式內(nèi)容包括檢測(cè)表格區(qū)域，使用目標(biāo)檢測(cè)模型識(shí)別有邊框和無邊框的表格；

4.如權(quán)利要求3所述的大模型的知識(shí)庫構(gòu)建方法，其特征在于：所述將文本切片并向量化包括根據(jù)基座大模型的輸入最大token數(shù)來初步確定設(shè)定的切片長度，對(duì)不同類型特殊文本制定對(duì)應(yīng)的分片策略。

5.如權(quán)利要求4所述的大模型的知識(shí)庫構(gòu)建方法，其特征在于：所述切片長度表示為，

6.如權(quán)利要求5所述的大模型的知識(shí)庫構(gòu)建方法，其特征在于：所述分片策略包括針對(duì)Markdown類型的文檔，在切片時(shí)優(yōu)先將同一層級(jí)標(biāo)題下的內(nèi)容放入同一切片中；

7.如權(quán)利要求6所述的大模型的知識(shí)庫構(gòu)建方法，其特征在于：所述將向量化數(shù)據(jù)存入向量庫，執(zhí)行索引和優(yōu)化包括基于工業(yè)領(lǐng)域的數(shù)據(jù)特點(diǎn)，選擇向量數(shù)據(jù)庫，其最小存儲(chǔ)單元為colle

8.一種采用如權(quán)利要求1～7任一所述的大模型的知識(shí)庫構(gòu)建方法的系統(tǒng)，其特征在于，包括：

9.一種計(jì)算機(jī)設(shè)備，包括存儲(chǔ)器和處理器，所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的大模型的知識(shí)庫構(gòu)建方法的步驟。

10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)，其上存儲(chǔ)有計(jì)算機(jī)程序，其特征在于，所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的大模型的知識(shí)庫構(gòu)建方法的步驟。

...

【技術(shù)特征摘要】

1.一種大模型的知識(shí)庫構(gòu)建方法，其特征在于，包括：

5.如權(quán)利要求4所述的大模型的知識(shí)庫構(gòu)建方法，其特征在于：所述切片長度表示為，

6.如權(quán)利要求5所述的大模型的知識(shí)庫構(gòu)建方法，其特征在于：所述分片策略包括針對(duì)markdown類型的文檔，在切片時(shí)優(yōu)先將同一...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：胡杰英，陳學(xué)鵬，李勇飛，錢奎省，毛旭初，卞志剛，汪江，
申請(qǐng)(專利權(quán))人：朗坤智慧科技股份有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)