System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)屬于航天系統(tǒng),涉及一種基于大語言模型(largelanguagemodels,llm)的質(zhì)量標(biāo)準(zhǔn)檢索工具及方法,應(yīng)用于飛行器等研發(fā)設(shè)計流程中。
技術(shù)介紹
1、在傳統(tǒng)飛行器等研發(fā)設(shè)計過程中,需要符合質(zhì)量手冊與標(biāo)準(zhǔn)文件的規(guī)定。隨著生產(chǎn)經(jīng)驗的積累,質(zhì)量標(biāo)準(zhǔn)不斷細(xì)化、更新,不同的質(zhì)量標(biāo)準(zhǔn)文件之間針對同一標(biāo)準(zhǔn)的規(guī)定可能存在包含、沖突等問題,設(shè)計人員為了確定最準(zhǔn)確的參數(shù)范圍,常需查閱比對大量質(zhì)量手冊與標(biāo)準(zhǔn)文件,傳統(tǒng)的基于詞頻-逆文件頻率(term?frequency-inverse?documentfrequency,tf-idf)技術(shù)的檢索方法只能返回包含查詢關(guān)鍵詞的特定文本,難以針對語義和相關(guān)領(lǐng)域進(jìn)行模糊檢索,當(dāng)不確定具體關(guān)鍵詞的時候,查閱的效率會大大降低。
2、2022年底,由openai發(fā)布的大語言模型產(chǎn)品chatgpt表現(xiàn)出通過自然語言交互的多場景、多用途、跨學(xué)科的任務(wù)處理能力。然而,大語言模型的可靠性無法得到有效保障,盡管其經(jīng)過海量數(shù)據(jù)訓(xùn)練,其生成的內(nèi)容通順流暢,符合語言規(guī)則及人類價值觀,但在事實性、時效性方面等存在不足。因此,雖然大語言模型具備針對設(shè)計過程跨學(xué)科跨領(lǐng)域問答的能力,適合用于質(zhì)量標(biāo)準(zhǔn)文件的模糊范圍檢索,但在真實性上還需要進(jìn)一步的技術(shù)保障。
技術(shù)實現(xiàn)思路
1、本專利技術(shù)解決的技術(shù)問題是:針對在研發(fā)設(shè)計過程中,一線崗位人員常需查閱大量質(zhì)量手冊與標(biāo)準(zhǔn)文件,降低了工作效率的業(yè)務(wù)痛點,提供一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具及方法,實現(xiàn)了更加靈活的質(zhì)量標(biāo)準(zhǔn)
2、本專利技術(shù)解決技術(shù)問題的方案是:一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于包括質(zhì)量標(biāo)準(zhǔn)文件知識庫、檢索模塊、提示詞生成模塊、應(yīng)答模塊;
3、質(zhì)量標(biāo)準(zhǔn)文件知識庫,用來存儲質(zhì)量標(biāo)準(zhǔn)文件及其所對應(yīng)的嵌入向量數(shù)據(jù)、質(zhì)量標(biāo)準(zhǔn)文件和嵌入向量數(shù)據(jù)的映射關(guān)系;
4、檢索模塊,接收用戶輸入采用自然語言描述的問題,將問題轉(zhuǎn)換為嵌入向量數(shù)據(jù),記為問題向量數(shù)據(jù),對問題向量數(shù)據(jù)從質(zhì)量標(biāo)準(zhǔn)文件知識庫進(jìn)行相似性檢索,即從質(zhì)量標(biāo)準(zhǔn)文件知識庫中檢索出與問題向量數(shù)據(jù)最相似的嵌入向量數(shù)據(jù),根據(jù)質(zhì)量標(biāo)準(zhǔn)文件和嵌入向量數(shù)據(jù)的映射關(guān)系,將嵌入向量數(shù)據(jù)所對應(yīng)的質(zhì)量標(biāo)準(zhǔn)文件文本作為相關(guān)支撐文檔輸出給提示詞生成模塊;
5、提示詞生成模塊,將歷史檢索問題及其對應(yīng)的檢索結(jié)果記錄為歷史問答信息,將預(yù)設(shè)的應(yīng)答規(guī)則、當(dāng)前檢索問題、相關(guān)支撐文檔、歷史問答信息匯總為提示詞發(fā)送給應(yīng)答模塊;
6、應(yīng)答模塊,采用預(yù)訓(xùn)練的大語言模型,根據(jù)提示詞生成檢索結(jié)果,并將檢索結(jié)果反饋給提示詞生成模塊。
7、優(yōu)選地,上述基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具還包括文檔加載模塊、文檔切分模塊、向量轉(zhuǎn)換模塊;
8、文檔加載模塊,讀取質(zhì)量標(biāo)準(zhǔn)文件中的全文文本,轉(zhuǎn)發(fā)給文檔切分模塊;
9、文檔切分模塊,將質(zhì)量標(biāo)準(zhǔn)文件中的全文文本切分,得到切片文本;所述切片文本含有完整的語義,且字符數(shù)不超過預(yù)設(shè)切片字?jǐn)?shù);
10、向量轉(zhuǎn)換模塊,將切片文本映射到高維語義向量空間,得到固定長度的嵌入向量數(shù)據(jù),并將嵌入向量數(shù)據(jù)存儲至質(zhì)量標(biāo)準(zhǔn)文件知識庫。
11、優(yōu)選地,所述質(zhì)量標(biāo)準(zhǔn)文件為word文件、pdf文件或者xml文件。
12、優(yōu)選地,所述文檔加載模塊根據(jù)質(zhì)量標(biāo)準(zhǔn)文件的類型選擇對應(yīng)的加載方式,包括對word、xml文件讀取字符文本,對掃描版pdf文件進(jìn)行光學(xué)字符識別讀取。
13、優(yōu)選地,所述文檔切分模塊的切分方法為:首先按照底層標(biāo)題進(jìn)行切分,按照文檔從前到后順序,將屬于同一個標(biāo)題下的文本歸為一個切片文本;再根據(jù)切片文本的大小,將字符數(shù)大于預(yù)設(shè)切片字?jǐn)?shù)的文本按照預(yù)設(shè)切片字?jǐn)?shù)進(jìn)一步劃分,且相鄰切片文本首尾有一定數(shù)量字符的重疊。
14、優(yōu)選地,所述大語言模型的權(quán)重采用非飽和量化方法量化,大語言模型激活函數(shù)的輸入輸出采用飽和量化方法量化。
15、優(yōu)選地,所述相似性檢索方法為計算所述嵌入向量數(shù)據(jù)的余弦距離作為相似度,按照大小排序后選取相似度最大的n條嵌入向量數(shù)據(jù)。
16、優(yōu)選地,所述預(yù)設(shè)應(yīng)答規(guī)則包括如下內(nèi)容:
17、若多個質(zhì)量標(biāo)準(zhǔn)文件對同一項標(biāo)準(zhǔn)規(guī)定存在包含關(guān)系,提示大語言模型應(yīng)答時返回多個質(zhì)量標(biāo)準(zhǔn)文件對項標(biāo)準(zhǔn)規(guī)定范圍的交集;若多個質(zhì)量標(biāo)準(zhǔn)文件同一項標(biāo)準(zhǔn)規(guī)定存在沖突關(guān)系,則提示大語言模型應(yīng)答時返回各個質(zhì)量標(biāo)準(zhǔn)文件中該項標(biāo)準(zhǔn)規(guī)定的全部內(nèi)容。
18、優(yōu)選地,建立多個質(zhì)量標(biāo)準(zhǔn)文件知識庫分別存儲不同敏感程度的質(zhì)量標(biāo)準(zhǔn)文件對應(yīng)的向量數(shù)據(jù),進(jìn)行數(shù)據(jù)隔離,并劃分不同用戶群組,管理訪問權(quán)限,檢索模塊根據(jù)用戶的權(quán)限,從相應(yīng)的質(zhì)量標(biāo)準(zhǔn)文件知識庫進(jìn)行相似性檢索。
19、本專利技術(shù)的另一個技術(shù)方案是:一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索方法,該方法包括如下步驟:
20、將質(zhì)量標(biāo)準(zhǔn)文件及其所對應(yīng)的嵌入向量數(shù)據(jù)、質(zhì)量標(biāo)準(zhǔn)文件和嵌入向量數(shù)據(jù)的映射關(guān)系存儲至質(zhì)量標(biāo)準(zhǔn)文件知識庫中;
21、接收用戶輸入采用自然語言描述的問題,將問題轉(zhuǎn)換為嵌入向量數(shù)據(jù),記為問題向量數(shù)據(jù),對問題向量數(shù)據(jù)從質(zhì)量標(biāo)準(zhǔn)文件知識庫進(jìn)行相似性檢索,從質(zhì)量標(biāo)準(zhǔn)文件知識庫中檢索出與問題向量數(shù)據(jù)最相似的n個嵌入向量數(shù)據(jù);
22、根據(jù)質(zhì)量標(biāo)準(zhǔn)文件和嵌入向量數(shù)據(jù)的映射關(guān)系,獲得n個嵌入向量數(shù)據(jù)所對應(yīng)的質(zhì)量標(biāo)準(zhǔn)文件文本作為相關(guān)支撐文檔,n大于等于3;
23、將歷史檢索問題及其對應(yīng)的檢索結(jié)果記錄為歷史問答信息,將預(yù)設(shè)的應(yīng)答規(guī)則、當(dāng)前檢索問題、相關(guān)支撐文檔、歷史問答信息匯總為提示詞;
24、采用預(yù)訓(xùn)練的大語言模型,根據(jù)提示詞生成檢索結(jié)果。本專利技術(shù)與現(xiàn)有技術(shù)相比的有益效果是:
25、(1)、本專利技術(shù)對質(zhì)量標(biāo)準(zhǔn)文件構(gòu)建綜合性知識庫,運用大語言模型并結(jié)合自然語言處理的問答機制,對文檔內(nèi)容進(jìn)行深入解析和精準(zhǔn)回答。
26、(2)、本專利技術(shù)借助向量數(shù)據(jù)庫工具,對生成的文本向量進(jìn)行有效管理,從而實現(xiàn)高效的文本檢索功能。
27、(3)、本專利技術(shù)通過向量數(shù)據(jù)相似性檢索的方法和提示工程方法,將用戶輸入采用自然語言描述的問題進(jìn)行解讀,得到支持文檔,支持高效靈活的內(nèi)部知識修改和準(zhǔn)確的內(nèi)容生成;
28、(4)、本專利技術(shù)大預(yù)言模型為經(jīng)過量化處理后的模型,減小了計算量和內(nèi)存占用,可以在移動式與嵌入式設(shè)備部署;
29、(5)、本專利技術(shù)提出了使用分開部署向量數(shù)據(jù)庫的方法,實現(xiàn)了大型語言模型檢索增強生成數(shù)據(jù)來源的自主控制調(diào)整,保證了數(shù)據(jù)安全,同時支持對不同領(lǐng)域、不同敏感程度的數(shù)據(jù)進(jìn)行隔離管理。
30、(6)、本專利技術(shù)通過將預(yù)設(shè)的應(yīng)答規(guī)則作為提示詞注入大語言模型中的方法,緩解大語言模型的幻覺問題,使其生成內(nèi)容做到有據(jù)可依。
本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點】
1.一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于包括質(zhì)量標(biāo)準(zhǔn)文件知識庫、檢索模塊、提示詞生成模塊、應(yīng)答模塊;
2.根據(jù)權(quán)利要求1所述一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于還包括文檔加載模塊、文檔切分模塊、向量轉(zhuǎn)換模塊;
3.根據(jù)權(quán)利要求1所述一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于,所述質(zhì)量標(biāo)準(zhǔn)文件為word文件、pdf文件或者xml文件。
4.根據(jù)權(quán)利要求3所述一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于所述文檔加載模塊根據(jù)質(zhì)量標(biāo)準(zhǔn)文件的類型選擇對應(yīng)的加載方式,包括對word、xml文件讀取字符文本,對掃描版pdf文件進(jìn)行光學(xué)字符識別讀取。
5.根據(jù)權(quán)利要求1所述一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于,所述文檔切分模塊的切分方法為:首先按照底層標(biāo)題進(jìn)行切分,按照文檔從前到后順序,將屬于同一個標(biāo)題下的文本歸為一個切片文本;再根據(jù)切片文本的大小,將字符數(shù)大于預(yù)設(shè)切片字?jǐn)?shù)的文本按照預(yù)設(shè)切片字?jǐn)?shù)進(jìn)一步劃分,且相鄰切片文本首尾有一定數(shù)量字符的重疊。
6.根據(jù)權(quán)利要求1所述一種基于大語言模型的質(zhì)
7.根據(jù)權(quán)利要求1所述一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于,所述相似性檢索方法為計算所述嵌入向量數(shù)據(jù)的余弦距離作為相似度,按照大小排序后選取相似度最大的N條嵌入向量數(shù)據(jù)。
8.根據(jù)權(quán)利要求1所述一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于,所述預(yù)設(shè)應(yīng)答規(guī)則包括如下內(nèi)容:
9.根據(jù)權(quán)利要求1所述一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于,建立多個質(zhì)量標(biāo)準(zhǔn)文件知識庫分別存儲不同敏感程度的質(zhì)量標(biāo)準(zhǔn)文件對應(yīng)的向量數(shù)據(jù),進(jìn)行數(shù)據(jù)隔離,并劃分不同用戶群組,管理訪問權(quán)限,檢索模塊根據(jù)用戶的權(quán)限,從相應(yīng)的質(zhì)量標(biāo)準(zhǔn)文件知識庫進(jìn)行相似性檢索。
10.一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索方法,其特征在于包括如下步驟:
...【技術(shù)特征摘要】
1.一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于包括質(zhì)量標(biāo)準(zhǔn)文件知識庫、檢索模塊、提示詞生成模塊、應(yīng)答模塊;
2.根據(jù)權(quán)利要求1所述一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于還包括文檔加載模塊、文檔切分模塊、向量轉(zhuǎn)換模塊;
3.根據(jù)權(quán)利要求1所述一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于,所述質(zhì)量標(biāo)準(zhǔn)文件為word文件、pdf文件或者xml文件。
4.根據(jù)權(quán)利要求3所述一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于所述文檔加載模塊根據(jù)質(zhì)量標(biāo)準(zhǔn)文件的類型選擇對應(yīng)的加載方式,包括對word、xml文件讀取字符文本,對掃描版pdf文件進(jìn)行光學(xué)字符識別讀取。
5.根據(jù)權(quán)利要求1所述一種基于大語言模型的質(zhì)量標(biāo)準(zhǔn)檢索工具,其特征在于,所述文檔切分模塊的切分方法為:首先按照底層標(biāo)題進(jìn)行切分,按照文檔從前到后順序,將屬于同一個標(biāo)題下的文本歸為一個切片文本;再根據(jù)切片文本的大小,將字符數(shù)大于預(yù)設(shè)切片字?jǐn)?shù)的文本按照預(yù)設(shè)切片字?jǐn)?shù)進(jìn)一步劃分...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:楊尚霖,王佳林,鄭本昌,黃虎,楊威,徐驍翰,邵子航,韋文書,朱佳琳,高厚樸,李晟嘉,李君,孫絲,劉峰,吳志壕,果昊涵,董啟超,姚力煒,師曉蒙,
申請(專利權(quán))人:中國運載火箭技術(shù)研究院,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。