System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域,特別涉及一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)。
技術(shù)介紹
1、隨著數(shù)字化辦公和信息處理需求的不斷增長,文檔的自動(dòng)生成、版本管理和差異對(duì)比已成為許多企業(yè)需要完成的工作。目前,大多數(shù)公司在這些文檔撰寫過程中都是依賴固定模板,人工逐步填充和編輯。然而,這種方法不僅耗時(shí),而且在處理多個(gè)文檔時(shí),提取差異信息并手動(dòng)生成對(duì)比表格的效率低下,極易忽略細(xì)微的改動(dòng)。現(xiàn)在,有一份中國專利技術(shù)專利文獻(xiàn),專利號(hào)為20241007965.2,名稱為一種基于大語言模型的文檔生成方法、系統(tǒng)和介質(zhì),其公開了一種基于大語言模型的文檔生成方法、系統(tǒng)和介質(zhì),包括:獲取文檔輸入,對(duì)所述文檔輸入進(jìn)行解析,提取第一問題和第一知識(shí),得到第一文檔數(shù)據(jù);根據(jù)所述第一文檔數(shù)據(jù),在知識(shí)庫中進(jìn)行查詢索引,得到若干待處理信息;其中,所述知識(shí)庫為信息資源庫,所述知識(shí)庫包括:歷史文檔和技術(shù)文檔知識(shí);根據(jù)所述若干待處理信息,對(duì)大語言模型進(jìn)行提問,得到第一響應(yīng);根據(jù)所述第一文檔數(shù)據(jù)、所述若干待處理信息和所述第一響應(yīng),生成第一文檔,以提供文檔生成效率。基于上述的公開的內(nèi)容可知,是先獲取文檔后,進(jìn)行查詢索引和文檔生成,但是生成的文檔沒有經(jīng)過精確對(duì)比是否存在版本間的差異,因此增加了人工操作中的錯(cuò)誤率和降低了工作效率。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問題,本專利技術(shù)的目的在于提供一種自動(dòng)化生成符合模板的文檔,并精確對(duì)比不同版本間的差異,以減少人工操作中的錯(cuò)誤,并顯著提升工作效率的用于文檔問答、生成與版本對(duì)比
2、為實(shí)現(xiàn)上述目的,本專利技術(shù)提供的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其中,包括依次連接的文檔問答模塊、文檔生成模塊和文檔對(duì)比模塊。文檔問答模塊是用戶上傳文檔后,根據(jù)用戶對(duì)文檔提出的問題進(jìn)行內(nèi)容檢索,并提供直接答案或總結(jié)性回答。這樣對(duì)于用戶上傳的長文檔來說,能夠快速找到期望的內(nèi)容,并對(duì)頁面提供對(duì)應(yīng)內(nèi)容,進(jìn)行核查。文檔生成模塊是根據(jù)用戶需求,調(diào)用固定模板自動(dòng)生成符合特定結(jié)構(gòu)的文檔。文檔對(duì)比模塊是對(duì)比同一文檔的不同版本,準(zhǔn)確提取改動(dòng)部分,高亮顯示并通過圖表展示對(duì)比表。
3、在一些實(shí)施方式中,特定結(jié)構(gòu)的文檔為說明書或者風(fēng)險(xiǎn)文件或者固定模板的文檔都可以。
4、在一些實(shí)施方式中,文檔問答模塊實(shí)現(xiàn)過程如下:
5、(1)先進(jìn)行文件預(yù)處理
6、從用戶端獲取文件并提取文件中的內(nèi)容,對(duì)其進(jìn)行清理、分詞、格式化操作。上述用戶端獲取文件的格式為文本或者pdf或者掃描版的pdf或者圖片。
7、(2)完成文件預(yù)處理后,進(jìn)入核心的問答環(huán)節(jié)
8、首先,通過自然語言處理技術(shù)對(duì)用戶上傳的文件進(jìn)行深入分析,生成文檔的語義結(jié)構(gòu)。上述文件的分析確保文檔內(nèi)容能夠以結(jié)構(gòu)化的形式表示,便于后續(xù)的問答匹配。特別是通過構(gòu)建文檔的向量表示,是將每個(gè)句子或段落映射到高維空間中,每個(gè)詞語都被表示為一個(gè)向量,這個(gè)過程捕捉詞語之間的語義和語法關(guān)系,使得具有相似語義或語法的詞語在向量空間中相近。上述過程采用nomic-embed-text模型完成,其核心公式是:
9、
10、其中,vd表示文檔向量表示,td表示文檔的文本內(nèi)容,e(ti)表示第i個(gè)詞的嵌入向量,f表示文檔嵌入的生成函數(shù);
11、上述的向量化表示的文檔結(jié)構(gòu),結(jié)合模型進(jìn)行上下文關(guān)聯(lián)分析。當(dāng)用戶提出問題時(shí),將問題進(jìn)行相同的向量化處理。接下來,通過計(jì)算文檔內(nèi)容與問題之間的相似度,識(shí)別出最相關(guān)的文檔片段,使用余弦相似度作為衡量標(biāo)準(zhǔn):
12、
13、其中:θ表示兩個(gè)向量之間的夾角,vd,vq分別表示文檔向量與問題向量;
14、通過上述的核心公式,計(jì)算文檔和問題向量之間的夾角余弦值,夾角越小,說明語義越接近,就能更準(zhǔn)確地找到對(duì)應(yīng)的文檔位置。
15、其次,當(dāng)找到對(duì)應(yīng)的文檔位置后得到相關(guān)文檔片段,通過匹配到的內(nèi)容位置,結(jié)合文檔結(jié)構(gòu)信息,生成響應(yīng)。在生成答案的同時(shí),返回該答案在原文檔中的具體位置,方便用戶定位。
16、在一些實(shí)施方式中,上述的問答環(huán)節(jié)還支持對(duì)多份文檔進(jìn)行問答處理。對(duì)于多個(gè)文檔,會(huì)分別對(duì)每個(gè)文檔進(jìn)行預(yù)處理和向量化表示,然后綜合所有文檔的相似度結(jié)果,選擇最相關(guān)的文檔片段進(jìn)行回答。
17、在多文檔問答的情況下,采用如下公式進(jìn)行相似度聚合:
18、s=max(cos(θ1),cos(θ2),cos(θ3)…cos(θn))
19、其中s表示綜合相似度,cos(θn)表示第n份文件的相似度。
20、在一些實(shí)施方式中,上述用戶端獲取文件的格式為圖片或者掃描版的pdf時(shí),則采用光學(xué)字符識(shí)別ocr技術(shù)提取其中的文字內(nèi)容,確保所有文件格式都能被統(tǒng)一處理并轉(zhuǎn)化為可供分析的文本數(shù)據(jù)。
21、在一些實(shí)施方式中,文檔生成模塊通過多個(gè)模型協(xié)作完成從類型識(shí)別到文檔生成的全過程。上述的多個(gè)模型包括文件類型識(shí)別模型和文件內(nèi)容填充模型。文件類型識(shí)別模型從用戶需求中識(shí)別要生成的文檔類型,之后經(jīng)過微調(diào)的大語言模型用于文件內(nèi)容填充模型。每個(gè)模型都基于明確的算法和深度學(xué)習(xí)技術(shù)來實(shí)現(xiàn)各自的功能,確保生成的文檔符合用戶需求并保持高質(zhì)量。
22、(1)文件類型識(shí)別模型
23、所述文件類型識(shí)別模型的核心任務(wù)是根據(jù)用戶提出的需求,確定用戶需要生成的文檔類型。用戶要在需求中包含文檔類型的關(guān)鍵詞,“說明書”、“風(fēng)險(xiǎn)分析報(bào)告”、“技術(shù)要求文檔”。之后所述的文件類型識(shí)別模型通過自然語言處理技術(shù)對(duì)用戶輸入的需求內(nèi)容進(jìn)行語義分析,提取出關(guān)鍵術(shù)語并判斷相應(yīng)的文檔類型。其中,文件類型識(shí)別模型自動(dòng)識(shí)別用戶需求中隱含的文檔類型信息。
24、所述的文件類型識(shí)別模型主要過程包括接收用戶提出的需求,需求描述應(yīng)包含關(guān)于所需文檔類型的關(guān)鍵詞,對(duì)需求描述進(jìn)行處理,文本清理、分詞、詞性標(biāo)注等預(yù)處理操作。進(jìn)一步對(duì)經(jīng)過預(yù)處理的需求描述進(jìn)行語義分析,旨在理解需求描述中的語義內(nèi)容,提取出與文檔類型相關(guān)的關(guān)鍵詞匯。
25、在文件類型識(shí)別模型步驟中,將利用word2vec、tf-idf技術(shù)來構(gòu)建需求描述的語義向量表示,然后使用機(jī)器學(xué)習(xí)的算法svm支持向量機(jī)訓(xùn)練得到的分類模型分析需求對(duì)應(yīng)的文檔類別。其中,word2vec是將文本轉(zhuǎn)為向量;tf-idf是計(jì)算需求描述中每個(gè)詞的重要性分?jǐn)?shù):
26、wi=tf(wi,d)×idf(wi)
27、其中wi為第i個(gè)詞的重要性分?jǐn)?shù),tf(wi,d)表示詞wi在文檔d中的詞頻;idf(wi)表示詞的逆文檔頻率;
28、上述算法svm支持向量機(jī)訓(xùn)練是提取特征,并將這些特征組合成一個(gè)特征向量。之后訓(xùn)練數(shù)據(jù)集來擬合選定的模型,svm最小化經(jīng)驗(yàn)誤差和最大化幾何間隔。基于提取出的關(guān)鍵詞,文件類型識(shí)別模型判斷需求描述對(duì)應(yīng)的文檔類型。最后,經(jīng)過上述判斷過程后,文件類型識(shí)別模型能夠準(zhǔn)確地從用戶的需求描述中識(shí)別出所需的文檔類型。
29、(2)文件內(nèi)容填充模型
<本文檔來自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,包括依次連接的文檔問答模塊、文檔生成模塊和文檔對(duì)比模塊;
2.根據(jù)權(quán)利要求1所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,所述特定結(jié)構(gòu)的文檔為說明書或者風(fēng)險(xiǎn)文件或者固定模板的文檔。
3.根據(jù)權(quán)利要求1或2所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,所述的文檔問答模塊實(shí)現(xiàn)過程如下:
4.根據(jù)權(quán)利要求3所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,上述的問答環(huán)節(jié)還支持對(duì)多份文檔進(jìn)行問答處理;對(duì)于多個(gè)文檔,會(huì)分別對(duì)每個(gè)文檔進(jìn)行預(yù)處理和向量化表示,然后綜合所有文檔的相似度結(jié)果,選擇最相關(guān)的文檔片段進(jìn)行回答;
5.根據(jù)權(quán)利要求3所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,上述用戶端獲取文件的格式為圖片或者掃描版的PDF時(shí),則采用光學(xué)字符識(shí)別OCR技術(shù)提取其中的文字內(nèi)容,確保所有文件格式都能被統(tǒng)一處理并轉(zhuǎn)化為可供分析的文本數(shù)據(jù)。
6.根據(jù)權(quán)利要求1或2所述的一種用于文檔問答、生
7.根據(jù)權(quán)利要求1或2所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,所述的文檔對(duì)比模塊是通過引入正則化方法,根據(jù)文檔中不同結(jié)構(gòu)的特征,精準(zhǔn)提取文檔的標(biāo)題、段落、圖片、表格多種信息,并通過模式匹配和機(jī)器學(xué)習(xí)算法來識(shí)別和分離文本塊、圖像邊界以及表格結(jié)構(gòu);
8.根據(jù)權(quán)利要求6所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,所述的機(jī)器學(xué)習(xí)不斷優(yōu)化問答的準(zhǔn)確性和文檔內(nèi)容的匹配度;通過用戶反饋機(jī)制,對(duì)生成的答案與用戶預(yù)期的準(zhǔn)確性進(jìn)行標(biāo)注,并進(jìn)一步調(diào)整模型參數(shù),確保未來的問答結(jié)果更加精準(zhǔn)。
...【技術(shù)特征摘要】
1.一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,包括依次連接的文檔問答模塊、文檔生成模塊和文檔對(duì)比模塊;
2.根據(jù)權(quán)利要求1所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,所述特定結(jié)構(gòu)的文檔為說明書或者風(fēng)險(xiǎn)文件或者固定模板的文檔。
3.根據(jù)權(quán)利要求1或2所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,所述的文檔問答模塊實(shí)現(xiàn)過程如下:
4.根據(jù)權(quán)利要求3所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,上述的問答環(huán)節(jié)還支持對(duì)多份文檔進(jìn)行問答處理;對(duì)于多個(gè)文檔,會(huì)分別對(duì)每個(gè)文檔進(jìn)行預(yù)處理和向量化表示,然后綜合所有文檔的相似度結(jié)果,選擇最相關(guān)的文檔片段進(jìn)行回答;
5.根據(jù)權(quán)利要求3所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,上述用戶端獲取文件的格式為圖片或者掃描版的pdf時(shí),...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:李佳琪,韓強(qiáng),朱紅毅,許海琴,張智慧,
申請(qǐng)(專利權(quán))人:江蘇愛朋醫(yī)療科技股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。