當(dāng)前位置: 首頁 > 專利查詢>江蘇愛朋醫(yī)療科技股份有限公司專利>正文

一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)技術(shù)方案

技術(shù)編號(hào)：44286604 閱讀：7 留言：0更新日期：2025-02-14 22:22

本發(fā)明專利技術(shù)公開了一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)，其中,包括依次連接的文檔問答模塊、文檔生成模塊和文檔對(duì)比模塊。文檔問答模塊是用戶上傳文檔后，根據(jù)用戶對(duì)文檔提出的問題進(jìn)行內(nèi)容檢索，并提供直接答案或總結(jié)性回答。這樣對(duì)于用戶上傳的長文檔來說，能夠快速找到期望的內(nèi)容，并對(duì)頁面提供對(duì)應(yīng)內(nèi)容，進(jìn)行核查。文檔生成模塊是根據(jù)用戶需求，調(diào)用固定模板自動(dòng)生成符合特定結(jié)構(gòu)的文檔。文檔對(duì)比模塊是對(duì)比同一文檔的不同版本，準(zhǔn)確提取改動(dòng)部分，高亮顯示并通過圖表展示對(duì)比表。本發(fā)明專利技術(shù)具有自動(dòng)化生成符合模板的文檔，并精確對(duì)比不同版本間的差異，以減少人工操作中的錯(cuò)誤，并顯著提升工作效率的效果。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本專利技術(shù)涉及自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域，特別涉及一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)。

技術(shù)介紹

1、隨著數(shù)字化辦公和信息處理需求的不斷增長，文檔的自動(dòng)生成、版本管理和差異對(duì)比已成為許多企業(yè)需要完成的工作。目前，大多數(shù)公司在這些文檔撰寫過程中都是依賴固定模板，人工逐步填充和編輯。然而，這種方法不僅耗時(shí)，而且在處理多個(gè)文檔時(shí)，提取差異信息并手動(dòng)生成對(duì)比表格的效率低下，極易忽略細(xì)微的改動(dòng)。現(xiàn)在，有一份中國專利技術(shù)專利文獻(xiàn)，專利號(hào)為20241007965.2，名稱為一種基于大語言模型的文檔生成方法、系統(tǒng)和介質(zhì)，其公開了一種基于大語言模型的文檔生成方法、系統(tǒng)和介質(zhì)，包括：獲取文檔輸入，對(duì)所述文檔輸入進(jìn)行解析，提取第一問題和第一知識(shí)，得到第一文檔數(shù)據(jù)；根據(jù)所述第一文檔數(shù)據(jù)，在知識(shí)庫中進(jìn)行查詢索引，得到若干待處理信息；其中，所述知識(shí)庫為信息資源庫，所述知識(shí)庫包括：歷史文檔和技術(shù)文檔知識(shí)；根據(jù)所述若干待處理信息，對(duì)大語言模型進(jìn)行提問，得到第一響應(yīng)；根據(jù)所述第一文檔數(shù)據(jù)、所述若干待處理信息和所述第一響應(yīng)，生成第一文檔，以提供文檔生成效率。基于上述的公開的內(nèi)容可知，是先獲取文檔后，進(jìn)行查詢索引和文檔生成，但是生成的文檔沒有經(jīng)過精確對(duì)比是否存在版本間的差異，因此增加了人工操作中的錯(cuò)誤率和降低了工作效率。

技術(shù)實(shí)現(xiàn)思路

1、鑒于上述問題，本專利技術(shù)的目的在于提供一種自動(dòng)化生成符合模板的文檔，并精確對(duì)比不同版本間的差異，以減少人工操作中的錯(cuò)誤，并顯著提升工作效率的用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)。

2、為實(shí)現(xiàn)上述目的，本專利技術(shù)提供的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)，其中,包括依次連接的文檔問答模塊、文檔生成模塊和文檔對(duì)比模塊。文檔問答模塊是用戶上傳文檔后，根據(jù)用戶對(duì)文檔提出的問題進(jìn)行內(nèi)容檢索，并提供直接答案或總結(jié)性回答。這樣對(duì)于用戶上傳的長文檔來說，能夠快速找到期望的內(nèi)容，并對(duì)頁面提供對(duì)應(yīng)內(nèi)容，進(jìn)行核查。文檔生成模塊是根據(jù)用戶需求，調(diào)用固定模板自動(dòng)生成符合特定結(jié)構(gòu)的文檔。文檔對(duì)比模塊是對(duì)比同一文檔的不同版本，準(zhǔn)確提取改動(dòng)部分，高亮顯示并通過圖表展示對(duì)比表。

3、在一些實(shí)施方式中，特定結(jié)構(gòu)的文檔為說明書或者風(fēng)險(xiǎn)文件或者固定模板的文檔都可以。

4、在一些實(shí)施方式中，文檔問答模塊實(shí)現(xiàn)過程如下：

5、(1)先進(jìn)行文件預(yù)處理

6、從用戶端獲取文件并提取文件中的內(nèi)容，對(duì)其進(jìn)行清理、分詞、格式化操作。上述用戶端獲取文件的格式為文本或者pdf或者掃描版的pdf或者圖片。

7、(2)完成文件預(yù)處理后，進(jìn)入核心的問答環(huán)節(jié)

8、首先，通過自然語言處理技術(shù)對(duì)用戶上傳的文件進(jìn)行深入分析，生成文檔的語義結(jié)構(gòu)。上述文件的分析確保文檔內(nèi)容能夠以結(jié)構(gòu)化的形式表示，便于后續(xù)的問答匹配。特別是通過構(gòu)建文檔的向量表示，是將每個(gè)句子或段落映射到高維空間中，每個(gè)詞語都被表示為一個(gè)向量，這個(gè)過程捕捉詞語之間的語義和語法關(guān)系，使得具有相似語義或語法的詞語在向量空間中相近。上述過程采用nomic-embed-text模型完成，其核心公式是：

9、

10、其中，vd表示文檔向量表示，td表示文檔的文本內(nèi)容，e(ti)表示第i個(gè)詞的嵌入向量，f表示文檔嵌入的生成函數(shù)；

11、上述的向量化表示的文檔結(jié)構(gòu)，結(jié)合模型進(jìn)行上下文關(guān)聯(lián)分析。當(dāng)用戶提出問題時(shí)，將問題進(jìn)行相同的向量化處理。接下來，通過計(jì)算文檔內(nèi)容與問題之間的相似度，識(shí)別出最相關(guān)的文檔片段，使用余弦相似度作為衡量標(biāo)準(zhǔn)：

12、

13、其中：θ表示兩個(gè)向量之間的夾角，vd，vq分別表示文檔向量與問題向量；

14、通過上述的核心公式，計(jì)算文檔和問題向量之間的夾角余弦值，夾角越小，說明語義越接近，就能更準(zhǔn)確地找到對(duì)應(yīng)的文檔位置。

15、其次，當(dāng)找到對(duì)應(yīng)的文檔位置后得到相關(guān)文檔片段，通過匹配到的內(nèi)容位置，結(jié)合文檔結(jié)構(gòu)信息，生成響應(yīng)。在生成答案的同時(shí)，返回該答案在原文檔中的具體位置，方便用戶定位。

16、在一些實(shí)施方式中，上述的問答環(huán)節(jié)還支持對(duì)多份文檔進(jìn)行問答處理。對(duì)于多個(gè)文檔，會(huì)分別對(duì)每個(gè)文檔進(jìn)行預(yù)處理和向量化表示，然后綜合所有文檔的相似度結(jié)果，選擇最相關(guān)的文檔片段進(jìn)行回答。

17、在多文檔問答的情況下，采用如下公式進(jìn)行相似度聚合：

18、s＝max(cos(θ1),cos(θ2),cos(θ3)…cos(θn))

19、其中s表示綜合相似度，cos(θn)表示第n份文件的相似度。

20、在一些實(shí)施方式中，上述用戶端獲取文件的格式為圖片或者掃描版的pdf時(shí)，則采用光學(xué)字符識(shí)別ocr技術(shù)提取其中的文字內(nèi)容，確保所有文件格式都能被統(tǒng)一處理并轉(zhuǎn)化為可供分析的文本數(shù)據(jù)。

21、在一些實(shí)施方式中，文檔生成模塊通過多個(gè)模型協(xié)作完成從類型識(shí)別到文檔生成的全過程。上述的多個(gè)模型包括文件類型識(shí)別模型和文件內(nèi)容填充模型。文件類型識(shí)別模型從用戶需求中識(shí)別要生成的文檔類型，之后經(jīng)過微調(diào)的大語言模型用于文件內(nèi)容填充模型。每個(gè)模型都基于明確的算法和深度學(xué)習(xí)技術(shù)來實(shí)現(xiàn)各自的功能，確保生成的文檔符合用戶需求并保持高質(zhì)量。

22、(1)文件類型識(shí)別模型

23、所述文件類型識(shí)別模型的核心任務(wù)是根據(jù)用戶提出的需求，確定用戶需要生成的文檔類型。用戶要在需求中包含文檔類型的關(guān)鍵詞，“說明書”、“風(fēng)險(xiǎn)分析報(bào)告”、“技術(shù)要求文檔”。之后所述的文件類型識(shí)別模型通過自然語言處理技術(shù)對(duì)用戶輸入的需求內(nèi)容進(jìn)行語義分析，提取出關(guān)鍵術(shù)語并判斷相應(yīng)的文檔類型。其中，文件類型識(shí)別模型自動(dòng)識(shí)別用戶需求中隱含的文檔類型信息。

24、所述的文件類型識(shí)別模型主要過程包括接收用戶提出的需求，需求描述應(yīng)包含關(guān)于所需文檔類型的關(guān)鍵詞，對(duì)需求描述進(jìn)行處理，文本清理、分詞、詞性標(biāo)注等預(yù)處理操作。進(jìn)一步對(duì)經(jīng)過預(yù)處理的需求描述進(jìn)行語義分析，旨在理解需求描述中的語義內(nèi)容，提取出與文檔類型相關(guān)的關(guān)鍵詞匯。

25、在文件類型識(shí)別模型步驟中，將利用word2vec、tf-idf技術(shù)來構(gòu)建需求描述的語義向量表示，然后使用機(jī)器學(xué)習(xí)的算法svm支持向量機(jī)訓(xùn)練得到的分類模型分析需求對(duì)應(yīng)的文檔類別。其中，word2vec是將文本轉(zhuǎn)為向量；tf-idf是計(jì)算需求描述中每個(gè)詞的重要性分?jǐn)?shù)：

26、wi＝tf(wi,d)×idf(wi)

27、其中wi為第i個(gè)詞的重要性分?jǐn)?shù)，tf(wi,d)表示詞wi在文檔d中的詞頻；idf(wi)表示詞的逆文檔頻率；

28、上述算法svm支持向量機(jī)訓(xùn)練是提取特征，并將這些特征組合成一個(gè)特征向量。之后訓(xùn)練數(shù)據(jù)集來擬合選定的模型，svm最小化經(jīng)驗(yàn)誤差和最大化幾何間隔。基于提取出的關(guān)鍵詞，文件類型識(shí)別模型判斷需求描述對(duì)應(yīng)的文檔類型。最后，經(jīng)過上述判斷過程后，文件類型識(shí)別模型能夠準(zhǔn)確地從用戶的需求描述中識(shí)別出所需的文檔類型。

29、(2)文件內(nèi)容填充模型

<本文檔來自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)，其特征在于,包括依次連接的文檔問答模塊、文檔生成模塊和文檔對(duì)比模塊；

2.根據(jù)權(quán)利要求1所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)，其特征在于,所述特定結(jié)構(gòu)的文檔為說明書或者風(fēng)險(xiǎn)文件或者固定模板的文檔。

3.根據(jù)權(quán)利要求1或2所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)，其特征在于,所述的文檔問答模塊實(shí)現(xiàn)過程如下：

4.根據(jù)權(quán)利要求3所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)，其特征在于,上述的問答環(huán)節(jié)還支持對(duì)多份文檔進(jìn)行問答處理；對(duì)于多個(gè)文檔，會(huì)分別對(duì)每個(gè)文檔進(jìn)行預(yù)處理和向量化表示，然后綜合所有文檔的相似度結(jié)果，選擇最相關(guān)的文檔片段進(jìn)行回答；

5.根據(jù)權(quán)利要求3所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)，其特征在于,上述用戶端獲取文件的格式為圖片或者掃描版的PDF時(shí)，則采用光學(xué)字符識(shí)別OCR技術(shù)提取其中的文字內(nèi)容，確保所有文件格式都能被統(tǒng)一處理并轉(zhuǎn)化為可供分析的文本數(shù)據(jù)。

6.根據(jù)權(quán)利要求1或2所述的一種用于文檔問答、生

7.根據(jù)權(quán)利要求1或2所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)，其特征在于,所述的文檔對(duì)比模塊是通過引入正則化方法，根據(jù)文檔中不同結(jié)構(gòu)的特征，精準(zhǔn)提取文檔的標(biāo)題、段落、圖片、表格多種信息，并通過模式匹配和機(jī)器學(xué)習(xí)算法來識(shí)別和分離文本塊、圖像邊界以及表格結(jié)構(gòu)；

8.根據(jù)權(quán)利要求6所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)，其特征在于,所述的機(jī)器學(xué)習(xí)不斷優(yōu)化問答的準(zhǔn)確性和文檔內(nèi)容的匹配度；通過用戶反饋機(jī)制，對(duì)生成的答案與用戶預(yù)期的準(zhǔn)確性進(jìn)行標(biāo)注，并進(jìn)一步調(diào)整模型參數(shù)，確保未來的問答結(jié)果更加精準(zhǔn)。

...

【技術(shù)特征摘要】

1.一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)，其特征在于,包括依次連接的文檔問答模塊、文檔生成模塊和文檔對(duì)比模塊；

5.根據(jù)權(quán)利要求3所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)，其特征在于,上述用戶端獲取文件的格式為圖片或者掃描版的pdf時(shí)，...

【專利技術(shù)屬性】
技術(shù)研發(fā)人員：李佳琪，韓強(qiáng)，朱紅毅，許海琴，張智慧，
申請(qǐng)(專利權(quán))人：江蘇愛朋醫(yī)療科技股份有限公司，
類型：發(fā)明
國別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專利的主人

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條評(píng)論

還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見

相關(guān)領(lǐng)域技術(shù)