System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 精品无码免费专区毛片,国产午夜无码视频免费网站,中文字幕无码久久精品青草
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)技術(shù)方案

    技術(shù)編號(hào):44286604 閱讀:7 留言:0更新日期:2025-02-14 22:22
    本發(fā)明專利技術(shù)公開了一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其中,包括依次連接的文檔問答模塊、文檔生成模塊和文檔對(duì)比模塊。文檔問答模塊是用戶上傳文檔后,根據(jù)用戶對(duì)文檔提出的問題進(jìn)行內(nèi)容檢索,并提供直接答案或總結(jié)性回答。這樣對(duì)于用戶上傳的長文檔來說,能夠快速找到期望的內(nèi)容,并對(duì)頁面提供對(duì)應(yīng)內(nèi)容,進(jìn)行核查。文檔生成模塊是根據(jù)用戶需求,調(diào)用固定模板自動(dòng)生成符合特定結(jié)構(gòu)的文檔。文檔對(duì)比模塊是對(duì)比同一文檔的不同版本,準(zhǔn)確提取改動(dòng)部分,高亮顯示并通過圖表展示對(duì)比表。本發(fā)明專利技術(shù)具有自動(dòng)化生成符合模板的文檔,并精確對(duì)比不同版本間的差異,以減少人工操作中的錯(cuò)誤,并顯著提升工作效率的效果。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專利技術(shù)涉及自然語言處理和機(jī)器學(xué)習(xí)領(lǐng)域,特別涉及一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)


    技術(shù)介紹

    1、隨著數(shù)字化辦公和信息處理需求的不斷增長,文檔的自動(dòng)生成、版本管理和差異對(duì)比已成為許多企業(yè)需要完成的工作。目前,大多數(shù)公司在這些文檔撰寫過程中都是依賴固定模板,人工逐步填充和編輯。然而,這種方法不僅耗時(shí),而且在處理多個(gè)文檔時(shí),提取差異信息并手動(dòng)生成對(duì)比表格的效率低下,極易忽略細(xì)微的改動(dòng)。現(xiàn)在,有一份中國專利技術(shù)專利文獻(xiàn),專利號(hào)為20241007965.2,名稱為一種基于大語言模型的文檔生成方法、系統(tǒng)和介質(zhì),其公開了一種基于大語言模型的文檔生成方法、系統(tǒng)和介質(zhì),包括:獲取文檔輸入,對(duì)所述文檔輸入進(jìn)行解析,提取第一問題和第一知識(shí),得到第一文檔數(shù)據(jù);根據(jù)所述第一文檔數(shù)據(jù),在知識(shí)庫中進(jìn)行查詢索引,得到若干待處理信息;其中,所述知識(shí)庫為信息資源庫,所述知識(shí)庫包括:歷史文檔和技術(shù)文檔知識(shí);根據(jù)所述若干待處理信息,對(duì)大語言模型進(jìn)行提問,得到第一響應(yīng);根據(jù)所述第一文檔數(shù)據(jù)、所述若干待處理信息和所述第一響應(yīng),生成第一文檔,以提供文檔生成效率。基于上述的公開的內(nèi)容可知,是先獲取文檔后,進(jìn)行查詢索引和文檔生成,但是生成的文檔沒有經(jīng)過精確對(duì)比是否存在版本間的差異,因此增加了人工操作中的錯(cuò)誤率和降低了工作效率。


    技術(shù)實(shí)現(xiàn)思路

    1、鑒于上述問題,本專利技術(shù)的目的在于提供一種自動(dòng)化生成符合模板的文檔,并精確對(duì)比不同版本間的差異,以減少人工操作中的錯(cuò)誤,并顯著提升工作效率的用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng)。

    2、為實(shí)現(xiàn)上述目的,本專利技術(shù)提供的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其中,包括依次連接的文檔問答模塊、文檔生成模塊和文檔對(duì)比模塊。文檔問答模塊是用戶上傳文檔后,根據(jù)用戶對(duì)文檔提出的問題進(jìn)行內(nèi)容檢索,并提供直接答案或總結(jié)性回答。這樣對(duì)于用戶上傳的長文檔來說,能夠快速找到期望的內(nèi)容,并對(duì)頁面提供對(duì)應(yīng)內(nèi)容,進(jìn)行核查。文檔生成模塊是根據(jù)用戶需求,調(diào)用固定模板自動(dòng)生成符合特定結(jié)構(gòu)的文檔。文檔對(duì)比模塊是對(duì)比同一文檔的不同版本,準(zhǔn)確提取改動(dòng)部分,高亮顯示并通過圖表展示對(duì)比表。

    3、在一些實(shí)施方式中,特定結(jié)構(gòu)的文檔為說明書或者風(fēng)險(xiǎn)文件或者固定模板的文檔都可以。

    4、在一些實(shí)施方式中,文檔問答模塊實(shí)現(xiàn)過程如下:

    5、(1)先進(jìn)行文件預(yù)處理

    6、從用戶端獲取文件并提取文件中的內(nèi)容,對(duì)其進(jìn)行清理、分詞、格式化操作。上述用戶端獲取文件的格式為文本或者pdf或者掃描版的pdf或者圖片。

    7、(2)完成文件預(yù)處理后,進(jìn)入核心的問答環(huán)節(jié)

    8、首先,通過自然語言處理技術(shù)對(duì)用戶上傳的文件進(jìn)行深入分析,生成文檔的語義結(jié)構(gòu)。上述文件的分析確保文檔內(nèi)容能夠以結(jié)構(gòu)化的形式表示,便于后續(xù)的問答匹配。特別是通過構(gòu)建文檔的向量表示,是將每個(gè)句子或段落映射到高維空間中,每個(gè)詞語都被表示為一個(gè)向量,這個(gè)過程捕捉詞語之間的語義和語法關(guān)系,使得具有相似語義或語法的詞語在向量空間中相近。上述過程采用nomic-embed-text模型完成,其核心公式是:

    9、

    10、其中,vd表示文檔向量表示,td表示文檔的文本內(nèi)容,e(ti)表示第i個(gè)詞的嵌入向量,f表示文檔嵌入的生成函數(shù);

    11、上述的向量化表示的文檔結(jié)構(gòu),結(jié)合模型進(jìn)行上下文關(guān)聯(lián)分析。當(dāng)用戶提出問題時(shí),將問題進(jìn)行相同的向量化處理。接下來,通過計(jì)算文檔內(nèi)容與問題之間的相似度,識(shí)別出最相關(guān)的文檔片段,使用余弦相似度作為衡量標(biāo)準(zhǔn):

    12、

    13、其中:θ表示兩個(gè)向量之間的夾角,vd,vq分別表示文檔向量與問題向量;

    14、通過上述的核心公式,計(jì)算文檔和問題向量之間的夾角余弦值,夾角越小,說明語義越接近,就能更準(zhǔn)確地找到對(duì)應(yīng)的文檔位置。

    15、其次,當(dāng)找到對(duì)應(yīng)的文檔位置后得到相關(guān)文檔片段,通過匹配到的內(nèi)容位置,結(jié)合文檔結(jié)構(gòu)信息,生成響應(yīng)。在生成答案的同時(shí),返回該答案在原文檔中的具體位置,方便用戶定位。

    16、在一些實(shí)施方式中,上述的問答環(huán)節(jié)還支持對(duì)多份文檔進(jìn)行問答處理。對(duì)于多個(gè)文檔,會(huì)分別對(duì)每個(gè)文檔進(jìn)行預(yù)處理和向量化表示,然后綜合所有文檔的相似度結(jié)果,選擇最相關(guān)的文檔片段進(jìn)行回答。

    17、在多文檔問答的情況下,采用如下公式進(jìn)行相似度聚合:

    18、s=max(cos(θ1),cos(θ2),cos(θ3)…cos(θn))

    19、其中s表示綜合相似度,cos(θn)表示第n份文件的相似度。

    20、在一些實(shí)施方式中,上述用戶端獲取文件的格式為圖片或者掃描版的pdf時(shí),則采用光學(xué)字符識(shí)別ocr技術(shù)提取其中的文字內(nèi)容,確保所有文件格式都能被統(tǒng)一處理并轉(zhuǎn)化為可供分析的文本數(shù)據(jù)。

    21、在一些實(shí)施方式中,文檔生成模塊通過多個(gè)模型協(xié)作完成從類型識(shí)別到文檔生成的全過程。上述的多個(gè)模型包括文件類型識(shí)別模型和文件內(nèi)容填充模型。文件類型識(shí)別模型從用戶需求中識(shí)別要生成的文檔類型,之后經(jīng)過微調(diào)的大語言模型用于文件內(nèi)容填充模型。每個(gè)模型都基于明確的算法和深度學(xué)習(xí)技術(shù)來實(shí)現(xiàn)各自的功能,確保生成的文檔符合用戶需求并保持高質(zhì)量。

    22、(1)文件類型識(shí)別模型

    23、所述文件類型識(shí)別模型的核心任務(wù)是根據(jù)用戶提出的需求,確定用戶需要生成的文檔類型。用戶要在需求中包含文檔類型的關(guān)鍵詞,“說明書”、“風(fēng)險(xiǎn)分析報(bào)告”、“技術(shù)要求文檔”。之后所述的文件類型識(shí)別模型通過自然語言處理技術(shù)對(duì)用戶輸入的需求內(nèi)容進(jìn)行語義分析,提取出關(guān)鍵術(shù)語并判斷相應(yīng)的文檔類型。其中,文件類型識(shí)別模型自動(dòng)識(shí)別用戶需求中隱含的文檔類型信息。

    24、所述的文件類型識(shí)別模型主要過程包括接收用戶提出的需求,需求描述應(yīng)包含關(guān)于所需文檔類型的關(guān)鍵詞,對(duì)需求描述進(jìn)行處理,文本清理、分詞、詞性標(biāo)注等預(yù)處理操作。進(jìn)一步對(duì)經(jīng)過預(yù)處理的需求描述進(jìn)行語義分析,旨在理解需求描述中的語義內(nèi)容,提取出與文檔類型相關(guān)的關(guān)鍵詞匯。

    25、在文件類型識(shí)別模型步驟中,將利用word2vec、tf-idf技術(shù)來構(gòu)建需求描述的語義向量表示,然后使用機(jī)器學(xué)習(xí)的算法svm支持向量機(jī)訓(xùn)練得到的分類模型分析需求對(duì)應(yīng)的文檔類別。其中,word2vec是將文本轉(zhuǎn)為向量;tf-idf是計(jì)算需求描述中每個(gè)詞的重要性分?jǐn)?shù):

    26、wi=tf(wi,d)×idf(wi)

    27、其中wi為第i個(gè)詞的重要性分?jǐn)?shù),tf(wi,d)表示詞wi在文檔d中的詞頻;idf(wi)表示詞的逆文檔頻率;

    28、上述算法svm支持向量機(jī)訓(xùn)練是提取特征,并將這些特征組合成一個(gè)特征向量。之后訓(xùn)練數(shù)據(jù)集來擬合選定的模型,svm最小化經(jīng)驗(yàn)誤差和最大化幾何間隔。基于提取出的關(guān)鍵詞,文件類型識(shí)別模型判斷需求描述對(duì)應(yīng)的文檔類型。最后,經(jīng)過上述判斷過程后,文件類型識(shí)別模型能夠準(zhǔn)確地從用戶的需求描述中識(shí)別出所需的文檔類型。

    29、(2)文件內(nèi)容填充模型

    <本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,包括依次連接的文檔問答模塊、文檔生成模塊和文檔對(duì)比模塊;

    2.根據(jù)權(quán)利要求1所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,所述特定結(jié)構(gòu)的文檔為說明書或者風(fēng)險(xiǎn)文件或者固定模板的文檔。

    3.根據(jù)權(quán)利要求1或2所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,所述的文檔問答模塊實(shí)現(xiàn)過程如下:

    4.根據(jù)權(quán)利要求3所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,上述的問答環(huán)節(jié)還支持對(duì)多份文檔進(jìn)行問答處理;對(duì)于多個(gè)文檔,會(huì)分別對(duì)每個(gè)文檔進(jìn)行預(yù)處理和向量化表示,然后綜合所有文檔的相似度結(jié)果,選擇最相關(guān)的文檔片段進(jìn)行回答;

    5.根據(jù)權(quán)利要求3所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,上述用戶端獲取文件的格式為圖片或者掃描版的PDF時(shí),則采用光學(xué)字符識(shí)別OCR技術(shù)提取其中的文字內(nèi)容,確保所有文件格式都能被統(tǒng)一處理并轉(zhuǎn)化為可供分析的文本數(shù)據(jù)。

    6.根據(jù)權(quán)利要求1或2所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,所述的文檔生成模塊通過多個(gè)模型協(xié)作完成從類型識(shí)別到文檔生成的全過程;

    7.根據(jù)權(quán)利要求1或2所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,所述的文檔對(duì)比模塊是通過引入正則化方法,根據(jù)文檔中不同結(jié)構(gòu)的特征,精準(zhǔn)提取文檔的標(biāo)題、段落、圖片、表格多種信息,并通過模式匹配和機(jī)器學(xué)習(xí)算法來識(shí)別和分離文本塊、圖像邊界以及表格結(jié)構(gòu);

    8.根據(jù)權(quán)利要求6所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,所述的機(jī)器學(xué)習(xí)不斷優(yōu)化問答的準(zhǔn)確性和文檔內(nèi)容的匹配度;通過用戶反饋機(jī)制,對(duì)生成的答案與用戶預(yù)期的準(zhǔn)確性進(jìn)行標(biāo)注,并進(jìn)一步調(diào)整模型參數(shù),確保未來的問答結(jié)果更加精準(zhǔn)。

    ...

    【技術(shù)特征摘要】

    1.一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,包括依次連接的文檔問答模塊、文檔生成模塊和文檔對(duì)比模塊;

    2.根據(jù)權(quán)利要求1所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,所述特定結(jié)構(gòu)的文檔為說明書或者風(fēng)險(xiǎn)文件或者固定模板的文檔。

    3.根據(jù)權(quán)利要求1或2所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,所述的文檔問答模塊實(shí)現(xiàn)過程如下:

    4.根據(jù)權(quán)利要求3所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,上述的問答環(huán)節(jié)還支持對(duì)多份文檔進(jìn)行問答處理;對(duì)于多個(gè)文檔,會(huì)分別對(duì)每個(gè)文檔進(jìn)行預(yù)處理和向量化表示,然后綜合所有文檔的相似度結(jié)果,選擇最相關(guān)的文檔片段進(jìn)行回答;

    5.根據(jù)權(quán)利要求3所述的一種用于文檔問答、生成與版本對(duì)比的大語言模型系統(tǒng),其特征在于,上述用戶端獲取文件的格式為圖片或者掃描版的pdf時(shí),...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:李佳琪韓強(qiáng)朱紅毅許海琴張智慧
    申請(qǐng)(專利權(quán))人:江蘇愛朋醫(yī)療科技股份有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av中文无码乱人伦在线观看 | 成年无码av片在线| 亚洲成av人片天堂网无码】| 日韩精品中文字幕无码专区| 亚洲AV综合色区无码另类小说| 亚洲人成人无码网www电影首页| 久久久久久人妻无码| 亚洲av无码成人精品区在线播放 | 色欲AV永久无码精品无码| 成人免费无码H在线观看不卡| 无码乱肉视频免费大全合集| 亚洲精品无码高潮喷水在线| 国产精品爽爽V在线观看无码| 无码人妻精品一区二区三区蜜桃| 亚洲欧洲精品无码AV| 免费A级毛片无码A| 亚洲AV无码专区在线厂| 日韩爆乳一区二区无码| 最新高清无码专区| 少妇无码AV无码一区| 免费人妻av无码专区| 无码中文av有码中文a| 亚洲最大中文字幕无码网站| 无码专区久久综合久中文字幕 | 日韩中文无码有码免费视频| 色窝窝无码一区二区三区| 亚洲欧洲精品无码AV| 亚洲午夜福利AV一区二区无码| 亚洲AV无码乱码在线观看牲色| 亚洲AV无码AV吞精久久| 亚洲熟妇无码av另类vr影视 | 久久AV无码精品人妻出轨| 亚洲国产成人精品无码一区二区 | 久久AV无码精品人妻出轨| 中文字幕人成无码人妻综合社区| 亚洲的天堂av无码| 亚洲中文字幕无码亚洲成A人片 | 国产精品无码AV天天爽播放器| 亚洲日韩中文字幕无码一区| 亚洲AV无码一区二区乱子仑| 亚洲AV成人无码网站|