System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及計算機,更具體涉及一種面向招標文件問答場景的智能問答系統。
技術介紹
1、隨著數字化轉型的快速推進,招標公告答疑方式不斷迭代提升。傳統的答疑需要人工逐一解答,但隨著自然語言處理(nlp)技術的引入,智能答疑方式變得更為重要。這種方式可以根據知識庫自動回答,從而提供更快的響應速度,減輕人工答疑工作壓力。然而,目前的智能問題系統主要基于匹配技術,通過自動識別問題進行匹配,返回設定答案,但當咨詢問題超出范圍時則無法回答,另外,同一問題的不同描述方式會降低與知識庫的匹配率,在問題的語義理解方面研究相對不足。大語言模型出現后,對長篇文章和復雜語境的理解水平顯著提高,對知識的自動概括及歸納總結能力全面加強,使得基于語言模型的智能問答庫成為一種實現可行且更為有效的選擇。為解決該問題,本專利結合大模型,提出了一種面向招標文件問答場景的智能問答系統,提高咨詢問題匹配率,完善智能問答準確率,提高招投標效率。
技術實現思路
1、為了解決上述問題,本專利技術提供了一種面向招標文件問答場景的智能問答系統,能夠對招標文件的內容進行知識提取,結合大模型進行問題和答案的自動生成,同時自學習技術提高問題答案的準確率。
2、本專利技術公開了一種面向招標文件問答場景的智能問答系統,包括:
3、招標文件知識提取模塊:針對招標文件的文本和表格兩種形式的數據進行知識提取,形成訓練數據。針對文本信息,本專利技術首先使用基于二分損失的g?l?ove模型來生成命名實體的上下文嵌入表示和圖嵌入表
4、基于招標文件的q&a自動生成模塊,首先生成問題摘要,使用bert作為預訓練大語言模型,將問句和依賴關系轉換為向量表示,用于依賴關系權重計算和摘要生成,使用a-gcn依賴關系加權網絡,對輸入的依賴關系矩陣進行加權計算,獲取帶有權重信息的問句向量表示,然后使用特征a-gcn網絡計算權重,并將特征向量進行最大池化,突出問句向量表示的關鍵特征,接下來使用t5-pegasus作為預訓練模型,對優化后帶有權重的問句進行摘要生成;然后生成問題答案,首先對輸入的招投標問句與初始問答庫中的問句逐一進行相似度匹配,獲取相似度分數,并通過循環機制不斷刷新最高分數及對應答案,其次,匹配結束后,對獲取的最高分數進行判斷,設置閾值,返回超過閾值的答案給用戶,對未超過閾值的問句利用大模型進行答案生成,對其進行實體抽取后,根據定義好的問題模板進行映射,抽取知識圖譜中的相關內容作為領域知識,然后將領域知識作為上下文信息與問句共同送入生成式大模型中進行答案生成。
5、咨詢問答自學習模塊:為提高智能問答系統的準確率,本專利借鑒自學習的方式對知識庫進行更新,減少大模型推理過程容易產生的誤差。首先讀取知識庫時賦予時間戳,用戶提問后,將問答對存儲至臨時庫中同樣賦予時間戳,當問答框架向用戶主動申請反饋答案是否準確時,轉換成二分類問題,并將用戶的反饋結果標簽1(滿意)和標簽0(不滿意)作為存儲邏輯控制知識庫更新,當標簽為0時,將問答對從臨時庫中刪除,當標簽為1時,根據臨時庫和知識庫的時間戳差異對知識庫進行增量更新,并更新知識庫當前時間戳,提高回答的準確性。
6、與現有技術相比,本專利技術的有益效果是:
7、本專利技術基于人工智能和大模型技術,針對招標文件的文本和表格兩種不同形式的數據進行知識提取,形成訓練數據,進而利用大模型技術生成問題和對應答案,并自學習提升問題回答的準確性,提高咨詢問題匹配率,完善智能問答準確率,提高招投標效率。
本文檔來自技高網...【技術保護點】
1.一種面向招標文件問答場景的智能問答系統,其特征在于,包括:
2.根據權利要求1所述的系統,其特征在于,所述招標文件知識提取模塊具體處理方法為:針對文本信息,首先使用基于二分損失的Glove模型來生成命名實體的上下文嵌入表示和圖嵌入表示,然后構建BERT編碼器和圖卷積編碼器,利用BERT編碼器中的transformer自注意力權重對圖卷積編碼器的圖注意力機制進行動態初始化,并將詞嵌入表示和圖嵌入表示一一對應輸入至BERT編碼器和初始化后的圖卷積編碼器中,利用BERT編碼器對所述詞嵌入表示進行特征提取,獲得命名實體的局部上下文特征表示,利用圖卷積編碼器對所述圖嵌入表示進行特征提取,獲得命名實體動態的全局特征表示;最后對上下文特征表示和全局特征表示進行特征融合,得到強化特征表示,并基于條件隨機場模型對強化特征進行序列標注,得到文字型數據的關鍵知識;針對表格信息,本專利技術首先對投標基礎知識進行本體建模,然后采用python中的pdfplumber庫實現招標文檔布局分析,識別并重建表格結構,解析復雜表格得數據結構,并通過隨機森林算法對這些數據進行特征實體提取,最終實現招標
3.根據權利要求1所述的系統,其特征在于,所述基于招標文件的Q&A自動生成模塊具體處理方法為:首先生成問題摘要,使用BERT作為預訓練大語言模型,將問句和依賴關系轉換為向量表示,用于依賴關系權重計算和摘要生成,使用A-GCN依賴關系加權網絡,對輸入的依賴關系矩陣進行加權計算,獲取帶有權重信息的問句向量表示,然后使用特征A-GCN網絡計算權重,并將特征向量進行最大池化,突出問句向量表示的關鍵特征,接下來使用T5-Pegasus作為預訓練模型,對優化后帶有權重的問句進行摘要生成;然后生成問題答案,首先對輸入的招投標問句與初始問答庫中的問句逐一進行相似度匹配,獲取相似度分數,并通過循環機制不斷刷新最高分數及對應答案,其次,匹配結束后,對獲取的最高分數進行判斷,設置閾值,返回超過閾值的答案給用戶,對未超過閾值的問句利用大模型進行答案生成,對其進行實體抽取后,根據定義好的問題模板進行映射,抽取知識圖譜中的相關內容作為領域知識,然后將領域知識作為上下文信息與問句共同送入生成式大模型中進行答案生成。
4.根據權利要求1所述的系統,其特征在于,所述問答自學習模塊模塊具體處理方法為:借鑒自學習的方式對知識庫進行更新,減少大模型推理過程容易產生的誤差,首先讀取知識庫時賦予時間戳,用戶提問后,將問答對存儲至臨時庫中同樣賦予時間戳,當問答框架向用戶主動申請反饋答案是否準確時,轉換成二分類問題,并將用戶的反饋結果標簽1和標簽0作為存儲邏輯控制知識庫更新,標簽1為滿意,標簽0為不滿意,當標簽為0時,將問答對從臨時庫中刪除,當標簽為1時,根據臨時庫和知識庫的時間戳差異對知識庫進行增量更新,并更新知識庫當前時間戳,提高回答的準確性。
...【技術特征摘要】
1.一種面向招標文件問答場景的智能問答系統,其特征在于,包括:
2.根據權利要求1所述的系統,其特征在于,所述招標文件知識提取模塊具體處理方法為:針對文本信息,首先使用基于二分損失的glove模型來生成命名實體的上下文嵌入表示和圖嵌入表示,然后構建bert編碼器和圖卷積編碼器,利用bert編碼器中的transformer自注意力權重對圖卷積編碼器的圖注意力機制進行動態初始化,并將詞嵌入表示和圖嵌入表示一一對應輸入至bert編碼器和初始化后的圖卷積編碼器中,利用bert編碼器對所述詞嵌入表示進行特征提取,獲得命名實體的局部上下文特征表示,利用圖卷積編碼器對所述圖嵌入表示進行特征提取,獲得命名實體動態的全局特征表示;最后對上下文特征表示和全局特征表示進行特征融合,得到強化特征表示,并基于條件隨機場模型對強化特征進行序列標注,得到文字型數據的關鍵知識;針對表格信息,本發明首先對投標基礎知識進行本體建模,然后采用python中的pdfplumber庫實現招標文檔布局分析,識別并重建表格結構,解析復雜表格得數據結構,并通過隨機森林算法對這些數據進行特征實體提取,最終實現招標文件表格的結構化信息抽取。
3.根據權利要求1所述的系統,其特征在于,所述基于招標文件的q&a自動生成模塊具體處理方法為:首先生成問題摘要,使用bert作為預訓練大語言模型,將問句和依賴關系轉換為向量表示,用于依賴關系權重計算和...
【專利技術屬性】
技術研發人員:沈一鳴,李金霞,殷瑋珺,周若璇,湯笑,仇敬宜,孫馨,梅杰,徐超然,許璐,屈璐瑤,高麗媛,
申請(專利權)人:國網江蘇招標有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。