System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及計算機,更具體涉及一種基于多特征融合的語義檢索方法。
技術介紹
1、隨著數字化轉型的快速推進,招標公告答疑方式不斷迭代提升。傳統的答疑需要人工逐一解答,但隨著自然語言處理(nlp)技術的引入,智能答疑方式變得更為重要。這種方式可以根據知識庫自動回答,從而提供更快的響應速度,減輕人工答疑工作壓力。然而,目前的智能問題系統主要基于匹配技術,通過自動識別問題進行匹配,返回設定答案,但當咨詢問題超出范圍時則無法回答,另外,同一問題的不同描述方式會降低與知識庫的匹配率,在問題的語義理解方面研究相對不足。大語言模型出現后,對長篇文章和復雜語境的理解水平顯著提高,對知識的自動概括及歸納總結能力全面加強,使得基于語言模型的智能問答庫成為一種實現可行且更為有效的選擇。為解決該問題,本專利結合大模型,提出了一種面向招標文件問答場景的智能問答系統,提高咨詢問題匹配率,完善智能問答準確率,提高招投標效率。
技術實現思路
1、為了解決上述問題,本專利技術提供了一種基于多特征融合的語義檢索方法,該方法基于人工智能和大模型技術,首先利用詞頻和反文檔頻率對jieba模型分詞后的詞語進行清洗,提高語義搜索效率,然后結合bert模型、長短時記憶網絡和條件隨機場模型對用戶搜索語句和目標文本中的詞語進行實體識別,最后從關鍵詞、詞形、詞序和詞向量四個特征維度進行文本的相似性計算,并返回相似度大于閾值的文本,提高語義搜索的準確率。
2、本專利技術公開了一種基于多特征融合的語義檢索方法,該方法包括以下
3、步驟1:使用jieba模型對中文進行分詞,并對分詞后的詞語詞頻和反文檔頻率進行權重計算,然后按照權重進行清洗,以提高檢索質量;
4、步驟2:結合bert模型、長短時記憶網絡和條件隨機場模型對用戶搜索語句和目標文本中的詞語進行實體識別,確定其語義;
5、步驟3:從關鍵詞、詞形、詞序和詞向量四個特征維度進行文本的相似性計算,并返回相似度大于閾值的文本,提高語義搜索的準確率。
6、在一些實施方式中,步驟1中,使用j?ieba模型對中文進行分詞,并對分詞后的詞語按照權重進行清洗,以提高檢索質量,本專利技術結合詞頻和反文檔頻率進行詞語的權重計算,其中詞頻表示該詞語在文本中出現的頻率,頻率越大,表明該詞語對文本越重要,詞頻表示公式為:
7、
8、其中,i表示詞語,j表示文本,n表示所有文本的總數,tfij表示詞語i在文本j中出現的頻率,
9、反文檔頻率指在大多數文本中都出現的詞語不如只在小部分文本中出現的詞語重要,該方法能夠弱化在大多數文本中都出現的高頻詞語的重要度,同時增強在小部分文本中出現的低頻詞語的重要度,其公式表示為:
10、
11、其中,i表示詞語,n表示所有文本的總數,dfi表示詞語i出現的文本數。
12、最終,詞語權重計算公式為:
13、
14、對于每個詞語i,wei?ght值越大,表明該詞語越重要,對于語義檢索的結果影響更大,保留權重值大于閾值的詞語。
15、在一些實施方式中,步驟2中:對于文本中的詞語和用戶搜索語句匯總的詞語進行實體識別,確定其語義,本專利技術結合bert模型、長短時記憶網絡(bilstm)和條件隨機場模型(crf)進行實體識別,bert首先利用大規模語料庫的預訓練,在文本層面上理解句子的雙向上下文關系,將文本轉換為高維度的詞向量表示,接著,bilstm對bert的輸出進行序列建模,捕獲問句中的長距離依賴關系,從而更全面地理解語義信息,最后,crf在bilstm的基礎上進行標簽依賴性建模,進一步提高命名實體識別的準確性和魯棒性。
16、在一些實施方式中,基于搜索文本,計算其與目標文本中的相似性,本專利技術從關鍵詞、詞形、詞序和詞向量四個特征維度進行相似性計算,關鍵詞相似度表示兩個文本中關鍵詞共同出現的概率,若一個關鍵詞在兩個文本中均出現,則記錄一次,假設文本1中的關鍵詞為t1=(k1,k2,…,km),文本2中的關鍵詞為t2=(k1,k2,…,kn),len(t1)為文本1中出現的關鍵詞個數,len(t2)為文本2中出現的關鍵詞個數,ckw(t1∪t2)表示兩個文本之間的共同關鍵詞個數,則關鍵詞相似度計算公式為:
17、
18、詞形相似度表示兩個文本在詞語形態上的相似程度,旨在找到兩個文本之間的共現詞,假設文本1中所含詞為r1=(w1,w2,…,wx),文本2中所含詞r2=(w1,w2,…,wn),lem(t1)為文本1中詞個數,lem(t2)為文本2中詞個數,cw(r1∪r2)表示兩個文本之間的共現詞個數,則詞形相似度計算公式為:
19、
20、詞序相似度表示詞在兩個文本中的相對位置關系,假設lem(t1)為文本1中詞個數,lem(t2)為文本2中詞個數,mc為文本t1和t2匹配的字符數,move為換位數量,則詞序相似度計算公式為:
21、
22、詞向量相似度基于詞向量的重疊度來計算兩個文本的相似度,其中詞向量w1和w2的余弦相似度計算公式為:
23、
24、其中,i,r分別是用戶當前輸入文本和目標文本,max(α*cosdis(w,r))是計算文本r中所有詞對應的詞向量與w對應的詞向量的余弦相似度中最大的值。參數α用于調整兩個詞向量之間余弦相似度的放大系數,可以根據所得到的詞向量表的不同進行設定調整,
25、綜合上述所提到的4個特征并對其線性加權,得到多特征的文本結構相似度,其計算公式為:
26、simstr=a*sim1+b*sim2+c*sim3+d*sim4
27、其中a、b、c、d為4個特征上的權重,滿足a+b+c+d=1,
28、最后進行相似度判斷,若相似度simstr大于所設定的相似度閾值,則表示兩個文本是相似的,并將答案返回給用戶,否則認為兩個文本是不相似的。
29、與現有技術相比,本專利技術的有益效果是:
30、本專利技術基于人工智能和大模型技術,首先利用詞頻和反文檔頻率對jieba模型分詞后的詞語進行清洗,提高語義搜索效率,然后結合bert模型、長短時記憶網絡和條件隨機場模型對用戶搜索語句和目標文本中的詞語進行實體識別,最后從關鍵詞、詞形、詞序和詞向量四個特征維度進行文本的相似性計算,并返回相似度大于閾值的文本,提高語義搜索的準確率。
本文檔來自技高網...【技術保護點】
1.一種基于多特征融合的語義檢索方法,其特征在于,所述方法包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,步驟1中,結合詞頻和反文檔頻率進行詞語的權重計算,其中詞頻表示該詞語在文本中出現的頻率,頻率越大,表明該詞語對文本越重要,詞頻表示公式為:
3.根據權利要求1所述的方法,其特征在于,步驟2中:對于文本中的詞語和用戶搜索語句匯總的詞語進行實體識別,確定其語義,本專利技術結合BERT模型、長短時記憶網絡(BiLSTM)和條件隨機場模型(CRF)進行實體識別,BERT首先利用大規模語料庫的預訓練,在文本層面上理解句子的雙向上下文關系,將文本轉換為高維度的詞向量表示,接著,BiLSTM對BERT的輸出進行序列建模,捕獲問句中的長距離依賴關系,從而更全面地理解語義信息,最后,CRF在BiLSTM的基礎上進行標簽依賴性建模,進一步提高命名實體識別的準確性和魯棒性。
4.根據權利要求1所述的方法,其特征在于,步驟3中,基于搜索文本,計算其與目標文本中的相似性,本專利技術從關鍵詞、詞形、詞序和詞向量四個特征維度進行相似性計算,關鍵詞相似度表示兩個
...【技術特征摘要】
1.一種基于多特征融合的語義檢索方法,其特征在于,所述方法包括以下步驟:
2.根據權利要求1所述的方法,其特征在于,步驟1中,結合詞頻和反文檔頻率進行詞語的權重計算,其中詞頻表示該詞語在文本中出現的頻率,頻率越大,表明該詞語對文本越重要,詞頻表示公式為:
3.根據權利要求1所述的方法,其特征在于,步驟2中:對于文本中的詞語和用戶搜索語句匯總的詞語進行實體識別,確定其語義,本發明結合bert模型、長短時記憶網絡(bilstm)和條件隨機場模型(crf)進行實體識別,bert首先利用大規模語料庫的預訓練,在文本層面上理解句子的雙向上下文關系,將文本轉換為高維度的詞向量表示,接著,bilstm對bert的輸出進行序列建模,捕獲問句中的長距...
【專利技術屬性】
技術研發人員:仇敬宜,李金霞,殷瑋珺,周若璇,湯笑,沈一鳴,孫馨,梅杰,徐超然,許璐,屈璐瑤,高麗媛,
申請(專利權)人:國網江蘇招標有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。