System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本專利技術屬于檢索、大模型與智能問答,具體涉及一種基于檢索增強生成和大模型的課程智能問答方法及系統(tǒng)。
技術介紹
1、隨著大模型的廣泛普及應用,各行業(yè)領域紛紛關注人工智能技術的應用和學習。特別地,在教育教學領域,高校紛紛推進人工智能的知識普及和人才培養(yǎng)。知識普及已經(jīng)成為高校教育教學領域的迫切任務。人工智能知識普及的重要途徑就是推動人工智能課程建設。
2、然而,隨著人工智能課程的開設,在課程學習過程中,必然引發(fā)爆炸式增長的大量學生的問答解惑問題。為應對學生問答,傳統(tǒng)基于教師或助教學生解答疑惑的方式已經(jīng)無法滿足諸多學生的問答請求,同時也會占據(jù)教師或助教的大量時間。還有,由于教師或助教的不足,要應對大量的學生答疑解惑需求,也會造成學生的疑惑無法及時地得到解答,進一步會影響學生對人工智能的學習興趣和學習效率。基于人工智能自然語言處理技術構建的智能問答系統(tǒng),可以有效地緩解該問題。現(xiàn)有典型的基于bert構建的智能問答方法,采用基于注意力機制實現(xiàn)抽取式的問答。從技術上來看,bert方法對問題和段落的表征向量使用交叉注意力機制來進行交互,再經(jīng)由一個分類層得到答案在段落中的起始標簽和結(jié)束標簽。但是,這種方法無法應對所有問題的準確回答,特別是一些特定專業(yè)領域的問題無法直接在給定的文本段落中抽取出答案,必須賦予一定的推理總結(jié)的要求。
3、隨著生成式大語言模型的問世,依托于大語言模型對人類語言強大的理解能力,其可以在常識、推理、語義、知識等多個方面具有良好的表現(xiàn),并且還可以進一步通過lora等大模型微調(diào)技術來使大模型對齊新的數(shù)據(jù)集
4、為了應對大語言模型問答的不足,檢索增強生成技術會在大模型中引入額外的專業(yè)知識庫,可以提高大模型在特定問答任務中的性能,而大模型問答的性能又極大地依賴于檢索性能。現(xiàn)有的檢索技術包括稀疏檢索和密集檢索。稀疏檢索包括bm25,是根據(jù)詞頻統(tǒng)計和術語匹配的方式進行檢索,無法有效地捕捉到詞的語義特征。密集檢索則是使用了深度學習的方法來獲取文本的向量表征,并使用向量表征計算文本間的相似度來進行檢索。但是,該方法在專業(yè)數(shù)據(jù)集時,能夠捕獲的語義特征比較有限,導致問答效果也很有限。為彌補在專業(yè)數(shù)據(jù)集上,密集檢索語義特征捕獲有限的問題,有必要提出一種結(jié)合稀疏檢索和密集檢索混合式的檢索算法,并加之重排序技術,來提升檢索性能。
5、因此,亟需一種融合檢索增強生成和大模型的課程智能問答系統(tǒng),來幫助教師或助教為學生解答疑惑,從而提高學生的學習效率與幫助教師減輕教學負擔。
技術實現(xiàn)思路
1、為解決現(xiàn)有技術中的問題,本專利技術提出了一種基于檢索增強生成和大模型的課程智能問答方法及系統(tǒng)。
2、本專利技術采用的技術方案如下:
3、第一方面,本專利技術公開了一種基于檢索增強生成和大模型的課程智能問答方法,包括以下步驟:
4、獲取并訓練用于獲得文本表征向量的孿生bert網(wǎng)絡,構建并訓練用于重排序的交叉編碼器,獲取并訓練用于獲得問題的答案的大語言模型;
5、對待回答的人工智能課程知識領域問題進行分詞、填充和id映射處理,得到問題序列,再利用訓練后的孿生bert網(wǎng)絡對問題序列進行編碼,得到問題的文本表征向量;再計算文本表征向量與向量數(shù)據(jù)庫中每個段落表征向量的點積相似度,得到相似度得分,所述向量數(shù)據(jù)庫是基于訓練好的孿生bert網(wǎng)絡得到的;
6、利用bm25算法計算所述問題和段落數(shù)據(jù)庫中的每個段落間的相關性得分,得到bm25得分;所述段落數(shù)據(jù)庫是基于訓練好的孿生bert網(wǎng)絡得到的;
7、利用相似度得分和bm25得分計算得到每個段落對應的混合得分,根據(jù)混合得分由高到低對段落進行排序,得到topn文檔;使用訓練好的交叉編碼器對topn文檔內(nèi)的段落進行重排序,得到最終的topk文檔;
8、將得到的topk文檔作為問題的上下文,訓練好的大語言模型以topk文檔和問題作為輸入,訓練好的大語言模型輸出問題的答案。
9、第二方面,本專利技術公開了一種基于檢索增強生成和大模型的課程智能問答方系統(tǒng),包括:
10、問題預處理模塊,其用于獲取并訓練用于獲得文本表征向量的孿生bert網(wǎng)絡,對待回答的人工智能課程知識領域問題進行分詞、填充和id映射處理,得到問題序列,再利用訓練后的孿生bert網(wǎng)絡對問題序列進行編碼,得到問題的文本表征向量;
11、文檔檢索模塊,其用于構建并訓練用于重排序的交叉編碼器,計算文本表征向量與向量數(shù)據(jù)庫中每個段落表征向量的點積相似度,得到相似度得分,所述向量數(shù)據(jù)庫是基于訓練好的孿生bert網(wǎng)絡得到的;
12、利用bm25算法計算所述問題和段落數(shù)據(jù)庫中的每個段落間的相關性得分,得到bm25得分;所述段落數(shù)據(jù)庫是基于訓練好的孿生bert網(wǎng)絡得到的;
13、利用相似度得分和bm25得分計算得到每個段落對應的混合得分,根據(jù)混合得分由高到低對段落進行排序,得到topn文檔;使用訓練好的交叉編碼器對topn文檔內(nèi)的段落進行重排序,得到最終的topk文檔;
14、大模型推理模塊,其用于獲取并訓練用于獲得問題的答案的大語言模型;將得到的topk文檔作為問題的上下文,訓練好的大語言模型以topk文檔和問題作為輸入,訓練好的大語言模型輸出問題的答案。
15、與現(xiàn)有技術相比,本專利技術所具有的有益效果有:
16、本專利技術首先從不同的數(shù)據(jù)源構建了面向人工智能課程領域知識的問答數(shù)據(jù)集,實現(xiàn)了中文人工智能數(shù)據(jù)集的從無到有。其次,本專利技術構建了混合檢索算法,并使用了交叉編碼重排序方法,提升了檢索性能。最后,本專利技術使用檢索增強生成的問答方式,將檢索到的結(jié)果作為問題的上下文,一并輸入到經(jīng)由lora微調(diào)的llm中,最終輸出了問題的答案,從而提高了大語言模型的問答性能,解決了大語言模型幻覺的問題。
本文檔來自技高網(wǎng)...【技術保護點】
1.一種基于檢索增強生成和大模型的課程智能問答方法,其特征在于,包括以下步驟:
2.根據(jù)權利要求1所述的方法,其特征在于,所述訓練用于獲得文本表征向量的孿生Bert網(wǎng)絡,包括:
3.根據(jù)權利要求2所述的方法,其特征在于,所述構建面向人工智能課程知識領域的問答數(shù)據(jù)集,包括:
4.根據(jù)權利要求2所述的方法,其特征在于,訓練所述孿生Bert網(wǎng)絡時,利用BM25算法計算所述問答數(shù)據(jù)集中的問題和段落的相關性得分,得到第一BM25得分,所述第一BM25得分為
5.根據(jù)權利要求4所述的方法,其特征在于,基于訓練好的孿生Bert網(wǎng)絡獲得問答數(shù)據(jù)集中每一個段落的段落表征向量以及每一個問題的文本表征向量,并計算每一個問題與全部段落的第一相似度得分,第一相似度得分為:
6.根據(jù)權利要求5所述的方法,其特征在于,所述構建并訓練交叉編碼器,包括:
7.根據(jù)權利要求6所述的方法,其特征在于,對所述大語言模型進行訓練,包括:
8.根據(jù)權利要求1所述的方法,其特征在于,所述BM25得分為
9.根據(jù)權利要求1所述的方法
10.一種實現(xiàn)權利要求1所述的課程智能問答方法的系統(tǒng),其特征在于,包括:
...【技術特征摘要】
1.一種基于檢索增強生成和大模型的課程智能問答方法,其特征在于,包括以下步驟:
2.根據(jù)權利要求1所述的方法,其特征在于,所述訓練用于獲得文本表征向量的孿生bert網(wǎng)絡,包括:
3.根據(jù)權利要求2所述的方法,其特征在于,所述構建面向人工智能課程知識領域的問答數(shù)據(jù)集,包括:
4.根據(jù)權利要求2所述的方法,其特征在于,訓練所述孿生bert網(wǎng)絡時,利用bm25算法計算所述問答數(shù)據(jù)集中的問題和段落的相關性得分,得到第一bm25得分,所述第一bm25得分為
5.根據(jù)權利要求4所述的方法,其特征在于,基于訓練好的孿生bert網(wǎng)絡獲得問答數(shù)據(jù)集中每一個...
【專利技術屬性】
技術研發(fā)人員:陳建海,毛雨璐,沈智康,陳瑩,李子佳,劉振廣,何欽銘,
申請(專利權)人:浙江大學,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。