本發(fā)明專利技術(shù)提供了一種基于大語言模型的問題回答方法,將用戶提出的問題在內(nèi)部知識庫進(jìn)行文本相似度檢索,基于檢索結(jié)果獲取內(nèi)部大語言模型的回答內(nèi)容。同時,通過將數(shù)據(jù)脫敏后的問題獲取外部大語言模型的輸出內(nèi)容,避免了直接將問題輸入至外部大語言模型,造成內(nèi)部敏感信息泄露的問題。通過計算外部大語言模型輸出內(nèi)容與內(nèi)部知識庫中文本塊的文本相似度系數(shù),循環(huán)多次得到多個回答內(nèi)容后,通過內(nèi)部大語言模型綜合這些回答內(nèi)容作出總結(jié)回答。能夠提高知識庫問答系統(tǒng)輸出回答內(nèi)容的質(zhì)量與精準(zhǔn)度,并同時有效避免直接使用外部大模型輔助內(nèi)部知識庫輸出回答內(nèi)容而造成內(nèi)部敏感信息泄露,降低了信息安全風(fēng)險。
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)屬于大語言模型,具體涉及一種基于大語言模型的問題回答方法、裝置、設(shè)備和存儲介質(zhì)。
技術(shù)介紹
1、大語言模型作為大模型的一個重要分支,因其強(qiáng)大的語言理解和生成能力,正逐漸改變我們對人工智能的認(rèn)知和使用方式。隨著技術(shù)的進(jìn)步,它們在各個領(lǐng)域的潛力將得到更深入的挖掘和利用。
2、例如,當(dāng)前企事業(yè)單位等在管理大量內(nèi)部文檔時,面臨著如何高效利用這些信息以支持日常決策和業(yè)務(wù)運(yùn)營的挑戰(zhàn)。企業(yè)內(nèi)部的知識庫問答系統(tǒng)作為基于大語言模型的智能信息檢索工具,能夠?qū)⒆匀徽Z言提問轉(zhuǎn)化為精準(zhǔn)的知識查詢,給各單位管理內(nèi)部文檔上提供了極大的便利。
3、但經(jīng)專利技術(shù)人研究發(fā)現(xiàn),現(xiàn)有的企業(yè)內(nèi)部的知識庫問答系統(tǒng)在實(shí)際應(yīng)用中存在以下問題:
4、一方面,由于資源投入有限,企事業(yè)單位內(nèi)部部署的大語言模型在語言理解、推理和生成能力上往往不及外部商業(yè)化的大語言模型先進(jìn),導(dǎo)致基于企業(yè)內(nèi)部的大語言模型的知識庫問答系統(tǒng)輸出的回答內(nèi)容質(zhì)量不高、精準(zhǔn)度較差。另一方面,若結(jié)合外部大語言模型輔助輸出回答內(nèi)容,雖然可能彌補(bǔ)大語言模型輸出內(nèi)容質(zhì)量不夠高的不足,但存在內(nèi)部敏感信息在交互過程中被無意泄露的風(fēng)險,嚴(yán)重威脅企事業(yè)單位的信息安全。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)的目的是要解決上述的技術(shù)問題,提供一種基于大語言模型的問題回答方法,能夠提高內(nèi)部知識庫輸出回答內(nèi)容的質(zhì)量和精準(zhǔn)度,同時有效防止內(nèi)部敏感信息泄露,降低了信息安全風(fēng)險。
2、為了解決上述問題,本專利技術(shù)按以下技術(shù)方案予以實(shí)現(xiàn)的:
3、第一方面,本專利技術(shù)提供了一種基于大語言模型的問題回答方法,所述方法包括:
4、s10、獲取用戶輸入的原始問題數(shù)據(jù);
5、s20、將所述原始問題數(shù)據(jù)輸入到內(nèi)部知識庫中進(jìn)行檢索,得到檢索結(jié)果數(shù)據(jù),其中,所述檢索結(jié)果數(shù)據(jù)為內(nèi)部知識庫中存儲的與所述原始問題數(shù)據(jù)相關(guān)的答案數(shù)據(jù);
6、s30、基于所述檢索結(jié)果數(shù)據(jù),獲取內(nèi)部大語言模型對所述原始問題數(shù)據(jù)輸出的結(jié)果數(shù)據(jù),作為第一回答內(nèi)容;
7、s40、將所述原始問題數(shù)據(jù)輸入到內(nèi)部信息脫敏模型中進(jìn)行數(shù)據(jù)脫敏,得到敏感詞匯映射關(guān)系表和脫敏后的問題數(shù)據(jù);
8、s50、獲取外部大語言模型對所述脫敏后的問題數(shù)據(jù)輸出的結(jié)果數(shù)據(jù),作為第二回答內(nèi)容;
9、s60、基于文本相似度,分別計算所述第二回答內(nèi)容與所述內(nèi)部知識庫中的各個文本塊之間的文本相似度系數(shù);
10、s70、當(dāng)文本相似度系數(shù)滿足預(yù)設(shè)文本相似度系數(shù)閾值的文本塊的個數(shù)大于等于1時,將文本相似度系數(shù)滿足預(yù)設(shè)文本相似度系數(shù)閾值的文本塊作為第一參考答案數(shù)據(jù),獲取所述內(nèi)部大語言模型根據(jù)所述第一參考答案數(shù)據(jù)對所述原始問題數(shù)據(jù)輸出的結(jié)果,并將所述結(jié)果作為第三回答內(nèi)容;當(dāng)文本相似度系數(shù)滿足所述預(yù)設(shè)文本相似度系數(shù)閾值的文本塊的個數(shù)為0時,將所述第二回答內(nèi)容作為第三回答內(nèi)容;
11、s80、根據(jù)預(yù)設(shè)的執(zhí)行次數(shù),依次重復(fù)執(zhí)行步驟s50、s60和s70,得到多個第三回答內(nèi)容;
12、s90、基于步驟s40得到的敏感詞匯映射關(guān)系表,對步驟s80得到的所有第三回答內(nèi)容進(jìn)行脫敏數(shù)據(jù)的復(fù)原;
13、s100、將所述第一回答內(nèi)容、所有進(jìn)行脫敏數(shù)據(jù)復(fù)原后的第三回答內(nèi)容作為第二參考答案數(shù)據(jù),獲取所述內(nèi)部大語言模型根據(jù)所述第二參考答案數(shù)據(jù)對所述原始問題數(shù)據(jù)輸出總結(jié)回答內(nèi)容。
14、優(yōu)選地,所述將所述原始問題數(shù)據(jù)輸入到內(nèi)部信息脫敏模型中進(jìn)行數(shù)據(jù)脫敏,得到脫敏后的問題數(shù)據(jù)的方法步驟包括:對所述原始問題數(shù)據(jù)的文本進(jìn)行敏感詞匯識別,當(dāng)所述文本中包含有所述敏感詞匯時,對所述敏感詞匯的字符進(jìn)行替換,得到脫敏詞匯;其中,所述敏感詞匯包括公民個人信息。
15、優(yōu)選地,通過分詞技術(shù)或模糊匹配技術(shù)對所述原始問題數(shù)據(jù)的文本進(jìn)行敏感詞匯的識別。
16、優(yōu)選地,所述將所述原始問題數(shù)據(jù)輸入到內(nèi)部信息脫敏模型中進(jìn)行數(shù)據(jù)脫敏,得到脫敏后的問題數(shù)據(jù)的方法步驟還包括:通過內(nèi)部大語言模型,對所述原始問題數(shù)據(jù)的文本進(jìn)行其他敏感詞匯的識別,當(dāng)所述文本中包含有其他敏感詞匯,則對所述其他敏感詞匯的字符進(jìn)行替換,得到其他脫敏詞匯;其中,所述其他敏感詞匯為除公民個人信息外的企業(yè)內(nèi)部相關(guān)的敏感信息。
17、優(yōu)選地,將所述原始問題數(shù)據(jù)輸入到內(nèi)部信息脫敏模型中進(jìn)行數(shù)據(jù)脫敏,得到敏感詞匯映射關(guān)系表的方法步驟包括:當(dāng)所述原始問題數(shù)據(jù)的文本中包含有所述敏感詞匯和所述其他敏感詞匯時,輸出所述敏感詞匯與所述脫敏詞匯、以及所述其他敏感詞匯與所述其他脫敏詞匯之間的映射關(guān)系表。
18、第二方面,本專利技術(shù)提供了一種基于大語言模型的問題回答裝置,所述基于大語言模型的問題回答裝置被配置為執(zhí)行所述基于大語言模型的問題回答方法,所述基于大語言模型的問題回答裝置包括:
19、原始問題數(shù)據(jù)獲取模塊,所述原始問題數(shù)據(jù)獲取模塊用于獲取用戶輸入的原始問題數(shù)據(jù);
20、檢索結(jié)果數(shù)據(jù)獲取模塊,所述檢索結(jié)果數(shù)據(jù)獲取模塊用于將所述原始問題數(shù)據(jù)輸入到內(nèi)部知識庫中進(jìn)行檢索,得到檢索結(jié)果數(shù)據(jù),其中,所述檢索結(jié)果數(shù)據(jù)為內(nèi)部知識庫中存儲的與所述原始問題數(shù)據(jù)相關(guān)的答案數(shù)據(jù);
21、第一回答內(nèi)容獲取模塊,所述第一回答內(nèi)容獲取模塊用于基于所述檢索結(jié)果數(shù)據(jù),獲取內(nèi)部大語言模型對所述原始問題數(shù)據(jù)輸出的結(jié)果數(shù)據(jù),作為第一回答內(nèi)容;
22、數(shù)據(jù)脫敏模塊,所述脫敏問題獲取模塊用于將所述原始問題數(shù)據(jù)輸入到內(nèi)部信息脫敏模型中進(jìn)行數(shù)據(jù)脫敏,得到敏感詞匯映射關(guān)系表和脫敏后的問題數(shù)據(jù);
23、第二回答內(nèi)容獲取模塊,所述第二回答內(nèi)容獲取模塊用于獲取外部大語言模型對所述脫敏后的問題數(shù)據(jù)輸出的結(jié)果數(shù)據(jù),作為第二回答內(nèi)容;
24、文本相似度系數(shù)計算模塊,所述文本相似度系數(shù)計算模塊用于基于文本相似度,分別計算所述第二回答內(nèi)容與所述內(nèi)部知識庫中的各個文本塊之間的文本相似度系數(shù);
25、篩選模塊,所述篩選模塊用于當(dāng)文本相似度系數(shù)滿足預(yù)設(shè)文本相似度系數(shù)閾值的文本塊的個數(shù)大于等于1時,將文本相似度系數(shù)滿足預(yù)設(shè)文本相似度系數(shù)閾值的文本塊作為第一參考答案數(shù)據(jù),獲取所述內(nèi)部大語言模型根據(jù)所述第一參考答案數(shù)據(jù)對所述原始問題數(shù)據(jù)輸出的結(jié)果,并將所述結(jié)果作為第三回答內(nèi)容;當(dāng)文本相似度系數(shù)滿足所述預(yù)設(shè)文本相似度系數(shù)閾值的文本塊的個數(shù)為0時,將所述第二回答內(nèi)容作為第三回答內(nèi)容;
26、循環(huán)模塊,所述循環(huán)模塊用于根據(jù)預(yù)設(shè)的執(zhí)行次數(shù),依次重復(fù)執(zhí)行步驟s50、s60和s70,得到多個第三回答內(nèi)容;
27、脫敏數(shù)據(jù)復(fù)原模塊,所述脫敏數(shù)據(jù)復(fù)原模塊用于基于所述數(shù)據(jù)脫敏模塊得到的敏感詞匯映射關(guān)系表,對所述循環(huán)模塊得到的所有第三回答內(nèi)容進(jìn)行脫敏數(shù)據(jù)的復(fù)原;
28、總結(jié)回答獲取模塊,所述總結(jié)回答獲取模塊用于將所述第一回答內(nèi)容、所有進(jìn)行脫敏數(shù)據(jù)復(fù)原后的第三回答內(nèi)容作為第二參考答案數(shù)據(jù),獲取所述內(nèi)部大語言模型根據(jù)所述第二參考答案數(shù)據(jù)對所述原始問題數(shù)據(jù)輸出總結(jié)回答內(nèi)容。
29、第三方面,本本文檔來自技高網(wǎng)
...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于大語言模型的問題回答方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種基于大語言模型的問題回答方法,其特征在于,所述將所述原始問題數(shù)據(jù)輸入到內(nèi)部信息脫敏模型中進(jìn)行數(shù)據(jù)脫敏,得到脫敏后的問題數(shù)據(jù)的方法步驟包括:
3.根據(jù)權(quán)利要求2所述的一種基于大語言模型的問題回答方法,其特征在于:
4.根據(jù)權(quán)利要求2所述的一種基于大語言模型的問題回答方法,其特征在于,所述將所述原始問題數(shù)據(jù)輸入到內(nèi)部信息脫敏模型中進(jìn)行數(shù)據(jù)脫敏,得到脫敏后的問題數(shù)據(jù)的方法步驟還包括:
5.根據(jù)權(quán)利要求4所述的一種基于大語言模型的問題回答方法,其特征在于,將所述原始問題數(shù)據(jù)輸入到內(nèi)部信息脫敏模型中進(jìn)行數(shù)據(jù)脫敏,得到敏感詞匯映射關(guān)系表的方法步驟包括:
6.一種基于大語言模型的問題回答裝置,其特征在于,所述基于大語言模型的問題回答裝置被配置為執(zhí)行所述基于大語言模型的問題回答方法,所述基于大語言模型的問題回答裝置包括:
7.一種電子設(shè)備,其特征在于,所述電子設(shè)備包括:
8.一種計算機(jī)可讀存儲介質(zhì),其特征在于,所述計算機(jī)可讀存儲介質(zhì)存儲有計算機(jī)程序,
...
【技術(shù)特征摘要】
1.一種基于大語言模型的問題回答方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的一種基于大語言模型的問題回答方法,其特征在于,所述將所述原始問題數(shù)據(jù)輸入到內(nèi)部信息脫敏模型中進(jìn)行數(shù)據(jù)脫敏,得到脫敏后的問題數(shù)據(jù)的方法步驟包括:
3.根據(jù)權(quán)利要求2所述的一種基于大語言模型的問題回答方法,其特征在于:
4.根據(jù)權(quán)利要求2所述的一種基于大語言模型的問題回答方法,其特征在于,所述將所述原始問題數(shù)據(jù)輸入到內(nèi)部信息脫敏模型中進(jìn)行數(shù)據(jù)脫敏,得到脫敏后的問題數(shù)據(jù)的方法步驟還包括:<...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:許冠明,李曉峰,楊時杰,羅楊鐘,朱文浩,姚東良,
申請(專利權(quán))人:廣東粵財金科科技有限責(zé)任公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。