System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)一般涉及人工智能,并且更具體地,涉及基于反事實(shí)推理的口語(yǔ)化文本改寫(xiě)方法和設(shè)備。
技術(shù)介紹
1、近年來(lái),隨著深度學(xué)習(xí)技術(shù)的飛速進(jìn)步,大型語(yǔ)言模型(large?language?models,llm)如chatgpt、llama、qwen等逐漸成為人工智能領(lǐng)域的明星。這些模型通過(guò)在海量的文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,不僅學(xué)習(xí)到了豐富的語(yǔ)言表示和語(yǔ)義理解能力,而且在自然語(yǔ)言處理(natuarl?language?processing,nlp)的各個(gè)任務(wù)上取得了令人矚目的成就。它們能夠理解和生成自然語(yǔ)言,執(zhí)行機(jī)器翻譯、文本摘要、情感分析等多種復(fù)雜任務(wù),極大地推動(dòng)了人工智能技術(shù)的發(fā)展。
2、然而,盡管llm在處理語(yǔ)言任務(wù)上表現(xiàn)出色,它們?cè)谟?xùn)練過(guò)程中仍然依賴于大規(guī)模的高質(zhì)量語(yǔ)料庫(kù)。這些語(yǔ)料庫(kù)雖然提供了豐富的語(yǔ)言信息,但它們?nèi)狈?duì)真實(shí)世界的直接感知。特別是在特定領(lǐng)域的問(wèn)答任務(wù)中,llm可能會(huì)產(chǎn)生幻覺(jué),即生成與事實(shí)不符的信息,或者提供過(guò)時(shí)的知識(shí),這嚴(yán)重影響了模型的可靠性和在實(shí)際應(yīng)用中的有效性。為了克服這些問(wèn)題,研究者們提出了一種新的方法——檢索增強(qiáng)生成(retrieval-augmentedgeneration,rag)。
3、rag方法的核心在于,當(dāng)用戶提出問(wèn)題時(shí),系統(tǒng)首先在外部知識(shí)庫(kù)中進(jìn)行檢索,找到與問(wèn)題相關(guān)的信息片段,然后將這些片段聚合起來(lái),供llm參考以生成答案。在這個(gè)過(guò)程中,檢索結(jié)果的質(zhì)量直接決定了llm回答的準(zhǔn)確性。檢索方法通常包括基于關(guān)鍵詞匹配、語(yǔ)義匹配或者兩者的結(jié)合。然而,用戶提出的問(wèn)題往往是非規(guī)范化和
4、為了提高檢索的準(zhǔn)確性,研究者們提出了多種文本改寫(xiě)技術(shù)。這些技術(shù)旨在將用戶的口語(yǔ)化問(wèn)題轉(zhuǎn)換為更接近知識(shí)庫(kù)中專(zhuān)業(yè)文本的格式,以便于檢索系統(tǒng)能夠更準(zhǔn)確地匹配相關(guān)信息。然而,現(xiàn)有的文本改寫(xiě)方法大多側(cè)重于對(duì)常規(guī)文本的改寫(xiě),它們假設(shè)改寫(xiě)前后的文本在分布上是相似的,并沒(méi)有特別考慮到口語(yǔ)化文本的特殊性。可見(jiàn),口語(yǔ)化文本的改寫(xiě)仍存在很大的挑戰(zhàn)。
技術(shù)實(shí)現(xiàn)思路
1、根據(jù)本專(zhuān)利技術(shù)的實(shí)施例,提供了一種基于反事實(shí)推理的口語(yǔ)化文本改寫(xiě)方案。本方案使口語(yǔ)化文本的改寫(xiě)能夠理解口語(yǔ)化表達(dá)的意圖,并且能夠?qū)⑵滢D(zhuǎn)換為專(zhuān)業(yè)垂直領(lǐng)域能夠理解的語(yǔ)言。
2、在本專(zhuān)利技術(shù)的第一方面,提供了一種基于反事實(shí)推理的口語(yǔ)化文本改寫(xiě)方法。該方法包括:
3、構(gòu)建口語(yǔ)化數(shù)據(jù)集,所述口語(yǔ)化數(shù)據(jù)集包括專(zhuān)業(yè)化文本和口語(yǔ)化文本;
4、構(gòu)建反事實(shí)推理模型,利用口語(yǔ)化數(shù)據(jù)集,根據(jù)反事實(shí)推理模型的損失函數(shù)對(duì)所述反事實(shí)推理模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的反事實(shí)推理模型;
5、將口語(yǔ)化文本輸入訓(xùn)練后的反事實(shí)推理模型,得到改寫(xiě)后的專(zhuān)業(yè)化文本;
6、所述反事實(shí)推理模型包括至少兩個(gè)依次設(shè)置的生成模型;且所述反事實(shí)推理模型的每個(gè)生成模型的結(jié)構(gòu)相同;其中,第一生成模型用于對(duì)口語(yǔ)化文本進(jìn)行一次改寫(xiě),輸出改寫(xiě)后的文本;所述反事實(shí)推理模型中其余的生成模型用于對(duì)改寫(xiě)后的文本進(jìn)行再次改寫(xiě),輸出再次改寫(xiě)后的文本。
7、進(jìn)一步地,若所述口語(yǔ)化數(shù)據(jù)集中不包括上下文信息,則所述反事實(shí)推理模型中的每個(gè)生成模型為第一編解碼網(wǎng)絡(luò)或第一單解碼網(wǎng)絡(luò)。
8、進(jìn)一步地,所述第一編解碼網(wǎng)絡(luò),包括:
9、第一嵌入層,用于對(duì)輸入的數(shù)據(jù)進(jìn)行詞嵌入和位置編碼,輸出第一特征信息;
10、編碼層,用于接收第一特征信息,輸出第二特征信息;
11、第二嵌入層,用于對(duì)輸入的數(shù)據(jù)進(jìn)行詞嵌入和位置編碼,輸出編碼后的信息;
12、第一解碼層,用于接收編碼層的第二特征信息和第二嵌入層的編碼后的信息進(jìn)行解碼,輸出改寫(xiě)后的文本。
13、進(jìn)一步地,所述第一單解碼網(wǎng)絡(luò),包括:
14、第四嵌入層,用于對(duì)輸入的數(shù)據(jù)進(jìn)行詞嵌入和位置編碼,輸出第五特征信息;
15、第二解碼層,用于接收第五特征信息進(jìn)行解碼,輸出改寫(xiě)后的文本。
16、進(jìn)一步地,若所述口語(yǔ)化數(shù)據(jù)集中包括上下文信息,則所述反事實(shí)推理模型中的每個(gè)生成模型為第二編解碼網(wǎng)絡(luò)或第二單解碼網(wǎng)絡(luò)。
17、進(jìn)一步地,所述第二編解碼網(wǎng)絡(luò),包括:
18、第一嵌入層,用于對(duì)輸入的數(shù)據(jù)進(jìn)行詞嵌入和位置編碼,輸出第一特征信息;
19、第三嵌入層,用于獲取上下文信息進(jìn)行詞嵌入和位置編碼,輸出第三特征信息;
20、編碼層,用于接收第一特征信息和第三特征信息融合后的特征信息,輸出第四特征信息;
21、第二嵌入層,用于對(duì)輸入的數(shù)據(jù)進(jìn)行詞嵌入和位置編碼,輸出編碼后的信息;
22、第一解碼層,用于接收編碼層的第四特征信息和第二嵌入層的編碼后的信息進(jìn)行解碼,輸出改寫(xiě)后的文本。
23、進(jìn)一步地,所述第二單解碼網(wǎng)絡(luò),包括:
24、第四嵌入層,用于對(duì)輸入數(shù)據(jù)進(jìn)行詞嵌入和位置編碼,輸出第五特征信息;
25、第五嵌入層,用于獲取上下文信息進(jìn)行詞嵌入和位置編碼,輸出第六特征信息;
26、第二解碼層,用于接收第五特征信息和第六特征信息融合后的特征信息進(jìn)行解碼,輸出改寫(xiě)后的文本。
27、進(jìn)一步地,所述反事實(shí)推理模型的損失函數(shù)為:
28、;
29、其中,為第一超參數(shù);為第二超參數(shù);為第三超參數(shù);為反事實(shí)推理模型的損失函數(shù);為對(duì)比學(xué)習(xí)損失;為反事實(shí)一致性損失;為反事實(shí)對(duì)比損失。
30、進(jìn)一步地,所述對(duì)比學(xué)習(xí)損失為:
31、;
32、其中,表示余弦相似函數(shù);表示對(duì)解碼器的輸出層做pooling操作以得到文本嵌入向量;表示第一生成模型輸出的改寫(xiě)后的文本;表示反事實(shí)推理模型輸出的改寫(xiě)后的專(zhuān)業(yè)化文本;表示專(zhuān)業(yè)化文本;
33、所述反事實(shí)一致性損失為:
34、;
35、其中,表示交叉熵?fù)p失;
36、所述反事實(shí)對(duì)比損失為:
37、;
38、其中,表示邊界因子,邊界因子在訓(xùn)練過(guò)程中動(dòng)態(tài)更新且。
39、在本專(zhuān)利技術(shù)的第二方面,提供了一種電子設(shè)備。該電子設(shè)備至少一個(gè)處理器;以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本專(zhuān)利技術(shù)第一方面的方法。
40、應(yīng)當(dāng)理解,
技術(shù)實(shí)現(xiàn)思路
部分中所描述的內(nèi)容并非旨在限定本專(zhuān)利技術(shù)的實(shí)施例的關(guān)鍵或重要特征,亦非用于限制本專(zhuān)利技術(shù)的范圍。本專(zhuān)利技術(shù)的其它特征將通過(guò)以下的描述變得容易理解。
【技術(shù)保護(hù)點(diǎn)】
1.一種基于反事實(shí)推理的口語(yǔ)化文本改寫(xiě)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述口語(yǔ)化數(shù)據(jù)集中不包括上下文信息,則所述反事實(shí)推理模型中的每個(gè)生成模型為第一編解碼網(wǎng)絡(luò)或第一單解碼網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一編解碼網(wǎng)絡(luò),包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一單解碼網(wǎng)絡(luò),包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述口語(yǔ)化數(shù)據(jù)集中包括上下文信息,則所述反事實(shí)推理模型中的每個(gè)生成模型為第二編解碼網(wǎng)絡(luò)或第二單解碼網(wǎng)絡(luò)。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述第二編解碼網(wǎng)絡(luò),包括:
7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述第二單解碼網(wǎng)絡(luò),包括:
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述反事實(shí)推理模型的損失函數(shù)為:
9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述對(duì)比學(xué)習(xí)損失為:
10.一種電子設(shè)備,包括至少一個(gè)處理器;以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其特征在于,所述存
...【技術(shù)特征摘要】
1.一種基于反事實(shí)推理的口語(yǔ)化文本改寫(xiě)方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述口語(yǔ)化數(shù)據(jù)集中不包括上下文信息,則所述反事實(shí)推理模型中的每個(gè)生成模型為第一編解碼網(wǎng)絡(luò)或第一單解碼網(wǎng)絡(luò)。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一編解碼網(wǎng)絡(luò),包括:
4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一單解碼網(wǎng)絡(luò),包括:
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述口語(yǔ)化數(shù)據(jù)集中包括上下文信息,則所述反事實(shí)推理模型中的每個(gè)生成模型為第二編解碼網(wǎng)絡(luò)或第二單解碼網(wǎng)絡(luò)。
6...
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:李艷鵬,張朝,
申請(qǐng)(專(zhuān)利權(quán))人:人民中科北京智能技術(shù)有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。