System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲永久无码3D动漫一区,久久久久亚洲精品无码网址色欲,色欲A∨无码蜜臀AV免费播
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于反事實(shí)推理的口語(yǔ)化文本改寫(xiě)方法和設(shè)備技術(shù)

    技術(shù)編號(hào):44523016 閱讀:0 留言:0更新日期:2025-03-07 13:15
    本發(fā)明專(zhuān)利技術(shù)的實(shí)施例提供了基于反事實(shí)推理的口語(yǔ)化文本改寫(xiě)方法和設(shè)備。所述方法包括構(gòu)建口語(yǔ)化數(shù)據(jù)集,所述口語(yǔ)化數(shù)據(jù)集包括專(zhuān)業(yè)化文本和口語(yǔ)化文本;構(gòu)建反事實(shí)推理模型,利用口語(yǔ)化數(shù)據(jù)集,根據(jù)反事實(shí)推理模型的損失函數(shù)對(duì)所述反事實(shí)推理模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的反事實(shí)推理模型;將口語(yǔ)化文本輸入訓(xùn)練后的反事實(shí)推理模型,得到改寫(xiě)后的專(zhuān)業(yè)化文本。以此方式,可以使口語(yǔ)化文本的改寫(xiě)能夠理解口語(yǔ)化表達(dá)的意圖,并且能夠?qū)⑵滢D(zhuǎn)換為專(zhuān)業(yè)垂直領(lǐng)域能夠理解的語(yǔ)言。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本專(zhuān)利技術(shù)一般涉及人工智能,并且更具體地,涉及基于反事實(shí)推理的口語(yǔ)化文本改寫(xiě)方法和設(shè)備


    技術(shù)介紹

    1、近年來(lái),隨著深度學(xué)習(xí)技術(shù)的飛速進(jìn)步,大型語(yǔ)言模型(large?language?models,llm)如chatgpt、llama、qwen等逐漸成為人工智能領(lǐng)域的明星。這些模型通過(guò)在海量的文本數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,不僅學(xué)習(xí)到了豐富的語(yǔ)言表示和語(yǔ)義理解能力,而且在自然語(yǔ)言處理(natuarl?language?processing,nlp)的各個(gè)任務(wù)上取得了令人矚目的成就。它們能夠理解和生成自然語(yǔ)言,執(zhí)行機(jī)器翻譯、文本摘要、情感分析等多種復(fù)雜任務(wù),極大地推動(dòng)了人工智能技術(shù)的發(fā)展。

    2、然而,盡管llm在處理語(yǔ)言任務(wù)上表現(xiàn)出色,它們?cè)谟?xùn)練過(guò)程中仍然依賴于大規(guī)模的高質(zhì)量語(yǔ)料庫(kù)。這些語(yǔ)料庫(kù)雖然提供了豐富的語(yǔ)言信息,但它們?nèi)狈?duì)真實(shí)世界的直接感知。特別是在特定領(lǐng)域的問(wèn)答任務(wù)中,llm可能會(huì)產(chǎn)生幻覺(jué),即生成與事實(shí)不符的信息,或者提供過(guò)時(shí)的知識(shí),這嚴(yán)重影響了模型的可靠性和在實(shí)際應(yīng)用中的有效性。為了克服這些問(wèn)題,研究者們提出了一種新的方法——檢索增強(qiáng)生成(retrieval-augmentedgeneration,rag)。

    3、rag方法的核心在于,當(dāng)用戶提出問(wèn)題時(shí),系統(tǒng)首先在外部知識(shí)庫(kù)中進(jìn)行檢索,找到與問(wèn)題相關(guān)的信息片段,然后將這些片段聚合起來(lái),供llm參考以生成答案。在這個(gè)過(guò)程中,檢索結(jié)果的質(zhì)量直接決定了llm回答的準(zhǔn)確性。檢索方法通常包括基于關(guān)鍵詞匹配、語(yǔ)義匹配或者兩者的結(jié)合。然而,用戶提出的問(wèn)題往往是非規(guī)范化和口語(yǔ)化的,這與知識(shí)庫(kù)中專(zhuān)業(yè)、規(guī)范化的文本之間存在顯著的語(yǔ)義差異,這對(duì)檢索的準(zhǔn)確性構(gòu)成了重大挑戰(zhàn)。

    4、為了提高檢索的準(zhǔn)確性,研究者們提出了多種文本改寫(xiě)技術(shù)。這些技術(shù)旨在將用戶的口語(yǔ)化問(wèn)題轉(zhuǎn)換為更接近知識(shí)庫(kù)中專(zhuān)業(yè)文本的格式,以便于檢索系統(tǒng)能夠更準(zhǔn)確地匹配相關(guān)信息。然而,現(xiàn)有的文本改寫(xiě)方法大多側(cè)重于對(duì)常規(guī)文本的改寫(xiě),它們假設(shè)改寫(xiě)前后的文本在分布上是相似的,并沒(méi)有特別考慮到口語(yǔ)化文本的特殊性。可見(jiàn),口語(yǔ)化文本的改寫(xiě)仍存在很大的挑戰(zhàn)。


    技術(shù)實(shí)現(xiàn)思路

    1、根據(jù)本專(zhuān)利技術(shù)的實(shí)施例,提供了一種基于反事實(shí)推理的口語(yǔ)化文本改寫(xiě)方案。本方案使口語(yǔ)化文本的改寫(xiě)能夠理解口語(yǔ)化表達(dá)的意圖,并且能夠?qū)⑵滢D(zhuǎn)換為專(zhuān)業(yè)垂直領(lǐng)域能夠理解的語(yǔ)言。

    2、在本專(zhuān)利技術(shù)的第一方面,提供了一種基于反事實(shí)推理的口語(yǔ)化文本改寫(xiě)方法。該方法包括:

    3、構(gòu)建口語(yǔ)化數(shù)據(jù)集,所述口語(yǔ)化數(shù)據(jù)集包括專(zhuān)業(yè)化文本和口語(yǔ)化文本;

    4、構(gòu)建反事實(shí)推理模型,利用口語(yǔ)化數(shù)據(jù)集,根據(jù)反事實(shí)推理模型的損失函數(shù)對(duì)所述反事實(shí)推理模型進(jìn)行訓(xùn)練,得到訓(xùn)練后的反事實(shí)推理模型;

    5、將口語(yǔ)化文本輸入訓(xùn)練后的反事實(shí)推理模型,得到改寫(xiě)后的專(zhuān)業(yè)化文本;

    6、所述反事實(shí)推理模型包括至少兩個(gè)依次設(shè)置的生成模型;且所述反事實(shí)推理模型的每個(gè)生成模型的結(jié)構(gòu)相同;其中,第一生成模型用于對(duì)口語(yǔ)化文本進(jìn)行一次改寫(xiě),輸出改寫(xiě)后的文本;所述反事實(shí)推理模型中其余的生成模型用于對(duì)改寫(xiě)后的文本進(jìn)行再次改寫(xiě),輸出再次改寫(xiě)后的文本。

    7、進(jìn)一步地,若所述口語(yǔ)化數(shù)據(jù)集中不包括上下文信息,則所述反事實(shí)推理模型中的每個(gè)生成模型為第一編解碼網(wǎng)絡(luò)或第一單解碼網(wǎng)絡(luò)。

    8、進(jìn)一步地,所述第一編解碼網(wǎng)絡(luò),包括:

    9、第一嵌入層,用于對(duì)輸入的數(shù)據(jù)進(jìn)行詞嵌入和位置編碼,輸出第一特征信息;

    10、編碼層,用于接收第一特征信息,輸出第二特征信息;

    11、第二嵌入層,用于對(duì)輸入的數(shù)據(jù)進(jìn)行詞嵌入和位置編碼,輸出編碼后的信息;

    12、第一解碼層,用于接收編碼層的第二特征信息和第二嵌入層的編碼后的信息進(jìn)行解碼,輸出改寫(xiě)后的文本。

    13、進(jìn)一步地,所述第一單解碼網(wǎng)絡(luò),包括:

    14、第四嵌入層,用于對(duì)輸入的數(shù)據(jù)進(jìn)行詞嵌入和位置編碼,輸出第五特征信息;

    15、第二解碼層,用于接收第五特征信息進(jìn)行解碼,輸出改寫(xiě)后的文本。

    16、進(jìn)一步地,若所述口語(yǔ)化數(shù)據(jù)集中包括上下文信息,則所述反事實(shí)推理模型中的每個(gè)生成模型為第二編解碼網(wǎng)絡(luò)或第二單解碼網(wǎng)絡(luò)。

    17、進(jìn)一步地,所述第二編解碼網(wǎng)絡(luò),包括:

    18、第一嵌入層,用于對(duì)輸入的數(shù)據(jù)進(jìn)行詞嵌入和位置編碼,輸出第一特征信息;

    19、第三嵌入層,用于獲取上下文信息進(jìn)行詞嵌入和位置編碼,輸出第三特征信息;

    20、編碼層,用于接收第一特征信息和第三特征信息融合后的特征信息,輸出第四特征信息;

    21、第二嵌入層,用于對(duì)輸入的數(shù)據(jù)進(jìn)行詞嵌入和位置編碼,輸出編碼后的信息;

    22、第一解碼層,用于接收編碼層的第四特征信息和第二嵌入層的編碼后的信息進(jìn)行解碼,輸出改寫(xiě)后的文本。

    23、進(jìn)一步地,所述第二單解碼網(wǎng)絡(luò),包括:

    24、第四嵌入層,用于對(duì)輸入數(shù)據(jù)進(jìn)行詞嵌入和位置編碼,輸出第五特征信息;

    25、第五嵌入層,用于獲取上下文信息進(jìn)行詞嵌入和位置編碼,輸出第六特征信息;

    26、第二解碼層,用于接收第五特征信息和第六特征信息融合后的特征信息進(jìn)行解碼,輸出改寫(xiě)后的文本。

    27、進(jìn)一步地,所述反事實(shí)推理模型的損失函數(shù)為:

    28、;

    29、其中,為第一超參數(shù);為第二超參數(shù);為第三超參數(shù);為反事實(shí)推理模型的損失函數(shù);為對(duì)比學(xué)習(xí)損失;為反事實(shí)一致性損失;為反事實(shí)對(duì)比損失。

    30、進(jìn)一步地,所述對(duì)比學(xué)習(xí)損失為:

    31、;

    32、其中,表示余弦相似函數(shù);表示對(duì)解碼器的輸出層做pooling操作以得到文本嵌入向量;表示第一生成模型輸出的改寫(xiě)后的文本;表示反事實(shí)推理模型輸出的改寫(xiě)后的專(zhuān)業(yè)化文本;表示專(zhuān)業(yè)化文本;

    33、所述反事實(shí)一致性損失為:

    34、;

    35、其中,表示交叉熵?fù)p失;

    36、所述反事實(shí)對(duì)比損失為:

    37、;

    38、其中,表示邊界因子,邊界因子在訓(xùn)練過(guò)程中動(dòng)態(tài)更新且。

    39、在本專(zhuān)利技術(shù)的第二方面,提供了一種電子設(shè)備。該電子設(shè)備至少一個(gè)處理器;以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行本專(zhuān)利技術(shù)第一方面的方法。

    40、應(yīng)當(dāng)理解,
    技術(shù)實(shí)現(xiàn)思路
    部分中所描述的內(nèi)容并非旨在限定本專(zhuān)利技術(shù)的實(shí)施例的關(guān)鍵或重要特征,亦非用于限制本專(zhuān)利技術(shù)的范圍。本專(zhuān)利技術(shù)的其它特征將通過(guò)以下的描述變得容易理解。

    本文檔來(lái)自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種基于反事實(shí)推理的口語(yǔ)化文本改寫(xiě)方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述口語(yǔ)化數(shù)據(jù)集中不包括上下文信息,則所述反事實(shí)推理模型中的每個(gè)生成模型為第一編解碼網(wǎng)絡(luò)或第一單解碼網(wǎng)絡(luò)。

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一編解碼網(wǎng)絡(luò),包括:

    4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一單解碼網(wǎng)絡(luò),包括:

    5.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述口語(yǔ)化數(shù)據(jù)集中包括上下文信息,則所述反事實(shí)推理模型中的每個(gè)生成模型為第二編解碼網(wǎng)絡(luò)或第二單解碼網(wǎng)絡(luò)。

    6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述第二編解碼網(wǎng)絡(luò),包括:

    7.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述第二單解碼網(wǎng)絡(luò),包括:

    8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述反事實(shí)推理模型的損失函數(shù)為:

    9.根據(jù)權(quán)利要求8所述的方法,其特征在于,所述對(duì)比學(xué)習(xí)損失為:

    10.一種電子設(shè)備,包括至少一個(gè)處理器;以及與所述至少一個(gè)處理器通信連接的存儲(chǔ)器;其特征在于,所述存儲(chǔ)器存儲(chǔ)有可被所述至少一個(gè)處理器執(zhí)行的指令,所述指令被所述至少一個(gè)處理器執(zhí)行,以使所述至少一個(gè)處理器能夠執(zhí)行權(quán)利要求1-9中任一項(xiàng)所述的方法。

    ...

    【技術(shù)特征摘要】

    1.一種基于反事實(shí)推理的口語(yǔ)化文本改寫(xiě)方法,其特征在于,包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述口語(yǔ)化數(shù)據(jù)集中不包括上下文信息,則所述反事實(shí)推理模型中的每個(gè)生成模型為第一編解碼網(wǎng)絡(luò)或第一單解碼網(wǎng)絡(luò)。

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一編解碼網(wǎng)絡(luò),包括:

    4.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述第一單解碼網(wǎng)絡(luò),包括:

    5.根據(jù)權(quán)利要求1所述的方法,其特征在于,若所述口語(yǔ)化數(shù)據(jù)集中包括上下文信息,則所述反事實(shí)推理模型中的每個(gè)生成模型為第二編解碼網(wǎng)絡(luò)或第二單解碼網(wǎng)絡(luò)。

    6...

    【專(zhuān)利技術(shù)屬性】
    技術(shù)研發(fā)人員:李艷鵬張朝
    申請(qǐng)(專(zhuān)利權(quán))人:人民中科北京智能技術(shù)有限公司
    類(lèi)型:發(fā)明
    國(guó)別省市:

    網(wǎng)友詢問(wèn)留言 已有0條評(píng)論
    • 還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 国产精品无码AV不卡| 曰韩无码无遮挡A级毛片| 国产爆乳无码视频在线观看| 人妻中文无码久热丝袜| 中文字幕无码成人免费视频 | 日韩精品中文字幕无码专区| 亚洲高清无码在线观看| 老子午夜精品无码| 亚洲日韩精品A∨片无码| 免费a级毛片无码a∨性按摩| 久久久久亚洲av无码专区喷水| 变态SM天堂无码专区| 无码里番纯肉h在线网站| 亚洲中文字幕无码爆乳AV| 国产精品无码久久久久久久久久| 人妻丰满AV无码久久不卡| 亚洲国产精品成人精品无码区在线 | 亚洲午夜无码片在线观看影院猛| 亚洲AV无码乱码在线观看代蜜桃| 成人无码WWW免费视频| 免费人妻av无码专区| 国产福利无码一区在线| 无码av高潮喷水无码专区线| 亚洲国产精品无码久久一线 | 成在人线av无码免费高潮喷水| 亚洲性无码AV中文字幕| 免费A级毛片无码A∨免费| 久久国产亚洲精品无码| 无码国产精成人午夜视频一区二区 | 国产在线拍揄自揄拍无码| AV无码精品一区二区三区宅噜噜| 无码色偷偷亚洲国内自拍| 国产成人无码av在线播放不卡 | 无码av免费一区二区三区试看| 中文字幕人妻三级中文无码视频| 麻豆人妻少妇精品无码专区| 无码办公室丝袜OL中文字幕| 爆乳无码AV一区二区三区| 无码人妻精品一区二区三区99不卡 | 少妇无码AV无码专区在线观看| 无码午夜成人1000部免费视频 |