System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及文本糾錯(cuò),尤其涉及一種用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練、糾錯(cuò)方法及相關(guān)裝置。
技術(shù)介紹
1、現(xiàn)有的用于文本糾錯(cuò)的大語(yǔ)言模型在訓(xùn)練階段通常使用規(guī)則系統(tǒng)構(gòu)造成對(duì)的錯(cuò)誤-正確句子對(duì)作為訓(xùn)練語(yǔ)料,再采用監(jiān)督調(diào)優(yōu)(supervised?fine-tuning,sft)方式基于訓(xùn)練語(yǔ)料對(duì)大語(yǔ)言模型進(jìn)行調(diào)優(yōu)訓(xùn)練,以得到具備基于原文本生成正確文本的能力的大語(yǔ)言模型。
2、但是,一個(gè)錯(cuò)誤文本由于多人標(biāo)注的原因,可能會(huì)有多個(gè)正確文本與之對(duì)應(yīng),為了避免多個(gè)正確文本對(duì)大語(yǔ)言模型的sft訓(xùn)練過(guò)程帶來(lái)不好的訓(xùn)練效果,通常僅選擇其中一個(gè)正確文本納入訓(xùn)練語(yǔ)料,由此造成一部分正確文本的浪費(fèi)。
3、此外,sft訓(xùn)練過(guò)程采用交叉熵?fù)p失,在大語(yǔ)言模型進(jìn)行多輪訓(xùn)練后,容易過(guò)擬合,泛化性能較差。
技術(shù)實(shí)現(xiàn)思路
1、鑒于上述問(wèn)題,本申請(qǐng)?zhí)峁┝艘环N用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練、糾錯(cuò)方法及相關(guān)裝置,以解決現(xiàn)有技術(shù)存在的浪費(fèi)正確文本、模型易過(guò)擬合、泛化性能差的問(wèn)題。具體方案如下:
2、本申請(qǐng)第一方面提供一種用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法,包括:
3、獲取錯(cuò)誤正確句子對(duì)集合,所述錯(cuò)誤正確句子對(duì)集合包括多個(gè)子集合,每個(gè)子集合包括一個(gè)錯(cuò)誤文本和對(duì)應(yīng)的至少一個(gè)正確文本,不同子集合內(nèi)的錯(cuò)誤文本不同;
4、針對(duì)所述每個(gè)子集合包含的錯(cuò)誤文本和對(duì)應(yīng)的每個(gè)正確文本,為該錯(cuò)誤文本和該正確文本分別標(biāo)注正向糾錯(cuò)偏好標(biāo)簽和負(fù)向糾錯(cuò)偏好標(biāo)簽,以得到第一訓(xùn)練語(yǔ)料,其中,所述正向糾錯(cuò)偏好標(biāo)簽
5、基于所述第一訓(xùn)練語(yǔ)料,采用預(yù)設(shè)的聯(lián)合損失對(duì)初始大語(yǔ)言模型進(jìn)行偏好調(diào)優(yōu)訓(xùn)練,得到用于文本糾錯(cuò)的大語(yǔ)言模型,其中,所述預(yù)設(shè)的聯(lián)合損失由監(jiān)督損失和偏好損失組成,所述監(jiān)督損失用于衡量所述初始大語(yǔ)言模型的第一輸出與所述正向糾錯(cuò)偏好標(biāo)簽之間的差異,所述偏好損失用于衡量針對(duì)所述正向糾錯(cuò)偏好標(biāo)簽和所述負(fù)向糾錯(cuò)偏好標(biāo)簽而言,所述初始大語(yǔ)言模型更傾向于選擇的標(biāo)簽。
6、在一種可能的實(shí)現(xiàn)中,所述基于所述第一訓(xùn)練語(yǔ)料,采用預(yù)設(shè)的聯(lián)合損失對(duì)初始大語(yǔ)言模型進(jìn)行偏好調(diào)優(yōu)訓(xùn)練,得到用于文本糾錯(cuò)的大語(yǔ)言模型,包括:
7、針對(duì)所述每個(gè)子集合包含的錯(cuò)誤文本和對(duì)應(yīng)的每個(gè)正確文本,為該錯(cuò)誤文本和該正確文本分別標(biāo)注正向驗(yàn)證偏好標(biāo)簽和負(fù)向驗(yàn)證偏好標(biāo)簽,以得到第二訓(xùn)練語(yǔ)料,其中,所述正向驗(yàn)證偏好標(biāo)簽為表征對(duì)應(yīng)文本是否存在錯(cuò)誤的正確判別結(jié)果的標(biāo)簽,所述負(fù)向驗(yàn)證偏好標(biāo)簽為表征對(duì)應(yīng)文本是否存在錯(cuò)誤的錯(cuò)誤判別結(jié)果的標(biāo)簽;
8、基于所述第一訓(xùn)練語(yǔ)料和所述第二訓(xùn)練語(yǔ)料,采用預(yù)設(shè)的聯(lián)合損失對(duì)所述初始大語(yǔ)言模型進(jìn)行偏好調(diào)優(yōu)訓(xùn)練,得到所述用于文本糾錯(cuò)的大語(yǔ)言模型;
9、其中,所述監(jiān)督損失還用于衡量所述初始大語(yǔ)言模型的第二輸出與所述正向驗(yàn)證偏好標(biāo)簽之間的差異,所述偏好損失還用于衡量針對(duì)所述正向驗(yàn)證偏好標(biāo)簽和所述負(fù)向驗(yàn)證偏好標(biāo)簽而言,所述初始大語(yǔ)言模型更傾向于選擇的標(biāo)簽。
10、在一種可能的實(shí)現(xiàn)中,所述偏好損失為所述初始大語(yǔ)言模型輸出正向偏好標(biāo)簽的概率與所述初始大語(yǔ)言模型輸出負(fù)向偏好標(biāo)簽的概率的比值,其中,在所述正向偏好標(biāo)簽為所述正向糾錯(cuò)偏好標(biāo)簽時(shí),所述負(fù)向偏好標(biāo)簽為所述負(fù)向糾錯(cuò)偏好標(biāo)簽,在所述正向偏好標(biāo)簽為所述正向驗(yàn)證偏好標(biāo)簽時(shí),所述負(fù)向偏好標(biāo)簽為所述負(fù)向驗(yàn)證偏好標(biāo)簽。
11、在一種可能的實(shí)現(xiàn)中,所述監(jiān)督損失為負(fù)對(duì)數(shù)似然損失。
12、本申請(qǐng)第二方面提供一種文本糾錯(cuò)方法,包括:
13、獲取待糾錯(cuò)的原文本;
14、基于所述原文本生成第一提示指令prompt;
15、將所述第一提示指令prompt輸入至上述第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型,得到表征所述原文本是否存在錯(cuò)誤的糾錯(cuò)驗(yàn)證結(jié)果;
16、若所述糾錯(cuò)驗(yàn)證結(jié)果為錯(cuò)誤,則基于所述原文本生成第二提示指令prompt;
17、將所述第二提示指令prompt輸入至上述第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型,得到所述原文本對(duì)應(yīng)的糾錯(cuò)后文本。
18、本申請(qǐng)第三方面提供一種用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練裝置,包括:
19、訓(xùn)練文本獲取模塊,用于獲取錯(cuò)誤正確句子對(duì)集合,所述錯(cuò)誤正確句子對(duì)集合包括多個(gè)子集合,每個(gè)子集合包括一個(gè)錯(cuò)誤文本和對(duì)應(yīng)的至少一個(gè)正確文本,不同子集合內(nèi)的錯(cuò)誤文本不同;
20、第一語(yǔ)料生成模塊,用于針對(duì)所述每個(gè)子集合包含的錯(cuò)誤文本和對(duì)應(yīng)的每個(gè)正確文本,為該錯(cuò)誤文本和該正確文本分別標(biāo)注正向糾錯(cuò)偏好標(biāo)簽和負(fù)向糾錯(cuò)偏好標(biāo)簽,以得到第一訓(xùn)練語(yǔ)料,其中,所述正向糾錯(cuò)偏好標(biāo)簽為該正確文本的標(biāo)簽,所述負(fù)向糾錯(cuò)偏好標(biāo)簽為該錯(cuò)誤文本的標(biāo)簽;
21、大模型訓(xùn)練模塊,用于基于所述第一訓(xùn)練語(yǔ)料,采用預(yù)設(shè)的聯(lián)合損失對(duì)初始大語(yǔ)言模型進(jìn)行偏好調(diào)優(yōu)訓(xùn)練,得到用于文本糾錯(cuò)的大語(yǔ)言模型,其中,所述預(yù)設(shè)的聯(lián)合損失由監(jiān)督損失和偏好損失組成,所述監(jiān)督損失用于衡量所述初始大語(yǔ)言模型的第一輸出與所述正向糾錯(cuò)偏好標(biāo)簽之間的差異,所述偏好損失用于衡量針對(duì)所述正向糾錯(cuò)偏好標(biāo)簽和所述負(fù)向糾錯(cuò)偏好標(biāo)簽而言,所述初始大語(yǔ)言模型更傾向于選擇的標(biāo)簽。
22、本申請(qǐng)第四方面提供一種文本糾錯(cuò)裝置,包括:
23、預(yù)測(cè)文本獲取模塊,用于獲取待糾錯(cuò)的原文本;
24、第一指令生成模塊,用于基于所述原文本生成第一提示指令prompt;
25、錯(cuò)誤判別模塊,用于將所述第一提示指令prompt輸入至上述第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型,得到表征所述原文本是否存在錯(cuò)誤的糾錯(cuò)驗(yàn)證結(jié)果;
26、第二指令生成模塊,用于在所述糾錯(cuò)驗(yàn)證結(jié)果為錯(cuò)誤的情況下,基于所述原文本生成第二提示指令prompt;
27、文本糾錯(cuò)模塊,用于將所述第二提示指令prompt輸入至上述第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型,得到所述原文本對(duì)應(yīng)的糾錯(cuò)后文本。
28、本申請(qǐng)第五方面提供一種計(jì)算機(jī)程序產(chǎn)品,包括計(jì)算機(jī)可讀指令,當(dāng)所述計(jì)算機(jī)可讀指令在電子設(shè)備上運(yùn)行時(shí),使得所述電子設(shè)備實(shí)現(xiàn)上述第一方面或第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法,或者實(shí)現(xiàn)上述第二方面的文本糾錯(cuò)方法。
29、本申請(qǐng)第六方面提供一種電子設(shè)備,包括至少一個(gè)處理器和與所述處理器連接的存儲(chǔ)器,其中:
30、所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序;
31、所述處理器用于執(zhí)行所述計(jì)算機(jī)程序,以使所述電子設(shè)備能夠?qū)崿F(xiàn)上述第一方面或第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法,或者實(shí)現(xiàn)上述第二方面的文本糾錯(cuò)方法。
32、本申請(qǐng)第七方面提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)承載有一個(gè)或多個(gè)計(jì)算機(jī)程序,當(dāng)所述一個(gè)或多個(gè)計(jì)算機(jī)程序被電子設(shè)備執(zhí)行時(shí),能夠使所述電子設(shè)備實(shí)現(xiàn)上述第一方面或第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法,或者實(shí)現(xiàn)上述第二方面的文本本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法,其特征在于,所述基于所述第一訓(xùn)練語(yǔ)料,采用預(yù)設(shè)的聯(lián)合損失對(duì)初始大語(yǔ)言模型進(jìn)行偏好調(diào)優(yōu)訓(xùn)練,得到用于文本糾錯(cuò)的大語(yǔ)言模型,包括:
3.根據(jù)權(quán)利要求2所述的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法,其特征在于,所述偏好損失為所述初始大語(yǔ)言模型輸出正向偏好標(biāo)簽的概率與所述初始大語(yǔ)言模型輸出負(fù)向偏好標(biāo)簽的概率的比值,其中,在所述正向偏好標(biāo)簽為所述正向糾錯(cuò)偏好標(biāo)簽時(shí),所述負(fù)向偏好標(biāo)簽為所述負(fù)向糾錯(cuò)偏好標(biāo)簽,在所述正向偏好標(biāo)簽為所述正向驗(yàn)證偏好標(biāo)簽時(shí),所述負(fù)向偏好標(biāo)簽為所述負(fù)向驗(yàn)證偏好標(biāo)簽。
4.根據(jù)權(quán)利要求2所述的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法,其特征在于,所述監(jiān)督損失為負(fù)對(duì)數(shù)似然損失。
5.一種文本糾錯(cuò)方法,其特征在于,包括:
6.一種用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練裝置,其特征在于,包括:
7.一種文本糾錯(cuò)裝置,其特征在于,包括:
8.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)可讀指令
9.一種電子設(shè)備,其特征在于,包括至少一個(gè)處理器和與所述處理器連接的存儲(chǔ)器,其中:
10.一種計(jì)算機(jī)存儲(chǔ)介質(zhì),其特征在于,所述存儲(chǔ)介質(zhì)承載有一個(gè)或多個(gè)計(jì)算機(jī)程序,當(dāng)所述一個(gè)或多個(gè)計(jì)算機(jī)程序被電子設(shè)備執(zhí)行時(shí),能夠使所述電子設(shè)備實(shí)現(xiàn)如權(quán)利要求1至4中任意一項(xiàng)所述的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法或權(quán)利要求5所述的文本糾錯(cuò)方法。
...【技術(shù)特征摘要】
1.一種用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法,其特征在于,所述基于所述第一訓(xùn)練語(yǔ)料,采用預(yù)設(shè)的聯(lián)合損失對(duì)初始大語(yǔ)言模型進(jìn)行偏好調(diào)優(yōu)訓(xùn)練,得到用于文本糾錯(cuò)的大語(yǔ)言模型,包括:
3.根據(jù)權(quán)利要求2所述的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法,其特征在于,所述偏好損失為所述初始大語(yǔ)言模型輸出正向偏好標(biāo)簽的概率與所述初始大語(yǔ)言模型輸出負(fù)向偏好標(biāo)簽的概率的比值,其中,在所述正向偏好標(biāo)簽為所述正向糾錯(cuò)偏好標(biāo)簽時(shí),所述負(fù)向偏好標(biāo)簽為所述負(fù)向糾錯(cuò)偏好標(biāo)簽,在所述正向偏好標(biāo)簽為所述正向驗(yàn)證偏好標(biāo)簽時(shí),所述負(fù)向偏好標(biāo)簽為所述負(fù)向驗(yàn)證偏好標(biāo)簽。
4.根據(jù)權(quán)利要求2所述的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法,其特征在于,所述監(jiān)督損失為負(fù)對(duì)數(shù)似然損失。
【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:肖韌,楊秀武,葉曉舟,歐陽(yáng)曄,
申請(qǐng)(專(zhuān)利權(quán))人:亞信科技中國(guó)有限公司,
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。