當(dāng)前位置: 首頁(yè) > 專(zhuān)利查詢(xún)>亞信科技中國(guó)有限公司專(zhuān)利>正文

用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練、糾錯(cuò)方法及相關(guān)裝置制造方法及圖紙

技術(shù)編號(hào)：44411235 閱讀：4 留言：0更新日期：2025-02-25 10:25

本申請(qǐng)公開(kāi)了用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練、糾錯(cuò)方法及相關(guān)裝置，涉及文本糾錯(cuò)領(lǐng)域，包括：獲取錯(cuò)誤正確句子對(duì)集合，錯(cuò)誤正確句子對(duì)集合包括多個(gè)子集合，每個(gè)子集合包括一個(gè)錯(cuò)誤文本和對(duì)應(yīng)的至少一個(gè)正確文本，不同子集合內(nèi)的錯(cuò)誤文本不同；針對(duì)每個(gè)子集合包含的錯(cuò)誤文本和對(duì)應(yīng)的每個(gè)正確文本，為該錯(cuò)誤文本和該正確文本分別標(biāo)注正向糾錯(cuò)偏好標(biāo)簽和負(fù)向糾錯(cuò)偏好標(biāo)簽，得到第一訓(xùn)練語(yǔ)料；基于第一訓(xùn)練語(yǔ)料，采用預(yù)設(shè)的聯(lián)合損失對(duì)初始大語(yǔ)言模型進(jìn)行偏好調(diào)優(yōu)訓(xùn)練，得到用于文本糾錯(cuò)的大語(yǔ)言模型。本申請(qǐng)基于錯(cuò)誤文本及對(duì)應(yīng)的每個(gè)正確文本均生成訓(xùn)練語(yǔ)料，避免了浪費(fèi)正確文本，本申請(qǐng)還能夠緩解模型過(guò)擬合，提高了模型泛化性能及糾錯(cuò)的準(zhǔn)確性。

全部詳細(xì)技術(shù)資料下載

【技術(shù)實(shí)現(xiàn)步驟摘要】

本申請(qǐng)涉及文本糾錯(cuò)，尤其涉及一種用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練、糾錯(cuò)方法及相關(guān)裝置。

技術(shù)介紹

1、現(xiàn)有的用于文本糾錯(cuò)的大語(yǔ)言模型在訓(xùn)練階段通常使用規(guī)則系統(tǒng)構(gòu)造成對(duì)的錯(cuò)誤-正確句子對(duì)作為訓(xùn)練語(yǔ)料，再采用監(jiān)督調(diào)優(yōu)（supervised?fine-tuning，sft）方式基于訓(xùn)練語(yǔ)料對(duì)大語(yǔ)言模型進(jìn)行調(diào)優(yōu)訓(xùn)練，以得到具備基于原文本生成正確文本的能力的大語(yǔ)言模型。

2、但是，一個(gè)錯(cuò)誤文本由于多人標(biāo)注的原因，可能會(huì)有多個(gè)正確文本與之對(duì)應(yīng)，為了避免多個(gè)正確文本對(duì)大語(yǔ)言模型的sft訓(xùn)練過(guò)程帶來(lái)不好的訓(xùn)練效果，通常僅選擇其中一個(gè)正確文本納入訓(xùn)練語(yǔ)料，由此造成一部分正確文本的浪費(fèi)。

3、此外，sft訓(xùn)練過(guò)程采用交叉熵?fù)p失，在大語(yǔ)言模型進(jìn)行多輪訓(xùn)練后，容易過(guò)擬合，泛化性能較差。

技術(shù)實(shí)現(xiàn)思路

1、鑒于上述問(wèn)題，本申請(qǐng)?zhí)峁┝艘环N用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練、糾錯(cuò)方法及相關(guān)裝置，以解決現(xiàn)有技術(shù)存在的浪費(fèi)正確文本、模型易過(guò)擬合、泛化性能差的問(wèn)題。具體方案如下：

2、本申請(qǐng)第一方面提供一種用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法，包括：

3、獲取錯(cuò)誤正確句子對(duì)集合，所述錯(cuò)誤正確句子對(duì)集合包括多個(gè)子集合，每個(gè)子集合包括一個(gè)錯(cuò)誤文本和對(duì)應(yīng)的至少一個(gè)正確文本，不同子集合內(nèi)的錯(cuò)誤文本不同；

4、針對(duì)所述每個(gè)子集合包含的錯(cuò)誤文本和對(duì)應(yīng)的每個(gè)正確文本，為該錯(cuò)誤文本和該正確文本分別標(biāo)注正向糾錯(cuò)偏好標(biāo)簽和負(fù)向糾錯(cuò)偏好標(biāo)簽，以得到第一訓(xùn)練語(yǔ)料，其中，所述正向糾錯(cuò)偏好標(biāo)簽

5、基于所述第一訓(xùn)練語(yǔ)料，采用預(yù)設(shè)的聯(lián)合損失對(duì)初始大語(yǔ)言模型進(jìn)行偏好調(diào)優(yōu)訓(xùn)練，得到用于文本糾錯(cuò)的大語(yǔ)言模型，其中，所述預(yù)設(shè)的聯(lián)合損失由監(jiān)督損失和偏好損失組成，所述監(jiān)督損失用于衡量所述初始大語(yǔ)言模型的第一輸出與所述正向糾錯(cuò)偏好標(biāo)簽之間的差異，所述偏好損失用于衡量針對(duì)所述正向糾錯(cuò)偏好標(biāo)簽和所述負(fù)向糾錯(cuò)偏好標(biāo)簽而言，所述初始大語(yǔ)言模型更傾向于選擇的標(biāo)簽。

6、在一種可能的實(shí)現(xiàn)中，所述基于所述第一訓(xùn)練語(yǔ)料，采用預(yù)設(shè)的聯(lián)合損失對(duì)初始大語(yǔ)言模型進(jìn)行偏好調(diào)優(yōu)訓(xùn)練，得到用于文本糾錯(cuò)的大語(yǔ)言模型，包括：

7、針對(duì)所述每個(gè)子集合包含的錯(cuò)誤文本和對(duì)應(yīng)的每個(gè)正確文本，為該錯(cuò)誤文本和該正確文本分別標(biāo)注正向驗(yàn)證偏好標(biāo)簽和負(fù)向驗(yàn)證偏好標(biāo)簽，以得到第二訓(xùn)練語(yǔ)料，其中，所述正向驗(yàn)證偏好標(biāo)簽為表征對(duì)應(yīng)文本是否存在錯(cuò)誤的正確判別結(jié)果的標(biāo)簽，所述負(fù)向驗(yàn)證偏好標(biāo)簽為表征對(duì)應(yīng)文本是否存在錯(cuò)誤的錯(cuò)誤判別結(jié)果的標(biāo)簽；

8、基于所述第一訓(xùn)練語(yǔ)料和所述第二訓(xùn)練語(yǔ)料，采用預(yù)設(shè)的聯(lián)合損失對(duì)所述初始大語(yǔ)言模型進(jìn)行偏好調(diào)優(yōu)訓(xùn)練，得到所述用于文本糾錯(cuò)的大語(yǔ)言模型；

9、其中，所述監(jiān)督損失還用于衡量所述初始大語(yǔ)言模型的第二輸出與所述正向驗(yàn)證偏好標(biāo)簽之間的差異，所述偏好損失還用于衡量針對(duì)所述正向驗(yàn)證偏好標(biāo)簽和所述負(fù)向驗(yàn)證偏好標(biāo)簽而言，所述初始大語(yǔ)言模型更傾向于選擇的標(biāo)簽。

10、在一種可能的實(shí)現(xiàn)中，所述偏好損失為所述初始大語(yǔ)言模型輸出正向偏好標(biāo)簽的概率與所述初始大語(yǔ)言模型輸出負(fù)向偏好標(biāo)簽的概率的比值，其中，在所述正向偏好標(biāo)簽為所述正向糾錯(cuò)偏好標(biāo)簽時(shí)，所述負(fù)向偏好標(biāo)簽為所述負(fù)向糾錯(cuò)偏好標(biāo)簽，在所述正向偏好標(biāo)簽為所述正向驗(yàn)證偏好標(biāo)簽時(shí)，所述負(fù)向偏好標(biāo)簽為所述負(fù)向驗(yàn)證偏好標(biāo)簽。

11、在一種可能的實(shí)現(xiàn)中，所述監(jiān)督損失為負(fù)對(duì)數(shù)似然損失。

12、本申請(qǐng)第二方面提供一種文本糾錯(cuò)方法，包括：

13、獲取待糾錯(cuò)的原文本；

14、基于所述原文本生成第一提示指令prompt；

15、將所述第一提示指令prompt輸入至上述第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型，得到表征所述原文本是否存在錯(cuò)誤的糾錯(cuò)驗(yàn)證結(jié)果；

16、若所述糾錯(cuò)驗(yàn)證結(jié)果為錯(cuò)誤，則基于所述原文本生成第二提示指令prompt；

17、將所述第二提示指令prompt輸入至上述第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型，得到所述原文本對(duì)應(yīng)的糾錯(cuò)后文本。

18、本申請(qǐng)第三方面提供一種用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練裝置，包括：

19、訓(xùn)練文本獲取模塊，用于獲取錯(cuò)誤正確句子對(duì)集合，所述錯(cuò)誤正確句子對(duì)集合包括多個(gè)子集合，每個(gè)子集合包括一個(gè)錯(cuò)誤文本和對(duì)應(yīng)的至少一個(gè)正確文本，不同子集合內(nèi)的錯(cuò)誤文本不同；

20、第一語(yǔ)料生成模塊，用于針對(duì)所述每個(gè)子集合包含的錯(cuò)誤文本和對(duì)應(yīng)的每個(gè)正確文本，為該錯(cuò)誤文本和該正確文本分別標(biāo)注正向糾錯(cuò)偏好標(biāo)簽和負(fù)向糾錯(cuò)偏好標(biāo)簽，以得到第一訓(xùn)練語(yǔ)料，其中，所述正向糾錯(cuò)偏好標(biāo)簽為該正確文本的標(biāo)簽，所述負(fù)向糾錯(cuò)偏好標(biāo)簽為該錯(cuò)誤文本的標(biāo)簽；

21、大模型訓(xùn)練模塊，用于基于所述第一訓(xùn)練語(yǔ)料，采用預(yù)設(shè)的聯(lián)合損失對(duì)初始大語(yǔ)言模型進(jìn)行偏好調(diào)優(yōu)訓(xùn)練，得到用于文本糾錯(cuò)的大語(yǔ)言模型，其中，所述預(yù)設(shè)的聯(lián)合損失由監(jiān)督損失和偏好損失組成，所述監(jiān)督損失用于衡量所述初始大語(yǔ)言模型的第一輸出與所述正向糾錯(cuò)偏好標(biāo)簽之間的差異，所述偏好損失用于衡量針對(duì)所述正向糾錯(cuò)偏好標(biāo)簽和所述負(fù)向糾錯(cuò)偏好標(biāo)簽而言，所述初始大語(yǔ)言模型更傾向于選擇的標(biāo)簽。

22、本申請(qǐng)第四方面提供一種文本糾錯(cuò)裝置，包括：

23、預(yù)測(cè)文本獲取模塊，用于獲取待糾錯(cuò)的原文本；

24、第一指令生成模塊，用于基于所述原文本生成第一提示指令prompt；

25、錯(cuò)誤判別模塊，用于將所述第一提示指令prompt輸入至上述第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型，得到表征所述原文本是否存在錯(cuò)誤的糾錯(cuò)驗(yàn)證結(jié)果；

26、第二指令生成模塊，用于在所述糾錯(cuò)驗(yàn)證結(jié)果為錯(cuò)誤的情況下，基于所述原文本生成第二提示指令prompt；

27、文本糾錯(cuò)模塊，用于將所述第二提示指令prompt輸入至上述第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型，得到所述原文本對(duì)應(yīng)的糾錯(cuò)后文本。

28、本申請(qǐng)第五方面提供一種計(jì)算機(jī)程序產(chǎn)品，包括計(jì)算機(jī)可讀指令，當(dāng)所述計(jì)算機(jī)可讀指令在電子設(shè)備上運(yùn)行時(shí)，使得所述電子設(shè)備實(shí)現(xiàn)上述第一方面或第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法，或者實(shí)現(xiàn)上述第二方面的文本糾錯(cuò)方法。

29、本申請(qǐng)第六方面提供一種電子設(shè)備，包括至少一個(gè)處理器和與所述處理器連接的存儲(chǔ)器，其中：

30、所述存儲(chǔ)器用于存儲(chǔ)計(jì)算機(jī)程序；

31、所述處理器用于執(zhí)行所述計(jì)算機(jī)程序，以使所述電子設(shè)備能夠?qū)崿F(xiàn)上述第一方面或第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法，或者實(shí)現(xiàn)上述第二方面的文本糾錯(cuò)方法。

32、本申請(qǐng)第七方面提供一種計(jì)算機(jī)存儲(chǔ)介質(zhì)，所述存儲(chǔ)介質(zhì)承載有一個(gè)或多個(gè)計(jì)算機(jī)程序，當(dāng)所述一個(gè)或多個(gè)計(jì)算機(jī)程序被電子設(shè)備執(zhí)行時(shí)，能夠使所述電子設(shè)備實(shí)現(xiàn)上述第一方面或第一方面任一實(shí)現(xiàn)方式的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法，或者實(shí)現(xiàn)上述第二方面的文本本文檔來(lái)自技高網(wǎng)...

【技術(shù)保護(hù)點(diǎn)】

1.一種用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法，其特征在于，包括：

2.根據(jù)權(quán)利要求1所述的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法，其特征在于，所述基于所述第一訓(xùn)練語(yǔ)料，采用預(yù)設(shè)的聯(lián)合損失對(duì)初始大語(yǔ)言模型進(jìn)行偏好調(diào)優(yōu)訓(xùn)練，得到用于文本糾錯(cuò)的大語(yǔ)言模型，包括：

3.根據(jù)權(quán)利要求2所述的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法，其特征在于，所述偏好損失為所述初始大語(yǔ)言模型輸出正向偏好標(biāo)簽的概率與所述初始大語(yǔ)言模型輸出負(fù)向偏好標(biāo)簽的概率的比值，其中，在所述正向偏好標(biāo)簽為所述正向糾錯(cuò)偏好標(biāo)簽時(shí)，所述負(fù)向偏好標(biāo)簽為所述負(fù)向糾錯(cuò)偏好標(biāo)簽，在所述正向偏好標(biāo)簽為所述正向驗(yàn)證偏好標(biāo)簽時(shí)，所述負(fù)向偏好標(biāo)簽為所述負(fù)向驗(yàn)證偏好標(biāo)簽。

4.根據(jù)權(quán)利要求2所述的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法，其特征在于，所述監(jiān)督損失為負(fù)對(duì)數(shù)似然損失。

5.一種文本糾錯(cuò)方法，其特征在于，包括：

6.一種用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練裝置，其特征在于，包括：

7.一種文本糾錯(cuò)裝置，其特征在于，包括：

8.一種計(jì)算機(jī)程序產(chǎn)品，其特征在于，包括計(jì)算機(jī)可讀指令

9.一種電子設(shè)備，其特征在于，包括至少一個(gè)處理器和與所述處理器連接的存儲(chǔ)器，其中：

10.一種計(jì)算機(jī)存儲(chǔ)介質(zhì)，其特征在于，所述存儲(chǔ)介質(zhì)承載有一個(gè)或多個(gè)計(jì)算機(jī)程序，當(dāng)所述一個(gè)或多個(gè)計(jì)算機(jī)程序被電子設(shè)備執(zhí)行時(shí)，能夠使所述電子設(shè)備實(shí)現(xiàn)如權(quán)利要求1至4中任意一項(xiàng)所述的用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法或權(quán)利要求5所述的文本糾錯(cuò)方法。

...

【技術(shù)特征摘要】

1.一種用于文本糾錯(cuò)的大語(yǔ)言模型的訓(xùn)練方法，其特征在于，包括：

【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員：肖韌，楊秀武，葉曉舟，歐陽(yáng)曄，
申請(qǐng)(專(zhuān)利權(quán))人：亞信科技中國(guó)有限公司，
類(lèi)型：發(fā)明
國(guó)別省市：

全部詳細(xì)技術(shù)資料下載我是這個(gè)專(zhuān)利的主人

相關(guān)技術(shù)

網(wǎng)友詢(xún)問(wèn)留言已有0條評(píng)論

還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。

發(fā)布您的意見(jiàn)

相關(guān)領(lǐng)域技術(shù)