System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及自然語言處理,特別涉及一種指令微調數據生成方法、裝置、設備及介質。
技術介紹
1、指令微調(instruction?fine-tuning,ift)是新近語言大模型的代表能力,它可以幫助人類用自然語言對大模型下達命令,進行溝通交流。這使得人與機器之間能夠更加便捷的交互。為了進行指令微調,必然離不開數據集的搜集或構建,現有相關nl2sql(natural?language?to?sql,一種語言轉換技術)數據集缺乏落地場景等適應性:在無關拒答、無權拒答、字段鑒權、中文別名等方面無能為力。
2、由上可見,如何獲取大量高質量針對落地場景的指令微調數據是亟待解決的目標問題。
技術實現思路
1、有鑒于此,本專利技術的目的在于提供一種指令微調數據生成方法、裝置、設備及介質,能夠獲取大量高質量針對落地場景的指令微調數據。其具體方案如下:
2、第一方面,本申請提供了一種指令微調數據生成方法,包括:
3、創建與當前預設垂直領域相應的目標建表語句,并根據所述目標建表語句生成與若干預設條件對應的若干目標問題;
4、生成與所述若干目標問題對應的數據庫數據,并根據所述若干目標問題與所述數據庫數據生成所述當前預設垂直領域相應的指令微調數據;
5、將下一預設垂直領域作為當前預設垂直領域,并跳轉至所述創建與當前預設垂直領域相應的目標建表語句,并根據所述目標建表語句生成與若干預設條件對應的若干目標問題的步驟,以生成與下一預設垂直領域對應的指令
6、計算所述若干指令微調數據相應的若干指令跟隨難度值,并基于所述若干指令跟隨難度值從所述若干指令微調數據中提取若干目標指令微調數據;
7、基于預設問題類型比例調整所述若干目標指令微調數據的數據類型比例,以得到調整后目標指令微調數據。
8、可選的,所述創建與當前預設垂直領域相應的目標建表語句,并根據所述目標建表語句生成與若干預設條件對應的若干目標問題,包括:
9、創建與當前預設垂直領域相應的目標建表語句,并根據所述目標建表語句生成與第一類預設條件對應的若干第一類目標問題和/或與第二類預設條件對應的若干第二類目標問題;所述第一類預設條件為與所述當前預設垂直領域無關的預設條件;所述第二類預設條件為與所述當前預設垂直領域相關的預設條件。
10、可選的,所述創建與當前預設垂直領域相應的目標建表語句,并根據所述目標建表語句生成與若干預設條件對應的若干目標問題,包括:
11、創建與當前預設垂直領域相應的目標建表語句,并根據所述目標建表語句生成若干條件控制語句,以確定控制權限;
12、基于所述控制權限以及所述當前預設垂直領域生成與第三類預設條件對應的若干第三類目標問題和/或與第四類預設條件對應的若干第四類目標問題,和/或與第五類預設條件對應的若干第五類目標問題;所述第三類預設條件為與所述當前預設垂直領域相關且與控制權限不匹配的預設條件;所述第四類預設條件為與所述當前預設垂直領域無關且與控制權限匹配的預設條件;所述第五類預設條件為與所述當前預設垂直領域相關且與控制權限匹配的預設條件。
13、可選的,所述生成與所述若干目標問題對應的數據庫數據,并根據所述若干目標問題與所述數據庫數據生成所述當前預設垂直領域相應的指令微調數據,包括:
14、基于所述目標建表語句生成與所述若干第二類目標問題以及若干所述第五類目標問題對應的數據庫數據,并根據所有所述目標問題與所述數據庫數據生成所述預設垂直領域相應的指令微調數據。
15、可選的,所述計算所述若干指令微調數據相應的若干指令跟隨難度值,并基于所述若干指令跟隨難度值從所述若干指令微調數據中提取若干目標指令微調數據,包括:
16、通過預設指令跟隨難度計算公式計算所述若干指令微調數據相應的若干指令跟隨難度值;
17、判斷所述若干指令微調數據中當前指令微調數據對應的當前指令跟隨難度值是否大于預設指令跟隨難度值閾值;
18、若所述當前指令跟隨難度值大于預設指令跟隨難度值閾值,則將當前所述指令微調數據確定為所述目標指令微調數據;
19、若所述當前指令微調數據對應的指令跟隨難度值不大于預設指令跟隨難度值閾值,則將下一指令微調數據作為當前指令微調數據,并跳轉至所述判斷所述若干指令微調數據中當前指令微調數據對應的當前指令跟隨難度值是否大于預設指令跟隨難度值閾值的步驟,以判斷下一指令微調數據對應的指令跟隨難度值是否大于所述預設指令跟隨難度值閾值。
20、可選的,所述基于預設問題類型比例調整所述若干目標指令微調數據的數據類型比例,以得到調整后目標指令微調數據之前,還包括:
21、通過預設目標問題擴展指令對所述目標問題的數量進行擴展。
22、可選的,所述基于預設問題類型比例調整所述若干目標指令微調數據的數據類型比例,以得到調整后目標指令微調數據,包括:
23、基于預設問題類型比例調整與所述若干目標指令微調數據對應的目標問題類型比例,得到調整后目標問題類型比例;
24、基于所述調整后目標問題類型比例對所述若干目標指令微調數據的數據類型比例進行調整,以得到調整后目標指令微調數據。
25、第二方面,本申請提供了一種指令微調數據生成裝置,包括:
26、目標問題生成模塊,用于創建與當前預設垂直領域相應的目標建表語句,并根據所述目標建表語句生成與若干預設條件對應的若干目標問題;
27、指令微調數據生成模塊,用于生成與所述若干目標問題對應的數據庫數據,并根據所述若干目標問題與所述數據庫數據生成所述當前預設垂直領域相應的指令微調數據;
28、垂直領域切換模塊,用于將下一預設垂直領域作為當前預設垂直領域,并跳轉至所述創建與當前預設垂直領域相應的目標建表語句,并根據所述目標建表語句生成與若干預設條件對應的若干目標問題的步驟,以生成與下一預設垂直領域對應的指令微調數據,直至生成與所有預設垂直領域相應的若干指令微調數據;
29、目標指令微調數據確定模塊,用于計算所述若干指令微調數據相應的若干指令跟隨難度值,并基于所述若干指令跟隨難度值從所述若干指令微調數據中提取若干目標指令微調數據;
30、目標指令微調數據調整模塊,用于基于預設問題類型比例調整所述若干目標指令微調數據的數據類型比例,以得到調整后目標指令微調數據。
31、第三方面,本申請提供了一種電子設備,包括:
32、存儲器,用于保存計算機程序;
33、處理器,用于執行所述計算機程序,以實現前述的指令微調數據生成方法。
34、第四方面,本申請提供了一種計算機可讀存儲介質,用于保存計算機程序,其中,所述計算機程序被處理器執行時實現前述的指令微調數據生成方法。
35、本申請通過創建與當前預設垂直領域相應的目標本文檔來自技高網...
【技術保護點】
1.一種指令微調數據生成方法,其特征在于,包括:
2.根據權利要求1所述的指令微調數據生成方法,其特征在于,所述創建與當前預設垂直領域相應的目標建表語句,并根據所述目標建表語句生成與若干預設條件對應的若干目標問題,包括:
3.根據權利要求2所述的指令微調數據生成方法,其特征在于,所述創建與當前預設垂直領域相應的目標建表語句,并根據所述目標建表語句生成與若干預設條件對應的若干目標問題,包括:
4.根據權利要求3所述的指令微調數據生成方法,其特征在于,所述生成與所述若干目標問題對應的數據庫數據,并根據所述若干目標問題與所述數據庫數據生成所述當前預設垂直領域相應的指令微調數據,包括:
5.根據權利要求1所述的指令微調數據生成方法,其特征在于,所述計算所述若干指令微調數據相應的若干指令跟隨難度值,并基于所述若干指令跟隨難度值從所述若干指令微調數據中提取若干目標指令微調數據,包括:
6.根據權利要求1所述的指令微調數據生成方法,其特征在于,所述基于預設問題類型比例調整所述若干目標指令微調數據的數據類型比例,以得到調整后目標指令微調
7.根據權利要求1至6任一項所述的指令微調數據生成方法,其特征在于,所述基于預設問題類型比例調整所述若干目標指令微調數據的數據類型比例,以得到調整后目標指令微調數據,包括:
8.一種指令微調數據生成裝置,其特征在于,包括:
9.一種電子設備,其特征在于,包括:
10.一種計算機可讀存儲介質,其特征在于,用于保存計算機程序,其中,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述的指令微調數據生成方法。
...【技術特征摘要】
1.一種指令微調數據生成方法,其特征在于,包括:
2.根據權利要求1所述的指令微調數據生成方法,其特征在于,所述創建與當前預設垂直領域相應的目標建表語句,并根據所述目標建表語句生成與若干預設條件對應的若干目標問題,包括:
3.根據權利要求2所述的指令微調數據生成方法,其特征在于,所述創建與當前預設垂直領域相應的目標建表語句,并根據所述目標建表語句生成與若干預設條件對應的若干目標問題,包括:
4.根據權利要求3所述的指令微調數據生成方法,其特征在于,所述生成與所述若干目標問題對應的數據庫數據,并根據所述若干目標問題與所述數據庫數據生成所述當前預設垂直領域相應的指令微調數據,包括:
5.根據權利要求1所述的指令微調數據生成方法,其特征在于,所述計算所述若干指令微調數據相應的若干指令跟隨...
【專利技術屬性】
技術研發人員:李健,孫思清,周慶勇,
申請(專利權)人:浪潮云信息技術股份公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。