System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及一種文本處理,特別是涉及一種用于微調大語言模型的預處理文本的獲取方法及裝置。
技術介紹
1、隨著自然語言處理技術的快速發展,生成式預訓練大模型在一些特定任務或領域可能表現不佳,這時,通常需要使用作為預處理文本的微調語料對大模型進行微調訓練。其中,大模型(large?language?model,llm)微調語料的常見形式是“一問一答”的問答形式,通過問答實現多種任務,如生成大綱、生成摘要、文本續寫、提取關鍵詞、翻譯等。
2、目前,現有預處理文本的生成通常包括從源語料中進行篩選,或者人工進行編寫,但是,從源語料中篩選出的預處理文本與處理任務存在較大誤差,使得預處理文本質量較差,無法保證大模型的場景實用性,并且人工編寫需要大量的人力資源,對工作人員的專業知識提出了較高要求,成本高,大大降低預處理文本獲取的有效性。
技術實現思路
1、有鑒于此,本專利技術提供一種用于微調大語言模型的預處理文本的獲取方法及裝置,主要目的在于解決現有用于微調大語言模型的預處理文本的獲取的問題。
2、依據本專利技術一個方面,提供了一種用于微調大語言模型的預處理文本的獲取方法,包括:
3、確定待處理大語言模型的預處理任務,并對所述預處理任務進行量化統計,得到量化要素,所述預處理任務用于表征所述大語言模型適用于特定語言處理場景的內容;
4、調取與所述預處理任務匹配的會話模板,并基于所述量化要素、所述會話模板確定目標檢索領域的檢索約束條件;
5
6、進一步地,所述對所述預處理任務進行量化統計,得到量化要素包括:
7、獲取所述預處理任務的歷史會話文本,并對所述歷史會話文本進行模板拆分,得到答案文本;
8、確定所述答案文本中與所述預處理任務匹配的要素對象,并統計所述答案文本中所述要素對象的數量;
9、基于所述要素對象、所述數量以及與所述要素對象匹配的預設要素條件生成量化要素。
10、進一步地,所述基于所述量化要素、所述會話模板確定目標檢索領域的檢索約束條件包括:
11、接收選取的目標檢索領域;
12、按照所述會話模板提取所述量化要素的要素限定條件信息;
13、基于所述目標檢索領域以及所述要素限定條件信息生成檢索約束條件。
14、進一步地,所述確定待處理大語言模型的預處理任務包括:
15、響應于文本生成指令,獲取預期進行大語言模型處理的預期目標;
16、按照不同任務類型查詢與所述預期目標匹配的預處理任務,不同的任務類型匹配不同的預處理任務。
17、進一步地,所述將搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本包括:
18、按照所述預處理任務解析所述會話模板的問題模板以及答案模板;
19、抽取所述文本對象中與所述問題模板匹配的問題文本,以及與答案模板匹配的答案文本;
20、將所述問題文本以及所述答案文本按照所述會話模板進行組合,得到預處理文本。
21、進一步地,所述搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本之前,所述方法還包括:
22、獲取與所述預處理任務匹配的敏感信息;
23、若所述文本對象中存在所述敏感信息,則刪除所述文本對象中的敏感信息,或通過預設字符替換所述文本對象中的敏感信息,以將刪除所述敏感信息或替換所述敏感信息后的文本對象進行整合。
24、進一步地,所述方法還包括:
25、確定所述大語言模型的編譯格式;
26、若所述預處理文本的文本格式不匹配所述編輯格式,則按照所述編譯格式對所述預處理文本進行轉換,以基于轉換后的所述預處理文本進行預處理。
27、依據本專利技術另一個方面,提供了一種用于微調大語言模型的預處理文本的獲取裝置,包括:
28、確定模塊,用于確定待處理大語言模型的預處理任務,并對所述預處理任務進行量化統計,得到量化要素,所述預處理任務用于表征所述大語言模型適用于特定語言處理場景的內容;
29、調取模塊,用于調取與所述預處理任務匹配的會話模板,并基于所述量化要素、所述會話模板確定目標檢索領域的檢索約束條件;
30、整合模塊,用于響應于文本對象檢索指令,按照所述檢索約束條件在所述目標檢索領域搜索文本對象,并將搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本,以基于所述預處理文本對所述大語言模型進行微調。
31、進一步地,所述確定模塊,具體用于獲取所述預處理任務的歷史會話文本,并對所述歷史會話文本進行模板拆分,得到答案文本;確定所述答案文本中與所述預處理任務匹配的要素對象,并統計所述答案文本中所述要素對象的數量;基于所述要素對象、所述數量以及與所述要素對象匹配的預設要素條件生成量化要素。
32、進一步地,所述調取模塊,具體用于接收選取的目標檢索領域;按照所述會話模板提取所述量化要素的要素限定條件信息;基于所述目標檢索領域以及所述要素限定條件信息生成檢索約束條件。
33、進一步地,所述確定模塊,具體還用于響應于文本生成指令,獲取預期進行大語言模型處理的預期目標;按照不同任務類型查詢與所述預期目標匹配的預處理任務,不同的任務類型匹配不同的預處理任務。
34、進一步地,所述整合模塊,用于按照所述預處理任務解析所述會話模板的問題模板以及答案模板;抽取所述文本對象中與所述問題模板匹配的問題文本,以及與答案模板匹配的答案文本;將所述問題文本以及所述答案文本按照所述會話模板進行組合,得到預處理文本。
35、進一步地,所述裝置還包括:
36、獲取模塊,用于獲取與所述預處理任務匹配的敏感信息;
37、刪除模塊,用于若所述文本對象中存在所述敏感信息,則刪除所述文本對象中的敏感信息,或通過預設字符替換所述文本對象中的敏感信息,以將刪除所述敏感信息或替換所述敏感信息后的文本對象進行整合。
38、進一步地,所述確定模塊,還用于確定所述大語言模型的編譯格式;若所述預處理文本的文本格式不匹配所述編輯格式,則按照所述編譯格式對所述預處理文本進行轉換,以基于轉換后的所述預處理文本進行預處理。
39、根據本專利技術的又一方面,提供了一種存儲介質,所述存儲介質中存儲有至少一可執行指令,所述可執行指令使處理器執行如上述用于微調大語言模型的預處理文本的獲取方法對應的操作。
40、根據本專利技術的再一方面,提供了一種終端,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;
41、所述存儲器用于存放至少一可執行指令,所述可執行本文檔來自技高網...
【技術保護點】
1.一種用于微調大語言模型的預處理文本的獲取方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述對所述預處理任務進行量化統計,得到量化要素包括:
3.根據權利要求2所述的方法,其特征在于,所述基于所述量化要素、所述會話模板確定目標檢索領域的檢索約束條件包括:
4.根據權利要求1所述的方法,其特征在于,所述確定待處理大語言模型的預處理任務包括:
5.根據權利要求1所述的方法,其特征在于,所述將搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本包括:
6.根據權利要求1所述的方法,其特征在于,所述搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本之前,所述方法還包括:
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
8.一種用于微調大語言模型的預處理文本的獲取裝置,其特征在于,包括:
9.一種存儲介質,所述存儲介質中存儲有至少一可執行指令,所述可執行指令使處理器執行如權利要求1-7中任一項所述的用于微調大語言模型的預處理文本的獲取方法對應的操
10.一種終端,包括:處理器、存儲器、通信接口和通信總線,所述處理器、所述存儲器和所述通信接口通過所述通信總線完成相互間的通信;
...【技術特征摘要】
1.一種用于微調大語言模型的預處理文本的獲取方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述對所述預處理任務進行量化統計,得到量化要素包括:
3.根據權利要求2所述的方法,其特征在于,所述基于所述量化要素、所述會話模板確定目標檢索領域的檢索約束條件包括:
4.根據權利要求1所述的方法,其特征在于,所述確定待處理大語言模型的預處理任務包括:
5.根據權利要求1所述的方法,其特征在于,所述將搜索到的所述文本對象與所述會話模板進行整合,得到預處理文本包括:
6.根據權利要求1所述的方法,...
【專利技術屬性】
技術研發人員:朱紫薇,劉丹丹,劉嘉,
申請(專利權)人:同方知網數字出版技術股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。