System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現(xiàn)步驟摘要】
本專利技術實施例涉及自然語言處理,尤其涉及一種業(yè)務文本標注方法、裝置、電子設備及存儲介質。
技術介紹
1、隨著人工智能技術的快速發(fā)展,文本分類技術在各個領域中得到的廣泛應用。
2、現(xiàn)有技術中,通常采用傳統(tǒng)分類模型對業(yè)務文本的類型進行標注。或者,采用語言模型對業(yè)務文本進行分類打標。但是,在實現(xiàn)本專利技術的過程中,發(fā)現(xiàn)現(xiàn)有技術至少存在以下技術問題:傳統(tǒng)分類模型在訓練時需要人工對大量的樣本業(yè)務文本進行打標,基于打標后的樣本業(yè)務文本訓練得到傳統(tǒng)分類模型,耗費大量人工成本和時間成本。而語言模型不理解業(yè)務中的專有名詞以及業(yè)務分類標準,導致打標結果準確性差。
技術實現(xiàn)思路
1、本專利技術實施例提供了一種業(yè)務文本標注方法、裝置、電子設備及存儲介質,以減少了訓練分類模型的人工成本和時間成本,實現(xiàn)提高確定出的目標分類標簽的準確性的目的。
2、根據(jù)本專利技術的一方面,提供了一種業(yè)務文本標注方法,包括:
3、從目標業(yè)務系統(tǒng)獲取待標注的當前業(yè)務數(shù)據(jù)集;其中,所述當前業(yè)務數(shù)據(jù)集中包括至少一個無標簽的當前業(yè)務文本;
4、基于預先生成的目標語言模型和預設提示詞,確定所述當前業(yè)務文本對應的第一分類標簽,基于所述第一分類標簽和所述當前業(yè)務文本,訓練得到至少一個分類模型,基于所述分類模型確定所述當前業(yè)務文本的第二分類標簽;
5、基于所述當前業(yè)務文本的所述第一分類標簽和所述第二分類標簽,確定所述當前業(yè)務文本的目標分類標簽。
6、根據(jù)本專利技術的另一方
7、數(shù)據(jù)集獲取模塊,用于從目標業(yè)務系統(tǒng)獲取待標注的當前業(yè)務數(shù)據(jù)集;其中,所述當前業(yè)務數(shù)據(jù)集中包括至少一個無標簽的當前業(yè)務文本;
8、模型訓練模塊,用于基于預先生成的目標語言模型和預設提示詞,確定所述當前業(yè)務文本對應的第一分類標簽,基于所述第一分類標簽和所述當前業(yè)務文本,訓練得到至少一個分類模型,基于所述分類模型確定所述當前業(yè)務文本的第二分類標簽;
9、標簽確定模塊,用于基于所述當前業(yè)務文本的所述第一分類標簽和所述第二分類標簽,確定所述當前業(yè)務文本的目標分類標簽。
10、根據(jù)本專利技術的另一方面,提供了一種電子設備,所述電子設備包括:
11、至少一個處理器;以及
12、與所述至少一個處理器通信連接的存儲器;其中,
13、所述存儲器存儲有可被所述至少一個處理器執(zhí)行的計算機程序,所述計算機程序被所述至少一個處理器執(zhí)行,以使所述至少一個處理器能夠執(zhí)行本專利技術任一實施例所述的業(yè)務文本標注方法。
14、根據(jù)本專利技術的另一方面,提供了一種計算機可讀存儲介質,所述計算機可讀存儲介質存儲有計算機指令,所述計算機指令用于使處理器執(zhí)行時實現(xiàn)本專利技術任一實施例所述的業(yè)務文本標注方法。
15、本專利技術實施例的技術方案,從目標業(yè)務系統(tǒng)獲取待標注的當前業(yè)務數(shù)據(jù)集;其中,當前業(yè)務數(shù)據(jù)集中包括至少一個無標簽的當前業(yè)務文本;基于預先生成的目標語言模型和預設提示詞,確定當前業(yè)務文本對應的第一分類標簽,基于第一分類標簽和當前業(yè)務文本,訓練得到至少一個分類模型,由此通過目標語言模型和預設提示詞確定第一分類標簽,從而無需人工標注,減少了訓練分類模型的人工成本和時間成本;并且,基于分類模型確定當前業(yè)務文本的第二分類標簽;基于當前業(yè)務文本的第一分類標簽和第二分類標簽,確定當前業(yè)務文本的目標分類標簽,從而在確定目標分類標簽時,同時結合了目標語言模型得到的第一分類標簽和分類模型得到的第二分類標簽,解決了僅通過目標語言模型確定目標分類標簽,導致的打標準確性差的問題,實現(xiàn)了提高確定出的目標分類標簽的準確性的效果。
16、應當理解,本部分所描述的內容并非旨在標識本專利技術的實施例的關鍵或重要特征,也不用于限制本專利技術的范圍。本專利技術的其它特征將通過以下的說明書而變得容易理解。
本文檔來自技高網(wǎng)...【技術保護點】
1.一種業(yè)務文本標注方法,其特征在于,包括:
2.根據(jù)權利要求1所述的方法,其特征在于,在所述基于所述第一分類標簽和所述當前業(yè)務文本,訓練得到至少一個分類模型之前,還包括:
3.根據(jù)權利要求2所述的方法,其特征在于,所述將所述當前業(yè)務數(shù)據(jù)集劃分為測試數(shù)據(jù)集和預打標數(shù)據(jù)集,包括:
4.根據(jù)權利要求2所述的方法,其特征在于,所述基于所述當前業(yè)務文本的所述第一分類標簽和所述第二分類標簽,確定所述當前業(yè)務文本的目標分類標簽,包括:
5.根據(jù)權利要求4所述的方法,其特征在于,在所述基于所述第一困難業(yè)務文本生成第一打標指令之前,還包括:
6.根據(jù)權利要求2所述的方法,其特征在于,在所述確定所述測試數(shù)據(jù)集中的測試業(yè)務文本的真實分類標簽之后,還包括:
7.根據(jù)權利要求1所述的方法,其特征在于,所述基于所述第一分類標簽和所述當前業(yè)務文本,訓練得到至少一個分類模型,基于所述分類模型確定所述當前業(yè)務文本的第二分類標簽,包括:
8.一種業(yè)務文本標注裝置,其特征在于,包括:
9.一種電子設備,其特征在于,所述電
10.一種計算機可讀存儲介質,其特征在于,所述計算機可讀存儲介質存儲有計算機指令,所述計算機指令用于使處理器執(zhí)行時實現(xiàn)權利要求1-7中任一項所述的業(yè)務文本標注方法。
...【技術特征摘要】
1.一種業(yè)務文本標注方法,其特征在于,包括:
2.根據(jù)權利要求1所述的方法,其特征在于,在所述基于所述第一分類標簽和所述當前業(yè)務文本,訓練得到至少一個分類模型之前,還包括:
3.根據(jù)權利要求2所述的方法,其特征在于,所述將所述當前業(yè)務數(shù)據(jù)集劃分為測試數(shù)據(jù)集和預打標數(shù)據(jù)集,包括:
4.根據(jù)權利要求2所述的方法,其特征在于,所述基于所述當前業(yè)務文本的所述第一分類標簽和所述第二分類標簽,確定所述當前業(yè)務文本的目標分類標簽,包括:
5.根據(jù)權利要求4所述的方法,其特征在于,在所述基于所述第一困難業(yè)務文本生成第一打標指令之前,還包括:
...
【專利技術屬性】
技術研發(fā)人員:翁時沐,
申請(專利權)人:多益網(wǎng)絡有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。