System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請涉及文本分類,適用于金融科技領(lǐng)域,尤其涉及一種文本分類方法和裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)。
技術(shù)介紹
1、在金融領(lǐng)域會(huì)產(chǎn)生大量文本類的金融數(shù)據(jù),為了快速完成金融數(shù)據(jù)的分析,需要借助大規(guī)模語言模型對金融文本進(jìn)行特征提取,再根據(jù)文本特征進(jìn)行文本分類。相關(guān)技術(shù)中,僅通過大規(guī)模語言模型實(shí)現(xiàn)金融文本分類受到金融文本特殊內(nèi)容影響,從而影響文本分類的準(zhǔn)確性。例如,若金融文本內(nèi)涉及數(shù)學(xué)概念、數(shù)學(xué)符合等等,大規(guī)模語言模型難以對金融文本中的數(shù)學(xué)概念、數(shù)學(xué)符合進(jìn)行理解,從而影響了金融文本的分類準(zhǔn)確性。因此,如何提高文本分類的準(zhǔn)確性,成為了亟待解決的技術(shù)問題。
技術(shù)實(shí)現(xiàn)思路
1、本申請實(shí)施例的主要目的在于提出一種文本分類方法和裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),旨在提高文本分類的準(zhǔn)確性。
2、為實(shí)現(xiàn)上述目的,本申請實(shí)施例的第一方面提出了一種文本分類方法,所述方法包括:
3、獲取訓(xùn)練文本;
4、將所述訓(xùn)練文本輸入至預(yù)設(shè)的大規(guī)模語言模型;其中,所述大規(guī)模語言模型包括:特征提取網(wǎng)絡(luò)和多頭注意力網(wǎng)絡(luò);
5、通過所述特征提取網(wǎng)絡(luò)將所述訓(xùn)練文本進(jìn)行特征提取,得到初步文本特征;
6、通過所述多頭注意力網(wǎng)絡(luò)對所述初步文本特征進(jìn)行注意力處理,得到選定文本特征;
7、根據(jù)所述選定文本特征和所述訓(xùn)練文本對預(yù)設(shè)的原始決策樹模型進(jìn)行訓(xùn)練,得到目標(biāo)決策樹模型;
8、獲取目標(biāo)文本,并通過所述大規(guī)模語言模型對所述目標(biāo)文本進(jìn)行特征提取,得到目標(biāo)文本特征;
>9、通過所述目標(biāo)決策樹模型和所述目標(biāo)文本特征對所述目標(biāo)文本進(jìn)行分類處理,得到文本類別信息。
10、在一些實(shí)施例,所述特征提取網(wǎng)絡(luò)包括:預(yù)處理子網(wǎng)絡(luò)和特征提取子網(wǎng)絡(luò);所述通過所述特征提取網(wǎng)絡(luò)將所述訓(xùn)練文本進(jìn)行特征提取,得到初步文本特征,包括:
11、通過所述預(yù)處理子網(wǎng)絡(luò)對所述訓(xùn)練文本進(jìn)行分詞處理,得到詞單元序列;其中,所述詞單元序列包括至少一個(gè)詞單元;
12、通過所述特征提取子網(wǎng)絡(luò)和預(yù)設(shè)的候選詞特征對每一所述詞單元進(jìn)行特征轉(zhuǎn)換,得到選定詞特征;
13、將所述選定詞特征進(jìn)行拼接處理,得到所述初步文本特征。
14、在一些實(shí)施例,所述特征提取子網(wǎng)絡(luò)包括:索引轉(zhuǎn)換層和特征轉(zhuǎn)換層,所述通過所述特征提取子網(wǎng)絡(luò)和預(yù)設(shè)的候選詞特征對每一所述詞單元進(jìn)行特征轉(zhuǎn)換,得到選定詞特征,包括:
15、通過所述索引轉(zhuǎn)換層和所述詞單元從預(yù)設(shè)的候選詞索引中篩選出目標(biāo)詞索引;
16、通過所述特征轉(zhuǎn)換層和所述目標(biāo)詞索引對所述詞單元進(jìn)行特征轉(zhuǎn)換,得到所述選定詞特征。
17、在一些實(shí)施例,所述多頭注意力網(wǎng)絡(luò)包括:線性變換子網(wǎng)絡(luò)、至少一個(gè)自注意力層和前饋神經(jīng)子網(wǎng)絡(luò);
18、所述通過所述多頭注意力網(wǎng)絡(luò)對所述初步文本特征進(jìn)行注意力處理,得到選定文本特征,包括:
19、通過所述線性變換子網(wǎng)絡(luò)對所述初步文本特征進(jìn)行線性變換,得到文本向量集;其中,所述文本向量集包括:查詢向量、鍵向量和值向量;
20、通過每一所述自注意力層對所述查詢向量、所述鍵向量和所述值向量進(jìn)行自注意力處理,得到候選文本向量;
21、將所述候選文本向量進(jìn)行拼接處理,得到目標(biāo)文本向量;
22、通過所述前饋神經(jīng)子網(wǎng)絡(luò)將所述目標(biāo)文本向量進(jìn)行特征映射,得到所述選定文本特征。
23、在一些實(shí)施例,所述通過每一所述自注意力層對所述查詢向量、所述鍵向量和所述值向量進(jìn)行自注意力處理,得到候選文本向量,包括:
24、通過所述自注意力層對所述查詢向量和所述鍵向量進(jìn)行相似度計(jì)算,得到初步相似度數(shù)據(jù);
25、通過所述自注意力層和預(yù)設(shè)的縮放因子對所述初步相似度數(shù)據(jù)進(jìn)行縮放處理,得到候選相似度數(shù)據(jù);
26、通過所述自注意力層和所述候選相似度數(shù)據(jù)進(jìn)行歸一化處理,得到注意力權(quán)重;
27、根據(jù)所述注意力權(quán)重將所述查詢向量、所述鍵向量和所述值向量進(jìn)行拼接處理,得到所述候選文本向量。
28、在一些實(shí)施例,所述根據(jù)所述選定文本特征和所述訓(xùn)練文本對預(yù)設(shè)的原始決策樹模型進(jìn)行訓(xùn)練,得到目標(biāo)決策樹模型,包括:
29、對所述選定文本特征進(jìn)行信息增益計(jì)算,得到特征信息增益;其中,所述特征信息增益用于衡量所述選定文本特征在文本分類中的信息減少量;
30、根據(jù)所述特征信息增益從所述選定文本特征中篩選出選中文本特征;
31、根據(jù)所述選中文本特征將所述訓(xùn)練文本進(jìn)行集合劃分,得到參考文本集;
32、根據(jù)所述參考文本集和所述選中文本特征對所述原始決策樹模型進(jìn)行訓(xùn)練,得到所述目標(biāo)決策樹模型。
33、在一些實(shí)施例,所述通過所述目標(biāo)決策樹模型和所述目標(biāo)文本特征對所述目標(biāo)文本進(jìn)行分類處理,得到文本類別信息,包括:
34、通過所述目標(biāo)決策樹模型和所述目標(biāo)文本特征進(jìn)行文本集查找,得到選定文本集和所述選定文本集的分類概率值;
35、根據(jù)所述分類概率值和所述選定文本集對所述目標(biāo)文本進(jìn)行分類處理,得到所述文本類別信息。
36、為實(shí)現(xiàn)上述目的,本申請實(shí)施例的第二方面提出了一種文本分類裝置,所述裝置包括:
37、文本獲取模塊,用于獲取訓(xùn)練文本;
38、文本輸入模塊,用于將所述訓(xùn)練文本輸入至預(yù)設(shè)的大規(guī)模語言模型;其中,所述大規(guī)模語言模型包括:特征提取網(wǎng)絡(luò)和多頭注意力網(wǎng)絡(luò);
39、初步特征提取模塊,用于通過所述特征提取網(wǎng)絡(luò)將所述訓(xùn)練文本進(jìn)行特征提取,得到初步文本特征;
40、注意力處理模塊,用于通過所述多頭注意力網(wǎng)絡(luò)對所述初步文本特征進(jìn)行注意力處理,得到選定文本特征;
41、模型訓(xùn)練模塊,用于根據(jù)所述選定文本特征和所述訓(xùn)練文本對預(yù)設(shè)的原始決策樹模型進(jìn)行訓(xùn)練,得到目標(biāo)決策樹模型;
42、目標(biāo)特征提取模塊,用于獲取目標(biāo)文本,并通過所述大規(guī)模語言模型對所述目標(biāo)文本進(jìn)行特征提取,得到目標(biāo)文本特征;
43、文本分類模塊,用于通過所述目標(biāo)決策樹模型和所述目標(biāo)文本特征對所述目標(biāo)文本進(jìn)行分類處理,得到文本類別信息。
44、為實(shí)現(xiàn)上述目的,本申請實(shí)施例的第三方面提出了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
45、為實(shí)現(xiàn)上述目的,本申請實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。
46、本申請?zhí)岢龅奈谋痉诸惙椒ê脱b置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),其通過大規(guī)模語言模型提取出訓(xùn)練文本的選定文本特征,再基于選定文本特征和訓(xùn)練文本訓(xùn)練原始決策樹模型以構(gòu)建出可以實(shí)現(xiàn)文本準(zhǔn)確分類的目標(biāo)決策樹模型。當(dāng)文本分類時(shí),通過大規(guī)模語言模型提取出目標(biāo)文本的目標(biāo)文本特征,再由目標(biāo)決策樹模型和目標(biāo)文本特征完成目標(biāo)文本的分類。本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種文本分類方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述特征提取網(wǎng)絡(luò)包括:預(yù)處理子網(wǎng)絡(luò)和特征提取子網(wǎng)絡(luò);所述通過所述特征提取網(wǎng)絡(luò)將所述訓(xùn)練文本進(jìn)行特征提取,得到初步文本特征,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述特征提取子網(wǎng)絡(luò)包括:索引轉(zhuǎn)換層和特征轉(zhuǎn)換層,所述通過所述特征提取子網(wǎng)絡(luò)和預(yù)設(shè)的候選詞特征對每一所述詞單元進(jìn)行特征轉(zhuǎn)換,得到選定詞特征,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多頭注意力網(wǎng)絡(luò)包括:線性變換子網(wǎng)絡(luò)、至少一個(gè)自注意力層和前饋神經(jīng)子網(wǎng)絡(luò);
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述通過每一所述自注意力層對所述查詢向量、所述鍵向量和所述值向量進(jìn)行自注意力處理,得到候選文本向量,包括:
6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述選定文本特征和所述訓(xùn)練文本對預(yù)設(shè)的原始決策樹模型進(jìn)行訓(xùn)練,得到目標(biāo)決策樹模型,包括:
7.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法,其特征在于,所述通過所述目標(biāo)決策樹模型和所述目標(biāo)文本
8.一種文本分類裝置,其特征在于,所述裝置包括:
9.一種計(jì)算機(jī)設(shè)備,其特征在于,所述包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7任一項(xiàng)所述的文本分類方法。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的文本分類方法。
...【技術(shù)特征摘要】
1.一種文本分類方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述特征提取網(wǎng)絡(luò)包括:預(yù)處理子網(wǎng)絡(luò)和特征提取子網(wǎng)絡(luò);所述通過所述特征提取網(wǎng)絡(luò)將所述訓(xùn)練文本進(jìn)行特征提取,得到初步文本特征,包括:
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述特征提取子網(wǎng)絡(luò)包括:索引轉(zhuǎn)換層和特征轉(zhuǎn)換層,所述通過所述特征提取子網(wǎng)絡(luò)和預(yù)設(shè)的候選詞特征對每一所述詞單元進(jìn)行特征轉(zhuǎn)換,得到選定詞特征,包括:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多頭注意力網(wǎng)絡(luò)包括:線性變換子網(wǎng)絡(luò)、至少一個(gè)自注意力層和前饋神經(jīng)子網(wǎng)絡(luò);
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述通過每一所述自注意力層對所述查詢向量、所述鍵向量和所述值向量進(jìn)行自注意力處理,得到候選文本向量,包括:<...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王洪波,羅俊,
申請(專利權(quán))人:平安銀行股份有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評(píng)論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。