System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 久久午夜无码鲁丝片午夜精品,久久ZYZ资源站无码中文动漫,一区二区三区无码被窝影院
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    文本分類方法和裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)制造方法及圖紙

    技術(shù)編號(hào):44253668 閱讀:10 留言:0更新日期:2025-02-11 13:51
    本申請實(shí)施例提供了一種文本分類方法和裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),屬于文本分類技術(shù)領(lǐng)域,適用于金融科技領(lǐng)域。該方法包括:獲取訓(xùn)練文本;將訓(xùn)練文本輸入至包括特征提取網(wǎng)絡(luò)和多頭注意力網(wǎng)絡(luò)的大規(guī)模語言模型;通過特征提取網(wǎng)絡(luò)將訓(xùn)練文本進(jìn)行特征提取,得到初步文本特征;通過多頭注意力網(wǎng)絡(luò)對初步文本特征進(jìn)行注意力處理,得到選定文本特征;根據(jù)選定文本特征和訓(xùn)練文本對預(yù)設(shè)的原始決策樹模型進(jìn)行訓(xùn)練得到目標(biāo)決策樹模型;獲取目標(biāo)文本,并通過大規(guī)模語言模型對目標(biāo)文本進(jìn)行特征提取得到目標(biāo)文本特征;通過目標(biāo)決策樹模型和目標(biāo)文本特征對目標(biāo)文本進(jìn)行分類處理得到文本類別信息。本申請實(shí)施例能夠提高文本分類的準(zhǔn)確性。

    【技術(shù)實(shí)現(xiàn)步驟摘要】

    本申請涉及文本分類,適用于金融科技領(lǐng)域,尤其涉及一種文本分類方法和裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì)


    技術(shù)介紹

    1、在金融領(lǐng)域會(huì)產(chǎn)生大量文本類的金融數(shù)據(jù),為了快速完成金融數(shù)據(jù)的分析,需要借助大規(guī)模語言模型對金融文本進(jìn)行特征提取,再根據(jù)文本特征進(jìn)行文本分類。相關(guān)技術(shù)中,僅通過大規(guī)模語言模型實(shí)現(xiàn)金融文本分類受到金融文本特殊內(nèi)容影響,從而影響文本分類的準(zhǔn)確性。例如,若金融文本內(nèi)涉及數(shù)學(xué)概念、數(shù)學(xué)符合等等,大規(guī)模語言模型難以對金融文本中的數(shù)學(xué)概念、數(shù)學(xué)符合進(jìn)行理解,從而影響了金融文本的分類準(zhǔn)確性。因此,如何提高文本分類的準(zhǔn)確性,成為了亟待解決的技術(shù)問題。


    技術(shù)實(shí)現(xiàn)思路

    1、本申請實(shí)施例的主要目的在于提出一種文本分類方法和裝置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),旨在提高文本分類的準(zhǔn)確性。

    2、為實(shí)現(xiàn)上述目的,本申請實(shí)施例的第一方面提出了一種文本分類方法,所述方法包括:

    3、獲取訓(xùn)練文本;

    4、將所述訓(xùn)練文本輸入至預(yù)設(shè)的大規(guī)模語言模型;其中,所述大規(guī)模語言模型包括:特征提取網(wǎng)絡(luò)和多頭注意力網(wǎng)絡(luò);

    5、通過所述特征提取網(wǎng)絡(luò)將所述訓(xùn)練文本進(jìn)行特征提取,得到初步文本特征;

    6、通過所述多頭注意力網(wǎng)絡(luò)對所述初步文本特征進(jìn)行注意力處理,得到選定文本特征;

    7、根據(jù)所述選定文本特征和所述訓(xùn)練文本對預(yù)設(shè)的原始決策樹模型進(jìn)行訓(xùn)練,得到目標(biāo)決策樹模型;

    8、獲取目標(biāo)文本,并通過所述大規(guī)模語言模型對所述目標(biāo)文本進(jìn)行特征提取,得到目標(biāo)文本特征;>

    9、通過所述目標(biāo)決策樹模型和所述目標(biāo)文本特征對所述目標(biāo)文本進(jìn)行分類處理,得到文本類別信息。

    10、在一些實(shí)施例,所述特征提取網(wǎng)絡(luò)包括:預(yù)處理子網(wǎng)絡(luò)和特征提取子網(wǎng)絡(luò);所述通過所述特征提取網(wǎng)絡(luò)將所述訓(xùn)練文本進(jìn)行特征提取,得到初步文本特征,包括:

    11、通過所述預(yù)處理子網(wǎng)絡(luò)對所述訓(xùn)練文本進(jìn)行分詞處理,得到詞單元序列;其中,所述詞單元序列包括至少一個(gè)詞單元;

    12、通過所述特征提取子網(wǎng)絡(luò)和預(yù)設(shè)的候選詞特征對每一所述詞單元進(jìn)行特征轉(zhuǎn)換,得到選定詞特征;

    13、將所述選定詞特征進(jìn)行拼接處理,得到所述初步文本特征。

    14、在一些實(shí)施例,所述特征提取子網(wǎng)絡(luò)包括:索引轉(zhuǎn)換層和特征轉(zhuǎn)換層,所述通過所述特征提取子網(wǎng)絡(luò)和預(yù)設(shè)的候選詞特征對每一所述詞單元進(jìn)行特征轉(zhuǎn)換,得到選定詞特征,包括:

    15、通過所述索引轉(zhuǎn)換層和所述詞單元從預(yù)設(shè)的候選詞索引中篩選出目標(biāo)詞索引;

    16、通過所述特征轉(zhuǎn)換層和所述目標(biāo)詞索引對所述詞單元進(jìn)行特征轉(zhuǎn)換,得到所述選定詞特征。

    17、在一些實(shí)施例,所述多頭注意力網(wǎng)絡(luò)包括:線性變換子網(wǎng)絡(luò)、至少一個(gè)自注意力層和前饋神經(jīng)子網(wǎng)絡(luò);

    18、所述通過所述多頭注意力網(wǎng)絡(luò)對所述初步文本特征進(jìn)行注意力處理,得到選定文本特征,包括:

    19、通過所述線性變換子網(wǎng)絡(luò)對所述初步文本特征進(jìn)行線性變換,得到文本向量集;其中,所述文本向量集包括:查詢向量、鍵向量和值向量;

    20、通過每一所述自注意力層對所述查詢向量、所述鍵向量和所述值向量進(jìn)行自注意力處理,得到候選文本向量;

    21、將所述候選文本向量進(jìn)行拼接處理,得到目標(biāo)文本向量;

    22、通過所述前饋神經(jīng)子網(wǎng)絡(luò)將所述目標(biāo)文本向量進(jìn)行特征映射,得到所述選定文本特征。

    23、在一些實(shí)施例,所述通過每一所述自注意力層對所述查詢向量、所述鍵向量和所述值向量進(jìn)行自注意力處理,得到候選文本向量,包括:

    24、通過所述自注意力層對所述查詢向量和所述鍵向量進(jìn)行相似度計(jì)算,得到初步相似度數(shù)據(jù);

    25、通過所述自注意力層和預(yù)設(shè)的縮放因子對所述初步相似度數(shù)據(jù)進(jìn)行縮放處理,得到候選相似度數(shù)據(jù);

    26、通過所述自注意力層和所述候選相似度數(shù)據(jù)進(jìn)行歸一化處理,得到注意力權(quán)重;

    27、根據(jù)所述注意力權(quán)重將所述查詢向量、所述鍵向量和所述值向量進(jìn)行拼接處理,得到所述候選文本向量。

    28、在一些實(shí)施例,所述根據(jù)所述選定文本特征和所述訓(xùn)練文本對預(yù)設(shè)的原始決策樹模型進(jìn)行訓(xùn)練,得到目標(biāo)決策樹模型,包括:

    29、對所述選定文本特征進(jìn)行信息增益計(jì)算,得到特征信息增益;其中,所述特征信息增益用于衡量所述選定文本特征在文本分類中的信息減少量;

    30、根據(jù)所述特征信息增益從所述選定文本特征中篩選出選中文本特征;

    31、根據(jù)所述選中文本特征將所述訓(xùn)練文本進(jìn)行集合劃分,得到參考文本集;

    32、根據(jù)所述參考文本集和所述選中文本特征對所述原始決策樹模型進(jìn)行訓(xùn)練,得到所述目標(biāo)決策樹模型。

    33、在一些實(shí)施例,所述通過所述目標(biāo)決策樹模型和所述目標(biāo)文本特征對所述目標(biāo)文本進(jìn)行分類處理,得到文本類別信息,包括:

    34、通過所述目標(biāo)決策樹模型和所述目標(biāo)文本特征進(jìn)行文本集查找,得到選定文本集和所述選定文本集的分類概率值;

    35、根據(jù)所述分類概率值和所述選定文本集對所述目標(biāo)文本進(jìn)行分類處理,得到所述文本類別信息。

    36、為實(shí)現(xiàn)上述目的,本申請實(shí)施例的第二方面提出了一種文本分類裝置,所述裝置包括:

    37、文本獲取模塊,用于獲取訓(xùn)練文本;

    38、文本輸入模塊,用于將所述訓(xùn)練文本輸入至預(yù)設(shè)的大規(guī)模語言模型;其中,所述大規(guī)模語言模型包括:特征提取網(wǎng)絡(luò)和多頭注意力網(wǎng)絡(luò);

    39、初步特征提取模塊,用于通過所述特征提取網(wǎng)絡(luò)將所述訓(xùn)練文本進(jìn)行特征提取,得到初步文本特征;

    40、注意力處理模塊,用于通過所述多頭注意力網(wǎng)絡(luò)對所述初步文本特征進(jìn)行注意力處理,得到選定文本特征;

    41、模型訓(xùn)練模塊,用于根據(jù)所述選定文本特征和所述訓(xùn)練文本對預(yù)設(shè)的原始決策樹模型進(jìn)行訓(xùn)練,得到目標(biāo)決策樹模型;

    42、目標(biāo)特征提取模塊,用于獲取目標(biāo)文本,并通過所述大規(guī)模語言模型對所述目標(biāo)文本進(jìn)行特征提取,得到目標(biāo)文本特征;

    43、文本分類模塊,用于通過所述目標(biāo)決策樹模型和所述目標(biāo)文本特征對所述目標(biāo)文本進(jìn)行分類處理,得到文本類別信息。

    44、為實(shí)現(xiàn)上述目的,本申請實(shí)施例的第三方面提出了一種計(jì)算機(jī)設(shè)備,所述計(jì)算機(jī)設(shè)備包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述第一方面所述的方法。

    45、為實(shí)現(xiàn)上述目的,本申請實(shí)施例的第四方面提出了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述第一方面所述的方法。

    46、本申請?zhí)岢龅奈谋痉诸惙椒ê脱b置、計(jì)算機(jī)設(shè)備及存儲(chǔ)介質(zhì),其通過大規(guī)模語言模型提取出訓(xùn)練文本的選定文本特征,再基于選定文本特征和訓(xùn)練文本訓(xùn)練原始決策樹模型以構(gòu)建出可以實(shí)現(xiàn)文本準(zhǔn)確分類的目標(biāo)決策樹模型。當(dāng)文本分類時(shí),通過大規(guī)模語言模型提取出目標(biāo)文本的目標(biāo)文本特征,再由目標(biāo)決策樹模型和目標(biāo)文本特征完成目標(biāo)文本的分類。本文檔來自技高網(wǎng)...

    【技術(shù)保護(hù)點(diǎn)】

    1.一種文本分類方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述特征提取網(wǎng)絡(luò)包括:預(yù)處理子網(wǎng)絡(luò)和特征提取子網(wǎng)絡(luò);所述通過所述特征提取網(wǎng)絡(luò)將所述訓(xùn)練文本進(jìn)行特征提取,得到初步文本特征,包括:

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述特征提取子網(wǎng)絡(luò)包括:索引轉(zhuǎn)換層和特征轉(zhuǎn)換層,所述通過所述特征提取子網(wǎng)絡(luò)和預(yù)設(shè)的候選詞特征對每一所述詞單元進(jìn)行特征轉(zhuǎn)換,得到選定詞特征,包括:

    4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多頭注意力網(wǎng)絡(luò)包括:線性變換子網(wǎng)絡(luò)、至少一個(gè)自注意力層和前饋神經(jīng)子網(wǎng)絡(luò);

    5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述通過每一所述自注意力層對所述查詢向量、所述鍵向量和所述值向量進(jìn)行自注意力處理,得到候選文本向量,包括:

    6.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法,其特征在于,所述根據(jù)所述選定文本特征和所述訓(xùn)練文本對預(yù)設(shè)的原始決策樹模型進(jìn)行訓(xùn)練,得到目標(biāo)決策樹模型,包括:

    7.根據(jù)權(quán)利要求1至5任一項(xiàng)所述的方法,其特征在于,所述通過所述目標(biāo)決策樹模型和所述目標(biāo)文本特征對所述目標(biāo)文本進(jìn)行分類處理,得到文本類別信息,包括:

    8.一種文本分類裝置,其特征在于,所述裝置包括:

    9.一種計(jì)算機(jī)設(shè)備,其特征在于,所述包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7任一項(xiàng)所述的文本分類方法。

    10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的文本分類方法。

    ...

    【技術(shù)特征摘要】

    1.一種文本分類方法,其特征在于,所述方法包括:

    2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述特征提取網(wǎng)絡(luò)包括:預(yù)處理子網(wǎng)絡(luò)和特征提取子網(wǎng)絡(luò);所述通過所述特征提取網(wǎng)絡(luò)將所述訓(xùn)練文本進(jìn)行特征提取,得到初步文本特征,包括:

    3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述特征提取子網(wǎng)絡(luò)包括:索引轉(zhuǎn)換層和特征轉(zhuǎn)換層,所述通過所述特征提取子網(wǎng)絡(luò)和預(yù)設(shè)的候選詞特征對每一所述詞單元進(jìn)行特征轉(zhuǎn)換,得到選定詞特征,包括:

    4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多頭注意力網(wǎng)絡(luò)包括:線性變換子網(wǎng)絡(luò)、至少一個(gè)自注意力層和前饋神經(jīng)子網(wǎng)絡(luò);

    5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述通過每一所述自注意力層對所述查詢向量、所述鍵向量和所述值向量進(jìn)行自注意力處理,得到候選文本向量,包括:<...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:王洪波羅俊
    申請(專利權(quán))人:平安銀行股份有限公司
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評(píng)論
    • 還沒有人留言評(píng)論。發(fā)表了對其他瀏覽者有用的留言會(huì)獲得科技券。

    1
    主站蜘蛛池模板: 亚洲av永久中文无码精品| 亚洲日韩VA无码中文字幕| 久久午夜伦鲁片免费无码| 亚洲AV无码一区二区三区牲色| 西西4444www大胆无码| 久久久无码精品亚洲日韩蜜桃 | 6080YYY午夜理论片中无码| 影音先锋中文无码一区| 野花在线无码视频在线播放| 亚洲成av人片天堂网无码】| 在线精品无码字幕无码AV| 国内精品久久久久久无码不卡| 久久久久琪琪去精品色无码| 久久久人妻精品无码一区| 无码少妇一区二区浪潮免费| 国产乱妇无码大片在线观看| 国产午夜无码精品免费看 | 久久国产加勒比精品无码| 免费无码AV一区二区| 精品久久久久久无码中文野结衣 | 亚洲国产a∨无码中文777| 国产福利无码一区在线| 久久亚洲日韩看片无码| 人妻精品久久无码专区精东影业 | 无码精品日韩中文字幕| 国产成人综合日韩精品无码不卡| 人妻丰满熟AV无码区HD| 精品久久久无码人妻中文字幕豆芽| 99久久国产热无码精品免费| 久久亚洲精品无码AV红樱桃 | 大胆日本无码裸体日本动漫| 亚洲AV色吊丝无码| 亚洲精品无码国产片| 特级毛片内射www无码| 丰满少妇被猛烈进入无码| 无码激情做a爰片毛片AV片| 亚洲人成影院在线无码观看| 成年免费a级毛片免费看无码| 国产成人无码精品久久久久免费| 亚洲熟妇少妇任你躁在线观看无码| 国产成人无码免费视频97|