System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲中文字幕无码中文,亚洲热妇无码AV在线播放,无码人妻精品一区二区三18禁
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于神經網絡的多標簽文本分類方法及裝置制造方法及圖紙

    技術編號:44520144 閱讀:1 留言:0更新日期:2025-03-07 13:13
    本發明專利技術公開了一種基于神經網絡的多標簽文本分類方法及裝置,包括:采集多標簽文本數據形成訓練樣本;對所述訓練樣本進行詞嵌入和標簽嵌入,分別獲得詞向量和標簽向量;建立初始的CNN?BiLSTM?ATTENTION神經網絡模型,CNN?BiLSTM?ATTENTION神經網絡模型包括CNN層、BiLSTM層以及ATTENTION層;對CNN?BiLSTM?ATTENTION神經網絡模型進行訓練直到所述CNN?BiLSTM?ATTENTION神經網絡模型收斂;接收待分類的文本數據并輸入至收斂后的CNN?BiLSTM?ATTENTION神經網絡模型,輸出分類結果;該方法適用于多維標簽向量分類的場景。

    【技術實現步驟摘要】

    本專利技術涉及自然語言處理,尤其涉及一種基于神經網絡的多標簽文本分類方法及裝置


    技術介紹

    1、文本分類是自然語言處理(natural?language?processing,nlp)中重要的分支,在傳統的文本分類問題中,每個樣本只有一個類別標簽,被稱為單標簽文本分類;隨著文本信息的日益豐富,分類細化程度越來越高,一個樣本與多個類別標簽相關,同時類別標簽之間可能存在一定的依賴關系,這種被稱為多標簽文本分類。在多標簽分類中,每個文本實例可以同時被分配多個標簽。這些標簽可能是彼此獨立的,也可能存在重疊或層次結構。例如,某個文本可能既屬于“技術”類,又屬于“安全”類,進一步又可以細分為“網絡安全”或“軟件安全”等。

    2、現有的多標簽分類主要包括:標簽二值化方法,將每個標簽作為一個獨立的二分類問題來處理,為每個標簽訓練一個單獨的分類器;標簽組合法,將一個標簽的預測結果作為下一個標簽預測的輸入,形成標簽之間的順序關系;基于神經網絡的模型,主要是深度學習方法被廣泛應用于多標簽分類問題,這些模型通過共享參數來處理多個標簽任務。例如,專利文本cn110490221b提供了一種多標簽分類方法,包括:建立標簽庫,所述標簽庫存儲有不同物體對應的不同標簽及標簽順序;獲取圖片的圖像數據;構建分類模型;訓練分類模型,采用已知圖片的圖像數據和圖像中包含的物體對應的標簽及其根據標簽庫中的標簽順序形成的標簽序列作為數據集,每個標簽的設定數量的包含該標簽的正樣本和不包含該標簽的負樣本的圖像數據作為訓練集,所述正樣本和負樣本的標簽序列作為驗證集;將圖片的圖像數據輸入訓練后的分類模型,獲得圖片中每個物體對應的標簽,從而獲得圖片的標簽序列,所述標簽序列為二值化序列,按照所述標簽庫中標簽的順序,1代表圖片中有標簽對應的物體,0代表圖片中沒有標簽對應的物體。盡管現有技術在多標簽分類上取得了顯著進展,但仍存在以下問題:1.大多數方法將標簽視為獨立的分類問題,忽略了標簽之間的潛在依賴關系;2.標簽數量較多時,訓練數據中的標簽往往分布不均,導致模型在稀疏數據上難以學習到有效的特征表示。


    技術實現思路

    1、本專利技術提供了一種基于神經網絡的多標簽文本分類方法及裝置,適用于多層次的多標簽文本分類,并能夠在數據中學習到有效的特征表示,提高多標簽文本分類的準確性。

    2、一種基于神經網絡的多標簽文本分類方法,包括:

    3、采集多標簽文本數據形成訓練樣本;

    4、對所述訓練樣本進行詞嵌入和標簽嵌入,分別獲得詞向量和標簽向量;

    5、建立初始的cnn-bilstm-attention神經網絡模型,所述cnn-bilstm-attention神經網絡模型包括cnn層、bilstm層以及attention層;

    6、對所述cnn-bilstm-attention神經網絡模型進行訓練:將所述詞向量輸入至所述cnn層進行局部特征提取,將所述詞向量以及提取的局部特征輸入至所述bilstm層進行處理獲得混合特征,將所述混合特征和標簽向量輸入至所述attention層進行處理,輸出分類概率;根據所述分類概率計算損失值并更新所述cnn-bilstm-attention神經網絡模型的參數,重復訓練步驟直到所述cnn-bilstm-attention神經網絡模型收斂;

    7、接收待分類的文本數據并輸入至收斂后的cnn-bilstm-attention神經網絡模型,輸出分類結果。

    8、進一步地,對所述訓練樣本進行詞嵌入和標簽嵌入,分別獲得詞向量和標簽向量,包括:

    9、采用bert模型對所述訓練樣本中的文本進行編碼和分詞處理,獲得詞向量;

    10、判斷所述訓練樣本中的標簽是否具有中文語義,若所述標簽不具備中文語義,則采用隨機生成器按照詞嵌入的維度生成隨機向量,對所述隨機向量進行歸一化處理獲得標簽向量;

    11、若所述標簽具備中文語義,則根據所述訓練樣本建立包含文本和對應標簽的數據集,將所述數據集中的文本和標簽建立映射關系,生成包含目標標簽的子集,采用tf-idf算法對所述子集進行計算獲得目標標簽的標簽向量。

    12、進一步地,采用tf-idf算法對所述子集進行計算獲得目標標簽的標簽向量,包括:

    13、對所述子集中的每個文本的詞,計算詞頻和逆文檔頻率,根據所述詞頻和逆文檔頻率計算每個詞的權重,對所述權重進行排序,根據排序的權重選擇預設數量個與目標標簽最相關的重要詞;

    14、對選出的重要詞進行詞嵌入,獲得多個重要詞嵌入向量;

    15、對所述多個重要詞嵌入向量進行加權平均之后獲得目標標簽的標簽向量。

    16、進一步地,將所述詞向量輸入至所述cnn層進行局部特征提取,包括:

    17、將所述詞向量輸入至卷積層進行局部模式捕捉,生成特征圖;

    18、通過激活層對所述特征圖進行非線性激活處理;

    19、將經激活層處理后的特征圖發送至池化層進行下采樣,基于最大池化策略,將所述特征圖劃分為多個域,并將每個域輸出的最大值作為局部特征。

    20、進一步地,所述bilstm層包括前向lstm單元、后向lstm單元、拼接單元以及highway層;所述局部特征包括局部上下文信息;

    21、將所述詞向量以及提取的局部特征輸入至所述bilstm層進行處理獲得混合特征,包括:

    22、將所述詞向量和局部特征均輸入至所述前向lstm單元和后向lstm單元;

    23、所述前向lstm單元對所述詞向量和局部特征進行從左向右的特征捕捉,獲得包含上文語義信息的第一隱狀態向量,同時所述后向lstm單元對所述詞向量和局部特征進行從右向左的特征捕捉,獲得包含下文語義信息的第二隱狀態向量;

    24、拼接單元將所述第一隱狀態向量和第二隱狀態向量在每個時間步上進行拼接,獲得全局融合特征;

    25、將所述全局融合特征和所述詞向量輸入至highway層進行精細化處理,獲得所述混合特征。

    26、進一步地,所述highway層包括第一輸入層、第二輸入層、線性變換層以及加權融合模塊;

    27、將所述全局融合特征和所述詞向量輸入至highway層進行精細化處理,獲得所述混合特征,包括:

    28、所述第一輸入層接收所述全局融合特征,并將所述融合特征發送至所述線性變換層;

    29、所述線性變換層利用可訓練的權重對所述全局融合特征進行變換,獲得全局變換特征并發送至加權融合模塊;

    30、所述第二輸入層用于接收所述詞向量并發送至所述加權融合模塊;

    31、所述加權融合模塊利用可訓練的參數矩陣生成權重矩陣,并根據所述權重矩陣對所述全局變換特征和詞向量進行加權融合,獲得所述混合特征并輸出。

    32、進一步地,將所述混合特征和標簽向量輸入至所述attention層進行處理,輸出分類概率,包括:

    33、將所述混合特征和所述標簽向量分別進行線性變換,本文檔來自技高網...

    【技術保護點】

    1.一種基于神經網絡的多標簽文本分類方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,對所述訓練樣本進行詞嵌入和標簽嵌入,分別獲得詞向量和標簽向量,包括:

    3.根據權利要求2所述的方法,其特征在于,采用TF-IDF算法對所述子集進行計算獲得目標標簽的標簽向量,包括:

    4.根據權利要求1所述的方法,其特征在于,將所述詞向量輸入至所述CNN層進行局部特征提取,包括:

    5.根據權利要求1所述的方法,其特征在于,所述BiLSTM層包括前向LSTM單元、后向LSTM單元、拼接單元以及Highway層;所述局部特征包括局部上下文信息;

    6.根據權利要求5所述的方法,其特征在于,所述Highway層包括第一輸入層、第二輸入層、線性變換層以及加權融合模塊;

    7.根據權利要求1所述的方法,其特征在于,將所述混合特征和標簽向量輸入至所述ATTENTION層進行處理,輸出分類概率,包括:

    8.根據權利要求7所述的方法,其特征在于,所述attention權重通過以下公式進行計算:

    9.一種基于神經網絡的多標簽文本分類裝置,其特征在于,包括:

    10.一種電子設備,其特征在于,包括處理器和存儲裝置,所述存儲裝置存儲有多條指令,所述處理器用于讀取所述指令并執行如權利要求1-8任一所述的方法。

    ...

    【技術特征摘要】

    1.一種基于神經網絡的多標簽文本分類方法,其特征在于,包括:

    2.根據權利要求1所述的方法,其特征在于,對所述訓練樣本進行詞嵌入和標簽嵌入,分別獲得詞向量和標簽向量,包括:

    3.根據權利要求2所述的方法,其特征在于,采用tf-idf算法對所述子集進行計算獲得目標標簽的標簽向量,包括:

    4.根據權利要求1所述的方法,其特征在于,將所述詞向量輸入至所述cnn層進行局部特征提取,包括:

    5.根據權利要求1所述的方法,其特征在于,所述bilstm層包括前向lstm單元、后向lstm單元、拼接單元以及highway層;所述局部特征包括局部上下文信息;

    ...

    【專利技術屬性】
    技術研發人員:廖小云劉建戈邵劍飛王文韜劉尚東季一木符瑞徐興春何菲鞠玲馮唯劉黎歐陽利劍徐俊
    申請(專利權)人:國網江蘇省電力有限公司泰州供電分公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 成人无码区免费视频观看| 国产精品无码久久久久久| 国产成人精品无码免费看| 精品无码一区二区三区水蜜桃| 亚洲?V无码成人精品区日韩 | 国产成人无码A区精油按摩| 亚洲美日韩Av中文字幕无码久久久妻妇 | 无码人妻一区二区三区在线水卜樱| 日韩a级无码免费视频| 亚洲av无码一区二区三区四区| 亚洲午夜福利AV一区二区无码| 亚洲日韩AV无码一区二区三区人 | 精品无人区无码乱码毛片国产| 亚洲中文无码卡通动漫野外| 国产亚洲美日韩AV中文字幕无码成人| 日韩精品久久无码中文字幕 | 久久无码专区国产精品s| 中文字幕人妻三级中文无码视频 | 精品无码人妻一区二区三区品| 亚洲精品国产日韩无码AV永久免费网| 无码人妻精品一区二区三区99仓本| 中文字幕AV中文字无码亚 | 无码射肉在线播放视频| 国产AV巨作情欲放纵无码| 日韩美无码五月天| 久久美利坚合众国AV无码| 亚洲va成无码人在线观看| 久久亚洲AV成人无码软件| 国产亚洲精品无码拍拍拍色欲| 无码精品人妻一区二区三区免费 | 久久无码专区国产精品发布| 一本加勒比hezyo无码专区| 亚洲成?Ⅴ人在线观看无码| 亚洲精品无码久久| 亚洲a∨无码一区二区| 亚洲人片在线观看天堂无码| 亚洲AV综合色区无码一二三区| 无码国产精品一区二区免费式影视 | 国产av无码专区亚洲av桃花庵| 国产午夜无码专区喷水| 久久国产精品无码网站|