System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及自然語言處理,尤其涉及一種基于神經網絡的多標簽文本分類方法及裝置。
技術介紹
1、文本分類是自然語言處理(natural?language?processing,nlp)中重要的分支,在傳統的文本分類問題中,每個樣本只有一個類別標簽,被稱為單標簽文本分類;隨著文本信息的日益豐富,分類細化程度越來越高,一個樣本與多個類別標簽相關,同時類別標簽之間可能存在一定的依賴關系,這種被稱為多標簽文本分類。在多標簽分類中,每個文本實例可以同時被分配多個標簽。這些標簽可能是彼此獨立的,也可能存在重疊或層次結構。例如,某個文本可能既屬于“技術”類,又屬于“安全”類,進一步又可以細分為“網絡安全”或“軟件安全”等。
2、現有的多標簽分類主要包括:標簽二值化方法,將每個標簽作為一個獨立的二分類問題來處理,為每個標簽訓練一個單獨的分類器;標簽組合法,將一個標簽的預測結果作為下一個標簽預測的輸入,形成標簽之間的順序關系;基于神經網絡的模型,主要是深度學習方法被廣泛應用于多標簽分類問題,這些模型通過共享參數來處理多個標簽任務。例如,專利文本cn110490221b提供了一種多標簽分類方法,包括:建立標簽庫,所述標簽庫存儲有不同物體對應的不同標簽及標簽順序;獲取圖片的圖像數據;構建分類模型;訓練分類模型,采用已知圖片的圖像數據和圖像中包含的物體對應的標簽及其根據標簽庫中的標簽順序形成的標簽序列作為數據集,每個標簽的設定數量的包含該標簽的正樣本和不包含該標簽的負樣本的圖像數據作為訓練集,所述正樣本和負樣本的標簽序列作為驗證集;將圖片的
技術實現思路
1、本專利技術提供了一種基于神經網絡的多標簽文本分類方法及裝置,適用于多層次的多標簽文本分類,并能夠在數據中學習到有效的特征表示,提高多標簽文本分類的準確性。
2、一種基于神經網絡的多標簽文本分類方法,包括:
3、采集多標簽文本數據形成訓練樣本;
4、對所述訓練樣本進行詞嵌入和標簽嵌入,分別獲得詞向量和標簽向量;
5、建立初始的cnn-bilstm-attention神經網絡模型,所述cnn-bilstm-attention神經網絡模型包括cnn層、bilstm層以及attention層;
6、對所述cnn-bilstm-attention神經網絡模型進行訓練:將所述詞向量輸入至所述cnn層進行局部特征提取,將所述詞向量以及提取的局部特征輸入至所述bilstm層進行處理獲得混合特征,將所述混合特征和標簽向量輸入至所述attention層進行處理,輸出分類概率;根據所述分類概率計算損失值并更新所述cnn-bilstm-attention神經網絡模型的參數,重復訓練步驟直到所述cnn-bilstm-attention神經網絡模型收斂;
7、接收待分類的文本數據并輸入至收斂后的cnn-bilstm-attention神經網絡模型,輸出分類結果。
8、進一步地,對所述訓練樣本進行詞嵌入和標簽嵌入,分別獲得詞向量和標簽向量,包括:
9、采用bert模型對所述訓練樣本中的文本進行編碼和分詞處理,獲得詞向量;
10、判斷所述訓練樣本中的標簽是否具有中文語義,若所述標簽不具備中文語義,則采用隨機生成器按照詞嵌入的維度生成隨機向量,對所述隨機向量進行歸一化處理獲得標簽向量;
11、若所述標簽具備中文語義,則根據所述訓練樣本建立包含文本和對應標簽的數據集,將所述數據集中的文本和標簽建立映射關系,生成包含目標標簽的子集,采用tf-idf算法對所述子集進行計算獲得目標標簽的標簽向量。
12、進一步地,采用tf-idf算法對所述子集進行計算獲得目標標簽的標簽向量,包括:
13、對所述子集中的每個文本的詞,計算詞頻和逆文檔頻率,根據所述詞頻和逆文檔頻率計算每個詞的權重,對所述權重進行排序,根據排序的權重選擇預設數量個與目標標簽最相關的重要詞;
14、對選出的重要詞進行詞嵌入,獲得多個重要詞嵌入向量;
15、對所述多個重要詞嵌入向量進行加權平均之后獲得目標標簽的標簽向量。
16、進一步地,將所述詞向量輸入至所述cnn層進行局部特征提取,包括:
17、將所述詞向量輸入至卷積層進行局部模式捕捉,生成特征圖;
18、通過激活層對所述特征圖進行非線性激活處理;
19、將經激活層處理后的特征圖發送至池化層進行下采樣,基于最大池化策略,將所述特征圖劃分為多個域,并將每個域輸出的最大值作為局部特征。
20、進一步地,所述bilstm層包括前向lstm單元、后向lstm單元、拼接單元以及highway層;所述局部特征包括局部上下文信息;
21、將所述詞向量以及提取的局部特征輸入至所述bilstm層進行處理獲得混合特征,包括:
22、將所述詞向量和局部特征均輸入至所述前向lstm單元和后向lstm單元;
23、所述前向lstm單元對所述詞向量和局部特征進行從左向右的特征捕捉,獲得包含上文語義信息的第一隱狀態向量,同時所述后向lstm單元對所述詞向量和局部特征進行從右向左的特征捕捉,獲得包含下文語義信息的第二隱狀態向量;
24、拼接單元將所述第一隱狀態向量和第二隱狀態向量在每個時間步上進行拼接,獲得全局融合特征;
25、將所述全局融合特征和所述詞向量輸入至highway層進行精細化處理,獲得所述混合特征。
26、進一步地,所述highway層包括第一輸入層、第二輸入層、線性變換層以及加權融合模塊;
27、將所述全局融合特征和所述詞向量輸入至highway層進行精細化處理,獲得所述混合特征,包括:
28、所述第一輸入層接收所述全局融合特征,并將所述融合特征發送至所述線性變換層;
29、所述線性變換層利用可訓練的權重對所述全局融合特征進行變換,獲得全局變換特征并發送至加權融合模塊;
30、所述第二輸入層用于接收所述詞向量并發送至所述加權融合模塊;
31、所述加權融合模塊利用可訓練的參數矩陣生成權重矩陣,并根據所述權重矩陣對所述全局變換特征和詞向量進行加權融合,獲得所述混合特征并輸出。
32、進一步地,將所述混合特征和標簽向量輸入至所述attention層進行處理,輸出分類概率,包括:
33、將所述混合特征和所述標簽向量分別進行線性變換,本文檔來自技高網...
【技術保護點】
1.一種基于神經網絡的多標簽文本分類方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,對所述訓練樣本進行詞嵌入和標簽嵌入,分別獲得詞向量和標簽向量,包括:
3.根據權利要求2所述的方法,其特征在于,采用TF-IDF算法對所述子集進行計算獲得目標標簽的標簽向量,包括:
4.根據權利要求1所述的方法,其特征在于,將所述詞向量輸入至所述CNN層進行局部特征提取,包括:
5.根據權利要求1所述的方法,其特征在于,所述BiLSTM層包括前向LSTM單元、后向LSTM單元、拼接單元以及Highway層;所述局部特征包括局部上下文信息;
6.根據權利要求5所述的方法,其特征在于,所述Highway層包括第一輸入層、第二輸入層、線性變換層以及加權融合模塊;
7.根據權利要求1所述的方法,其特征在于,將所述混合特征和標簽向量輸入至所述ATTENTION層進行處理,輸出分類概率,包括:
8.根據權利要求7所述的方法,其特征在于,所述attention權重通過以下公式進行計算:
9.一種基
10.一種電子設備,其特征在于,包括處理器和存儲裝置,所述存儲裝置存儲有多條指令,所述處理器用于讀取所述指令并執行如權利要求1-8任一所述的方法。
...【技術特征摘要】
1.一種基于神經網絡的多標簽文本分類方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,對所述訓練樣本進行詞嵌入和標簽嵌入,分別獲得詞向量和標簽向量,包括:
3.根據權利要求2所述的方法,其特征在于,采用tf-idf算法對所述子集進行計算獲得目標標簽的標簽向量,包括:
4.根據權利要求1所述的方法,其特征在于,將所述詞向量輸入至所述cnn層進行局部特征提取,包括:
5.根據權利要求1所述的方法,其特征在于,所述bilstm層包括前向lstm單元、后向lstm單元、拼接單元以及highway層;所述局部特征包括局部上下文信息;
...【專利技術屬性】
技術研發人員:廖小云,劉建戈,邵劍飛,王文韜,劉尚東,季一木,符瑞,徐興春,何菲,鞠玲,馮唯,劉黎,歐陽利劍,徐俊,
申請(專利權)人:國網江蘇省電力有限公司泰州供電分公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。