文本特定信息識別判定方法技術

技術編號：44432660 閱讀：3 留言：0更新日期：2025-02-28 18:44

本發明專利技術涉及互聯網文本內容識別領域，尤其涉及一種文本特定信息識別判定方法，包括以下步驟：(S1)獲取文本數據并進行預處理和分詞，通過改進的哈希算法計算每個詞語的哈希值，形成詞典，利用多層次時間序列模型，計算短期和長期頻率，識別異常高頻詞語作為潛在新詞候選詞，并將其映射到高維向量空間，生成綜合語義向量；(S2)使用綜合語義向量構建上下文語義圖模型，分析詞語的上下文兼容性，構建多任務學習情感分析模型，分別計算情感得分和特定領域相關性得分，通過綜合計算各個得分，得到每個候選詞的總置信度，識別出潛在的新詞，本發明專利技術可以提高對隱蔽違法違規內容的識別能力以及識別判定特定文本信息的可靠性。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術涉及互聯網文本內容識別領域，尤其涉及一種文本特定信息識別判定方法。

技術介紹

1、隨著互聯網的普及和發展，社交媒體對人們日常生活中的信息傳播起著很大作用，大量網絡新詞也借助著這些社交媒體被廣泛傳播。網絡新詞有的是對社會熱點現象的歸納總結，而有的卻是特定詞匯的相似替代。由于網絡新詞沒有被完全發掘會導致分詞錯誤，而且分詞效果的好壞會直接影響文本分析效果。

2、現有技術至少存在如下技術問題：現有技術容易導致分詞錯誤，影響后續的分析效果，無法全面捕捉詞語在短期和長期內的頻率差異，導致異常高頻詞語識別不準確；缺乏對詞語上下文信息、段落信息和全文信息的綜合考慮，導致對詞語語義信息的捕捉不夠全面，影響新詞識別的準確性；無法動態捕捉詞語在不同上下文中的表現，導致多義詞消歧效果不佳，新詞識別的可靠性和準確性較低。

技術實現思路

1、為了克服現有技術中存在的不足，本專利技術提供一種文本特定信息識別判定方法。

2、為實現上述目的，本專利技術公開的一種文本特定信息識別判定方法，包括以下步驟：

3、(s1)獲取文本數據并進行預處理和分詞，通過改進的哈希算法計算每個詞語的哈希值，形成詞典，利用多層次時間序列模型，計算短期和長期頻率，識別異常高頻詞語作為潛在新詞候選詞，并將其映射到高維向量空間，生成綜合語義向量；

4、(s2)使用綜合語義向量構建上下文語義圖模型，分析詞語的上下文兼容性，構建多任務學習情感分析模型，分別計算情感得分和特定領域相關性得分，通

5、優選的，在步驟(s1)中，使用改進的哈希算法對文本數據進行分詞處理，改進的哈希算法通過增加詞語的權重和位置參數，提高分詞的準確性，將具有相同哈希值的單詞或詞組聚集在一起，形成詞典；通過改進后的哈希算法計算哈希值的公式如下所示：

6、

7、其中，h(wi)表示第i個詞語wi的哈希值，s為詞語長度，cs為第s個位置的權重，ps(wi)第i個詞語wi在第s個位置的字符的哈希值，m為哈希表的大小。

8、優選的，在步驟(s1)中，在得到詞典后，統計每個詞語的出現頻率；為了捕捉詞語在時間上的變化，構建多層次時間序列模型，通過短期和長期內的詞頻變化來識別異常高頻詞語；短期頻率fs(wi，t)和長期頻率fl(wi，t)的計算方法如下所示：

9、

10、其中，fs(wi，t)和fl(wi，t)分別表示詞語wi在短期和長期時間t的頻率，ns(t)和nl(t)為短期和長期內的文本總數，δ(wi，wk)為指示函數，當wi＝wk時取1，否則取0，ωs和ωl為頻率，φs和φl為相位偏移。

11、優選的，在步驟(s1)中，計算詞語在短期和長期內的頻率差異，以識別異常高頻的變化，對頻率差異進行標準化處理，設定一個閾值，如果標準化后的頻率差異超過閾值，則認為當前詞語在時間t內出現了異常高頻現象，將所有滿足條件的詞語作為異常高頻詞語輸出，從而識別出在特定時間段內出現異常高頻的詞語，作為潛在的新詞候選詞。

12、優選的，在步驟(s1)中，通過映射函數將上下文信息和段落/全文信息映射到低維向量空間，得到語義向量表示；通過一個多層感知器，將低維向量進一步處理，生成高維的綜合語義向量，如下所示：

13、

14、其中，為詞語wi的綜合向量表示，α1j表示上下文詞語的嵌入向量在綜合語義向量中的權重，β1j和γ1j分別是上下文詞語的嵌入向量在通過tanh激活函數前的線性變換系數和偏置，α2表示段落嵌入向量在綜合語義向量中的權重，β2和γ2分別表示段落嵌入向量在通過relu激活函數前的線性變換系數和偏置，α3是全文嵌入向量在綜合語義向量中的權重，β3和γ3分別表示全文嵌入向量在通過relu激活函數前的線性變換系數和偏置。

15、優選的，在步驟(s2)中，潛在新詞集群中的每個詞語及其上下文信息將用于生成語義圖的節點和邊，構建改進的上下文語義圖模型，分析詞語在多層上下文中的兼容性；上下文語義圖模型考慮了句子、段落和全文的語義關系，能夠更全面地分析詞語在不同上下文中的表現；采用自監督學習的圖卷積網絡對語義圖進行節點嵌入，進行多義詞消歧。

16、優選的，在步驟(s2)中，構建多任務學習情感分析模型，同時進行情感分類和特定領域相關性判定；多任務學習模型整合了綜合向量表示信息，能夠更準確地分析詞語及其上下文的情感傾向；通過交叉熵損失函數優化情感分析模型，計算詞語及其上下文的情感得分和特定領域相關性判定結果。

17、通過如下公式計算詞語及上下文的情感得分：

18、

19、通過如下公式計算詞語及上下文的特定領域相關性得分：

20、

21、上式中，sem(wi)表示詞語wi的情感得分，sha(wi)表示詞語wi的特定領域相關性得分，λp和θp為第p個情感分類器的情感分析參數，λq和θq為第q個特定領域相關性分類器的特定領域相關性判定參數，σ為激活函數，和分別為情感和特定領域相關性分類器的權重向量，p和q為分類器數量，為詞語wi的綜合向量表示。

22、優選的，通過綜合置信度公式，可以整合多層次、多階段的分析結果，將短期頻率和長期頻率的平均值作為詞語的頻率得分，再結合詞語的上下文兼容性得分、情感得分、特定領域相關性得分以及具有相同數量級的梯度范數，從而得到每個候選詞的總置信度；每個候選詞的總置信度如下所示：

23、

24、上式中，ctotal(wi)表示詞語wi的綜合置信度，η1、η2、η3、η4、η5為加權系數，通過訓練數據優化得到，表示詞語wi在向量空間的梯度范數，scp(wi)表示詞語wi的上下文兼容性得分，sem(wi)表示詞語wi的情感得分，sha(wi)表示詞語wi的特定領域相關性得分。

25、本專利技術具有以下技術效果：

26、1、通過使用改進的哈希算法進行分詞處理，提高了詞語分割的準確性，從而增強了文本預處理的效果；分詞后的詞語通過多層次時間序列模型進行頻率分析，能夠準確識別異常高頻詞語，作為潛在的新詞候選詞；引入了多層次文本融合方法，將異常高頻詞語的上下文信息、段落信息和全文信息映射到高維向量空間，生成綜合語義向量；

27、2、對高維空間中的語義向量進行聚類，識別潛在的新詞集群；通過構建改進的上下文語義圖模型，分析詞語在多層上下文中的兼容性，利用自監督學習的圖卷積網絡進行節點嵌入和多義詞消歧；上下文兼容性分析能夠更全面地識別出那些與上下文不兼容的潛在新詞，進一步提高了識別的準確性。

28、3、通過構建多任務學習情感分析模型，同時進行情感分類和特定領域相關性判定，多任務學習模型整合了綜合向量表示的信息，能夠更準確地分析詞語及其上下文的情感傾向和特定領域相關性；情感分析和特定領域相關性判定的結果在綜合置信度計算中得到有效應用，提高了對特定領域內容的識別能力本文檔來自技高網...

【技術保護點】

1.一種文本特定信息識別判定方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的文本特定信息識別判定方法，其特征在于，在步驟(S1)中，使用改進的哈希算法對文本數據進行分詞處理，改進的哈希算法通過增加詞語的權重和位置參數，提高分詞的準確性，將具有相同哈希值的單詞或詞組聚集在一起，形成詞典；通過改進后的哈希算法計算哈希值的公式如下所示：

3.根據權利要求1所述的文本特定信息識別判定方法，其特征在于，在步驟(S1)中，在得到詞典后，統計每個詞語的出現頻率；為了捕捉詞語在時間上的變化，構建多層次時間序列模型，通過短期和長期內的詞頻變化來識別異常高頻詞語；短期頻率Fs(wi，t)和長期頻率Fl(wi，t)的計算方法如下所示：

4.根據權利要求1所述的文本特定信息識別判定方法，其特征在于，在步驟(S1)中，計算詞語在短期和長期內的頻率差異，以識別異常高頻的變化，對頻率差異進行標準化處理，設定一個閾值，如果標準化后的頻率差異超過閾值，則認為當前詞語在時間t內出現了異常高頻現象，將所有滿足條件的詞語作為異常高頻詞語輸出，從而識別出在特定時間段內出現異常

5.根據權利要求1所述的文本特定信息識別判定方法，其特征在于，在步驟(S1)中，通過映射函數將上下文信息和段落/全文信息映射到低維向量空間，得到語義向量表示；通過一個多層感知器，將低維向量進一步處理，生成高維的綜合語義向量，如下所示：

6.根據權利要求1所述的文本特定信息識別判定方法，其特征在于，在步驟(S2)中，潛在新詞集群中的每個詞語及其上下文信息將用于生成語義圖的節點和邊，構建改進的上下文語義圖模型，分析詞語在多層上下文中的兼容性；上下文語義圖模型考慮了句子、段落和全文的語義關系，能夠更全面地分析詞語在不同上下文中的表現；采用自監督學習的圖卷積網絡對語義圖進行節點嵌入，進行多義詞消歧。

7.根據權利要求1所述的文本特定信息識別判定方法，其特征在于，在步驟(S2)中，構建多任務學習情感分析模型，同時進行情感分類和特定領域相關性判定；多任務學習模型整合了綜合向量表示信息，能夠更準確地分析詞語及其上下文的情感傾向；通過交叉熵損失函數優化情感分析模型，計算詞語及其上下文的情感得分和特定領域相關性判定結果；

8.根據權利要求1所述的文本特定信息識別判定方法，其特征在于，通過綜合置信度公式，可以整合多層次、多階段的分析結果，將短期頻率和長期頻率的平均值作為詞語的頻率得分，再結合詞語的上下文兼容性得分、情感得分、特定領域相關性得分以及具有相同數量級的梯度范數，從而得到每個候選詞的總置信度；每個候選詞的總置信度如下所示：

...

【技術特征摘要】

1.一種文本特定信息識別判定方法，其特征在于，包括以下步驟：

2.根據權利要求1所述的文本特定信息識別判定方法，其特征在于，在步驟(s1)中，使用改進的哈希算法對文本數據進行分詞處理，改進的哈希算法通過增加詞語的權重和位置參數，提高分詞的準確性，將具有相同哈希值的單詞或詞組聚集在一起，形成詞典；通過改進后的哈希算法計算哈希值的公式如下所示：

3.根據權利要求1所述的文本特定信息識別判定方法，其特征在于，在步驟(s1)中，在得到詞典后，統計每個詞語的出現頻率；為了捕捉詞語在時間上的變化，構建多層次時間序列模型，通過短期和長期內的詞頻變化來識別異常高頻詞語；短期頻率fs(wi，t)和長期頻率fl(wi，t)的計算方法如下所示：

4.根據權利要求1所述的文本特定信息識別判定方法，其特征在于，在步驟(s1)中，計算詞語在短期和長期內的頻率差異，以識別異常高頻的變化，對頻率差異進行標準化處理，設定一個閾值，如果標準化后的頻率差異超過閾值，則認為當前詞語在時間t內出現了異常高頻現象，將所有滿足條件的詞語作為異常高頻詞語輸出，從而識別出在特定時間段內出現異常高頻的詞語，作為潛在的新詞候選詞。

5.根據權利要求1所述的文本特定信息識別判定方法，其特征在于，在步驟(s1)中，通過映射函數將上下文信息和段落/...

【專利技術屬性】
技術研發人員：肖源浩，何揚，許凌筠，
申請(專利權)人：國家計算機網絡與信息安全管理中心，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術