基于BERT模型和TF-IDF加權的文本特征數據處理方法與系統技術方案

技術編號：44492186 閱讀：4 留言：0更新日期：2025-03-04 17:57

本發明專利技術屬于數據智能處理技術領域，具體涉及基于BERT模型和TF?IDF加權的文本特征數據處理方法與系統，該方法首先獲取目標領域文本的待分析數據，并利用jieba庫進行分詞、移除停用詞和統一文本格式等預處理。隨后，構建效果詞典，包括初始效果詞詞典的構建、詞典擴充和人工檢查與標注。在特征提取階段，計算TF?IDF值以評估文檔中詞語的重要性。創新性評分環節，通過正則表達式匹配效果詞，并利用大語言模型進行二次判斷，對共同效果詞進行二次賦權，最終基于TF?IDF值對目標領域文本的創新性進行評分。該方法結合了BERT模型的深度語義理解與TF?IDF的文本統計特性，提高了目標領域文本創新性評估的準確性和效率。

全部詳細技術資料下載

【技術實現步驟摘要】

本專利技術屬于數據智能處理，具體涉及基于bert模型和tf-idf加權的文本特征數據處理方法與系統。

技術介紹

1、在當前的科技創新環境中，企業的專利數量和質量是衡量其創新能力的重要指標。然而，傳統的人工評估方式不僅耗時耗力，而且評估結果易受主觀因素影響，難以保證準確性和一致性。隨著自然語言處理技術的發展，特別是bert等預訓練語言模型和tf-idf等文本特征提取方法的出現，為專利創新性評估提供了新的技術手段。

2、盡管現有技術中存在一些基于自然語言處理的專利分析工具，但這些工具往往只關注專利文本的簡單統計特征或關鍵詞匹配，缺乏深入的語義理解和綜合性的評估模型，導致評估結果不夠準確和全面。因此，有必要開發一種結合bert模型和tf-idf加權評分的創新性評估系統與方法，以實現對專利摘要的創新性進行更為準確和高效的評估。

技術實現思路

1、本專利技術的目的就在于提供基于bert模型和tf-idf加權的文本特征數據處理方法與系統，以解決
技術介紹
中提出的問題。

2、本專利技術通過以下技術方案來實現上述目的：

3、第一方面、本專利技術提出了基于bert模型和tf-idf加權的文本特征數據處理方法，所述方法包括：

4、獲取目標領域文本的待分析文本數據；

5、對所述待分析文本數據進行分詞、移除停用詞和統一文本格式的預處理，以生成待處理文本數據；

6、將所述待處理文本數據輸入至預先構建的效果詞典中進行效果詞匹配和評估之后，利

7、其中，所述預先構建的效果詞典包括初始效果詞、共現分析得到的詞語、詞向量模型得到的近義詞以及新標注的詞語的效果詞典。

8、進一步的，所述對所述待分析文本數據進行分詞、移除停用詞和統一文本格式的預處理，包括：

9、使用jieba庫對所述待分析文本數據進行分詞；

10、準備停用詞表，包括常見的連詞、介詞等，使用jieba分詞并過濾停用詞；

11、清理標點符號以及無效的字符，保留有助于分析的字符。

12、進一步的，所述預先構建的效果詞典包括初始效果詞、共現分析得到的詞語、詞向量模型得到的近義詞以及新標注的詞語的效果詞典，包括：

13、構建并優化描述目標領域文本內效果的關鍵詞匯詞典，包括初始效果詞詞典的構建、詞典擴充以及融合詞典后的人工檢查與標注；

14、所述詞典擴充具體通過共現分析、訓練詞向量模型以及使用bert模型進行詞語的上下文分析來實現；

15、所述共現分析包括收集語料庫、計算共現頻次和篩選共現詞；

16、所述訓練詞向量模型包括使用transformers庫加載預訓練的bert模型將每個詞語轉化為向量表示，并計算語義相似度，上下文分析包括構造包含初始效果詞的句子；

17、所述使用bert模型對包含初始效果詞的句子進行編碼，獲取詞語的上下文表示，進而分析上下文表示，識別詞語在不同上下文中的含義變化，為初始效果詞添加新的標注信息。

18、進一步的，所述共現分析具體包括以下步驟：

19、收集語料庫，并對語料庫中的文本進行分詞處理；

20、對于每個初始效果詞，統計其在設定個數的詞語窗口范圍內與其它詞語共同出現的次數，創建一個共現矩陣，記錄每個詞語對的共現頻次；

21、設定閾值，篩選出共現頻次高于閾值的詞語作為潛在的效果詞候選。

22、進一步的，所述訓練詞向量模型具體包括以下步驟：

23、使用transformers庫加載預訓練的bert模型，將每個詞語轉化為向量表示；

24、對每個初始效果詞，計算其與詞典中其他所有詞語的余弦相似度，將相似度結果進行排序，選擇相似度最高的n個詞語作為近義詞。

25、進一步的，所述將所述待處理文本數據輸入至預先構建的效果詞典中進行效果詞匹配和評估，包括：

26、計算待處理文本數據中每個詞語的tf-idf值；

27、根據效果詞典中的詞語在待處理文本數據中的位置和tf-idf值進行效果詞匹配和評分。

28、進一步的，所述利用大語言模型對匹配到的效果詞進行二次判斷和二次賦權，生成所述目標領域文本的文本特征數據處理結果，包括：

29、根據效果詞典中的詞語，構建正則表達式匹配模式，在待處理文本數據中對效果詞進行定位；

30、將包含效果詞的語句輸入到大語言模型進行二次判斷，得到推理效果詞；

31、將大語言模型輸出的推理效果詞與通過正則表達式匹配到的效果詞進行對比，對同時存在于推理結果與匹配結果的效果詞進行二次賦權；

32、以tf-idf值為基礎，結合二次賦權后的效果詞得分，對單個目標領域文本創新性進行評分。

33、進一步的，所述二次賦權的得分計算方式為：

34、設定賦權系數α，對于每個共同效果詞tcommonk，效果詞得分計算為原tf-idf值乘以賦權系數α。

35、進一步的，所述對單個目標領域文本創新性進行評具體根據以下公式計算：

36、文本摘要d，包含t個效果詞{t1,t2,…,tm}，目標領域文本的創新性評分為：

37、

38、其中，fcommoni是共同效果詞tcommoni在待分析數據d中出現的次數；fnon-commonj是非共同效果詞tnon-commonj出現的次數；m是正則表達式匹配到的效果詞總數，k是共同效果詞的數量，m-k是非共同效果詞的數量。

39、第二方面、本專利技術提出了基于bert模型和tf-idf加權的文本特征數據處理系統，其特征在于，應用于執行上述任一項所述數據處理方法，系統包括：

40、數據獲取模塊，用于獲取目標領域文本的待分析文本數據；

41、數據預處理模塊，用于對所述待分析文本數據進行分詞、移除停用詞和統一文本格式的預處理，以生成待處理文本數據；

42、匹配分析模塊，用于將所述待處理文本數據輸入至預先構建的效果詞典中進行效果詞匹配和評估之后，利用大語言模型對匹配到的效果詞進行二次判斷和二次賦權，生成所述目標領域文本的文本特征數據處理結果；

43、其中，所述預先構建的效果詞典包括初始效果詞、共現分析得到的詞語、詞向量模型得到的近義詞以及新標注的詞語的效果詞典。

44、本專利技術的有益效果在于：

45、1.本專利技術通過結合bert模型和tf-idf加權評分，能夠深入挖掘文本中的關鍵效果詞，并準確評估其重要性。bert模型的應用使得對詞語上下文的理解更為深刻，有效避免了傳統方法中因簡單匹配或統計而導致的誤判。通過構建包含初始效果詞、共現分析詞語、詞向量模型近義詞以及新標注詞語的增強效果詞典，本方法涵蓋了更廣泛的效果詞范圍，提高了評估的全面性。

4本文檔來自技高網...

【技術保護點】

1.基于BERT模型和TF-IDF加權的文本特征數據處理方法，其特征在于，所述方法包括：

2.根據權利要求1所述的基于BERT模型和TF-IDF加權的文本特征數據處理方法，其特征在于：所述對所述待分析文本數據進行分詞、移除停用詞和統一文本格式的預處理，包括：

3.根據權利要求1所述的基于BERT模型和TF-IDF加權的文本特征數據處理方法，其特征在于：所述預先構建的效果詞典包括初始效果詞、共現分析得到的詞語、詞向量模型得到的近義詞以及新標注的詞語的效果詞典，包括：

4.根據權利要求3所述的基于BERT模型和TF-IDF加權的文本特征數據處理方法，其特征在于：所述共現分析具體包括以下步驟：

5.根據權利要求3所述的基于BERT模型和TF-IDF加權的文本特征數據處理方法，其特征在于：所述訓練詞向量模型具體包括以下步驟：

6.根據權利要求1所述的基于BERT模型和TF-IDF加權的文本特征數據處理方法，其特征在于：所述將所述待處理文本數據輸入至預先構建的效果詞典中進行效果詞匹配和評估，包括：

7.根據權利要求6所

8.根據權利要求7所述的基于BERT模型和TF-IDF加權的文本特征數據處理方法，其特征在于：所述二次賦權的得分計算方式為：

9.根據權利要求8所述的基于BERT模型和TF-IDF加權的文本特征數據處理方法，其特征在于：所述對單個目標領域文本創新性進行評具體根據以下公式計算：

10.基于BERT模型和TF-IDF加權的文本特征數據處理系統，其特征在于，應用于執行權利要求1-9任一項所述數據處理方法，系統包括：

...

【技術特征摘要】

1.基于bert模型和tf-idf加權的文本特征數據處理方法，其特征在于，所述方法包括：

2.根據權利要求1所述的基于bert模型和tf-idf加權的文本特征數據處理方法，其特征在于：所述對所述待分析文本數據進行分詞、移除停用詞和統一文本格式的預處理，包括：

3.根據權利要求1所述的基于bert模型和tf-idf加權的文本特征數據處理方法，其特征在于：所述預先構建的效果詞典包括初始效果詞、共現分析得到的詞語、詞向量模型得到的近義詞以及新標注的詞語的效果詞典，包括：

4.根據權利要求3所述的基于bert模型和tf-idf加權的文本特征數據處理方法，其特征在于：所述共現分析具體包括以下步驟：

5.根據權利要求3所述的基于bert模型和tf-idf加權的文本特征數據處理方法，其特征在于：所述訓練詞向量模型具體包括以下步驟：

6.根據權利要求1所述的基...

【專利技術屬性】
技術研發人員：陳波，譚馨蕊，
申請(專利權)人：合肥工業大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術