System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及文本信息處理領域,尤其涉及一種面向大規模英文專利文本的關鍵詞提取方法。
技術介紹
1、隨著科技創新的快速發展,專利成為保護專利技術創造、促進技術交流的重要手段,對專利文本進行深入分析,可以挖掘出有價值的技術情報,為企業研發和知識產權保護提供有力支持。
2、現有的專利關鍵詞提取方法主要分為無監督方法及有監督方法。無監督方法指不依賴于提前標注的標簽來提取關鍵詞的方法,有監督方法則指基于有標注的訓練數據集進行關鍵詞提取的方法。其中,有監督方法通常需要消耗大量的人力資源進行關鍵詞標注,尤其是在當今專利信息劇增的背景下,為應對專利侵權訴訟或進行專利申請,專業人員動輒需要挖掘上百乃至上千份專利文本,更有需要分析多達上萬份專利文本的數據挖掘任務,在這些面對大規模專利文本的任務上,人工進行關鍵詞標注的難度可想而知。
3、因此,在缺少專利文本關鍵詞標注資源的情況下,為了提取大量專利文本的關鍵詞,無監督方法更具可行性。然而,現有的許多無監督方法只考慮詞頻或詞的共現關系,無法結合文本的上下文語義進行關鍵詞提取,其效果往往差強人意。
技術實現思路
1、針對現有技術的不足,本專利技術提供了一種面向大規模英文專利文本的關鍵詞提取方法,解決了英文專利文本的關鍵詞提取方法只考慮詞頻或詞的共現關系,無法結合文本的上下文語義進行關鍵詞提取的問題。
2、為實現以上目的,本專利技術通過以下技術方案予以實現:一種面向大規模英文專利文本的關鍵詞提取方法,包括以下步驟:
...【技術保護點】
1.一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S01中的大規模英文專利文本包含超過十萬份英文專利文本,所述文本來自專利局或專利網站的公開數據,公開數據以結構性文件形式存儲,結構性文件中包含專利標題與摘要,專利標題與摘要構成的非結構性文本即為所述大規模英文專利文本。
3.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S02中的專利文本預處理過程,包括對專利文本進行分詞、去除停用詞及去除標點符號。
4.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S02中的詞匯集合包括原專利文本的單詞集合與二元組集合,所述二元組集合中的二元組為文本中的任意兩個單詞的組合。
5.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S03中的TF-IDF用于做詞頻和逆文檔統計,通過TFIDF值的排序,得到TF-IDF得分前N的關鍵詞候
6.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S03中的TF-IDF算法的計算公式為:
7.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S04中所用的大語言模型為一種基于深度學習的自然語言處理模型gpt-4omini,所述自然語言處理模型根據用戶提出的要求,結合上下文內容對關鍵詞候選集進行進一步過濾,排除基于詞頻的方法篩選出的無意義詞匯。
8.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S04中所述的最終關鍵詞集合,其包含的詞匯全部來源于所述步驟S03生成的關鍵詞候選集。
9.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S04的輸入為大規模英文專利文本中的專利文本,以及與當前文本對應的關鍵詞候選集。
10.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S04的輸出為大規模英文專利文本中每份文本的最終關鍵詞集合。
...【技術特征摘要】
1.一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:包括以下步驟:
2.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟s01中的大規模英文專利文本包含超過十萬份英文專利文本,所述文本來自專利局或專利網站的公開數據,公開數據以結構性文件形式存儲,結構性文件中包含專利標題與摘要,專利標題與摘要構成的非結構性文本即為所述大規模英文專利文本。
3.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟s02中的專利文本預處理過程,包括對專利文本進行分詞、去除停用詞及去除標點符號。
4.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟s02中的詞匯集合包括原專利文本的單詞集合與二元組集合,所述二元組集合中的二元組為文本中的任意兩個單詞的組合。
5.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟s03中的tf-idf用于做詞頻和逆文檔統計,通過tfidf值的排序,得到tf-idf得分前n的關鍵詞候選詞,再將關鍵詞候選詞與二元組轉換為全小寫,去除重復二...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。