System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲AV永久无码天堂影院,国产V片在线播放免费无码,中文字幕无码日韩专区
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>
    當前位置: 首頁 > 專利查詢>復旦大學專利>正文

    一種面向大規模英文專利文本的關鍵詞提取方法技術

    技術編號:44432729 閱讀:3 留言:0更新日期:2025-02-28 18:44
    本發明專利技術涉及文本信息處理領域,公開了一種面向大規模英文專利文本的關鍵詞提取方法,包括以下步驟:S01、輸入大規模英文專利文本;S02、對大規模英文專利文本進行預處理,獲取包含單詞和二元組的詞匯集合;S03、基于TF?IDF算法對預處理后的專利文本進行初步關鍵詞篩選,生成每份文本的關鍵詞候選集;S04、調用大語言模型,對關鍵詞候選集進行優化篩選,結合英文專利文本的上下文語義,確定每份文本的最終關鍵詞集合。本發明專利技術中,在專利文本預處理階段以及收集單詞關鍵詞的同時,生成二元組集合作為候選關鍵詞,通過TF?IDF算法篩選出關鍵詞候選集,再調用大語言模型進行進一步優化,能有效排除無關詞匯,并解決英文多義詞釋義問題,從而有效提升大規模英文專利文本關鍵詞提取的效率和準確性。

    【技術實現步驟摘要】

    本專利技術涉及文本信息處理領域,尤其涉及一種面向大規模英文專利文本的關鍵詞提取方法


    技術介紹

    1、隨著科技創新的快速發展,專利成為保護專利技術創造、促進技術交流的重要手段,對專利文本進行深入分析,可以挖掘出有價值的技術情報,為企業研發和知識產權保護提供有力支持。

    2、現有的專利關鍵詞提取方法主要分為無監督方法及有監督方法。無監督方法指不依賴于提前標注的標簽來提取關鍵詞的方法,有監督方法則指基于有標注的訓練數據集進行關鍵詞提取的方法。其中,有監督方法通常需要消耗大量的人力資源進行關鍵詞標注,尤其是在當今專利信息劇增的背景下,為應對專利侵權訴訟或進行專利申請,專業人員動輒需要挖掘上百乃至上千份專利文本,更有需要分析多達上萬份專利文本的數據挖掘任務,在這些面對大規模專利文本的任務上,人工進行關鍵詞標注的難度可想而知。

    3、因此,在缺少專利文本關鍵詞標注資源的情況下,為了提取大量專利文本的關鍵詞,無監督方法更具可行性。然而,現有的許多無監督方法只考慮詞頻或詞的共現關系,無法結合文本的上下文語義進行關鍵詞提取,其效果往往差強人意。


    技術實現思路

    1、針對現有技術的不足,本專利技術提供了一種面向大規模英文專利文本的關鍵詞提取方法,解決了英文專利文本的關鍵詞提取方法只考慮詞頻或詞的共現關系,無法結合文本的上下文語義進行關鍵詞提取的問題。

    2、為實現以上目的,本專利技術通過以下技術方案予以實現:一種面向大規模英文專利文本的關鍵詞提取方法,包括以下步驟:

    3、s01、輸入大規模英文專利文本;

    4、s02、對大規模英文專利文本進行預處理,獲取包含單詞和二元組的詞匯集合;

    5、s03、基于tf-idf算法對預處理后的專利文本進行初步關鍵詞篩選,生成每份文本的關鍵詞候選集;

    6、s04、調用大語言模型,對關鍵詞候選集進行優化篩選,結合英文專利文本的上下文語義,確定每份文本的最終關鍵詞集合。

    7、優選的,所述步驟s01中的大規模英文專利文本包含超過十萬份英文專利文本,所述文本來自專利局或專利網站的公開數據,公開數據以結構性文件形式存儲,結構性文件中包含專利標題與摘要,專利標題與摘要構成的非結構性文本即為所述大規模英文專利文本。

    8、優選的,所述步驟s02中的專利文本預處理過程,包括對專利文本進行分詞、去除停用詞及去除標點符號。

    9、優選的,所述步驟s02中的詞匯集合包括原專利文本的單詞集合與二元組集合,所述二元組集合中的二元組為文本中的任意兩個單詞的組合。

    10、優選的,所述步驟s03中的tfidf用于做詞頻和逆文檔統計,通過tf-idf值的排序,得到tfidf得分前n的關鍵詞候選詞,再將關鍵詞候選詞與二元組轉換為全小寫,去除重復二元組,并去除已包含在二元組中的關鍵詞候選詞,得到所述關鍵詞候選集。

    11、優選的,所述步驟s03中的tf-idf算法的計算公式為:

    12、tf-idfi,j=tfi,j×idfi,j????(1)

    13、其中,tfi,j表示詞頻,idfi,j表示逆文檔頻率,二者計算公式如下所示:

    14、

    15、上式中,tfi,j表示詞條i在文檔j中出現的頻率,ni,j表示詞條i在文檔j中出現的次數,nk,j表示詞條k在文檔j中出現的次數,∑knk,j表示文檔j中所有詞條出現次數的總和。

    16、

    17、上式中,d是所有文檔的數量總和;|{j:ti∈d}|是整個文檔集d中,包含詞條tj的文檔數。

    18、tf-idf值越高,表明該詞在文中出現的頻率較高,同時在其他文檔中出現的次數較少,因而更能突出該文檔的特征或關鍵內容。

    19、優選的,所述步驟s04中所用的大語言模型為一種基于深度學習的自然語言處理模型gpt-4omini,所述自然語言處理模型根據用戶提出的要求,結合上下文內容對關鍵詞候選集進行進一步過濾,排除基于詞頻的方法篩選出的無意義詞匯,在專利文本預處理階段以及收集單詞關鍵詞的同時,生成二元組集合作為候選關鍵詞;隨后,結合詞匯集合與二元組集合,通過tf-idf算法篩選出關鍵詞候選集,再調用大語言模型進行進一步優化,能有效排除無關詞匯,并解決英文多義詞釋義問題。

    20、優選的,所述步驟s04中所述的最終關鍵詞集合,其包含的詞匯全部來源于所述步驟s03生成的關鍵詞候選集。

    21、優選的,所述步驟s04的輸入為大規模英文專利文本中的專利文本,以及與當前文本對應的關鍵詞候選集。

    22、優選的,所述步驟s04的輸出為大規模英文專利文本中每份文本的最終關鍵詞集合。

    23、有益效果

    24、本專利技術提供了一種面向大規模英文專利文本的關鍵詞提取方法。與現有技術相比具備以下有益效果:

    25、1、本專利技術中,通過結合tf-idf算法和大語言模型的無監督關鍵詞提取方法,在專利文本預處理階段以及收集單詞關鍵詞的同時,生成二元組集合作為候選關鍵詞;隨后,結合詞匯集合與二元組集合,通過tf-idf算法篩選出關鍵詞候選集,再調用大語言模型進行進一步優化,能有效排除無關詞匯,并解決英文多義詞釋義問題,從而有效提升大規模英文專利文本關鍵詞提取的效率和準確性。該方法適用于處理超過十萬份專利文本的批量操作,可確保關鍵詞提取的相關性和精準性,為專利信息檢索提供了更強的支持和便利。

    26、2、本專利技術中,通過結合大語言模型和tf-idf算法對大規模英文專利文本進行處理,能夠有效提升關鍵詞提取的效率和準確性。該方法首先輸入大規模英文專利文本;其次對大規模英文專利文本進行預處理,獲取包含單詞和二元組的詞匯集合;然后,基于tfidf算法對預處理后的專利文本進行初步關鍵詞篩選,生成每份文本的關鍵詞候選集;最后,調用大語言模型,對關鍵詞候選集進行優化篩選,結合英文專利文本的上下文語義,確定每份文本的最終關鍵詞集合。該方法可處理多達數十萬個專利文本,解決了傳統方法中詞頻統計帶來的無效詞匯問題,同時提高了多義詞釋義的準確性。

    本文檔來自技高網
    ...

    【技術保護點】

    1.一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:包括以下步驟:

    2.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S01中的大規模英文專利文本包含超過十萬份英文專利文本,所述文本來自專利局或專利網站的公開數據,公開數據以結構性文件形式存儲,結構性文件中包含專利標題與摘要,專利標題與摘要構成的非結構性文本即為所述大規模英文專利文本。

    3.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S02中的專利文本預處理過程,包括對專利文本進行分詞、去除停用詞及去除標點符號。

    4.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S02中的詞匯集合包括原專利文本的單詞集合與二元組集合,所述二元組集合中的二元組為文本中的任意兩個單詞的組合。

    5.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S03中的TF-IDF用于做詞頻和逆文檔統計,通過TFIDF值的排序,得到TF-IDF得分前N的關鍵詞候選詞,再將關鍵詞候選詞與二元組轉換為全小寫,去除重復二元組,并去除已包含在二元組中的關鍵詞候選詞,得到所述關鍵詞候選集。

    6.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S03中的TF-IDF算法的計算公式為:

    7.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S04中所用的大語言模型為一種基于深度學習的自然語言處理模型gpt-4omini,所述自然語言處理模型根據用戶提出的要求,結合上下文內容對關鍵詞候選集進行進一步過濾,排除基于詞頻的方法篩選出的無意義詞匯。

    8.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S04中所述的最終關鍵詞集合,其包含的詞匯全部來源于所述步驟S03生成的關鍵詞候選集。

    9.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S04的輸入為大規模英文專利文本中的專利文本,以及與當前文本對應的關鍵詞候選集。

    10.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟S04的輸出為大規模英文專利文本中每份文本的最終關鍵詞集合。

    ...

    【技術特征摘要】

    1.一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:包括以下步驟:

    2.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟s01中的大規模英文專利文本包含超過十萬份英文專利文本,所述文本來自專利局或專利網站的公開數據,公開數據以結構性文件形式存儲,結構性文件中包含專利標題與摘要,專利標題與摘要構成的非結構性文本即為所述大規模英文專利文本。

    3.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟s02中的專利文本預處理過程,包括對專利文本進行分詞、去除停用詞及去除標點符號。

    4.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟s02中的詞匯集合包括原專利文本的單詞集合與二元組集合,所述二元組集合中的二元組為文本中的任意兩個單詞的組合。

    5.根據權利要求1所述的一種面向大規模英文專利文本的關鍵詞提取方法,其特征在于:所述步驟s03中的tf-idf用于做詞頻和逆文檔統計,通過tfidf值的排序,得到tf-idf得分前n的關鍵詞候選詞,再將關鍵詞候選詞與二元組轉換為全小寫,去除重復二...

    【專利技術屬性】
    技術研發人員:牟堯佳朱國牛甘中學
    申請(專利權)人:復旦大學
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码日韩精品一区二区三区免费| 亚洲精品无码久久久| 日韩乱码人妻无码系列中文字幕| 亚洲A∨无码无在线观看| 综合无码一区二区三区四区五区| 久久精品日韩av无码| 亚洲一区AV无码少妇电影☆| 无码中文字幕av免费放| 日韩国产成人无码av毛片| 小泽玛丽无码视频一区| 亚洲AV无码乱码在线观看代蜜桃| 国产a v无码专区亚洲av| JAVA性无码HD中文| 少妇人妻偷人精品无码视频新浪| 国产综合无码一区二区色蜜蜜 | 无码少妇一区二区| 永久免费无码网站在线观看个| 亚洲av午夜精品无码专区| 亚洲爆乳精品无码一区二区三区| 国产精品无码翘臀在线观看| 免费无码中文字幕A级毛片| 永久免费AV无码网站国产| YW尤物AV无码国产在线观看| 曰韩无码二三区中文字幕| 久久精品无码中文字幕| 亚洲av成人中文无码专区| 亚洲中文字幕无码中文字| 50岁人妻丰满熟妇αv无码区| 18禁超污无遮挡无码免费网站| 狠狠躁狠狠爱免费视频无码 | 色综合久久久无码中文字幕波多| 麻豆国产精品无码视频| 小SAO货水好多真紧H无码视频| 一本无码中文字幕在线观| 国产乱子伦精品无码码专区| 国产激情无码一区二区app| 无码专区中文字幕无码| 中文字幕无码视频手机免费看| 无码精品尤物一区二区三区| 日韩av无码国产精品| 国产精品无码一区二区三区免费|