System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 无码人妻精品一区二区蜜桃网站,人妻丰满熟妇aⅴ无码,一本大道久久东京热无码AV
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于大語言模型的術語識別方法及系統技術方案

    技術編號:44330775 閱讀:9 留言:0更新日期:2025-02-18 20:38
    本發明專利技術提供一種基于大語言模型的術語識別方法及系統,涉及數據存儲技術領域,方法包括:獲取待識別文本數據;對待識別文本數據進行分詞處理;提取分詞處理得到的各個分詞的分詞特征;利用各個分詞的分詞特征,通過基于術語權重的N?gram大語言模型,提取各個分詞的加權詞向量;根據各個分詞的加權詞向量,通過三層堆疊雙向長短期神經網絡,計算待識別文本數據屬于術語的概率值;判斷待識別文本數據屬于術語的概率值是否大于預設概率值;若是,將待識別文本數據確定為術語;否則,將待識別文本數據確定為非術語。本發明專利技術可以考慮上下文信息,識別復雜的術語,提升術語識別的準確性。

    【技術實現步驟摘要】

    本專利技術涉及數據存儲,特別是指一種基于大語言模型的術語識別方法及系統


    技術介紹

    1、在大量的政策文件和法律文獻中,準確識別術語可以提高信息檢索的效果。用戶可以更快捷地找到與特定術語相關的文件和條款,從而節省時間,提高工作效率。

    2、傳統的術語識別往往還是依賴人工檢索,不僅費時費力,而且受限于人工精力有限,術語識別的準確性也偏低。

    3、隨著科學技術的迅速發展,越來越多的現代化技術被應用到術語識別中,大語言模型具有強大的語言生成、文本理解和上下文處理能力,廣泛應用于多種自然語言處理任務。

    4、當前的大語言模型在對于術語識別時,主要是通過特征工程,提取文本特征,進而根據文本特征對于術語進行識別,然而特征工程中人工設計的特征通常只能捕捉文本中的某些方面信息,難以全面覆蓋所有潛在的、有用的信息,特別是難以捕捉詞語在不同上下文中的意義變化,導致術語識別的準確性仍有待提升。


    技術實現思路

    1、為了解決現有技術中特征工程采用的人工設計的特征通常只能捕捉文本中的某些方面信息,難以全面覆蓋所有潛在的、有用的信息,特別是難以捕捉詞語在不同上下文中的意義變化,導致術語識別的準確性仍有待提升的技術問題,本專利技術提供了一種基于大語言模型的術語識別方法及系統。

    2、本專利技術實施例提供的技術方案如下:

    3、第一方面:

    4、本專利技術實施例提供的一種基于大語言模型的術語識別方法,包括:

    5、s1:獲取待識別文本數據;

    6、s2:對所述待識別文本數據進行分詞處理;

    7、s3:提取分詞處理得到的各個分詞的分詞特征;

    8、s4:利用各個分詞的分詞特征,通過基于術語權重的n-gram大語言模型,提取各個分詞的加權詞向量;

    9、s5:根據各個分詞的加權詞向量,通過三層堆疊雙向長短期神經網絡,計算待識別文本數據屬于術語的概率值;

    10、s6:判斷待識別文本數據屬于術語的概率值是否大于預設概率值;若是,將待識別文本數據確定為術語;否則,將待識別文本數據確定為非術語。

    11、第二方面:

    12、本專利技術實施例提供的一種基于大語言模型的術語識別系統,包括:

    13、處理器;

    14、存儲器,所述存儲器上存儲有計算機可讀指令,所述計算機可讀指令被所述處理器執行時,實現如第一方面所述的基于大語言模型的術語識別方法。

    15、第三方面:

    16、本專利技術實施例提供的一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現如第一方面所述的基于大語言模型的術語識別方法。

    17、本專利技術實施例提供的技術方案帶來的有益效果至少包括:

    18、(1)在本專利技術中,通過三層堆疊雙向長短期神經網絡能夠從前向和后向兩個方向捕捉文本中的長距離依賴關系,提供更全面的上下文信息,有助于識別復雜的術語,提升術語識別的準確性。

    19、(2)在本專利技術中,提取分詞處理得到的各個分詞的分詞特征,利用各個分詞的分詞特征,通過基于術語權重的n-gram大語言模型,提取各個分詞的加權詞向量,可以更好地反映每個詞在整個文本中的重要性,通過加權詞向量,可以突出重要的術語,忽略無關的高頻詞,從而提升術語識別的準確性。

    本文檔來自技高網
    ...

    【技術保護點】

    1.一種基于大語言模型的術語識別方法,其特征在于,包括:

    2.根據權利要求1所述的基于大語言模型的術語識別方法,其特征在于,所述分詞特征包括:詞頻TF特征、詞頻-逆文檔頻率TF-IDF特征以及逆重力矩IGM特征。

    3.根據權利要求1所述的基于大語言模型的術語識別方法,其特征在于,所述S4具體包括:

    4.根據權利要求3所述的基于大語言模型的術語識別方法,其特征在于,所述S401具體為:

    5.根據權利要求4所述的基于大語言模型的術語識別方法,其特征在于,所述S402具體為:

    6.根據權利要求5所述的基于大語言模型的術語識別方法,其特征在于,所述S403具體為:

    7.根據權利要求1所述的基于大語言模型的術語識別方法,其特征在于,所述S5具體包括:

    8.根據權利要求7所述的基于大語言模型的術語識別方法,其特征在于,所述S502具體包括:

    9.根據權利要求8所述的基于大語言模型的術語識別方法,其特征在于,所述S503具體為:

    10.一種基于大語言模型的術語識別系統,其特征在于,包括:

    ...

    【技術特征摘要】

    1.一種基于大語言模型的術語識別方法,其特征在于,包括:

    2.根據權利要求1所述的基于大語言模型的術語識別方法,其特征在于,所述分詞特征包括:詞頻tf特征、詞頻-逆文檔頻率tf-idf特征以及逆重力矩igm特征。

    3.根據權利要求1所述的基于大語言模型的術語識別方法,其特征在于,所述s4具體包括:

    4.根據權利要求3所述的基于大語言模型的術語識別方法,其特征在于,所述s401具體為:

    5.根據權利要求4所述的基于大語言模型的術語識別方法,其特征在...

    【專利技術屬性】
    技術研發人員:胡曉東葉雨李帆朱少熒丁力田
    申請(專利權)人:杭州征信有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 无码中文字幕日韩专区| 国产成人无码AV麻豆| 国产精品亚洲аv无码播放| 无码人妻丰满熟妇区五十路百度| 精品欧洲av无码一区二区14| 极品粉嫩嫩模大尺度无码视频| 50岁人妻丰满熟妇αv无码区| 伊人久久综合精品无码AV专区 | 亚洲精品无码你懂的| 色视频综合无码一区二区三区| 高h纯肉无码视频在线观看| 色综合久久久无码中文字幕波多| 亚洲日韩精品无码一区二区三区| 久久久久久亚洲av无码蜜芽| 日韩人妻无码一区二区三区99 | 亚洲熟妇无码乱子AV电影| 人妻少妇精品无码专区动漫| 无码人妻精品一区二区三区在线| 五月丁香六月综合缴清无码| 亚洲爆乳无码专区www| 无码h黄动漫在线播放网站| 国产色无码精品视频免费| 亚洲精品无码成人片在线观看 | 亚洲成av人片天堂网无码】| 日韩精品无码中文字幕一区二区 | 亚洲AⅤ无码一区二区三区在线| av区无码字幕中文色| 久久AV高清无码| 无码人妻一区二区三区免费手机| 无码人妻精品一区二区三区久久 | 无码毛片视频一区二区本码 | 精品人妻无码一区二区三区蜜桃一 | 国产三级无码内射在线看| 中文无码vs无码人妻| 久久精品无码一区二区app| 国产亚洲精品无码专区| 中文字幕无码人妻AAA片| 国产亚洲3p无码一区二区| 四虎成人精品无码| 亚洲精品无码专区在线播放 | 中文字幕精品三区无码亚洲|