System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據存儲,特別是指一種基于大語言模型的術語識別方法及系統。
技術介紹
1、在大量的政策文件和法律文獻中,準確識別術語可以提高信息檢索的效果。用戶可以更快捷地找到與特定術語相關的文件和條款,從而節省時間,提高工作效率。
2、傳統的術語識別往往還是依賴人工檢索,不僅費時費力,而且受限于人工精力有限,術語識別的準確性也偏低。
3、隨著科學技術的迅速發展,越來越多的現代化技術被應用到術語識別中,大語言模型具有強大的語言生成、文本理解和上下文處理能力,廣泛應用于多種自然語言處理任務。
4、當前的大語言模型在對于術語識別時,主要是通過特征工程,提取文本特征,進而根據文本特征對于術語進行識別,然而特征工程中人工設計的特征通常只能捕捉文本中的某些方面信息,難以全面覆蓋所有潛在的、有用的信息,特別是難以捕捉詞語在不同上下文中的意義變化,導致術語識別的準確性仍有待提升。
技術實現思路
1、為了解決現有技術中特征工程采用的人工設計的特征通常只能捕捉文本中的某些方面信息,難以全面覆蓋所有潛在的、有用的信息,特別是難以捕捉詞語在不同上下文中的意義變化,導致術語識別的準確性仍有待提升的技術問題,本專利技術提供了一種基于大語言模型的術語識別方法及系統。
2、本專利技術實施例提供的技術方案如下:
3、第一方面:
4、本專利技術實施例提供的一種基于大語言模型的術語識別方法,包括:
5、s1:獲取待識別文本數據;
...【技術保護點】
1.一種基于大語言模型的術語識別方法,其特征在于,包括:
2.根據權利要求1所述的基于大語言模型的術語識別方法,其特征在于,所述分詞特征包括:詞頻TF特征、詞頻-逆文檔頻率TF-IDF特征以及逆重力矩IGM特征。
3.根據權利要求1所述的基于大語言模型的術語識別方法,其特征在于,所述S4具體包括:
4.根據權利要求3所述的基于大語言模型的術語識別方法,其特征在于,所述S401具體為:
5.根據權利要求4所述的基于大語言模型的術語識別方法,其特征在于,所述S402具體為:
6.根據權利要求5所述的基于大語言模型的術語識別方法,其特征在于,所述S403具體為:
7.根據權利要求1所述的基于大語言模型的術語識別方法,其特征在于,所述S5具體包括:
8.根據權利要求7所述的基于大語言模型的術語識別方法,其特征在于,所述S502具體包括:
9.根據權利要求8所述的基于大語言模型的術語識別方法,其特征在于,所述S503具體為:
10.一種基于大語言模型的術語識別系統,其特征在于,包括:
...【技術特征摘要】
1.一種基于大語言模型的術語識別方法,其特征在于,包括:
2.根據權利要求1所述的基于大語言模型的術語識別方法,其特征在于,所述分詞特征包括:詞頻tf特征、詞頻-逆文檔頻率tf-idf特征以及逆重力矩igm特征。
3.根據權利要求1所述的基于大語言模型的術語識別方法,其特征在于,所述s4具體包括:
4.根據權利要求3所述的基于大語言模型的術語識別方法,其特征在于,所述s401具體為:
5.根據權利要求4所述的基于大語言模型的術語識別方法,其特征在...
【專利技術屬性】
技術研發人員:胡曉東,葉雨,李帆,朱少熒,丁力田,
申請(專利權)人:杭州征信有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。