System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實現(xiàn)步驟摘要】
本專利技術(shù)涉及特定文本分類分級評估,具體地說,涉及基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng)及方法。
技術(shù)介紹
1、隨著互聯(lián)網(wǎng)和社交媒體普及,加速了信息增長和傳播。海量的文本信息中蘊含著內(nèi)涵迥異的文本內(nèi)容,其中正能量文本信息給人信心和鼓舞,助力社會和諧發(fā)展;負能量文本信息扭曲事實,增添社會矛盾與沖突。大規(guī)模的文本信息需要及時地進行分類分級,從而實現(xiàn)文本內(nèi)容的識別與篩選。因此,提供基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng)及方法。
技術(shù)實現(xiàn)思路
1、本專利技術(shù)的目的在于提供基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng)及方法,以解決上述
技術(shù)介紹
中提出的實現(xiàn)文本內(nèi)容的識別與篩選。
2、為實現(xiàn)上述目的,一方面,本專利技術(shù)目的在于提供了基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),包括:
3、抽取單元,所述抽取單元基于大模型微調(diào)技術(shù)對文本數(shù)據(jù)進行關(guān)鍵要素字段抽取;
4、規(guī)范單元,所述規(guī)范單元對抽取的各個要素字段進行規(guī)范化處理;
5、評估單元,所述評估單元基于規(guī)范化后的字段通過決策樹構(gòu)建文本分類分級評估體系。
6、作為本技術(shù)方案的進一步改進,所述抽取單元中關(guān)鍵要素字段包括:
7、時間、地點、行為、事件。
8、作為本技術(shù)方案的進一步改進,所述基于大模型微調(diào)技術(shù)對文本數(shù)據(jù)進行關(guān)鍵要素字段抽取,包括以下步驟:
9、s3.1、收集包含關(guān)鍵字的文本數(shù)據(jù)構(gòu)建數(shù)據(jù)集;為每篇文檔標注關(guān)鍵字;
11、s3.3、根據(jù)關(guān)鍵字抽取任務(wù)的需求,在模型之上添加一個序列標簽層,使用序列分類模型來標記文本中的關(guān)鍵字;
12、s3.4、選擇交叉熵損失函數(shù),用于優(yōu)化模型;
13、s3.5、將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集;
14、s3.6、使用訓(xùn)練集數(shù)據(jù)對預(yù)訓(xùn)練模型進行微調(diào),調(diào)整模型參數(shù)以優(yōu)化損失函數(shù);
15、s3.7、使用經(jīng)過微調(diào)的模型對文本數(shù)據(jù)進行關(guān)鍵字抽取。
16、作為本技術(shù)方案的進一步改進,所述s3.4中,交叉熵損失函數(shù)具體為:
17、
18、其中,l表示整個序列的總交叉熵損失;n表示詞匯;m表示每個詞匯存在的標簽數(shù);i表示詞匯的索引;j表示標簽的索引;pij表示模型預(yù)測詞匯i屬于標簽j的one-hot編碼值;yij表示詞匯i的真實標簽在標簽j上的one-hot編碼值。
19、作為本技術(shù)方案的進一步改進,所述對抽取的各個要素字段進行規(guī)范化處理,包括以下步驟:
20、s5.1、創(chuàng)建數(shù)據(jù)模型,定義數(shù)據(jù)元素及其之間的關(guān)系;
21、s5.2、將數(shù)據(jù)元素轉(zhuǎn)換成統(tǒng)一的標準;
22、s5.3、對數(shù)據(jù)進行清洗;
23、s5.4、將規(guī)范化后的數(shù)據(jù)轉(zhuǎn)換成目標格式;
24、s5.5、應(yīng)用數(shù)據(jù)驗證規(guī)則和約束,識別和糾正數(shù)據(jù)錯誤;
25、s5.6、將轉(zhuǎn)換后的數(shù)據(jù)加載到評估系統(tǒng)中,并進行數(shù)據(jù)驗證,用于確保加載的數(shù)據(jù)符合評估系統(tǒng)的要求。
26、作為本技術(shù)方案的進一步改進,所述基于規(guī)范化后的字段通過決策樹構(gòu)建文本分類分級評估體系,包括以下步驟:
27、s6.1、對特定文本進行分類,根據(jù)文本類型劃分不同的級別;
28、s6.2、基于提取的字段構(gòu)建特征,選擇決策樹構(gòu)建評估體系;
29、s6.3、收集包含不同等級的特定文本數(shù)據(jù),為每條文本標注其等級;
30、s6.4、使用詞袋模型將文本轉(zhuǎn)化為數(shù)值表示,根據(jù)特征的重要性選擇最有價值的特征;
31、s6.5、使用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型,使其能夠?qū)π率盏降奈谋具M行分類評估。
32、作為本技術(shù)方案的進一步改進,所述s6.2中,選擇決策樹構(gòu)建評估體系,包括以下步驟:
33、s6.21、選擇對特定文本分級最有影響力的特征;
34、s6.22、準備訓(xùn)練數(shù)據(jù)集,用于確保每個樣本都有對應(yīng)的特定文本級別標簽;
35、s6.23、使用決策樹算法id3訓(xùn)練模型,調(diào)整模型參數(shù);
36、s6.24、評估每個特征的重要性,用于確定哪些特征對文本分級最有影響力;
37、s6.25、使用特征重要性得分來排序特征,選擇排名靠前的特征作為最終模型的輸入特征,用于構(gòu)建評估體系。
38、作為本技術(shù)方案的進一步改進,所述決策樹算法id3具體為:
39、
40、其中,ga(d,a)表示信息增益,d表示數(shù)據(jù)集;a表示特征;va(a)表示特征a的所有可能取值;dv表示特征a取值為v的子集;en(d)表示數(shù)據(jù)集d的熵;en(dv)表示數(shù)據(jù)子集dv的熵。
41、作為本技術(shù)方案的進一步改進,所述s8.4中,詞袋模型具體為:
42、bow(d,t)=count(t,d)
43、其中,d表示待評估的文本;t表示從訓(xùn)練數(shù)據(jù)集中提取的特定文本內(nèi)容相關(guān)的關(guān)鍵詞;bow(d,t)表示待評估的文本d中關(guān)鍵詞t的詞頻;count(t,d)表示關(guān)鍵詞t在待評估的文本d中出現(xiàn)的次數(shù)。
44、另一方面,本專利技術(shù)提供了基于信息要素抽取技術(shù)的特定文本分類分級評估方法,用于上述中任意一項所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),包括如下步驟:
45、s10.1、基于大模型微調(diào)技術(shù)對文本數(shù)據(jù)進行關(guān)鍵要素字段抽取;
46、s10.2、對抽取的各個要素字段進行規(guī)范化處理;
47、s10.3、基于規(guī)范化后的字段通過決策樹構(gòu)建文本分類分級評估體系。
48、與現(xiàn)有技術(shù)相比,本專利技術(shù)的有益效果:
49、1、基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng)及方法中,通過大模型微調(diào)技術(shù),模型可以提高關(guān)鍵要素字段抽取的準確性和覆蓋率,其可以幫助模型更好地理解文本中的語境,從而減少誤報和漏報的情況,提高抽取質(zhì)量,微調(diào)技術(shù)可以使模型更好地適應(yīng)新數(shù)據(jù)集,即使數(shù)據(jù)集與預(yù)訓(xùn)練數(shù)據(jù)集略有不同,也能保持較好的性能,有助于增強模型在面對不同風(fēng)格或格式的文本時的魯棒性。
50、2、基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng)及方法中,通過對字段進行規(guī)范化處理,可以確保所有文本數(shù)據(jù)的一致性和可比較性,從而提高特定文本分級的準確性,規(guī)范化后的字段減少了文本中的歧義,有助于模型更準確地識別特定文本內(nèi)容;規(guī)范化后的字段作為特征輸入到?jīng)Q策樹模型中,可以明確展示哪些特征對特定文本分級最有影響力,決策樹模型可以評估每個特征的重要性,幫助選擇最有影響力的特征,從而優(yōu)化特征集,通過特征重要性評估,可以減少冗余特征,提高模型的效率和準確性。
本文檔來自技高網(wǎng)...【技術(shù)保護點】
1.基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:包括:
2.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述抽取單元(1)中關(guān)鍵要素字段包括:
3.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述基于大模型微調(diào)技術(shù)對文本數(shù)據(jù)進行關(guān)鍵要素字段抽取,包括以下步驟:
4.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述S3.4中,交叉熵損失函數(shù)具體為:
5.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述對抽取的各個要素字段進行規(guī)范化處理,包括以下步驟:
6.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述基于規(guī)范化后的字段通過決策樹構(gòu)建文本分類分級評估體系,包括以下步驟:
7.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述S6.2中,選擇決策樹構(gòu)建評估體系,包括以下步驟:
9.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述S8.4中,詞袋模型具體為:
10.基于信息要素抽取技術(shù)的特定文本分類分級評估方法,用于如權(quán)利要求1-9中任意一項所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:包括如下步驟:
...【技術(shù)特征摘要】
1.基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:包括:
2.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述抽取單元(1)中關(guān)鍵要素字段包括:
3.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述基于大模型微調(diào)技術(shù)對文本數(shù)據(jù)進行關(guān)鍵要素字段抽取,包括以下步驟:
4.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述s3.4中,交叉熵損失函數(shù)具體為:
5.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述對抽取的各個要素字段進行規(guī)范化處理,包括以下步驟:
6.根據(jù)權(quán)利要求1所述的基于信息要...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:肖源浩,何揚,許凌筠,
申請(專利權(quán))人:國家計算機網(wǎng)絡(luò)與信息安全管理中心,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。