System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 亚洲AV无码久久,亚洲va无码va在线va天堂,久久精品亚洲中文字幕无码麻豆
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng)及方法技術(shù)方案

    技術(shù)編號:44322709 閱讀:3 留言:0更新日期:2025-02-18 20:32
    本發(fā)明專利技術(shù)涉及文本分類分級評估技術(shù)領(lǐng)域,具體地說,涉及基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng)及方法。其包括抽取單元基于大模型微調(diào)技術(shù)對文本數(shù)據(jù)進行關(guān)鍵要素字段抽取;規(guī)范單元對抽取的各個要素字段進行規(guī)范化處理;評估單元基于規(guī)范化后的字段通過決策樹構(gòu)建文本分類分級評估體系。本發(fā)明專利技術(shù)技術(shù)通過大模型微調(diào)技術(shù),模型可以提高關(guān)鍵要素字段抽取的準確性和覆蓋率,其可以幫助模型更好地理解文本中的語境,從而減少誤報和漏報的情況,提高抽取質(zhì)量,微調(diào)技術(shù)可以使模型更好地適應(yīng)新數(shù)據(jù)集,即使數(shù)據(jù)集與預(yù)訓(xùn)練數(shù)據(jù)集略有不同,也能保持較好的性能,有助于增強模型在面對不同風(fēng)格或格式的文本時的魯棒性。

    【技術(shù)實現(xiàn)步驟摘要】

    本專利技術(shù)涉及特定文本分類分級評估,具體地說,涉及基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng)及方法


    技術(shù)介紹

    1、隨著互聯(lián)網(wǎng)和社交媒體普及,加速了信息增長和傳播。海量的文本信息中蘊含著內(nèi)涵迥異的文本內(nèi)容,其中正能量文本信息給人信心和鼓舞,助力社會和諧發(fā)展;負能量文本信息扭曲事實,增添社會矛盾與沖突。大規(guī)模的文本信息需要及時地進行分類分級,從而實現(xiàn)文本內(nèi)容的識別與篩選。因此,提供基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng)及方法。


    技術(shù)實現(xiàn)思路

    1、本專利技術(shù)的目的在于提供基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng)及方法,以解決上述
    技術(shù)介紹
    中提出的實現(xiàn)文本內(nèi)容的識別與篩選。

    2、為實現(xiàn)上述目的,一方面,本專利技術(shù)目的在于提供了基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),包括:

    3、抽取單元,所述抽取單元基于大模型微調(diào)技術(shù)對文本數(shù)據(jù)進行關(guān)鍵要素字段抽取;

    4、規(guī)范單元,所述規(guī)范單元對抽取的各個要素字段進行規(guī)范化處理;

    5、評估單元,所述評估單元基于規(guī)范化后的字段通過決策樹構(gòu)建文本分類分級評估體系。

    6、作為本技術(shù)方案的進一步改進,所述抽取單元中關(guān)鍵要素字段包括:

    7、時間、地點、行為、事件。

    8、作為本技術(shù)方案的進一步改進,所述基于大模型微調(diào)技術(shù)對文本數(shù)據(jù)進行關(guān)鍵要素字段抽取,包括以下步驟:

    9、s3.1、收集包含關(guān)鍵字的文本數(shù)據(jù)構(gòu)建數(shù)據(jù)集;為每篇文檔標注關(guān)鍵字;

    >10、s3.2、選擇預(yù)訓(xùn)練的大型語言模型,使用huggi?ng?face庫加載預(yù)訓(xùn)練模型及其對應(yīng)的分詞器;

    11、s3.3、根據(jù)關(guān)鍵字抽取任務(wù)的需求,在模型之上添加一個序列標簽層,使用序列分類模型來標記文本中的關(guān)鍵字;

    12、s3.4、選擇交叉熵損失函數(shù),用于優(yōu)化模型;

    13、s3.5、將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集;

    14、s3.6、使用訓(xùn)練集數(shù)據(jù)對預(yù)訓(xùn)練模型進行微調(diào),調(diào)整模型參數(shù)以優(yōu)化損失函數(shù);

    15、s3.7、使用經(jīng)過微調(diào)的模型對文本數(shù)據(jù)進行關(guān)鍵字抽取。

    16、作為本技術(shù)方案的進一步改進,所述s3.4中,交叉熵損失函數(shù)具體為:

    17、

    18、其中,l表示整個序列的總交叉熵損失;n表示詞匯;m表示每個詞匯存在的標簽數(shù);i表示詞匯的索引;j表示標簽的索引;pij表示模型預(yù)測詞匯i屬于標簽j的one-hot編碼值;yij表示詞匯i的真實標簽在標簽j上的one-hot編碼值。

    19、作為本技術(shù)方案的進一步改進,所述對抽取的各個要素字段進行規(guī)范化處理,包括以下步驟:

    20、s5.1、創(chuàng)建數(shù)據(jù)模型,定義數(shù)據(jù)元素及其之間的關(guān)系;

    21、s5.2、將數(shù)據(jù)元素轉(zhuǎn)換成統(tǒng)一的標準;

    22、s5.3、對數(shù)據(jù)進行清洗;

    23、s5.4、將規(guī)范化后的數(shù)據(jù)轉(zhuǎn)換成目標格式;

    24、s5.5、應(yīng)用數(shù)據(jù)驗證規(guī)則和約束,識別和糾正數(shù)據(jù)錯誤;

    25、s5.6、將轉(zhuǎn)換后的數(shù)據(jù)加載到評估系統(tǒng)中,并進行數(shù)據(jù)驗證,用于確保加載的數(shù)據(jù)符合評估系統(tǒng)的要求。

    26、作為本技術(shù)方案的進一步改進,所述基于規(guī)范化后的字段通過決策樹構(gòu)建文本分類分級評估體系,包括以下步驟:

    27、s6.1、對特定文本進行分類,根據(jù)文本類型劃分不同的級別;

    28、s6.2、基于提取的字段構(gòu)建特征,選擇決策樹構(gòu)建評估體系;

    29、s6.3、收集包含不同等級的特定文本數(shù)據(jù),為每條文本標注其等級;

    30、s6.4、使用詞袋模型將文本轉(zhuǎn)化為數(shù)值表示,根據(jù)特征的重要性選擇最有價值的特征;

    31、s6.5、使用訓(xùn)練集數(shù)據(jù)訓(xùn)練模型,使其能夠?qū)π率盏降奈谋具M行分類評估。

    32、作為本技術(shù)方案的進一步改進,所述s6.2中,選擇決策樹構(gòu)建評估體系,包括以下步驟:

    33、s6.21、選擇對特定文本分級最有影響力的特征;

    34、s6.22、準備訓(xùn)練數(shù)據(jù)集,用于確保每個樣本都有對應(yīng)的特定文本級別標簽;

    35、s6.23、使用決策樹算法id3訓(xùn)練模型,調(diào)整模型參數(shù);

    36、s6.24、評估每個特征的重要性,用于確定哪些特征對文本分級最有影響力;

    37、s6.25、使用特征重要性得分來排序特征,選擇排名靠前的特征作為最終模型的輸入特征,用于構(gòu)建評估體系。

    38、作為本技術(shù)方案的進一步改進,所述決策樹算法id3具體為:

    39、

    40、其中,ga(d,a)表示信息增益,d表示數(shù)據(jù)集;a表示特征;va(a)表示特征a的所有可能取值;dv表示特征a取值為v的子集;en(d)表示數(shù)據(jù)集d的熵;en(dv)表示數(shù)據(jù)子集dv的熵。

    41、作為本技術(shù)方案的進一步改進,所述s8.4中,詞袋模型具體為:

    42、bow(d,t)=count(t,d)

    43、其中,d表示待評估的文本;t表示從訓(xùn)練數(shù)據(jù)集中提取的特定文本內(nèi)容相關(guān)的關(guān)鍵詞;bow(d,t)表示待評估的文本d中關(guān)鍵詞t的詞頻;count(t,d)表示關(guān)鍵詞t在待評估的文本d中出現(xiàn)的次數(shù)。

    44、另一方面,本專利技術(shù)提供了基于信息要素抽取技術(shù)的特定文本分類分級評估方法,用于上述中任意一項所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),包括如下步驟:

    45、s10.1、基于大模型微調(diào)技術(shù)對文本數(shù)據(jù)進行關(guān)鍵要素字段抽取;

    46、s10.2、對抽取的各個要素字段進行規(guī)范化處理;

    47、s10.3、基于規(guī)范化后的字段通過決策樹構(gòu)建文本分類分級評估體系。

    48、與現(xiàn)有技術(shù)相比,本專利技術(shù)的有益效果:

    49、1、基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng)及方法中,通過大模型微調(diào)技術(shù),模型可以提高關(guān)鍵要素字段抽取的準確性和覆蓋率,其可以幫助模型更好地理解文本中的語境,從而減少誤報和漏報的情況,提高抽取質(zhì)量,微調(diào)技術(shù)可以使模型更好地適應(yīng)新數(shù)據(jù)集,即使數(shù)據(jù)集與預(yù)訓(xùn)練數(shù)據(jù)集略有不同,也能保持較好的性能,有助于增強模型在面對不同風(fēng)格或格式的文本時的魯棒性。

    50、2、基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng)及方法中,通過對字段進行規(guī)范化處理,可以確保所有文本數(shù)據(jù)的一致性和可比較性,從而提高特定文本分級的準確性,規(guī)范化后的字段減少了文本中的歧義,有助于模型更準確地識別特定文本內(nèi)容;規(guī)范化后的字段作為特征輸入到?jīng)Q策樹模型中,可以明確展示哪些特征對特定文本分級最有影響力,決策樹模型可以評估每個特征的重要性,幫助選擇最有影響力的特征,從而優(yōu)化特征集,通過特征重要性評估,可以減少冗余特征,提高模型的效率和準確性。

    本文檔來自技高網(wǎng)...

    【技術(shù)保護點】

    1.基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:包括:

    2.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述抽取單元(1)中關(guān)鍵要素字段包括:

    3.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述基于大模型微調(diào)技術(shù)對文本數(shù)據(jù)進行關(guān)鍵要素字段抽取,包括以下步驟:

    4.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述S3.4中,交叉熵損失函數(shù)具體為:

    5.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述對抽取的各個要素字段進行規(guī)范化處理,包括以下步驟:

    6.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述基于規(guī)范化后的字段通過決策樹構(gòu)建文本分類分級評估體系,包括以下步驟:

    7.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述S6.2中,選擇決策樹構(gòu)建評估體系,包括以下步驟:

    >8.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述決策樹算法ID3具體為:

    9.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述S8.4中,詞袋模型具體為:

    10.基于信息要素抽取技術(shù)的特定文本分類分級評估方法,用于如權(quán)利要求1-9中任意一項所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:包括如下步驟:

    ...

    【技術(shù)特征摘要】

    1.基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:包括:

    2.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述抽取單元(1)中關(guān)鍵要素字段包括:

    3.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述基于大模型微調(diào)技術(shù)對文本數(shù)據(jù)進行關(guān)鍵要素字段抽取,包括以下步驟:

    4.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述s3.4中,交叉熵損失函數(shù)具體為:

    5.根據(jù)權(quán)利要求1所述的基于信息要素抽取技術(shù)的特定文本分類分級評估系統(tǒng),其特征在于:所述對抽取的各個要素字段進行規(guī)范化處理,包括以下步驟:

    6.根據(jù)權(quán)利要求1所述的基于信息要...

    【專利技術(shù)屬性】
    技術(shù)研發(fā)人員:肖源浩何揚許凌筠
    申請(專利權(quán))人:國家計算機網(wǎng)絡(luò)與信息安全管理中心
    類型:發(fā)明
    國別省市:

    網(wǎng)友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 久久久人妻精品无码一区| 免费a级毛片无码a∨免费软件| 久久亚洲AV无码精品色午夜麻豆| 久久精品中文字幕无码绿巨人| 亚洲精品无码久久久久秋霞| 狠狠躁狠狠躁东京热无码专区| 中文字幕无码播放免费| 黑人无码精品又粗又大又长 | 无码137片内射在线影院| 亚洲日韩国产二区无码| 国产精品无码AV一区二区三区| 色综合无码AV网站| 精品欧洲av无码一区二区 | 伊人久久无码中文字幕| 色综合无码AV网站| 777爽死你无码免费看一二区| 国产亚洲精久久久久久无码77777| 无码人妻精品一区二区蜜桃| 玖玖资源站无码专区| 国产成人AV一区二区三区无码 | 无码中文字幕人妻在线一区二区三区 | 久久久久成人精品无码中文字幕| 久久国产三级无码一区二区| 国产精品va无码免费麻豆| 69天堂人成无码麻豆免费视频| 国产精品视频一区二区三区无码| 无码精品前田一区二区| 一本大道无码日韩精品影视| 丰满少妇被猛烈进入无码| 无码中文字幕人妻在线一区二区三区 | 国产精品99无码一区二区| 国产午夜无码视频免费网站| 色欲AV永久无码精品无码| 国产精品无码一区二区三区毛片| 蜜芽亚洲av无码一区二区三区| 无码中文字幕乱码一区| 无码人妻精品一二三区免费| 免费VA在线观看无码| 国产成人无码精品久久久性色| 国产办公室秘书无码精品99| 无码人妻精品一区二区三区在线|