• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    基于樣本增強和自訓練的低資源文本智能評閱方法和裝置制造方法及圖紙

    技術編號:36934700 閱讀:40 留言:0更新日期:2023-03-22 18:56
    基于樣本增強和自訓練的低資源文本智能評閱方法和裝置,屬于自然語言處理的技術領域,包括:樣本增強:用于完成對輸入的評閱樣本的增強任務,得到增強后的評閱樣本;樣本困難性評價:用于在評閱模型微調和自訓練過程中計算每個樣本的困難性;評閱模型微調及自訓練:用于基于樣本增強后的評閱樣本對評閱模型進行微調訓練;然后引入大量同源無標記數據進行偽標記預測并擴充到原訓練集中,對評閱模型進行自訓練。本發明專利技術能更好適合于評閱樣本數量有限的情況,提升了數據增強效果和模型的魯棒性;能增強評閱模型在訓練數據中存在噪音樣本和簡單樣本時的性能;能夠提升偽標記的準確率。率。率。

    【技術實現步驟摘要】
    基于樣本增強和自訓練的低資源文本智能評閱方法和裝置


    [0001]本專利技術公開基于樣本增強和自訓練的低資源文本智能評閱方法和裝置,屬于自然語言處理的


    技術介紹

    [0002]文本智能評閱是人工智能和自然語言處理研究領域的重要問題,是指對于給定知識點的參考答案文本、若干學生答案文本以及預先定義的分數段類型,采用神經網絡模型對學生答案所屬分數類型進行判定。由于專業領域文本內容需要專家評閱,獲取標記數據成本高昂,導致只有極少量樣本可用的低資源情況。智能評閱能夠降低人工評閱成本,去除個體偏見,具有重要實用價值。
    [0003]現有文本理解技術主要采用深度學習,依賴大量樣本以監督學習方式訓練模型,較少的樣本則會嚴重影響模型性能。針對樣本數量少的情況,相關工作通常采用數據增強技術來增強初始少量樣本的信息量。
    [0004]例如中國專利文獻CN115048940A公開基于實體詞屬性特征和回譯的中文金融文本數據增強方法,其中使用“回譯”和專業詞匯替換對文本進行增強。但是“回譯”數據增強技術受限于翻譯模型的翻譯質量,尤其對于專業文本的“回譯”增強效果不佳。對于文本對形式的專業領域評閱樣本,“回譯”并不能有效增強文本對的交互信息,僅可增強單文本的語義信息。
    [0005]另外,基于初始少量樣本并引入大量無標記數據進行模型自訓練也是突破極少樣本限制進而提升模型性能的有效方式,例如中國專利文獻CN114357153A公開一種文本分類模型訓練方法、裝置、文本分類方法及裝置,其中利用初始少量樣本訓練模型后預測無標記數據的偽標記,并對大量偽樣本進行監督學習以增強模型性能。自訓練技術利用現有模型對無標記數據標注偽標記后擴充到原有訓練集中進行訓練,故偽標記的準確性對后續自訓練模型的性能影響較大。自訓練技術中標注偽標記的策略需要被精心設計,以緩解可能存在的錯誤累積問題。
    [0006]綜上,在現有技術中,怎樣在低資源專業文本智能評閱中擺脫樣本數量受限成為新的技術突破思路。

    技術實現思路

    [0007]本專利技術公開一種基于樣本增強和自訓練的低資源文本智能評閱方法本專利技術還公開一種實現上述評閱方法的裝置。
    [0008]本專利技術的技術方案如下:基于樣本增強和自訓練的低資源文本智能評閱方法,其特征在于,包括:(1)樣本增強:用于完成對輸入的評閱樣本的增強任務,得到增強后的評閱樣本;(2)樣本困難性評價:用于在評閱模型微調和自訓練過程中計算每個樣本的困難性,根據困難性為樣本施加不同優化權重,以降低簡單樣本和噪音樣本的優化力度,提升困
    難樣本的優化力度;(3)評閱模型微調及自訓練:用于基于樣本增強后的評閱樣本對評閱模型進行微調訓練;然后引入大量同源無標記數據進行偽標記預測并擴充到原訓練集中,對評閱模型進行自訓練。
    [0009]根據本專利技術優選的,所述步驟(1)所述樣本增強的具體方法包括,對輸入的少量評閱樣本進行增強:初始少量評閱樣本包括多個知識點上的若干文本推理樣本;每個知識點上的樣本表示為的集合,其中為包含代表該知識點的參考答案文本和學生答案文本的文本對形式,推理標記表示文本對的蘊含和非蘊含兩種推理關系;其中,蘊含關系表示學生答案文本在參考答案文本所關聯的知識點上與參考答案文本語義一致,非蘊含關系則表示不一致;(1
    ?
    1)利用少量評閱樣本構建NLI任務的蘊含、矛盾、中立三分類樣本來進行樣本增強,所述NLI任務是指類似自然語言推理任務,NLI是英文Natural Language Inference的縮寫,NLI任務識別輸入的&lt;前提,假設&gt;文本對的推理關系屬于蘊含、矛盾、中立中的一種;本專利技術所述樣本增強方法,使得不同知識點間以及相同知識點內的學生答案文本的語義也可以得到交互,可用于在評閱模型微調及自訓練時對輸入的訓練用評閱樣本進行增強,形式如表1所示:(1
    ?1?
    1)構造蘊含樣本,使得同知識點中兩個語義一致的單文本得到信息交互,從單個知識點的樣本中采樣構造,包含兩類構造方式:參考答案文本和呈蘊含關系的學生答案文本組成的文本對;同參考答案文本呈蘊含關系的任意兩個學生答案文本組成的文本對,其標簽,表蘊含;(1
    ?1?
    2)構造矛盾樣本,使得同知識點中兩個語義不一致的單文本得到信息交互,從單個知識點的樣本中采樣構造,包含兩類構造方式:參考答案文本和呈非蘊含關系的學生答案文本組成的文本對;同參考答案文本分別呈蘊含和非蘊含關系的任意兩個學生答案文本組成的文本對,其標簽,表矛盾;(1
    ?1?
    3)構造中立樣本,使得不同知識點(文本關注點不同)中的單文本的語義信息得到交互,從不同知識點采樣進行構造,包括某一個知識點的參考答案文本或學生答案文本,和另一知識點的學生答案文本的交互文本對或,其標簽,表中立;(1
    ?
    2)評閱模型對參考答案文本和學生答案文本位置調換的文本對樣本進行預測時,其預測結果不變,為保證模型魯棒性,將包含參考答案文本的文本對進行翻轉增強,其標簽不變;定義蘊含、矛盾、中立三類增強樣本的構造比例分別為,許可一般情況,,,且,優選的,、、,具體比例見表1,為保證增強前的少量樣本中的信息被充分包含,其中與不使用隨機采樣方式構造,而是直接使用增強前的全部樣本,占比,故增強后數據集大小是增強前的
    倍:表1.樣本增強構造方式及比例根據本專利技術優選的,所述步驟(2)中樣本困難性評價的具體方法,包括:評閱模型輸入樣本進行監督學習,由于數據集中可能存在噪音樣本且樣本的推理難度存在差異,對此,根據評閱模型微調時計算樣本優化的梯度大小來評價樣本困難性,并設計難度敏感(Difficulty Sensitive)損失通過在微調時對樣本產生的交叉熵損失進行加權,來提高對困難樣本的優化力度,降低模型對簡單樣本以及噪音樣本的優化力度;為了使評閱模型反向傳播的梯度能有效反映樣本困難性;(2
    ?
    1)使用交叉熵損失函數訓練評閱模型,經過若干輪訓練讓評閱模型擬合簡單樣本;交叉熵損失如公式(I):(I)其中,為類別標簽的獨熱向量;為評閱模型預測的概率分布;(2
    ?
    2)計算評閱模型優化每個樣本時反向傳播的梯度大小來量化樣本的困難性:評閱模型通過多分類器輸出概率分布,為神經網絡給分類器的輸入,推導梯度知分別是的第元素值;定義樣本困難性量化值為梯度模長之和的一半:為梯度模長之和的一半:其中,樣本困難性量化值;為表示樣本類別的標簽集合,為樣本所屬類別的標簽;為概率分布的第元素值,代表著評閱模型預測出樣本為第類的概率;由于先用交叉熵損失函數訓練使得評閱模型可以較好擬合簡單樣本,反向傳播時簡單樣本產生的梯度較小,困難樣本產生梯度較大,噪音樣本產生梯度最大,綜上,利用樣本困難性量化值值大小反應樣本難易,越大樣本越困難,且值越靠近1的有較大概率為噪音樣本;
    公式(III)所示正態分布函數為加權函數,優選的,::::其中,加權函數如附圖1所示,橫坐標為值,縱坐標為正態分布函數的值,由圖像可知值接近0和1時函數值較小;根據困難性量化值利用函本文檔來自技高網
    ...

    【技術保護點】

    【技術特征摘要】
    1.基于樣本增強和自訓練的低資源文本智能評閱方法,其特征在于,包括:(1)樣本增強:用于完成對輸入的評閱樣本的增強任務,得到增強后的評閱樣本;(2)樣本困難性評價:用于在評閱模型微調和自訓練過程中計算每個樣本的困難性;(3)評閱模型微調及自訓練:用于基于樣本增強后的評閱樣本對評閱模型進行微調訓練;然后引入大量同源無標記數據進行偽標記預測并擴充到原訓練集中,對評閱模型進行自訓練。2.根據權利要求1所述的基于樣本增強和自訓練的低資源文本智能評閱方法,其特征在于,所述步驟(1)所述樣本增強的具體方法包括,對輸入的少量評閱樣本進行增強:初始少量評閱樣本包括多個知識點上的若干文本推理樣本;每個知識點上的樣本表示為的集合,其中為包含代表該知識點的參考答案文本和學生答案文本的文本對形式,推理標記表示文本對的蘊含和非蘊含兩種推理關系;其中,蘊含關系表示學生答案文本在參考答案文本所關聯的知識點上與參考答案文本語義一致,非蘊含關系則表示不一致;(1
    ?
    1)利用少量評閱樣本構建NLI任務的蘊含、矛盾、中立三分類樣本來進行樣本增強:(1
    ?1?
    1)構造蘊含樣本,使得同知識點中兩個語義一致的單文本得到信息交互,從單個知識點的樣本中采樣構造,包含兩類構造方式:參考答案文本和呈蘊含關系的學生答案文本組成的文本對;同參考答案文本呈蘊含關系的任意兩個學生答案文本組成的文本對,其標簽,表蘊含;(1
    ?1?
    2)構造矛盾樣本,使得同知識點中兩個語義不一致的單文本得到信息交互,從單個知識點的樣本中采樣構造,包含兩類構造方式:參考答案文本和呈非蘊含關系的學生答案文本組成的文本對;同參考答案文本分別呈蘊含和非蘊含關系的任意兩個學生答案文本組成的文本對,其標簽,表矛盾;(1
    ?1?
    3)構造中立樣本,使得不同知識點,即不同文本關注點,其中的單文本的語義信息得到交互,從不同知識點采樣進行構造,包括某一個知識點的參考答案文本或學生答案文本,和另一知識點的學生答案文本的交互文本對,其標簽,表中立;(1
    ?
    2)評閱模型對參考答案文本和學生答案文本位置調換的文本對樣本進行預測時,其預測結果不變,將包含參考答案文本的文本對進行翻轉增強,其標簽不變;定義蘊含、矛盾、中立三類增強樣本的構造比例分別為,許可一般情況,且,優選的,。3.根據權利要求1所述的基于樣本增強和自訓練的低資源文本智能評閱方法,其特征在于,所述步驟(2)中樣本困難性評價的具體方法,包括:(2
    ?
    1)使用交叉熵損失函數訓練評閱模型,經過若干輪訓練讓評閱模型擬合簡單樣本;交叉熵損失如公式(I):本;交叉熵損失如公式(I):
    其中,為類別標簽的獨熱向量;為評閱模型預測的概率分布;(2
    ?
    2)計算評閱模型優化每個樣本時反向傳播的梯度大小來量化樣本的困難性:評閱模型通過多分類器輸出概率分布,為神經網絡給分類器的輸入,推導梯度知分別是的第元素值;定義樣本困難性量化值為梯度模長之和的一半:為梯度模長之和的一半:其中,樣本困難性量化值;為表示樣本類別的標簽集合,為樣本所屬類別的標簽;為概率分布的第元素值,代表著評閱模型預測出樣本為第類的概率;公式(III)所示正態分布函數為加權函數,優選的,::::其中,根據困難性量化值,利用函數對樣本的交叉熵損失進行加權,得到如公式(IV)所示難度敏感損失函數。4.根據權利要求1所述的基于樣本增強和自訓練的低資源文本智能評閱方法,其特征在于,所述步驟(3)評閱模型微調及自訓練中:微調是指對評閱模型參數進行微調,將評閱樣本中的文本對輸入給所述...

    【專利技術屬性】
    技術研發人員:孫宇清楊濤馬磊袁峰
    申請(專利權)人:山東山大鷗瑪軟件股份有限公司
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 日韩人妻无码中文字幕视频| 亚洲AV无码乱码国产麻豆穿越 | 免费看国产成年无码AV片| 亚洲va成无码人在线观看| 亚洲精品一级无码鲁丝片| 无码av免费网站| 中文无码熟妇人妻AV在线 | 亚洲乱亚洲乱少妇无码| 久久精品无码专区免费东京热| YY111111少妇无码理论片| 久久亚洲精品无码网站| 日韩精品久久无码中文字幕| 精品无码人妻一区二区三区不卡 | 无码专区国产无套粉嫩白浆内射| 午夜无码伦费影视在线观看| 亚洲av无码成人精品区| 无码少妇一区二区浪潮免费| 精品无码一区二区三区爱欲九九 | 国产免费黄色无码视频| 亚洲精品无码mⅴ在线观看| 小13箩利洗澡无码视频网站| 寂寞少妇做spa按摩无码| 久久精品无码免费不卡| 国产精品亚洲一区二区无码| av色欲无码人妻中文字幕| 亚洲熟妇无码AV不卡在线播放 | 无码人妻精品中文字幕免费东京热| 自慰无码一区二区三区| 亚洲乱亚洲乱少妇无码| 国产精品热久久无码av| 成在人线av无码免费高潮水| 无码精品人妻一区二区三区AV| 蜜臀亚洲AV无码精品国产午夜. | 欧日韩国产无码专区| 成人免费无码精品国产电影| 无码天堂亚洲国产AV| 亚洲成a人在线看天堂无码| 久久青青草原亚洲av无码| a级毛片免费全部播放无码 | 亚洲国产精品成人精品无码区在线| 宅男在线国产精品无码|