【技術實現步驟摘要】
基于樣本增強和自訓練的低資源文本智能評閱方法和裝置
[0001]本專利技術公開基于樣本增強和自訓練的低資源文本智能評閱方法和裝置,屬于自然語言處理的
技術介紹
[0002]文本智能評閱是人工智能和自然語言處理研究領域的重要問題,是指對于給定知識點的參考答案文本、若干學生答案文本以及預先定義的分數段類型,采用神經網絡模型對學生答案所屬分數類型進行判定。由于專業領域文本內容需要專家評閱,獲取標記數據成本高昂,導致只有極少量樣本可用的低資源情況。智能評閱能夠降低人工評閱成本,去除個體偏見,具有重要實用價值。
[0003]現有文本理解技術主要采用深度學習,依賴大量樣本以監督學習方式訓練模型,較少的樣本則會嚴重影響模型性能。針對樣本數量少的情況,相關工作通常采用數據增強技術來增強初始少量樣本的信息量。
[0004]例如中國專利文獻CN115048940A公開基于實體詞屬性特征和回譯的中文金融文本數據增強方法,其中使用“回譯”和專業詞匯替換對文本進行增強。但是“回譯”數據增強技術受限于翻譯模型的翻譯質量,尤其對于專業文本的“回譯”增強效果不佳。對于文本對形式的專業領域評閱樣本,“回譯”并不能有效增強文本對的交互信息,僅可增強單文本的語義信息。
[0005]另外,基于初始少量樣本并引入大量無標記數據進行模型自訓練也是突破極少樣本限制進而提升模型性能的有效方式,例如中國專利文獻CN114357153A公開一種文本分類模型訓練方法、裝置、文本分類方法及裝置,其中利用初始少量樣本訓練模型后預測無標記數據 ...
【技術保護點】
【技術特征摘要】
1.基于樣本增強和自訓練的低資源文本智能評閱方法,其特征在于,包括:(1)樣本增強:用于完成對輸入的評閱樣本的增強任務,得到增強后的評閱樣本;(2)樣本困難性評價:用于在評閱模型微調和自訓練過程中計算每個樣本的困難性;(3)評閱模型微調及自訓練:用于基于樣本增強后的評閱樣本對評閱模型進行微調訓練;然后引入大量同源無標記數據進行偽標記預測并擴充到原訓練集中,對評閱模型進行自訓練。2.根據權利要求1所述的基于樣本增強和自訓練的低資源文本智能評閱方法,其特征在于,所述步驟(1)所述樣本增強的具體方法包括,對輸入的少量評閱樣本進行增強:初始少量評閱樣本包括多個知識點上的若干文本推理樣本;每個知識點上的樣本表示為的集合,其中為包含代表該知識點的參考答案文本和學生答案文本的文本對形式,推理標記表示文本對的蘊含和非蘊含兩種推理關系;其中,蘊含關系表示學生答案文本在參考答案文本所關聯的知識點上與參考答案文本語義一致,非蘊含關系則表示不一致;(1
?
1)利用少量評閱樣本構建NLI任務的蘊含、矛盾、中立三分類樣本來進行樣本增強:(1
?1?
1)構造蘊含樣本,使得同知識點中兩個語義一致的單文本得到信息交互,從單個知識點的樣本中采樣構造,包含兩類構造方式:參考答案文本和呈蘊含關系的學生答案文本組成的文本對;同參考答案文本呈蘊含關系的任意兩個學生答案文本組成的文本對,其標簽,表蘊含;(1
?1?
2)構造矛盾樣本,使得同知識點中兩個語義不一致的單文本得到信息交互,從單個知識點的樣本中采樣構造,包含兩類構造方式:參考答案文本和呈非蘊含關系的學生答案文本組成的文本對;同參考答案文本分別呈蘊含和非蘊含關系的任意兩個學生答案文本組成的文本對,其標簽,表矛盾;(1
?1?
3)構造中立樣本,使得不同知識點,即不同文本關注點,其中的單文本的語義信息得到交互,從不同知識點采樣進行構造,包括某一個知識點的參考答案文本或學生答案文本,和另一知識點的學生答案文本的交互文本對,其標簽,表中立;(1
?
2)評閱模型對參考答案文本和學生答案文本位置調換的文本對樣本進行預測時,其預測結果不變,將包含參考答案文本的文本對進行翻轉增強,其標簽不變;定義蘊含、矛盾、中立三類增強樣本的構造比例分別為,許可一般情況,且,優選的,。3.根據權利要求1所述的基于樣本增強和自訓練的低資源文本智能評閱方法,其特征在于,所述步驟(2)中樣本困難性評價的具體方法,包括:(2
?
1)使用交叉熵損失函數訓練評閱模型,經過若干輪訓練讓評閱模型擬合簡單樣本;交叉熵損失如公式(I):本;交叉熵損失如公式(I):
其中,為類別標簽的獨熱向量;為評閱模型預測的概率分布;(2
?
2)計算評閱模型優化每個樣本時反向傳播的梯度大小來量化樣本的困難性:評閱模型通過多分類器輸出概率分布,為神經網絡給分類器的輸入,推導梯度知分別是的第元素值;定義樣本困難性量化值為梯度模長之和的一半:為梯度模長之和的一半:其中,樣本困難性量化值;為表示樣本類別的標簽集合,為樣本所屬類別的標簽;為概率分布的第元素值,代表著評閱模型預測出樣本為第類的概率;公式(III)所示正態分布函數為加權函數,優選的,::::其中,根據困難性量化值,利用函數對樣本的交叉熵損失進行加權,得到如公式(IV)所示難度敏感損失函數。4.根據權利要求1所述的基于樣本增強和自訓練的低資源文本智能評閱方法,其特征在于,所述步驟(3)評閱模型微調及自訓練中:微調是指對評閱模型參數進行微調,將評閱樣本中的文本對輸入給所述...
【專利技術屬性】
技術研發人員:孫宇清,楊濤,馬磊,袁峰,
申請(專利權)人:山東山大鷗瑪軟件股份有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。