一種正則化領域知識輔助的命名實體識別方法技術

技術編號：38042355 閱讀：17 留言：0更新日期：2023-06-30 11:08

本發明專利技術提供了一種正則化領域知識輔助的命名實體識別方法，屬于自然語言處理領域。該方法主要包括知識標注、知識提取和知識傳遞三個步驟。1)知識標注：使用人工注釋的正則表達式規則生成句子中實體提及的偽標簽；2)知識提?。挥脦в袀螛撕灥木渥佑柧毶窠浘W絡模型，將正則化領域知識嵌入到神經網絡模型中；3)知識傳遞：使用知識蒸餾方式將神經網絡中存儲的領域知識傳遞到實體識別模型中，增強命名實體識別的準確性。本發明專利技術提供的正則化領域知識領域的命名實體識別方法，相比其他外部知識輔助命名實體方法，可以基于已有的訓練數據獲得正則化領域知識，有效提升現有的多種類型命名實體識別模型的性能。識別模型的性能。識別模型的性能。

全部詳細技術資料下載

【技術實現步驟摘要】
一種正則化領域知識輔助的命名實體識別方法

[0001]本專利技術涉及自然語言處理
，尤其涉及一種正則化領域知識輔助的命名實體識別方法。
技術背景
[0002]命名實體識別旨在識別句子中的實體提及并歸類到預定義的類，例如人物、組織、地點等。例如，對于給定而句子“某某是一個籃球運動員，出生于某地”，命名實體識別的任務是識別出“某某”是一個人物類型實體，“某地”是一個地點類型實體。命名實體識別是信息抽取、問答系統、句法分析、機器翻譯等下游任務的基礎，在自然語言處理技術走向實用化的過程中占有重要地位。
[0003]隨著進一步研究，越來越多的研究主要聚焦在特定領域任務。然而，傳統的監督學習方法在這項任務中仍有很大的提升空間。這些受監督學習方法只關注訓練語料庫本身，這限制了模型探索外部真實世界場景。先前的工作學習如何利用外部數據，如未標記和有噪聲的數據，以推動命名實體識別任務，這不可避免地引入了不相關的信息。此外，一些方法將知識圖譜中的三元組視為外部知識并將其引入到模型中，以提高模型的性能，但它們有一定的局限性。一方面，大多數的現有模型都使用一般知識圖譜，但它們缺乏領域知識，因此不適合于特定領域的任務。另一方面，領域知識圖譜尚未普及，因此無法支持所有領域特定任務。對于特定領域的命名實體識別任務，構建領域知識圖譜也是耗時且計算昂貴的。

技術實現思路

[0004]本專利技術的目的在于提供一種正則化領域知識輔助的命名實體識別方法，從而開發命名實體識別模型的性能。本專利技術基于已有的訓練數據，利用正則表達式...

【技術保護點】

【技術特征摘要】
1.一種正則化領域知識輔助的命名實體識別方法，其特征在于，包括：S1、使用人工注釋的正則表達式規則來匹配原始訓練集中的實體提及，為句子中每個字符生成偽標簽；S2、用上述帶有偽標簽的訓練數據訓練預訓練模型(教師模型)，將正則化的領域知識嵌入到教師模型中；S3、使用知識蒸餾方式，訓練命名實體識別模型(學生模型)的同時，將教師模型中的領域知識傳遞到命名實體識別模型(學生模型)中，實現了實體識別性能的增強。2.根據權利要求1所述的一種正則化領域知識輔助的命名實體識別方法，其特征在于，基于所述的正則表達式的知識標注方法工作步驟如下：S1.1、基于已有的訓練數據，人工注釋若干正則表達式規則；S1.2、將輸入句子與上述的若干正則表達式逐一匹配，生成對應字符的偽標簽并識別出相應的實體，使用上述的正則表達式匹配后抽取的實體；S1.3、對抽取出的實體采用BIO方法進行標注，其中,“B”(begin)代表實體的開頭，“I”(inside)代表實體的中間或結尾，“O”(other)表該詞為非實體詞。3.根據權利要求1所述的一種正則化領域知識輔助的命名實體識別方法，其特征在于，所述教師模型為EBRT模型，知識提取方法的工作步驟如下：S2.1、對于給定的輸入句子序列x＝<x1,x2,
…
,x
i
,
…
,x
|X|
>，對應的偽標簽為將(x,y)輸...

【專利技術屬性】
技術研發人員：馮建周，徐甘霖，
申請(專利權)人：燕山大學，
類型：發明
國別省市：

全部詳細技術資料下載我是這個專利的主人

相關技術

網友詢問留言已有0條評論

還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

發布您的意見

相關領域技術