本發明專利技術提供了一種正則化領域知識輔助的命名實體識別方法,屬于自然語言處理領域。該方法主要包括知識標注、知識提取和知識傳遞三個步驟。1)知識標注:使用人工注釋的正則表達式規則生成句子中實體提及的偽標簽;2)知識提?。挥脦в袀螛撕灥木渥佑柧毶窠浘W絡模型,將正則化領域知識嵌入到神經網絡模型中;3)知識傳遞:使用知識蒸餾方式將神經網絡中存儲的領域知識傳遞到實體識別模型中,增強命名實體識別的準確性。本發明專利技術提供的正則化領域知識領域的命名實體識別方法,相比其他外部知識輔助命名實體方法,可以基于已有的訓練數據獲得正則化領域知識,有效提升現有的多種類型命名實體識別模型的性能。識別模型的性能。識別模型的性能。
【技術實現步驟摘要】
一種正則化領域知識輔助的命名實體識別方法
[0001]本專利技術涉及自然語言處理
,尤其涉及一種正則化領域知識輔助的命名實體識別方法。
技術背景
[0002]命名實體識別旨在識別句子中的實體提及并歸類到預定義的類,例如人物、組織、地點等。例如,對于給定而句子“某某是一個籃球運動員,出生于某地”,命名實體識別的任務是識別出“某某”是一個人物類型實體,“某地”是一個地點類型實體。命名實體識別是信息抽取、問答系統、句法分析、機器翻譯等下游任務的基礎,在自然語言處理技術走向實用化的過程中占有重要地位。
[0003]隨著進一步研究,越來越多的研究主要聚焦在特定領域任務。然而,傳統的監督學習方法在這項任務中仍有很大的提升空間。這些受監督學習方法只關注訓練語料庫本身,這限制了模型探索外部真實世界場景。先前的工作學習如何利用外部數據,如未標記和有噪聲的數據,以推動命名實體識別任務,這不可避免地引入了不相關的信息。此外,一些方法將知識圖譜中的三元組視為外部知識并將其引入到模型中,以提高模型的性能,但它們有一定的局限性。一方面,大多數的現有模型都使用一般知識圖譜,但它們缺乏領域知識,因此不適合于特定領域的任務。另一方面,領域知識圖譜尚未普及,因此無法支持所有領域特定任務。對于特定領域的命名實體識別任務,構建領域知識圖譜也是耗時且計算昂貴的。
技術實現思路
[0004]本專利技術的目的在于提供一種正則化領域知識輔助的命名實體識別方法,從而開發命名實體識別模型的性能。本專利技術基于已有的訓練數據,利用正則表達式規則挖掘其中的正則化的領域知識,使其推動命名實體識別任務。
[0005]為實現上述目的,采用了以下技術方案:
[0006]本專利技術提供了一種涉及一種正則化領域知識輔助的命名實體識別方法,包括:
[0007]S1、使用人工注釋的正則表達式規則來匹配原始訓練集中的實體提及,為句子中每個字符生成偽標簽;
[0008]S2、用上述帶有偽標簽的訓練數據訓練預訓練模型(教師模型),將正則化的領域知識嵌入到教師模型中;
[0009]S3、使用知識蒸餾方式,訓練命名實體識別模型(學生模型)的同時,將教師模型中的領域知識傳遞到命名實體識別模型(學生模型)中,實現了實體識別性能的增強。
[0010]本專利技術的進一步改進在于,基于所述的正則表達式的知識標注方法工作步驟如下:
[0011]S1.1、基于已有的訓練數據,人工注釋若干正則表達式規則;
[0012]S1.2、將輸入句子與上述的若干正則表達式逐一匹配,生成對應字符的偽標簽并識別出相應的實體,使用上述的正則表達式匹配后抽取的實體;
[0013]S1.3、對抽取出的實體采用BIO方法進行標注,其中,“B”(begin)代表實體的開頭,“I”(inside)代表實體的中間或結尾,“O”(other)表該詞為非實體詞。
[0014]本專利技術的進一步改進在于,所述教師模型為EBRT模型,知識提取方法的工作步驟如下:
[0015]S2.1、對于給定的輸入句子序列x=<x1,x2,
…
,x
i
,
…
,x
|X|
>,對應的偽標簽為將(x,y)輸入并訓練BERT模型,|X|是序列的長度;
[0016]S2.2、通過最小化交叉熵損失來訓練BERT模型:
[0017][0018][0019]其中,代表指示函數,如果則輸出1,否則輸出0;表示是字符標簽的集合;是模型輸出的所有標簽的概率分布;W和b是可學習的參數;h
i
是x
i
在預訓練模型中對應的輸出,經過訓練的BERT模型作為教師模型。
[0020]本專利技術的進一步改進在于,基于知識蒸餾的知識傳遞方法的工作步驟如下:
[0021]S3.1、將原始訓練集同時輸入到的BERT模型和命名實體識別模型,其中,預訓練的BERT模型作為教師模型,命名實體模型作為學生模型;
[0022]S3.2、學生模型在線性層輸出每個字符預測的概率序列P=(P1,P2,
…
,P
|X|
),教師模型層每個字符的預測標簽軟標簽模型層每個字符的預測標簽軟標簽
[0023]S3.3、將學生模型輸出的概率序列P,分別與真實標簽y=<y1,y2,
…
,y
i
,
…
,y
|X|
>和軟標簽分別計算交叉熵損失
[0024][0025]其中,序列標注模型的損失部分,表示交叉熵損失函數,α和β是權重系數,用于衡量模型的貢獻程度,T代表知識蒸餾中的溫度參數,其值越大,概率序列越平滑。
[0026]本專利技術的有益效果:
[0027]本專利技術提供的一種正則化領域知識輔助的命名實體識別方法,合理地利用已有的訓練數據。與其他外部知識輔助方法相比,該方法不需要額外的外部知識庫,只需要少量的人工注釋的正則表達式規則便能深度挖掘應有數據集中的正則化領域知識?;谥R蒸餾方法,使存儲在神經網絡模型的領域知識能夠有效傳遞到命名實體識別模型中,推動模型性能提升。
附圖說明
[0028]圖1為本專利技術所述一種正則化領域知識輔助的命名實體識別方法的框架圖;
[0029]圖2為本專利技術所述的模型網絡結構示意圖。
具體實施方式
[0030]為了更加清晰明確地說明本專利技術的技術方案和優勢,下面將詳細闡述本專利技術的實施方式,并在附圖中展示實施方式的示例。需要明確的是,附圖中描述的實施方式僅為示例,旨在說明本專利技術的實施方式,而不應被視為對本專利技術的限制。
[0031]圖1為本專利技術提供的一種正則化領域知識輔助的命名實體識別方法流程框架圖,所述方法包括:
[0032]S1、使用人工注釋的正則表達式規則來匹配原始訓練集中的實體提及,為句子中每個字符生成偽標簽;
[0033]在本專利技術實施例中,不帶標簽的訓練集示例,輸入到知識標注模塊中。知識標注模塊是包含了多條人工注釋的正則表達式規則,這些正規則蘊含了豐富的專家領域知識,它用來標注句子中的實體提及,生成對應字符的偽標簽。例如,輸入句子為“本藥內所含人參、白芍、反藜蘆”,使用正則表達式“(.*)本藥內所含(.+)、(.+)、(.+),(.*)”匹配后,識別出實體提及“人參”、“白芍”、“藜蘆”為DRUG_INGREDIENT類型。偽標簽使用BIO方式進行標注,其中,“B”(begin)代表實體的開頭,“I”(inside)代表實體的中間或結尾,“O”(other)表該詞為非實體詞。
[0034]S2、用上述帶有偽標簽的訓練數據訓練預訓練模型(教師模型),將正則化的領域知識嵌入到神經網絡模型中;
[0035]在本專利技術實施例中,知識標注模塊生成的帶偽標簽的輸入序列x,y)用來訓練實體抽取模塊,其中,x=<x1,x2,
…
,本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種正則化領域知識輔助的命名實體識別方法,其特征在于,包括:S1、使用人工注釋的正則表達式規則來匹配原始訓練集中的實體提及,為句子中每個字符生成偽標簽;S2、用上述帶有偽標簽的訓練數據訓練預訓練模型(教師模型),將正則化的領域知識嵌入到教師模型中;S3、使用知識蒸餾方式,訓練命名實體識別模型(學生模型)的同時,將教師模型中的領域知識傳遞到命名實體識別模型(學生模型)中,實現了實體識別性能的增強。2.根據權利要求1所述的一種正則化領域知識輔助的命名實體識別方法,其特征在于,基于所述的正則表達式的知識標注方法工作步驟如下:S1.1、基于已有的訓練數據,人工注釋若干正則表達式規則;S1.2、將輸入句子與上述的若干正則表達式逐一匹配,生成對應字符的偽標簽并識別出相應的實體,使用上述的正則表達式匹配后抽取的實體;S1.3、對抽取出的實體采用BIO方法進行標注,其中,“B”(begin)代表實體的開頭,“I”(inside)代表實體的中間或結尾,“O”(other)表該詞為非實體詞。3.根據權利要求1所述的一種正則化領域知識輔助的命名實體識別方法,其特征在于,所述教師模型為EBRT模型,知識提取方法的工作步驟如下:S2.1、對于給定的輸入句子序列x=<x1,x2,
…
,x
i
,
…
,x
|X|
>,對應的偽標簽為將(x,y)輸...
【專利技術屬性】
技術研發人員:馮建周,徐甘霖,
申請(專利權)人:燕山大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。