System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及一種自然語言處理技術,特別涉及一種基于語域遷移與模型融合的命名實體識別系統。
技術介紹
1、命名實體識別技術在自然語言處理領域扮演著至關重要的角色。它的核心作用在于從非結構化文本數據中自動提取出具有特定意義的實體,如人名、地名、機構名、時間表達式、數字表達式等。在信息提取與結構化、語義理解與智能問答、機器翻譯與跨語言處理、情感分析與輿情監測、文本摘要與自動生成和輔助決策與智能分析等領域中起到至關重要的作用。
2、但現有的命名實體識別系統存在如下不足:首先,對于大多數實際應用場景而言,特別是那些專業領域(如特定行業術語、新興網絡語言等),可用的標注數據極為稀缺,由于語域之間的語義特征差異性,這些標簽數據不足的語域無法使用標簽充足的語域進行命名實體識別訓練(即,比如標簽不足的地質語域無法使用標簽充足的醫學語域文本進行跨語域的命名實體識別訓練)。其次,傳統的命名實體識別系統大多基于大規模標注數據集進行訓練,這些模型在充足數據支持下能夠取得較好的識別效果。然而,在實際應用中,特別是在新興領域或特定場景下,往往只能獲得少量甚至極少的標注數據。這種情況下,傳統的命名實體識別系統往往會出現過擬合現象,導致在測試集或實際應用中的性能大幅下降。
3、相關專利申請(專利)號:202310160997.6名稱:命名實體的識別方法和識別裝置,可以實現對于文本的命名實體識別,但是該系統是基于大樣本進行的,無法實現跨語域的命名實體識別。此外,該系統基于人工標注,無法實現去人工的自動識別。
技
1、針對現有的命名實體識別系統面對跨語域注數據稀缺導致實際應用性能下降的問題,提出了一種基于語域遷移與模型融合的命名實體識別系統。該系統基于遷移學習與模型融合的思想,通過基于模型參數的遷移學習,實現跨語域的命名實體識別,對知識圖譜構建任務提供的原始數據支撐。
2、本專利技術要解決的技術問題體現在以下幾點:
3、(1)提升跨語域識別能力。使系統可以適應不同領域和語境,能夠跨越不同語域,識別并分類出這些特定領域的命名實體,減少了對特定領域數據的依賴。
4、(2)增強模型融合效果。不同的命名實體識別模型可能在不同類型的文本或實體上表現更優,通過模型融合可以充分利用這些優勢。單一模型在面對復雜多變的文本數據時,可能會因為某些缺陷或偏差而導致識別錯誤。模型融合可以通過多個模型的相互補充,減少這類錯誤的發生,提升系統的整體魯棒性。
5、(3)提高識別效率和準確性。語域遷移和模型融合技術可以通過優化算法和減少計算冗余,加速系統的識別過程。通過結合語域遷移和模型融合技術,命名實體識別系統能夠更準確地識別出文本中的命名實體,包括那些在不同語域中可能具有不同含義或形式的實體。
6、本專利技術的技術方案為:
7、一種基于語域遷移與模型融合的命名實體識別系統,本系統的訓練流程由源域與目標域組成,源域中包含對多組語料的訓練,并將參數傳遞至目標域,目標域接受來自源域的參數傳遞并輸出文本的對應標簽;
8、本系統將對于不同語域的訓練當作不同的任務,通過對諸多不同語域進行學習,底層模型參數進行循環共享;基于參數共享的遷移學習,通過共享不同語域的訓練參數,實現不同語域學習之間的知識遷移;
9、本系統包含三大模塊,分別是albert預訓練模塊,t_ner編碼器以及crf解碼器模塊;其整體架構包括依次連接的輸入層、預訓練層、編碼層、解碼層、輸出層,其中,albert預訓練模塊,t_ner編碼器以及crf解碼器模塊分別對應預訓練層、編碼層、解碼層;系統輸入文本序列,輸出對應標簽序列;
10、在源域訓練階段,模型經過crf解碼后,計算損失函數并調整模型參數,而后將模型參數繼續應用于源域中下一領域的訓練中;在目標域預測階段,模型經過crf解碼后直接返回對應標簽;
11、albert預訓練模塊將源域的文本從字符的形式轉化為詞向量的形式;
12、t_ner編碼器承接預訓練模塊,其輸入為albert訓練得到的詞向量,其輸出為文本對應的標簽序列概率組合,銜接crf解碼器模塊;t_ner編碼器由bilstm與bigru線性組合而成,將二者結合,作為序列特征的學習結構;
13、crf解碼器模塊以crf為核心的結構,其目的是為bilstm+bigru編碼器得到的概率組合拼接提供更多的約束;該部分有兩個作用,在源域訓練結構,進行模型參數的循環傳遞,將模型參數傳遞回至預訓練模塊的輸出位置,參與下一組語料的模型訓練;在目標域提取結構中,進行概率組合轉換,將概率組合轉換為對應的標簽,并進行輸出。
14、進一步的,源域與目標域具體如下:
15、從結構的角度分析,宏觀而言,源域的數據處理可由如下公式表示:
16、
17、其中,pn表示源域訓練結構的輸出結果,是cell的模型參數;pn將傳遞給目標域,作為目標域的輸入之一;xi表示第i組文本,yi表示第i組文本對應的標簽,n表示第n個源域;
18、微觀而言,源域是由多個cell線性組合而成的,cell是t_ner的特殊設計結構;不同語域文本與對應標簽,依次按序輸入至cell中,針對每一個cell,其數學表述如下:
19、
20、其中,pi表示第i層cell的輸出,0<i<n+1,表示傳遞給第i+1層的、屬于第i層cell的神經參數,第i層cell對應第i層文本;(xi,yi,pi-1)表示第i層cell的輸入,xi表示第i組文本,yi表示第i組文本對應的標簽,pi-1表示第i-1層cell傳給第i層cell的神經參數;表示cell的神經網絡函數;其中,i∈[0,n],p0=0;
21、針對目標域提取結構而言,其結構只包含一個cell,通常也只包含一組待訓練數據,其邏輯可以由如下數學公式表示:
22、yt=θ(pn,xt)????????????????????(3)
23、xt表示目標域的文本,pn表示源域訓練得到的模型參數,n表示源域中有n組語料;yt表示xt對應的標簽。
24、進一步的,t_ner編碼器的運行原理可以由如下公式進行描述:
25、itl=σ(wixt+uih(t-1)l+bi)?????????????(4)
26、ftl=σ(wfxt+ufh(t-1)l+bf)????????????(5)
27、otl=σ(woxt+uoh(t-1)l+bo)????????????(6)
28、gtl=tanh(wgxt+ugh(t-1)l+bg)???????????(7)
29、ctl=ftl*c(t-1)l+itl*gtl??????????????(8)
30、htl=ot*tanh(ct)??????????????????(9)
31、rtg=σ(wr本文檔來自技高網...
【技術保護點】
1.一種基于語域遷移與模型融合的命名實體識別系統,其特征在于,
2.根據權利要求1所述的基于語域遷移與模型融合的命名實體識別系統,其特征在于,源域與目標域具體如下:
3.根據權利要求1所述的基于語域遷移與模型融合的命名實體識別系統,其特征在于,T_NER編碼器的運行原理可以由如下公式進行描述:
4.根據權利要求1所述的基于語域遷移與模型融合的命名實體識別系統,其特征在于,使用CRF損失函數作為模型的損失函數,CRF損失函數將序列標簽作為路徑,同一個文本序列經過BiLSTM+BiGRU編碼器后,會得到不同的標簽序列,不同序列的出現概率不同,CRF損失函數旨在使正確序列出現的概率最高;分別計算BiLSTM與BiGRU的CRF損失函數,并不進行統一計算,其公式如下:
【技術特征摘要】
1.一種基于語域遷移與模型融合的命名實體識別系統,其特征在于,
2.根據權利要求1所述的基于語域遷移與模型融合的命名實體識別系統,其特征在于,源域與目標域具體如下:
3.根據權利要求1所述的基于語域遷移與模型融合的命名實體識別系統,其特征在于,t_ner編碼器的運行原理可以由如下公式進行描述:
4.根據權利要求1所...
【專利技術屬性】
技術研發人員:馬浩然,王盼盼,牛碩碩,劉小楠,王一涵,
申請(專利權)人:華東計算技術研究所中國電子科技集團公司第三十二研究所,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。