System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 中文字幕无码播放免费,最新国产精品无码,亚洲AV无码专区亚洲AV伊甸园
  • 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    一種基于語域遷移與模型融合的命名實體識別系統技術方案

    技術編號:44412479 閱讀:2 留言:0更新日期:2025-02-25 10:26
    本發明專利技術涉及一種基于語域遷移與模型融合的命名實體識別系統,本系統的訓練流程由源域與目標域組成,源域中包含對多組語料的訓練,并將參數傳遞至目標域,目標域接受來自源域的參數傳遞并輸出文本的對應標簽;本系統包含三大模塊,分別是Albert預訓練模塊,T_NER編碼器以及CRF解碼器模塊;系統輸入文本序列,輸出對應標簽序列;在源域訓練階段,模型經過CRF解碼后,計算損失函數并調整模型參數,而后將模型參數繼續應用于源域中下一領域的訓練中;在目標域預測階段,模型經過CRF解碼后直接返回對應標簽;解決了現有的命名實體識別系統面對跨語域注數據稀缺導致實際應用性能下降的問題,實現跨語域的命名實體識別,對知識圖譜構建任務提供的原始數據支撐。

    【技術實現步驟摘要】

    本專利技術涉及一種自然語言處理技術,特別涉及一種基于語域遷移與模型融合的命名實體識別系統


    技術介紹

    1、命名實體識別技術在自然語言處理領域扮演著至關重要的角色。它的核心作用在于從非結構化文本數據中自動提取出具有特定意義的實體,如人名、地名、機構名、時間表達式、數字表達式等。在信息提取與結構化、語義理解與智能問答、機器翻譯與跨語言處理、情感分析與輿情監測、文本摘要與自動生成和輔助決策與智能分析等領域中起到至關重要的作用。

    2、但現有的命名實體識別系統存在如下不足:首先,對于大多數實際應用場景而言,特別是那些專業領域(如特定行業術語、新興網絡語言等),可用的標注數據極為稀缺,由于語域之間的語義特征差異性,這些標簽數據不足的語域無法使用標簽充足的語域進行命名實體識別訓練(即,比如標簽不足的地質語域無法使用標簽充足的醫學語域文本進行跨語域的命名實體識別訓練)。其次,傳統的命名實體識別系統大多基于大規模標注數據集進行訓練,這些模型在充足數據支持下能夠取得較好的識別效果。然而,在實際應用中,特別是在新興領域或特定場景下,往往只能獲得少量甚至極少的標注數據。這種情況下,傳統的命名實體識別系統往往會出現過擬合現象,導致在測試集或實際應用中的性能大幅下降。

    3、相關專利申請(專利)號:202310160997.6名稱:命名實體的識別方法和識別裝置,可以實現對于文本的命名實體識別,但是該系統是基于大樣本進行的,無法實現跨語域的命名實體識別。此外,該系統基于人工標注,無法實現去人工的自動識別。


    術實現思路

    1、針對現有的命名實體識別系統面對跨語域注數據稀缺導致實際應用性能下降的問題,提出了一種基于語域遷移與模型融合的命名實體識別系統。該系統基于遷移學習與模型融合的思想,通過基于模型參數的遷移學習,實現跨語域的命名實體識別,對知識圖譜構建任務提供的原始數據支撐。

    2、本專利技術要解決的技術問題體現在以下幾點:

    3、(1)提升跨語域識別能力。使系統可以適應不同領域和語境,能夠跨越不同語域,識別并分類出這些特定領域的命名實體,減少了對特定領域數據的依賴。

    4、(2)增強模型融合效果。不同的命名實體識別模型可能在不同類型的文本或實體上表現更優,通過模型融合可以充分利用這些優勢。單一模型在面對復雜多變的文本數據時,可能會因為某些缺陷或偏差而導致識別錯誤。模型融合可以通過多個模型的相互補充,減少這類錯誤的發生,提升系統的整體魯棒性。

    5、(3)提高識別效率和準確性。語域遷移和模型融合技術可以通過優化算法和減少計算冗余,加速系統的識別過程。通過結合語域遷移和模型融合技術,命名實體識別系統能夠更準確地識別出文本中的命名實體,包括那些在不同語域中可能具有不同含義或形式的實體。

    6、本專利技術的技術方案為:

    7、一種基于語域遷移與模型融合的命名實體識別系統,本系統的訓練流程由源域與目標域組成,源域中包含對多組語料的訓練,并將參數傳遞至目標域,目標域接受來自源域的參數傳遞并輸出文本的對應標簽;

    8、本系統將對于不同語域的訓練當作不同的任務,通過對諸多不同語域進行學習,底層模型參數進行循環共享;基于參數共享的遷移學習,通過共享不同語域的訓練參數,實現不同語域學習之間的知識遷移;

    9、本系統包含三大模塊,分別是albert預訓練模塊,t_ner編碼器以及crf解碼器模塊;其整體架構包括依次連接的輸入層、預訓練層、編碼層、解碼層、輸出層,其中,albert預訓練模塊,t_ner編碼器以及crf解碼器模塊分別對應預訓練層、編碼層、解碼層;系統輸入文本序列,輸出對應標簽序列;

    10、在源域訓練階段,模型經過crf解碼后,計算損失函數并調整模型參數,而后將模型參數繼續應用于源域中下一領域的訓練中;在目標域預測階段,模型經過crf解碼后直接返回對應標簽;

    11、albert預訓練模塊將源域的文本從字符的形式轉化為詞向量的形式;

    12、t_ner編碼器承接預訓練模塊,其輸入為albert訓練得到的詞向量,其輸出為文本對應的標簽序列概率組合,銜接crf解碼器模塊;t_ner編碼器由bilstm與bigru線性組合而成,將二者結合,作為序列特征的學習結構;

    13、crf解碼器模塊以crf為核心的結構,其目的是為bilstm+bigru編碼器得到的概率組合拼接提供更多的約束;該部分有兩個作用,在源域訓練結構,進行模型參數的循環傳遞,將模型參數傳遞回至預訓練模塊的輸出位置,參與下一組語料的模型訓練;在目標域提取結構中,進行概率組合轉換,將概率組合轉換為對應的標簽,并進行輸出。

    14、進一步的,源域與目標域具體如下:

    15、從結構的角度分析,宏觀而言,源域的數據處理可由如下公式表示:

    16、

    17、其中,pn表示源域訓練結構的輸出結果,是cell的模型參數;pn將傳遞給目標域,作為目標域的輸入之一;xi表示第i組文本,yi表示第i組文本對應的標簽,n表示第n個源域;

    18、微觀而言,源域是由多個cell線性組合而成的,cell是t_ner的特殊設計結構;不同語域文本與對應標簽,依次按序輸入至cell中,針對每一個cell,其數學表述如下:

    19、

    20、其中,pi表示第i層cell的輸出,0<i<n+1,表示傳遞給第i+1層的、屬于第i層cell的神經參數,第i層cell對應第i層文本;(xi,yi,pi-1)表示第i層cell的輸入,xi表示第i組文本,yi表示第i組文本對應的標簽,pi-1表示第i-1層cell傳給第i層cell的神經參數;表示cell的神經網絡函數;其中,i∈[0,n],p0=0;

    21、針對目標域提取結構而言,其結構只包含一個cell,通常也只包含一組待訓練數據,其邏輯可以由如下數學公式表示:

    22、yt=θ(pn,xt)????????????????????(3)

    23、xt表示目標域的文本,pn表示源域訓練得到的模型參數,n表示源域中有n組語料;yt表示xt對應的標簽。

    24、進一步的,t_ner編碼器的運行原理可以由如下公式進行描述:

    25、itl=σ(wixt+uih(t-1)l+bi)?????????????(4)

    26、ftl=σ(wfxt+ufh(t-1)l+bf)????????????(5)

    27、otl=σ(woxt+uoh(t-1)l+bo)????????????(6)

    28、gtl=tanh(wgxt+ugh(t-1)l+bg)???????????(7)

    29、ctl=ftl*c(t-1)l+itl*gtl??????????????(8)

    30、htl=ot*tanh(ct)??????????????????(9)

    31、rtg=σ(wr本文檔來自技高網...

    【技術保護點】

    1.一種基于語域遷移與模型融合的命名實體識別系統,其特征在于,

    2.根據權利要求1所述的基于語域遷移與模型融合的命名實體識別系統,其特征在于,源域與目標域具體如下:

    3.根據權利要求1所述的基于語域遷移與模型融合的命名實體識別系統,其特征在于,T_NER編碼器的運行原理可以由如下公式進行描述:

    4.根據權利要求1所述的基于語域遷移與模型融合的命名實體識別系統,其特征在于,使用CRF損失函數作為模型的損失函數,CRF損失函數將序列標簽作為路徑,同一個文本序列經過BiLSTM+BiGRU編碼器后,會得到不同的標簽序列,不同序列的出現概率不同,CRF損失函數旨在使正確序列出現的概率最高;分別計算BiLSTM與BiGRU的CRF損失函數,并不進行統一計算,其公式如下:

    【技術特征摘要】

    1.一種基于語域遷移與模型融合的命名實體識別系統,其特征在于,

    2.根據權利要求1所述的基于語域遷移與模型融合的命名實體識別系統,其特征在于,源域與目標域具體如下:

    3.根據權利要求1所述的基于語域遷移與模型融合的命名實體識別系統,其特征在于,t_ner編碼器的運行原理可以由如下公式進行描述:

    4.根據權利要求1所...

    【專利技術屬性】
    技術研發人員:馬浩然王盼盼牛碩碩劉小楠王一涵
    申請(專利權)人:華東計算技術研究所中國電子科技集團公司第三十二研究所
    類型:發明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 免费无码黄网站在线观看| 亚洲AV无码乱码在线观看牲色| 午夜无码视频一区二区三区| 亚洲免费日韩无码系列 | 中文字幕人妻无码一夲道| 亚洲Av无码专区国产乱码DVD| 精品人妻无码一区二区色欲产成人| 东京热加勒比无码视频| 精品人妻系列无码人妻漫画| 无码丰满少妇2在线观看| 精品久久久久久无码人妻蜜桃 | 无码专区HEYZO色欲AV| 久久久久亚洲av无码专区喷水 | 国产精品无码免费视频二三区| 无码人妻AV免费一区二区三区| 精品亚洲成α人无码成α在线观看 | 亚洲av无码有乱码在线观看| 2021无码最新国产在线观看| 日韩精品无码一区二区视频| 少妇无码太爽了不卡在线观看| 久久精品岛国av一区二区无码| 亚洲精品无码久久毛片| 久久精品无码中文字幕| 欲色aV无码一区二区人妻| 亚洲综合无码一区二区| a级毛片无码免费真人久久| 无码人妻精品一区二| 精品无码黑人又粗又大又长| 久久AV无码精品人妻出轨| 久久亚洲精品成人无码| 亚洲AV无码AV吞精久久| 国产精品无码2021在线观看| 九九在线中文字幕无码| 人妻丰满?V无码久久不卡| 无码精品人妻一区二区三区AV| 无码专区一va亚洲v专区在线| 无码人妻aⅴ一区二区三区| 国产AV天堂无码一区二区三区| 人妻丝袜无码专区视频网站| 亚洲国产精品无码久久九九| 暴力强奷在线播放无码|