System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及自然語言處理領域,具體涉及一種藏文司法事件抽取方法、系統、存儲介質和電子設備。
技術介紹
1、隨著人工智能等科技的快速發展,深化人工智能在法律服務領域的應用,將大數據、人工智能與司法工作深度融合,提高司法工作的信息化水平,愈發受到各界人士的關注。如何自動發掘蘊藏于司法大數據中的豐富信息,提升智能技術在司法領域應用的深度和廣度,進而使之更好地為司法工作賦能助力,是當前智慧司法研究亟待解決的關鍵問題。司法事件抽取旨在識別司法案件中以事件為核心的多維事件要素,輔助司法工作者快速重構案件事實畫像,這不僅能夠提升司法效率,同時有助于確保決策的客觀性和公正性。
2、相關技術中,借助海量公開的中文裁判文書,中文司法事件抽取工作和評測任務如火如荼的進行,司法大數據應用價值全面釋放,并催生了一系列人工智能引擎相關能力在法院信息化系統中的落地應用。然而,相較于中文,藏文司法事件抽取的研究工作相對“冷清”。藏文裁判文書已經具有一定的數量積累,但仍停留在閱讀階段,尚未產生實質價值,其蘊含的大量案由、案件事實、爭議焦點、法律適用等有價值的數據資源有待充分挖掘。藏文司法事件抽取是民族地區司法智能的基礎任務,能夠輔助民族地區司法工作者提升工作質效,并為后續民族地區類案檢索、文書校對、涉法輿情摘要等司法智能提供技術支撐。
3、目前事件抽取研究主要集中在英文、中文等高資源語言,低資源語言的事件抽取研究相對較少。低資源場景事件抽取面臨數據稀疏性、語義表達多樣性、背景知識匱乏等挑戰,需要采取知識遷移、多任務學習等一系列策略來提高
技術實現思路
1、(一)解決的技術問題
2、針對現有技術的不足,本專利技術提供了一種藏文司法事件抽取方法、系統、存儲介質和電子設備,解決了司法領域場景下的藏文事件抽取的技術問題。
3、(二)技術方案
4、為實現以上目的,本專利技術通過以下技術方案予以實現:
5、一種藏文司法事件抽取方法,基于預先訓練好的深度學習網絡,所述深度學習網絡包括cino預訓練語言模型、bilstm和cnn混合神經網絡、crf模型;所述藏文司法事件抽取方法包括:
6、獲取待分析的藏文文本,采用所述cino預訓練語言模型獲取動態上下文語義表示;
7、基于所述動態上下文語義表示,采用所述bilstm和cnn混合神經網絡分別獲取上下文時序特征、局部特征;融合所述上下文時序特征、局部特征,獲取藏文文本的全局語義特征;
8、基于所述全局語義特征,采用所述crf模型識別事件觸發詞或論元角色;
9、合并識別的所述事件觸發詞和論元角色,作為所述待分析的藏文文本的每個藏文音節在bio標注體系下的分類預測結果。
10、優選的,所述深度學習網絡的訓練過程如下:
11、構建藏文司法事件數據集;
12、對任一藏文司法事件數據的每個藏文音節進行bio標注,并作為深度學習網絡的輸入進行訓練,直至網絡收斂;
13、其中,所述藏文司法事件數據集的構建過程包括:
14、設計類別分組-主題建模兩階段的事件層級體系,確定事件類型,并對每一所述事件類型,基于ace2005框架體系,確定相應的事件論元及論元限定類型,以完成事件模式的制定;
15、采集并清洗多個藏文裁判文書,在所述事件模式下,采用模型驅動的事件觸發詞預標注與事件論元人工標注相結合,半自動化構建藏文司法事件數據集。
16、優選的,所述基于所述動態上下文語義表示,采用所述bilstm和cnn混合神經網絡分別獲取上下文時序特征、局部特征;包括:
17、(1)上下文時序特征
18、采用bilstm對序列特征進行前向和后向兩次lstm訓練優化,捕獲字詞之間的上下文語義關系;在t時刻,對于動態上下文語義表示v=(e1,e2,…,en),依次使用下式進行處理,計算過程如下:
19、
20、其中,ei表示第i個藏文音節對應的向量表示,n表示藏文音節數量;ft、it、ot、ct分別表示在t時刻的遺忘門、輸入門、輸出門和細胞狀態;ht表示lstm的最終輸出;w(·)、b(·)分別表示遺忘門、輸入門、輸出門或細胞狀態的權重矩陣與偏置矩陣,σ表示激活函數;et表示當前時間步長的輸入,ht-1、ht分別表示前一時間步長的隱藏狀態;
21、將前向lstm的處理結果與后向lstm的處理結果拼接后的ht計算如下:
22、
23、將利用bilstm提取的上下文時序特征表示為h=(h1,h2,…,hn);
24、(2)局部特征
25、采用cnn提取字符級別的局部特征;對于動態上下文語義表示v=(e1,e2,…,en)進行卷積操作,卷積過程如下所示:
26、pc=f(wc·ei:i+l-1+bc)??(3)
27、其中,f表示relu激活函數;ei:i+l-1表示動態上下文語義表示的第i個到第i+l-1個特征;c表示卷積核的數量;wc表示卷積核的可訓練權重參數,l表示卷積核的長度,bc為偏置參數;
28、對于卷積操作得到的特征向量pc,采用最大池化方式取卷積特征向量中固定范圍內的最大值作為池化后的特征表示,如下表示:
29、c=max(pc)??(4)
30、將利用cnn提取的序列局部特征表示為c=(c1,c2,…,cn);
31、所述融合所述上下文時序特征、局部特征,獲取藏文文本的全局語義特征,表示為:
32、
33、其中,rout表示全局語義特征。
34、優選的,所述基于所述全局語義特征,采用所述crf模型識別事件觸發詞或論元角色;包括:
35、采用softmax預測事件觸發詞或論元角色的類型標簽,取最大概率的類別作為模型的預測類別,計算方法為:
36、p(y|x)=softmax(w(x)rout+b(x))??(6)
37、
38、其中,p(y|x)表示句子x屬于每類標簽y的條件概率,為概率值最大的類型,w(x)為權重參數,b(x)為偏置參數;
39、將p(y|x)作為crf的發射概率,通過crf計算轉移概率,以計算標簽之間的依賴關系;當已知序列x=(x1,x2,…,xn)對應的輸出標簽結果為y=(y1,y2,…,yn)時,定義當前序列得分為:
40、
41、其中,yi是第i個位置的標簽值;是第i個位置softmax輸出為yi的概率;為yi-1到yi的轉移概率;
42、計算歸一化后的概率,本文檔來自技高網...
【技術保護點】
1.一種藏文司法事件抽取方法,其特征在于,基于預先訓練好的深度學習網絡所述深度學習網絡包括CINO預訓練語言模型、BiLSTM和CNN混合神經網絡、CRF模型;所述藏文司法事件抽取方法包括:
2.如權利要求1所述的藏文司法事件抽取方法,其特征在于,所述深度學習網絡的訓練過程如下:
3.如權利要求1所述的藏文司法事件抽取方法,其特征在于,
4.如權利要求3所述的藏文司法事件抽取方法,其特征在于,所述基于所述全局語義特征,采用所述CRF模型識別事件觸發詞或論元角色;包括:
5.一種藏文司法事件抽取系統,其特征在于,基于預先訓練好的深度學習網絡所述深度學習網絡包括CINO預訓練語言模型、BiLSTM和CNN混合神經網絡、CRF模型;所述藏文司法事件抽取系統包括:
6.如權利要求5所述的藏文司法事件抽取系統,其特征在于,所述深度學習網絡的訓練過程如下:
7.如權利要求5所述的藏文司法事件抽取系統,其特征在于,所述基于所述動態上下文語義表示,采用所述BiLSTM和CNN混合神經網絡分別獲取上下文時序特征、局部特征;包括
8.如權利要求7所述的藏文司法事件抽取系統,其特征在于,所述基于所述全局語義特征,采用所述CRF模型識別事件觸發詞或論元角色;包括:
9.一種存儲介質,其特征在于,其存儲有用于藏文司法事件抽取的計算機程序,其中,所述計算機程序使得計算機執行如權利要求1~4任一項所述的藏文司法事件抽取方法。
10.一種電子設備,其特征在于,包括:
...【技術特征摘要】
1.一種藏文司法事件抽取方法,其特征在于,基于預先訓練好的深度學習網絡所述深度學習網絡包括cino預訓練語言模型、bilstm和cnn混合神經網絡、crf模型;所述藏文司法事件抽取方法包括:
2.如權利要求1所述的藏文司法事件抽取方法,其特征在于,所述深度學習網絡的訓練過程如下:
3.如權利要求1所述的藏文司法事件抽取方法,其特征在于,
4.如權利要求3所述的藏文司法事件抽取方法,其特征在于,所述基于所述全局語義特征,采用所述crf模型識別事件觸發詞或論元角色;包括:
5.一種藏文司法事件抽取系統,其特征在于,基于預先訓練好的深度學習網絡所述深度學習網絡包括cino預訓練語言模型、bilstm和cnn混合神經網絡、crf模型;...
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。