System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及數據挖掘、知識表示與推理領域,尤其涉及一種少樣本電網法律知識擴充方法。
技術介紹
1、知識圖譜是google公司2012年提出的一個概念,其以圖的形式表示實體及實體之間的關系,存儲知識,通過節點表示實體,通過邊表示實體之間的關系,以三元組的形式存儲,是許多智能應用的重要基礎。目前,許多工作利用自動化知識推理技術預測新知識,完成知識擴充,從而提升已有知識的覆蓋度和準確性,提高知識圖譜在各個下游領域的應用效果。
2、知識擴充主要借助知識推理技術完成新知識的獲取,知識推理技術主要分為四大類,基于距離度量的方法,基于張量分解的方法,基于圖神經網絡的方法以及組合方法。其中基于距離度量的方法假設一個關系可以表示為從頭實體到尾實體的平移,以此原則計算實體和關系的表示?;趶埩糠纸獾姆椒ㄍㄟ^多階張量分解算法表示三元組,能夠捕捉實體之間的多重關系?;趫D神經網絡的方法通過卷積操作聚合鄰居節點的信息,生成節點的表示,從而捕捉局部結構信息。組合方法則綜合上述各種方法的優點,針對不同的問題使用上述不同的方法以此獲得更好的知識推理效果。
3、現有的中文知識擴充方法針對的大多是通用領域的知識推理,目前已經比較成熟,但是針對電網法律知識擴充的工作還比較少。電網法律知識專業性強,涉及大量專業術語和復雜的法律條文、法規等。同時法律法規和判例會不斷更新,需要對知識的表示具有較高的更新頻率和及時性。此外電網法律領域要求極高的準確性,任何錯誤都可能會導致嚴重后果。因此與通用領域的知識擴充相比,進行電網法律知識擴充的模型往往需要有更
4、現有電網法律知識擴充方法存在兩個主要問題:1、現有的知識表示方法沒有考慮到電網法律知識的復雜性,即包含大量專業復雜的法律實體(如案件、法律條文、法官、律師等)及其復雜的關系(如適用、判決、引用等)。因此方法對法律實體和關系中語義信息的理解欠缺。2、電網法律知識更容易動態更新,因此更需要面對具有少量訓練樣本的知識擴充情形。而現有的知識擴充方法很少可以較好的處理少樣本情形下的知識推理。
技術實現思路
1、專利技術目的:針對上述現有技術存在的問題和不足,本專利技術的目的是提供一種少樣本電網法律知識擴充方法,該方法使用一種雙層注意力門控機制增強對電網法律語義信息的表達能力。同時該方法基于條件變分自編碼器生成額外的少樣本關系樣例,達到增強方法在少樣本場景下的法律關系建模能力。通過上述設計,本專利技術能夠提升少樣本場景下電網法律知識擴充的效果,為后續實際應用提供保障。
2、技術方案:為實現上述專利技術目的,本專利技術采用的技術方案為一種少樣本電網法律知識擴充方法,包括以下步驟:
3、(1.1)將訓練數據集按照法律關系劃分為不同的任務,每個任務對應特定的法律關系,包含各自的“支持集+查詢集”數據,支持集中包含該法律關系的少量樣本,因此每個任務對應的特定法律關系也被稱為少樣本法律關系;
4、(1.2)基于電網法律知識三元組中的圖結構信息,使用transe的表示學習方法獲取法律實體的第一初始化向量表示和法律關系的第二初始化向量表示;
5、(1.3)基于所述步驟(1.2)中初始化后的法律實體、法律關系向量,使用元學習使模型獲得跨越不同法律關系的通用法律關系知識,所述通用法律關系知識為元信息,利用該元信息綜合每個法律關系對應支持集中的所有樣本計算法律關系的向量表示;
6、(1.4)基于所述步驟(1.3)中獲取的法律關系向量表示,以及所述步驟(1.2)中法律實體的第一初始化表示,使用雙層門控機制從實體和關系兩個方面考慮,重新計算法律實體的第二向量表示,進而計算增強過后的法律關系的第三向量表示,該法律關系的第三向量表示為當前任務對應的少樣本法律關系表示;
7、(1.5)基于所述步驟(1.3)得到的法律關系表示,結合條件變分自編碼器為當前任務的少樣本法律關系生成更多的支持樣本,進一步提升模型表示少樣本法律關系的泛化能力;
8、(1.6)根據模型增強后的少樣本法律關系表示,進行有關少樣本電網法律的知識推理,獲取少樣本法律關系的新知識,完成少樣本電網法律知識擴充。
9、進一步地,所述步驟(1.3)包括以下步驟:
10、(2.1)使用支持集中的三元組數據,使用尾實體減頭實體的結果再乘以多層感知機,得到的計算結果表示法律關系,接著使用平均池化計算所有三元組數據的平均法律關系表示,記為r′;
11、(2.2)使用所述步驟(2.1)中的r′基于transe的損失函數在支持集中計算梯度,根據r′的梯度對r′進行更新,得到使用元學習優化后的關系表示rmeta。其中transe的損失函數為||h+r-t||2,其中h,r和t分別為支持集三元組中的頭法律實體,法律關系和尾法律實體,||*||2為第二范數。對r′更新的方法為rmeta=r′-β×grad(r′),其中β為學習率,grad(r′)為r′的梯度;
12、進一步的,所述步驟(1.4)包含以下步驟:
13、(3.1)使用法律實體和法律關系的向量表示計算法律實體的鄰居表示,假設某三元組頭法律實體表示為h,尾法律實體表示為t,頭法律實體第i個鄰居的表示信息計算方式為其中hi是頭法律實體的第i個鄰居法律實體,ri為hi與h相連的法律關系,為拼接符號,wgcn為多層感知機;
14、(3.2)使用所述步驟(2.2)中的rmeta計算關系對頭法律實體鄰居影響的第一注意力權重,使用第一注意力權重聚合鄰居表示,得到頭法律實體考慮關系的向量表示,記為hrel;
15、(3.3)使用尾實體計算實體對頭法律實體鄰居影響的第二注意力權重,使用第二注意力權重聚合鄰居表示,得到頭法律實體考慮實體的向量表示,記為hent;
16、(3.4)使用頭法律實體計算門控權重,同時根據所述門控權重融合(3.2)中的hrel與(3.3)中的hent,獲得最終的頭法律實體的第四向量表示,其中尾法律實體表示的計算方法與頭法律實體類似。最終使用增強后的法律頭尾實體對表示當前少樣本法律關系,獲得少樣本法律關系的第五向量表示;
17、進一步的,所述步驟(1.5)包含以下步驟:
18、(4.1)在獲得電網法律關系向量后,假設其在隱向量空間中的表示特征服從高斯分布,使用步驟(2.2)中得到的rmeta計算均值和方差,作為條件變分自編碼器的條件先驗;
19、(4.2)基于支持集中的頭尾法律實體向量計算均值和方差,作為條件變分自編碼器的變分后驗。使用步驟(4.1)中的條件先驗與當前步驟中的變分后驗計算變分自編碼器的kl散度損失;
20、(4.3)基于步驟(4.2)中得到的變分后驗計算對支持集中法律頭尾實體的似然估計h′與t′。使用該步驟中得到的h′,t′計算條件變分自編碼器中的重構損失;
21、(4.4)基于步驟(4.2本文檔來自技高網...
【技術保護點】
1.一種少樣本電網法律知識擴充方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的少樣本電網法律知識擴充方法,其特征在于,所述步驟(1.3)包括以下步驟:
3.根據權利要求2所述的少樣本電網法律知識擴充方法,其特征在于,所述步驟(1.4)包括以下步驟:
4.根據權利要求2所述的少樣本電網法律知識擴充方法,其特征在于,所述步驟(1.5)包括以下步驟:
【技術特征摘要】
1.一種少樣本電網法律知識擴充方法,其特征在于,包括以下步驟:
2.根據權利要求1所述的少樣本電網法律知識擴充方法,其特征在于,所述步驟(1.3)包括以下步驟:
3.根據權...
【專利技術屬性】
技術研發人員:胡偉,劉毅,徐磊,黃成燕,查小云,張星,丁群晏,王小波,于淼,張弛,
申請(專利權)人:南京大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。