System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及人工智能、大數據、自然語言處理、信息抽取領域,尤其涉及一種基于self-attention模型的內容實體與關系抽取方法。
技術介紹
1、實體與關系抽取指的是,從一段文本中抽取出其中所包含的實體信息,以及對應實體之間的關系信息。現有技術多是通過編碼器模型(例如bert),將文本各個對應位置進行bio編碼處理,之后對生成的結果進行解碼,以確定實體詞在文本中的位置。而對于實體詞之間的關系,同樣對其對應位置進行編碼處理,以主客體關系為例,用1表示關系主體,2表示關系客體。結合其結果與實體詞抽取結果,共同確定文本中目標位置的實體詞是關系主體,還是關系客體。而對于多實體類型,多關系類型的任務,一般的解決方法是成倍的增加目標編碼值個數,例如一種實體類型需要3個目標編碼值,兩種實體類型就需要6個目標編碼值,以此類推。另一種解決方法是為每種類型實體、類型配備一個獨立模型。
2、上述方法中,通過位置關系的實體詞抽取及實體關系抽取,最大的缺陷就是如若一段話中多個相同的實體詞關系對,則只能知道該關系的起始詞是哪些,終止詞是哪些。無法確定其具體的對應關系。對于多實體、多關系識別任務,成倍增加目標編碼值個數的做法,其對應的也成倍的增加了分類器的工作難度。過多的分類類別勢必影響到分類器的精度,造成識別率下降。而為每種類型實體、類型配備一個獨立模型,雖然不會降低實體、關系識別率,但是會成倍的增加識別時間和所需消耗的硬件資源。為此,亟需一種新的方法,在滿足應用的同時,能夠解決上述方式存在的問題。
技術實現思路
1、本專利技術所要解決的技術問題是克服現有技術的不足,提供一種定位精準、識別率高、識別效率高且成本低的基于self-attention模型的內容實體與關系抽取方法。
2、本專利技術所采用的技術方案是,本專利技術方法包括以下步驟:
3、a.在編碼器最后一層建立self-attention模型,編碼器輸出的參數輸入self-attention模型進行計算;
4、b.在self-attention模型中,每一個位置的特征值都會與其他位置的特征值進行關聯度計算,算得關聯值,該關聯值確定目標位置在各個其他位置所需投入注意力的多少;
5、c.將步驟b得到的其他位置投入的注意力與該位置攜帶的信息量進行計算以及加和,作為目標位置的輸出;
6、d.在self-attention模型的后側設置一個線性層,self-attention輸出的參數輸入線性模型進行計算;
7、e.利用線性層對self-attention模型中包含的各個位置的特征值之間的關系進行前饋計算,以對下一步進行判斷,最終得到與目標起始詞關系最近的終止詞,進而建立起始詞到終止詞的關系,實現實體詞與實體關系抽取。
8、上述方案可見,在在self-attention模型的后側設置一個線性層,利用線性層對self-attention模型中包含的各個位置的特征值之間的關系進行前饋計算,因此最終得到與目標起始詞關系最近的終止詞,進而建立起始詞到終止詞的關系,進而精準地實現內容實體與關系的關聯和抽取,該方法在內容實體與關系的關聯中識別率高、識別效率高且成本低。
9、進一步地,該方法還包括以下步驟:對于多實體或多關系類型的任務,為每一種實體或關系類型配置一組線性層參數,對于每組線性層參數做單組的實體、關系類型判別,并進行線性層前饋計算,最終得到與目標起始詞關系最近的終止詞,進而建立起始詞到終止詞的關系。
10、再進一步地,在所述步驟b中,每一個位置的特征值都會與其他位置的特征值進行關聯度計算,算得關聯值的具體步驟為:
11、特征值的關聯度通過js散度進行計算,其計算公式為:
12、
13、其中,p與q代表兩個不同的分布,而用di,j表示i位置特征值ai與j位置特征值aj之間的關聯度,則有:
14、
15、再又進一步地,在所述步驟c中,將步驟b得到的其他位置投入的注意力與該位置攜帶的信息量進行計算以及加和的計算公式為:
16、
17、其中n代表序列長度,且有1≤i,j≤n。
18、此外,對于多實體或多關系類型的任務,為每一種實體或關系類型配置一組線性層參數,對于每組線性層參數做單組的實體、關系類型判別,并進行線性層前饋計算,最終得到與目標起始詞關系最近的終止詞,該過程通過下式進行計算:
19、tk=lk(d)
20、其中k∈(1,m),m為實體類型數,為每一種關系類型配置一組線性層參數,lk表示第k類關系類型的線性層參數,d為注意力信息和,通過tk來判別對應位置的實體詞是否存在特定類關系。
本文檔來自技高網...【技術保護點】
1.一種基于self-attention模型的內容實體與關系抽取方法,其特征在于,該方法包括以下步驟:
2.根據權利要求1所述的一種基于self-attention模型的內容實體與關系抽取方法,其特征在于,該方法還包括以下步驟:
3.根據權利要求1所述的一種基于self-attention模型的內容實體與關系抽取方法,其特征在于,在所述步驟b中,每一個位置的特征值都會與其他位置的特征值進行關聯度計算,算得關聯值的具體步驟為:
4.根據權利要求3所述的一種基于self-attention模型的內容實體與關系抽取方法,其特征在于,在所述步驟c中,將步驟b得到的其他位置投入的注意力與該位置攜帶的信息量進行計算以及加和的計算公式為:
5.根據權利要求2所述的一種基于self-attention模型的內容實體與關系抽取方法,其特征在于,對于多實體或多關系類型的任務,為每一種實體或關系類型配置一組線性層參數,對于每組線性層參數做單組的實體、關系類型判別,并進行線性層前饋計算,最終得到與目標起始詞關系最近的終止詞,該過程通過下式進行計算:
【技術特征摘要】
1.一種基于self-attention模型的內容實體與關系抽取方法,其特征在于,該方法包括以下步驟:
2.根據權利要求1所述的一種基于self-attention模型的內容實體與關系抽取方法,其特征在于,該方法還包括以下步驟:
3.根據權利要求1所述的一種基于self-attention模型的內容實體與關系抽取方法,其特征在于,在所述步驟b中,每一個位置的特征值都會與其他位置的特征值進行關聯度計算,算得關聯值的具體步驟為:
4.根據權利要求3所述的一種...
【專利技術屬性】
技術研發人員:龐藝光,陳潤天,姜海珠,
申請(專利權)人:珠海必優科技有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。