System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)屬于信息抽取,具體涉及一種基于深度學(xué)習(xí)和多位置指針標(biāo)注的中文實(shí)體關(guān)系聯(lián)合抽取方法。
技術(shù)介紹
1、隨著科技的發(fā)展和互聯(lián)網(wǎng)的普及,市場(chǎng)上出現(xiàn)了大量的面向企業(yè)的中介服務(wù)平臺(tái)。這些平臺(tái)包括政府采購(gòu)合同融資服務(wù)平臺(tái)、中小企業(yè)信用融資服務(wù)平臺(tái)、投資理財(cái)平臺(tái)等,這些平臺(tái)作為一種帶有中介性質(zhì)的服務(wù)機(jī)構(gòu),他們之間的競(jìng)爭(zhēng)非常激烈。在這種環(huán)境下,平臺(tái)不僅需要提供優(yōu)質(zhì)的服務(wù),還要精準(zhǔn)的挖掘企業(yè)客戶,為合作機(jī)構(gòu)提供優(yōu)質(zhì)的客戶資源。不同的企業(yè)對(duì)平臺(tái)的服務(wù)有不同的需求和期望,因此平臺(tái)必須提供符合企業(yè)需求的產(chǎn)品和服務(wù),這就需要平臺(tái)必須對(duì)企業(yè)的具體情況有較為深入的了解。實(shí)體關(guān)系抽取旨在從大量非結(jié)構(gòu)化文本數(shù)據(jù)中提取出有價(jià)值的信息,從而幫助平臺(tái)更全面地了解客戶情況。實(shí)體關(guān)系抽取為中介服務(wù)平臺(tái)了解客戶提供了強(qiáng)有力的支持。
2、傳統(tǒng)的實(shí)體關(guān)系抽取主要有流水線抽取和聯(lián)合抽取兩種方式。流水線抽取是實(shí)體和關(guān)系作為兩個(gè)獨(dú)立的子任務(wù)進(jìn)行抽取,這種方法容易導(dǎo)致誤差積累。聯(lián)合抽取是把實(shí)體抽取和關(guān)系抽取組合在一起,通過(guò)增加兩個(gè)子任務(wù)的交互,避免了誤差積累問(wèn)題?,F(xiàn)有的聯(lián)合抽取方法主要包括參數(shù)共享和序列標(biāo)注方法。參數(shù)共享方法是在實(shí)體抽取和關(guān)系抽取中共享參數(shù),在訓(xùn)練過(guò)程中一起調(diào)整,從而實(shí)現(xiàn)這兩個(gè)子任務(wù)交互的目的。但是這種方法無(wú)法解決實(shí)體對(duì)完全重疊的問(wèn)題。
3、另外,在抽取實(shí)體關(guān)系時(shí),不同類型的實(shí)體和關(guān)系其長(zhǎng)度差距可能較大,過(guò)長(zhǎng)的實(shí)體或關(guān)系會(huì)影響模型抽取的效果。
技術(shù)實(shí)現(xiàn)思路
1、本專利技術(shù)提供了一種基于深度學(xué)習(xí)和
2、本申請(qǐng)的技術(shù)方案如下:
3、一種基于深度學(xué)習(xí)和多位置指針標(biāo)注的中文實(shí)體關(guān)系聯(lián)合抽取方法,包括以下步驟:
4、s1):收集關(guān)于企業(yè)、協(xié)會(huì)、資金服務(wù)機(jī)構(gòu)的新聞文本數(shù)據(jù),以句為單位對(duì)文本數(shù)據(jù)進(jìn)行預(yù)處理,形成中文樣本并劃分訓(xùn)練集和測(cè)試集;
5、s2):向預(yù)訓(xùn)練模型bert-base-chinese中輸入中文樣本以對(duì)中文樣本進(jìn)行詞嵌入、位置嵌入以及片段嵌入操作,得到嵌入后的中文詞向量;
6、s3):將中文詞向量輸入至雙向長(zhǎng)短期記憶網(wǎng)絡(luò),捕獲序列數(shù)據(jù)中的長(zhǎng)距離依賴關(guān)系,得到融合上下文語(yǔ)義的詞向量;所述雙向長(zhǎng)短期記憶網(wǎng)絡(luò)包括正向長(zhǎng)短期記憶網(wǎng)絡(luò)和反向長(zhǎng)短期記憶網(wǎng)絡(luò);
7、s4):將融合上下文語(yǔ)義的詞向量輸入至注意力機(jī)制層,計(jì)算詞與詞之間的權(quán)重,生成加權(quán)的上下文表示;通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)詞向量序列進(jìn)行特征提??;
8、s5):將所提取的詞向量序列的特征輸入至全連接層以獲得標(biāo)簽預(yù)測(cè)輸出,將輸出結(jié)果在頭實(shí)體起始位置、中間位置和結(jié)束位置進(jìn)行標(biāo)注,并計(jì)算頭實(shí)體位置標(biāo)注的損失;
9、s6):將頭實(shí)體位置信息融入到句信息中,將融入后的句序列向量通過(guò)注意力機(jī)制層計(jì)算詞向量的權(quán)重,再通過(guò)卷積神經(jīng)網(wǎng)絡(luò)對(duì)詞的特征進(jìn)行提取操作,并將提取的特征輸入至全連接層;
10、s7):在全連接層預(yù)測(cè)輸出關(guān)系類型與尾實(shí)體標(biāo)簽,在關(guān)系與尾實(shí)體的標(biāo)注層標(biāo)注關(guān)系類型和尾實(shí)體的位置,然后計(jì)算標(biāo)注過(guò)程中的損失并抽取由頭實(shí)體、關(guān)系、尾實(shí)體組成的三元組;
11、s8):通過(guò)預(yù)訓(xùn)練模型對(duì)訓(xùn)練集和測(cè)試集進(jìn)行預(yù)測(cè),以精確率、召回率以及f1-score值評(píng)估模型的有效性。
12、進(jìn)一步地,s2)具體包括以下步驟:
13、s2-1)使用wordpiece技術(shù)對(duì)句進(jìn)行分詞操作,得到其文本序列;
14、式中,表示詞, m表示詞的數(shù)量;
15、s2-2)將詞向量映射至嵌入向量 e()中進(jìn)行詞嵌入,嵌入向量 e()通過(guò)查找嵌入矩陣獲取;
16、s2-3)對(duì)詞的位置向量進(jìn)行嵌入操作,以獲取詞在句中的位置,過(guò)程具體如下:
17、;
18、;
19、式中, pos是詞在文本序列中的位置,默認(rèn)從0開(kāi)始; j為嵌入向量的維度索引,嵌入向量的維度;
20、s2-4)基于句子的段向量使用段嵌入向量進(jìn)行段嵌入操作;
21、s2-5)拼接嵌入后的詞向量、詞的位置向量以及段向量,得到嵌入后的詞向量序列 tok=[],其中 k表示詞的所屬句子,具體如下:
22、。
23、進(jìn)一步地,s3)具體包括以下步驟:
24、s3-1)將嵌入后的詞向量序列輸入到正向長(zhǎng)短期記憶網(wǎng)絡(luò)和反向長(zhǎng)短期記憶網(wǎng)絡(luò),以分別獲取正向隱藏層輸出向量和反向隱藏層輸出向量;正向長(zhǎng)短期記憶網(wǎng)絡(luò)和反向長(zhǎng)短期記憶網(wǎng)絡(luò)的隱藏層計(jì)算過(guò)程相同,對(duì)于正向長(zhǎng)短期記憶網(wǎng)絡(luò),其隱藏層具體過(guò)程如下:
25、;
26、;
27、;
28、;
29、;
30、;
31、式中, 、 、 、 、 、分別表示輸入門(mén)、遺忘門(mén)、輸出門(mén)、候選狀態(tài)門(mén)、更新門(mén)和正向長(zhǎng)短期記憶網(wǎng)絡(luò)的輸出向量, 、 、和分別表示對(duì)應(yīng)門(mén)的權(quán)重矩陣, 、 、 、表示偏置, σ表示激活函數(shù) sigmoid,表示向量點(diǎn)乘運(yùn)算,表示上一時(shí)刻隱藏層狀態(tài)的輸出;
32、s3-2)將反向隱藏層輸出向量與正向隱藏層輸出向量拼接,得到融合上下文語(yǔ)義的詞向量,所有詞向量拼接得到輸出序列,其中 t<m;
33、輸出向量的拼接過(guò)程如下:
34、。
35、進(jìn)一步地,s4)具體包括以下步驟:
36、s4-1)對(duì)詞向量進(jìn)行線性變換操作得到查詢向量 q,使用得分函數(shù)計(jì)算對(duì)序列中所有隱藏狀態(tài)的關(guān)注程度,具體過(guò)程如下:
37、
38、
39、式中,和表示權(quán)重矩陣,表示用于生成得分的權(quán)重向量,是查詢向量 q和每個(gè)隱藏狀態(tài)之間的得分;
40、s4-2)使用 softmax函數(shù)將得分轉(zhuǎn)換為注意力權(quán)重,將注意力權(quán)重作為加權(quán)輸入的隱藏狀態(tài),生成上下文向量 本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種基于深度學(xué)習(xí)和多位置指針標(biāo)注的中文實(shí)體關(guān)系聯(lián)合抽取方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)和多位置指針標(biāo)注的中文實(shí)體關(guān)系聯(lián)合抽取方法,其特征在于,
3.根據(jù)權(quán)利要求2所述的一種基于深度學(xué)習(xí)和多位置指針標(biāo)注的中文實(shí)體關(guān)系聯(lián)合抽取方法,其特征在于,
4.根據(jù)權(quán)利要求3所述的一種基于深度學(xué)習(xí)和多位置指針標(biāo)注的中文實(shí)體關(guān)系聯(lián)合抽取方法,其特征在于,
5.根據(jù)權(quán)利要求4所述的一種基于深度學(xué)習(xí)和多位置指針標(biāo)注的中文實(shí)體關(guān)系聯(lián)合抽取方法,其特征在于,
6.根據(jù)權(quán)利要求5所述的一種基于深度學(xué)習(xí)和多位置指針標(biāo)注的中文實(shí)體關(guān)系聯(lián)合抽取方法,其特征在于,
7.根據(jù)權(quán)利要求6所述的一種基于深度學(xué)習(xí)和多位置指針標(biāo)注的中文實(shí)體關(guān)系聯(lián)合抽取方法,其特征在于,
【技術(shù)特征摘要】
1.一種基于深度學(xué)習(xí)和多位置指針標(biāo)注的中文實(shí)體關(guān)系聯(lián)合抽取方法,其特征在于,包括以下步驟:
2.根據(jù)權(quán)利要求1所述的一種基于深度學(xué)習(xí)和多位置指針標(biāo)注的中文實(shí)體關(guān)系聯(lián)合抽取方法,其特征在于,
3.根據(jù)權(quán)利要求2所述的一種基于深度學(xué)習(xí)和多位置指針標(biāo)注的中文實(shí)體關(guān)系聯(lián)合抽取方法,其特征在于,
4.根據(jù)權(quán)利要求3所述的一種基于深度學(xué)習(xí)和多位置指針...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:姜樹(shù)明,仲偉華,魏志強(qiáng),劉向陽(yáng),韓露,張艷青,
申請(qǐng)(專利權(quán))人:齊魯工業(yè)大學(xué)山東省科學(xué)院,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。