System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專(zhuān)利技術(shù)涉及計(jì)算機(jī)應(yīng)用領(lǐng)域,具體涉及一種基于roberta-wwm-ext-large預(yù)訓(xùn)練模型的中文語(yǔ)義匹配方法。
技術(shù)介紹
1、文本匹配是自然語(yǔ)言處理的基本任務(wù)之一,目的是判斷兩個(gè)不同文本之間是否表達(dá)相似的語(yǔ)義。文本匹配的核心任務(wù)就是挖掘文本的深層語(yǔ)義信息和不同文本之間的語(yǔ)義關(guān)系,從而判斷兩個(gè)文本是否匹配。文本匹配的研究可應(yīng)用于機(jī)器翻譯、信息檢索、釋義識(shí)別和智能問(wèn)答等許多領(lǐng)域。目前所公開(kāi)的基于bert預(yù)訓(xùn)練模型的文本匹配方法還存在文本序列間語(yǔ)義信息交互作用有限、句子對(duì)編碼能力不足、匹配準(zhǔn)確率需要進(jìn)一步提高等問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、基于bert預(yù)訓(xùn)練模型的文本匹配方法存在的前述問(wèn)題,本專(zhuān)利技術(shù)提供了一種基于roberta-wwm-ext-large預(yù)訓(xùn)練模型的改進(jìn)的中文語(yǔ)義匹配方法,與現(xiàn)有的基于預(yù)訓(xùn)練模型的文本匹配算法比較,本專(zhuān)利技術(shù)具有較高的準(zhǔn)確度和較好的泛化性。
2、首先,通過(guò)預(yù)訓(xùn)練模型roberta-wwm-ext-large獲取匹配文本的初始向量表示。然后利用特征注意力加強(qiáng)兩個(gè)文本向量之間的語(yǔ)義交互。接著將文本向量送入卷積神經(jīng)網(wǎng)絡(luò)提取更多特征信息后,再輸出到長(zhǎng)短期記憶網(wǎng)絡(luò)這些特征信息的時(shí)間序列依賴性,然后通過(guò)自注意力豐富文本向量的上下文信息。同時(shí),建立微調(diào)表示模型去處理初始文本連接向量,獲得微調(diào)過(guò)的文本對(duì)連接向量。最后將這些文本向量輸入到多層感知機(jī)網(wǎng)絡(luò),計(jì)算文本匹配結(jié)果,并將模型應(yīng)用于目標(biāo)數(shù)據(jù)集以完成文本匹配任務(wù)。
3、本專(zhuān)利技術(shù)的技術(shù)方案主要
4、(1)roberta-wwm-ext-large預(yù)訓(xùn)練模型針對(duì)中文進(jìn)行了優(yōu)化,在預(yù)訓(xùn)練過(guò)程中對(duì)整個(gè)詞語(yǔ)進(jìn)行掩碼處理,而不是單個(gè)字符,這對(duì)于中文這種沒(méi)有空格分隔的語(yǔ)言來(lái)說(shuō)是非常有用,因此,本專(zhuān)利技術(shù)使用roberta-wwm-ext-large預(yù)訓(xùn)練模型作為基線模型,獲取文本對(duì)和連接文本的初始向量。
5、(2)然后構(gòu)建一個(gè)cnn-lstm-sa卷積融合交互結(jié)構(gòu),并在其之前引入了特征注意(feature?attention)。該結(jié)構(gòu)將卷積神經(jīng)網(wǎng)絡(luò)(cnn)和長(zhǎng)短期記憶(lstm)網(wǎng)絡(luò)相結(jié)合,再加上自注意力(self?attention),可以增強(qiáng)單個(gè)文本的上下文信息和兩個(gè)文本之間的語(yǔ)義交互能力,并從文本中提取更多的語(yǔ)義信息。
6、先使用卷積神經(jīng)網(wǎng)絡(luò)cnn對(duì)輸入數(shù)據(jù)進(jìn)行卷積操作,提取更多特征信息,后將其輸出作為長(zhǎng)短期記憶網(wǎng)絡(luò)lstm的輸入,處理這些特征的時(shí)間序列依賴性;然后分別將兩個(gè)中文原始文本s1、s2表示向量經(jīng)過(guò)卷積神經(jīng)網(wǎng)絡(luò)cnn、長(zhǎng)短期記憶網(wǎng)絡(luò)lstm得到的中間向量通過(guò)sa注意力進(jìn)行交互,最后將交互后得到的三個(gè)文本向量連接,得到兩個(gè)文本的最終特征向量表示vecs1和vecs2。
7、(3)接著建立一個(gè)微調(diào)表示訓(xùn)練模型,并通過(guò)標(biāo)簽監(jiān)督訓(xùn)練對(duì)由連接的文本對(duì)生成的初始向量進(jìn)行訓(xùn)練,提取其logits層向量作為文本對(duì)的微調(diào)表示向量,進(jìn)一步改進(jìn)該向量對(duì)文本之間的語(yǔ)義關(guān)系的表示。
8、優(yōu)選地,所述微調(diào)表示訓(xùn)練模型的構(gòu)建:首先,將roberta-wwm-ext-large模型的pooler_out層的輸出向量輸入到線性變換層,得到臨時(shí)向量svec_temp;然后,通過(guò)標(biāo)簽監(jiān)督訓(xùn)練,將標(biāo)簽語(yǔ)義集成,生成微調(diào)模型p;最后利用微調(diào)模型p對(duì)svec_temp進(jìn)行微調(diào)以集成標(biāo)簽語(yǔ)義,得到微調(diào)向量vecs12。
9、(4)最后將兩個(gè)經(jīng)過(guò)卷積融合結(jié)構(gòu)和注意力機(jī)制處理好的文本向量連接,將其和微調(diào)表示模型中提取的連接文本對(duì)向量送入多層感知機(jī)(mlp)匹配結(jié)構(gòu),計(jì)算最后匹配結(jié)果。
10、優(yōu)選地,所述多層感知機(jī)mlp匹配結(jié)構(gòu)由三層構(gòu)成,首先將經(jīng)過(guò)cnn-lstm-sa卷積融合交互結(jié)構(gòu)后得到的兩個(gè)文本特征向量vecs1和vecs2輸入到第一層mlp結(jié)構(gòu)進(jìn)行訓(xùn)練;然后,特征向量vecs12在第二層mlp結(jié)構(gòu)進(jìn)行注入,參與訓(xùn)練得到r2;最后,將r2送入第三層mlp結(jié)構(gòu)進(jìn)行訓(xùn)練得到r3,r3經(jīng)過(guò)激活函數(shù)sigmoid計(jì)算得出最終匹配結(jié)果r;其中,r等于0或者1,如果r等于0,表示該文本語(yǔ)義不匹配;如果r等于1,表示該文本語(yǔ)義匹配。
11、本專(zhuān)利技術(shù)的技術(shù)特點(diǎn)和效果:
12、通過(guò)構(gòu)建cnn-lstm-sa卷積融合交互結(jié)構(gòu),并在其之前引入了特征注意(featureattention),再加上自注意力(self?attention),經(jīng)過(guò)特征注意力和自注意力處理后的兩個(gè)文本特征向量富含更多語(yǔ)義交互信息,同時(shí)cnn和lstm的處理也提取了句子對(duì)更多的編碼信息。通過(guò)建立的微調(diào)表示訓(xùn)練模型,提取其logits層向量作為文本對(duì)的微調(diào)表示向量,進(jìn)一步改進(jìn)該向量對(duì)文本之間的語(yǔ)義關(guān)系的表示,豐富了句子對(duì)的編碼信息,最終使得文本匹配準(zhǔn)確率獲得提高。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.基于RoBERTa-wwm-ext-large預(yù)訓(xùn)練模型的中文語(yǔ)義匹配方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述微調(diào)表示訓(xùn)練模型的構(gòu)建:首先,將RoBERTa-wwm-ext-large模型的Pooler_out層的輸出向量輸入到線性變換層,得到臨時(shí)向量Svec_temp;然后,通過(guò)標(biāo)簽監(jiān)督訓(xùn)練,將標(biāo)簽語(yǔ)義集成,生成微調(diào)模型P;最后利用微調(diào)模型P對(duì)Svec_temp進(jìn)行微調(diào)以集成標(biāo)簽語(yǔ)義,得到微調(diào)向量VecS12。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述多層感知機(jī)MLP匹配結(jié)構(gòu)由三層構(gòu)成,首先將經(jīng)過(guò)CNN-LSTM-SA卷積融合交互結(jié)構(gòu)后得到的兩個(gè)文本特征向量VecS1和VecS2輸入到第一層MLP結(jié)構(gòu)進(jìn)行訓(xùn)練;然后,特征向量VecS12在第二層MLP結(jié)構(gòu)進(jìn)行注入,參與訓(xùn)練得到R2;最后,將R2送入第三層MLP結(jié)構(gòu)進(jìn)行訓(xùn)練得到R3,R3經(jīng)過(guò)激活函數(shù)Sigmoid計(jì)算得出最終匹配結(jié)果R;其中,R等于0或者1,如果R等于0,表示該文本語(yǔ)義不匹配;如果R等于1,表示該文本語(yǔ)義匹配。
【技術(shù)特征摘要】
1.基于roberta-wwm-ext-large預(yù)訓(xùn)練模型的中文語(yǔ)義匹配方法,其特征在于,所述方法包括:
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述微調(diào)表示訓(xùn)練模型的構(gòu)建:首先,將roberta-wwm-ext-large模型的pooler_out層的輸出向量輸入到線性變換層,得到臨時(shí)向量svec_temp;然后,通過(guò)標(biāo)簽監(jiān)督訓(xùn)練,將標(biāo)簽語(yǔ)義集成,生成微調(diào)模型p;最后利用微調(diào)模型p對(duì)svec_temp進(jìn)行微調(diào)以集成標(biāo)簽語(yǔ)義,得到微調(diào)向量vecs12。
<...【專(zhuān)利技術(shù)屬性】
技術(shù)研發(fā)人員:強(qiáng)保華,陳志勤,陶林,張世豪,鄭虹,
申請(qǐng)(專(zhuān)利權(quán))人:桂林電子科技大學(xué),
類(lèi)型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。