System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術涉及多模態深度學習和自然語言處理領域,尤其涉及基于子標簽增強的多視角評論質量排序方法。
技術介紹
1、電商平臺評論質量是影響人民的生活品質和市場交易的重要因素。用戶評論不僅能反映商品的質量、服務的水平和消費者的滿意度,還能幫助其他消費者做出契合自身的消費決策,同時讓商家找出不足并加以改善。
2、現有的評論質量排序技術,主要是利用深度學習模型對評論進行特征提取和向量化,將純文本特征利用卷積或lstm(長短期記憶網絡)方法進行處理,引入文本字符級特征或者利用電商評論打分機制輔助預測評論。目前,在電商平臺上,產品和評論往往同時包含文本和圖像,相較于單模態數據集,在多模態數據集上進行評論質量排序任務更具現實意義。當前多模態評論質量排序方法通過在不同視角下構建評論和產品的多模態一致性關系,學習可用于評論質量分數預測的多視角表征。
3、然而,在多視角表征學習的框架下,僅使用評論質量分數標簽作為模型學習的監督信號,難以為各視角表征的學習傳遞有效的監督信息,從而無法充分挖掘各視角表征中的模態交互信息,進而影響多視角表征的有效性和評論質量排序模型的性能。因此,本專利技術提出基于子標簽增強的多視角評論質量排序方法。
技術實現思路
1、為了解決上述問題,本專利技術提出基于子標簽增強的多視角評論質量排序方法,包括:
2、步驟s1、獲取評論質量排序數據集,生成多視角下的相似性子標簽即各視角的相似度分數作為各視角訓練的輔助監督信號;
3、步驟s2、將訓
4、步驟s3、將文本特征和圖像特征通過信息交互模塊,對模態內和模態間的特征進行融合以得到五個有關評論產品的視角表征。其中,五個視角對分別是評論圖文對、評論-產品文本對、評論-產品圖像對、評論文本-產品圖像對、評論圖像-產品文本對;
5、步驟s4、將各視角表征串聯得到多視角表征,利用評論質量分數標簽監督與多視角表征有關的訓練參數的更新,并同時把生成的子標簽分別作為五個不同視角表征訓練的監督信號以更新與各視角表征相關的訓練參數;
6、步驟s5、訓練完成后,將待測試文本和圖像通過文本編碼器和圖像編碼器生成待測試文本和圖像的文本特征及圖像特征;
7、步驟s6、將待測試文本特征和圖像特征通過訓練之后的信息交互模塊生成各視角表征,接著利用串聯方法得到多視角表征,再將多視角表征輸入四層線性神經網絡進行預測,最終得到評論質量分數。
8、進一步地,所述步驟s1,相似性子標簽生成是借助預訓練模型clip來完成。
9、進一步地,所述步驟s2,文本編碼器由fast?text或glove實現,圖像編碼器由faster?r-cnn實現。
10、進一步地,所述步驟s3,具體包括:
11、將產品和評論的圖文特征輸入信息交互模塊,首先利用線性層將文本特征和圖像特征映射到同一維度空間,其中映射后的維度為64,再利用注意力機制對齊不同模態特征以得到五個不同的視角表征:
12、
13、其中是產品和評論文本對視角下的一致性特征表示是評論文本和圖像對視角下的一致性特征表示是評論文本-產品圖像對視角下的一致性特征表示是評論圖像-產品文本對視角下的一致性特征表示是產品和評論圖像對視角下的一致性特征表示。
14、信息交互模塊表達式為:
15、
16、其中是經過信息交互模塊產生的五個視角的最終特征表示是注意力機制操作,為各單模態特征,且分別對應產品文本特征,評論文本特征,產品圖像特征,評論圖像特征。
17、進一步地,所述步驟s4,具體包括:將五個不同視角表征進行串聯得到多視角表征,并將其送入四層線性神經網絡以得到預測的質量分數,利用鉸鏈損失函數計算與其真實質量分數之間產生的損失值;同時將步驟s3中生成的各視角表征分別送入五個不同的雙層線性神經網絡以得到其預測的子標簽,利用均方誤差損失函數計算與其子標簽之間產生的損失值;兩者損失值相加即為模型訓練時的最終損失值,通過損失梯度回傳以更新相關參數。
18、將五個視角特征串聯起來得到多視角表征表達式為:
19、
20、損失值計算及參數更新表達式為:
21、
22、其中,n表示樣本數量;p是兩個樣本的真實標簽之間的差值;表示產品的其中一條評論的質量預測分數,表示該評論的質量分數較大;表示產品的另外一條評論的質量預測分數,表示該評論的質量分數較小。
23、損失值計算及參數更新表達式為:
24、
25、其中表示均方誤差函數是產品的第條評論的視角相似度預測值,是產品的第條評論的視角相似度。
26、損失值最終表達式為:
27、
28、其中是評論的預測質量分數和評論的真實質量分數之間產生的損失值;是視角的預測子標簽和視角的子標簽之間產生的損失值。
29、本專利技術具有以下有益效果:
30、1.標注成本低和子標簽準確性高,本專利技術提出基于子標簽增強的多視角評論質量排序方法,其中子標簽是由預訓練模型clip生成,不需要人工手動標注子標簽。同時,clip作為強大的圖文預訓練模型,使用其生成的子標簽準確性高。
31、2.評論質量判斷能力強。在多視角推理方法中,模型訓練時僅使用評論質量分數標簽作為模型學習的監督信號難以為各視角表征的學習傳遞有效的監督信息,本專利技術引入不同視角的子標簽去有效地引導模型充分挖掘各視角表征中的模態交互信息,以增強多視角表征的有效性,最終提高評論質量排序模型的性能。
本文檔來自技高網...【技術保護點】
1.基于子標簽增強的多視角評論質量排序方法,其特征在于,該方法包括:
2.根據權利要求1所述的基于子標簽增強的多視角評論質量排序方法,其特征在于,所述步驟S1,子標簽利用預訓練模型CLIP來生成。
3.根據權利要求1所述的基于子標簽增強的多視角評論質量排序方法,其特征在于,所述步驟S2,文本編碼器由Fast?text或Glove實現,圖像編碼器由Faster?R-CNN實現。
4.根據權利要求1所述的基于子標簽增強的多視角評論質量排序方法,其特征在于,所述步驟S3,信息交互模塊為注意力機制,將產品和評論的圖文特征輸入信息交互模塊,即利用注意力機制對齊以得到五個不同的視角表征:
5.根據權利要求4所述的基于子標簽增強的多視角評論質量排序方法,其特征在于,所述信息交互模塊表達式為:
6.根據權利要求1所述的基于子標簽增強的多視角評論質量排序方法,其特征在于,所述步驟S4,子標簽引導模型訓練各視角表征并更新與其相關的參數的具體過程為:將五個不同視角表征進行串聯得到多視角表征,并將其送入四層線性神經網絡以得到預測的質量分數,利用
...【技術特征摘要】
1.基于子標簽增強的多視角評論質量排序方法,其特征在于,該方法包括:
2.根據權利要求1所述的基于子標簽增強的多視角評論質量排序方法,其特征在于,所述步驟s1,子標簽利用預訓練模型clip來生成。
3.根據權利要求1所述的基于子標簽增強的多視角評論質量排序方法,其特征在于,所述步驟s2,文本編碼器由fast?text或glove實現,圖像編碼器由faster?r-cnn實現。
4.根據權利要求1所述的基于子標簽增強的多視角評論質量排序方法,其特征在于,所述步驟s3,信息交互模塊為注意力機制,將產品和評論的圖文特征輸入信息交互模塊,即利用注意力機制對齊以得到五個不同的視角表征:
5.根據權利要求4所述的基于子標簽增強的多視角評論質量排序方法,其特征在于...
【專利技術屬性】
技術研發人員:楊力,熊夢婷,呂鳳毛,李天瑞,滕飛,康啊真,邱小平,
申請(專利權)人:西南交通大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。