System.ArgumentOutOfRangeException: 索引和長度必須引用該字符串內的位置。 參數名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術實現步驟摘要】
本專利技術屬于自然語言處理,具體涉及一種多維度特征關聯的農產品重購意愿弱監督分析方法及系統。
技術介紹
1、隨著電商平臺的迅猛發展和大數據時代的全面到來,在線上銷售和購買農產品已成為一種被大眾廣泛接受且日益普及的交易方式,這樣一種售賣-購買方式在為人們提供便利的同時也帶來了一些有待思考和解決的問題。消費者對于農產品的重購率往往受多維度因素影響,如產品質量,商家服務,包裝外觀等。把握顧客的各類需求并制定對應的資源分配策略對于商家提高產品重購率尤為重要,消費者也往往希望在琳瑯滿目的店鋪與商品中,快速選取符合自己意愿的農產品。為建立起商家與顧客之間的溝通橋梁,各大電商平臺設置評論功能,使得消費者可以反饋對農產品的意見并對購物體驗進行打分,消費者給出的評分直觀地反映了其重購意愿:分值越高重購意愿越強。龐大的評論量為商家分析客戶需求和消費者選品提供了更全面且有力的依據,但是,商家想要從中全面地把握影響顧客重購意愿的重點因素并非易事,顧客也難以直觀地分析各類產品在自己所重視的方面表現如何,傳統的數據分析方法往往無法將評論文本中所反映的這些內容量化表示出來,這對于電商平臺農產品交易方面的發展是一個亟待解決問題。
2、在這樣的背景之下,機器學習與深度學習中的自然語言處理任務被引入到產品評論分析中并在近些年取得顯著成果。深度學習模型可以從大量帶有情感傾向標簽的文本數據中學習到語義信息與情感傾向之間的規律,并應用到不帶有情感標簽的文本上幫助人們高效且直觀地分析其中蘊含的情感信息。結合相關語料庫并利用具有詞性標注,感知情感強度等功能的情感
3、但是,由此獲得的結果并未能直觀體現各個因素在全局下對于重購意愿的影響作用大小,商戶不能據此制定合理的資源分配策略。而且從電商平臺獲取的農產品評價數據集只包含整體層面的情感分數,并未涉及具體的各個維度上的分數,存在細粒度標簽缺乏的問題,這對于量化各個影響因素的貢獻和構建多維度多標簽深度學習模型是一個阻撓。
技術實現思路
1、基于此,本專利技術提出一種多維度特征關聯的農產品重購意愿弱監督分析方法及系統,使用主題模型進行短文本建模以此捕獲影響重購意愿的因素并據此確定細粒度評價維度,通過抽取評論文本中的情感三元組生成各個粗細粒度維度上的偽標簽,構建多任務深度學習模型并結合置信學習對偽標簽進行矯正以獲得可信度相對較高的多維度偽標簽。將基于博弈論的全局解釋辦法應用于機器模型上構建全局貢獻評估模型,得到各個因素對重購意愿貢獻的量化表示。再進行弱監督框架下多維度多標簽深度學習模型的訓練,實現挖掘評論文本中的細粒度情感傾向。
2、本專利技術通過下述技術方案實現。
3、一種多維度特征關聯的農產品重購意愿弱監督分析方法,步驟如下:
4、步驟一:從電商平臺獲取評論文本與評分構建農產品評價數據集;
5、步驟二:將農產品評價數據集劃分為評論文本列表和評分列表,根據評論文本列表創建評論名詞矩陣和名詞詞典,再根據名詞詞典和評論名詞矩陣將評論文本轉換為詞袋表示矩陣;然后進行主題建模,得到主題-名詞分布,從而挖掘出影響重購意愿的因素并確定細粒度評價維度;
6、步驟三:使用基于跨度級別交互學習機制的方面情感三元組抽取模型從評論文本中提取三元組信息,包括方面項、意見項和情感極性;
7、步驟四:將所抽取到的方面項與意見項去重并分別進行分類,得到細粒度方面項列表和細粒度意見項列表;
8、步驟五:根據抽取到的三元組信息、細粒度方面項列表和細粒度意見項列表,生成偽標簽數據集,抽取數據并人工矯正作為純凈測試集,其余作為偽標簽訓練集;
9、步驟六:構建基于卷積神經網絡和transformer的多維度多標簽深度學習模型,并使用嵌入了置信學習和多維度多標簽深度學習模型初步訓練的偽標簽矯正策略對偽標簽訓練集進行矯正;
10、步驟七:獲取貢獻評估模型所需數據集,采用基于直方圖的梯度提升分類器,并進一步將基于博弈論的特征貢獻估計辦法應用于直方圖梯度提升分類器上,采用貢獻評估模型量化各個重購意愿影響因素的貢獻;
11、步驟八:傳入矯正后偽標簽數據集,在弱監督框架下進行多維度多標簽深度學習模型的訓練,以挖掘評論文本中的多維度情感。
12、進一步優選,步驟二中,使用潛在狄利克雷分布模型進行主題建模。
13、進一步優選,步驟三所述使用基于跨度級別交互學習機制的方面情感三元組抽取模型從評論文本中提取三元組信息的過程如下:
14、遍歷每一條評論文本,進行分詞編碼,使用預訓練的bert模型捕獲評論文本的上下文表示并選取最后一層形狀為隱藏狀態,循環遍歷,生成評論文本中所有可能的跨度;
15、對跨度進行分類:得到所有跨度屬于不同跨度類別的概率分布,預測跨度是否是有效的方面項或意見項;
16、根據序列長度和剪枝閾值確定給定評論文本所需要保留的方面項和意見項跨度數量,繼而采用雙通道剪枝策略,選擇跨度類別概率分布中前個最有可能是方面項的跨度索引和最有可能是意見項的跨度索引;
17、為評論文本中的每一對方面項和意見項構建聯合表示矩陣;
18、對方面項-意見項對的聯合表示矩陣進行情感極性判斷,得到所有方面項-意見項對屬于不同情感極性類別的概率分布。
19、進一步優選,步驟四中,首先將方面項與意見項分別進行去重;接著,將方面項中含有相同詞根的聚為一類;對于意見項,剔除表示功能的副詞后,進行詞形還原并將含有相同詞根的分為一類;進一步經手工調整篩選后生成各細粒度評價維度的細粒度方面項列表和細粒度意見項列表。
20、進一步優選,步驟五的具體過程如下:
21、首先,為每條評論的每個細粒度評價維度設置初始化標簽;
22、再定義三類偽標簽和情感極性—偽標簽轉換函數,?用于將情感極性轉化為相應的偽標簽;
23、接著,依據偽標簽判斷法修改所有評論文本對應的細粒度初始標簽;
24、最后根據三元組信息生成粗粒度維度上的偽標簽,獲得偽標簽數據集;
25、從偽標簽數據集中抽取部分數據加以人工矯正作為純凈測試集,剩余數據作為偽標簽訓練集。
26、進一步優選,步驟六的具體過程如下:
27、傳入偽標簽訓練集,采用基于fasttext模型的文本分類器針對各個維度分別進行訓練,再結合置信學習工具找出低置信樣本;
28、構建基于卷積神經網絡和transformer的多維度多標簽深度學習模型,從偽標簽訓練集中抽取數據進行人工標注并傳入所構建的多維度多標簽深度學習模型中訓練,依據訓練集準確率得到初步模型并使用初步模型預測低置信樣本的低置信標簽得到模型標簽;再將低置信樣本的模型標簽和基于fasttext模型的文本分類器對低置信樣本所認定的真實標簽進行對比,規定:若模型標簽與基于fasttext模型的文本分類器認定的真實標簽一致,則矯正標簽就為模本文檔來自技高網...
【技術保護點】
1.一種多維度特征關聯的農產品重購意愿弱監督分析方法,其特征在于,步驟如下:
2.根據權利要求1所述的多維度特征關聯的農產品重購意愿弱監督分析方法,其特征在于,步驟二中,使用潛在狄利克雷分布模型進行主題建模。
3.根據權利要求1所述的多維度特征關聯的農產品重購意愿弱監督分析方法,其特征在于,步驟三所述使用基于跨度級別交互學習機制的方面情感三元組抽取模型從評論文本中提取三元組信息的過程如下:
4.根據權利要求1所述的多維度特征關聯的農產品重購意愿弱監督分析方法,其特征在于,步驟四中,首先將方面項與意見項分別進行去重;接著,將方面項中含有相同詞根的聚為一類;對于意見項,剔除表示功能的副詞后,進行詞形還原并將含有相同詞根的分為一類;進一步經手工調整篩選后生成各細粒度評價維度的細粒度方面項列表和細粒度意見項列表。
5.根據權利要求1所述的多維度特征關聯的農產品重購意愿弱監督分析方法,其特征在于,步驟五的具體過程如下:
6.根據權利要求1所述的多維度特征關聯的農產品重購意愿弱監督分析方法,其特征在于,步驟六的具體過程如下:
...【技術特征摘要】
1.一種多維度特征關聯的農產品重購意愿弱監督分析方法,其特征在于,步驟如下:
2.根據權利要求1所述的多維度特征關聯的農產品重購意愿弱監督分析方法,其特征在于,步驟二中,使用潛在狄利克雷分布模型進行主題建模。
3.根據權利要求1所述的多維度特征關聯的農產品重購意愿弱監督分析方法,其特征在于,步驟三所述使用基于跨度級別交互學習機制的方面情感三元組抽取模型從評論文本中提取三元組信息的過程如下:
4.根據權利要求1所述的多維度特征關聯的農產品重購意愿弱監督分析方法,其特征在于,步驟四中,首先將方面項與意見項分別進行去重;接著,將方面項中含有相同詞根的聚為一類;對于意見項,剔除表示功能的副詞后,進行詞形還原并將含有相同詞根的分為一類;進一步經手工調整篩選后生成各細粒度評價維度的細粒度方面項列表和細粒度意見項列表。
5.根據權利要求1所述的多維度特征關聯的農產品重購意愿弱監督分析方法,其特征在于,步驟五的具體過程如下:
6.根據權利...
【專利技術屬性】
技術研發人員:易文龍,毛瀅,劉木華,趙進輝,
申請(專利權)人:江西農業大學,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。