• 
    <ul id="o6k0g"></ul>
    <ul id="o6k0g"></ul>

    評論標簽挖掘方法及裝置制造方法及圖紙

    技術編號:37570985 閱讀:22 留言:0更新日期:2023-05-15 07:49
    本申請涉及一種評論標簽挖掘方法及裝置,該方法通過構建語料詞庫及構建語料標簽庫,輸入語料詞庫及語料標簽庫至深度卷積網絡訓練得到評論分類模型。預處理得到評論文本序列,以步長不同的兩種窗口對評論文本序列滑窗,得到待預測評論短句,根據選取概率值最大的標簽作為當前待預測評論短句的匹配標簽,最后輸出與評論文本輸出相匹配的匹配標簽。由于采用聚類方式構建語料標簽庫,能夠降低標簽標注的運算工作量。采用不同步長的窗口對評論文本序列滑窗,選取概率值最大的標簽作為當前待預測評論語句的匹配標簽,匹配標簽能夠更加匹配當前待預測評論語句,進而讓評論文本輸出的匹配標簽能夠更加符合當前評論文本最真實的語義表示。示。示。

    【技術實現步驟摘要】
    評論標簽挖掘方法及裝置


    [0001]本申請涉及標簽挖掘
    ,尤其涉及一種評論標簽挖掘方法及裝置。

    技術介紹

    [0002]APP(Application,應用程序)產品的評論語料是用戶對于APP產品的一些使用心得及體驗反饋,快速從評論語料中提取出用戶平時使用時的關鍵信息,根據關鍵信息挖掘出相匹配的標簽,標簽代表當前評論語料的語義表示,上述方式能夠讓新注冊的用戶快速了解以及掌握APP產品,極大提升了新用戶的使用體驗。
    [0003]相關技術中根據評論語料挖掘出標簽的方法很多,但這些標簽挖掘方法都存在缺陷:
    [0004]1、前期標注標簽的工作量大,無法快速構建與評論語料相關的標簽數據庫;
    [0005]2、挖掘出的標簽無法向用戶傳達當前評論語料的最真實的語義表示,即挖掘出標簽與當前評論語料匹配度不高。

    技術實現思路

    [0006]為解決或部分解決相關技術中存在的問題,本申請?zhí)峁┮环N評論標簽挖掘方法及裝置,降低前期標注標簽的工作量以及快速挖掘出高匹配度的標簽。
    [0007]本申請的第一方面提供了一種評論標簽挖掘方法,包括:
    [0008]構建語料詞庫;
    [0009]根據所述語料詞庫采用聚類方式構建語料標簽庫;
    [0010]把所述語料詞庫及語料標簽庫輸入至深度卷積網絡,訓練得到評論分類模型;
    [0011]獲取評論文本,對所述評論文本進行斷句,得到評論文本序列;
    [0012]以步長不同的兩種窗口對所述評論文本序列滑窗,得到若干待預測評論短句;r/>[0013]輸入所述評論分類模型,利用所述評論分類模型輸出與每一所述待預測評論短句相匹配的所有標簽,選取概率值最大的所述標簽作為當前所述待預測評論短句的匹配標簽;
    [0014]讓所述評論文本輸出相匹配的若干所述匹配標簽。
    [0015]優(yōu)選的,所述構建語料詞庫包括:
    [0016]獲取全量訓練評論文本;
    [0017]清洗所述全量訓練評論文本;
    [0018]采用分詞工具對所述全量訓練評論文本進行分詞,得到若干訓練詞;
    [0019]將每一所述訓練詞輸入至開源詞向量模型內,利用所述開源詞向量模型輸出每一所述訓練詞所對應的詞向量,構建出所述語料詞庫。
    [0020]優(yōu)選的,所述清洗所述全量訓練評論文本包括:
    [0021]剔除掉所述全量訓練評論文本內的所有的非正常字符;
    [0022]將所述全量訓練評論文本內的非中文字符轉換成中文字符;
    [0023]改寫所述全量訓練評論文本內的連續(xù)重復詞。
    [0024]優(yōu)選的,所述根據所述語料詞庫采用聚類方式構建語料標簽庫包括:
    [0025]獲取所述全量訓練評論文本;
    [0026]按照預置拆句規(guī)則將所述全量訓練評論文本拆解成若干訓練短句;
    [0027]利用所述開源詞向量工具根據所述語料詞庫輸出每一所述訓練短句所對應的句向量;
    [0028]采用聚類算法根據所述句向量把具有相似度的所述訓練短句進行聚類,得到若干聚類簇;
    [0029]標注出每一所述聚類簇所對應的標簽,構建出所述語料標簽庫。
    [0030]優(yōu)選的,所述利用所述開源詞向量工具根據所述產品詞向量庫輸出每一所述訓練短句所對應的句向量包括:
    [0031]利用所述分詞工具對每一所述訓練短句進行分詞;
    [0032]利用所述開源詞向量工具根據所述語料詞庫輸出每一所述訓練短句所對應分詞的詞向量;
    [0033]利用均值函數對所述每一所述訓練短句所對應分詞的詞向量進行均值運算,得到所述每一所述訓練短句所對應的句向量。
    [0034]優(yōu)選的,所述采用聚類算法把具有相似度的所述訓練短句進行聚類,得到若干聚類簇包括:
    [0035]按照排列組合的方式兩兩組合所述訓練短句;
    [0036]根據兩個所述訓練短句所對應的所述句向量計算余弦相似度;
    [0037]若所述余弦相似度大于相似度閾值,則判定當前兩個所述訓練短句具有相似度,將當前兩個所述訓練短句聚類成相同的所述聚類簇;
    [0038]若所述余弦相似度小于或者等于相似度閾值,則判定當前兩個所述訓練短句不具有相似度。
    [0039]優(yōu)選的,所述聚類算法為DBScan聚類算法。
    [0040]優(yōu)選的,所述待預測評論短句包括待預測評論單短句和待預測評論組合短句;
    [0041]判定所述待預測評論單短句與所述待預測評論組合短句是否有重疊部分,若有重疊部分,則對所述待預測評論短句相匹配的所述匹配標簽與所述待預測評論組合短句相匹配的所述匹配標簽進行差值運算,得到修正值;
    [0042]若所述修正值大于第一閾值且所述待預測評論單短句相匹配的所述匹配標簽的概率值大于第二閾值,則保留所述待預測評論單短句,移除所述待預測評論組合短句;
    [0043]若修正值的絕對值小于第一閾值且所述待預測評論組合短句相匹配的所述匹配標簽的概率值大于第二閾值,則移除所述待預測評論單短句,保留所述待預測評論組合短句;
    [0044]若修正值大于第一閾值且所述待預測評論組合短句相匹配的所述匹配標簽的概率值大于第三閾值,則移除所述待預測評論單短句,保留所述待預測評論組合短句。
    [0045]優(yōu)選的,所述評論標簽挖掘方法還包括:
    [0046]若所述評論文本輸出所述匹配標簽的概率值大于概率閾值,則將當前所述匹配標簽作為所述評論文本最終的所述匹配標簽進行輸出;否則,則所述評論文本不輸出當前所
    述匹配標簽。
    [0047]本申請的第二方面提供了一種評論標簽挖掘裝置,包括:
    [0048]第一構建模塊,用于構建語料詞庫;
    [0049]第二構建模塊,用于根據所述語料詞庫采用聚類方式構建語料標簽庫;
    [0050]訓練模塊,用于把所述語料詞庫及語料標簽庫輸入至深度卷積網絡,訓練得到評論分類模型;
    [0051]文本處理模塊,用于獲取評論文本,對所述評論文本進行斷句,得到評論文本序列;
    [0052]滑窗模塊,用于以步長不同的兩種窗口對所述評論文本序列滑窗,得到若干待預測評論短句;
    [0053]挖掘模塊,用于輸入所述評論分類模型,利用所述評論分類模型輸出與每一所述待預測評論短句相匹配的所有標簽,選取概率值最大的所述標簽作為當前所述待預測評論短句的匹配標簽;
    [0054]輸出模塊,用于讓所述評論文本輸出相匹配的若干所述匹配標簽。
    [0055]本申請?zhí)峁┑募夹g方案可以包括以下有益效果:
    [0056]1、采用聚類方式構建語料標簽庫,能夠降低標簽標注的運算工作量,提高標簽的構建效率;
    [0057]2、采用不同步長的窗口對評論文本序列滑窗,能夠得到更多數量的待預測評論短句,選取概率值最大的標簽作為當前待預測評論語句的匹配標簽,匹配標簽能夠更加匹配當前待預測評論語句,進而讓評論文本輸出的匹配標簽能夠更加符合當前評論文本最真實的語義表示,即匹配標簽與當前評論文本的匹配度高。
    [0本文檔來自技高網...

    【技術保護點】

    【技術特征摘要】
    1.一種評論標簽挖掘方法,其特征在于,包括:構建語料詞庫;根據所述語料詞庫采用聚類方式構建語料標簽庫;把所述語料詞庫及語料標簽庫輸入至深度卷積網絡,訓練得到評論分類模型;獲取評論文本,對所述評論文本進行斷句,得到評論文本序列;以步長不同的兩種窗口對所述評論文本序列滑窗,得到若干待預測評論短句;輸入所述評論分類模型,利用所述評論分類模型輸出與每一所述待預測評論短句相匹配的所有標簽,選取概率值最大的所述標簽作為當前所述待預測評論短句的匹配標簽;讓所述評論文本輸出相匹配的若干所述匹配標簽。2.根據權利要求1所述的評論標簽挖掘方法,其特征在于,所述構建語料詞庫包括:獲取全量訓練評論文本;清洗所述全量訓練評論文本;采用分詞工具對所述全量訓練評論文本進行分詞,得到若干訓練詞;將每一所述訓練詞輸入至開源詞向量模型內,利用所述開源詞向量模型輸出每一所述訓練詞所對應的詞向量,構建出所述語料詞庫。3.根據權利要求2所述的評論標簽挖掘方法,其特征在于,所述清洗所述全量訓練評論文本包括:剔除掉所述全量訓練評論文本內的所有的非正常字符;將所述全量訓練評論文本內的非中文字符轉換成中文字符;改寫所述全量訓練評論文本內的連續(xù)重復詞。4.根據權利要求2所述的評論標簽挖掘方法,其特征在于,所述根據所述語料詞庫采用聚類方式構建語料標簽庫包括:獲取所述全量訓練評論文本;按照預置拆句規(guī)則將所述全量訓練評論文本拆解成若干訓練短句;利用所述開源詞向量工具根據所述語料詞庫輸出每一所述訓練短句所對應的句向量;采用聚類算法根據所述句向量把具有相似度的所述訓練短句進行聚類,得到若干聚類簇;標注出每一所述聚類簇所對應的標簽,構建出所述語料標簽庫。5.根據權利要求2所述的評論標簽挖掘方法,其特征在于,所述利用所述開源詞向量工具根據所述產品詞向量庫輸出每一所述訓練短句所對應的句向量包括:利用所述分詞工具對每一所述訓練短句進行分詞;利用所述開源詞向量工具根據所述語料詞庫輸出每一所述訓練短句所對應分詞的詞向量;利用均值函數對所述每一所述訓練短句所對應分詞的詞向量進行均值運算,得到所述每一所述訓練短句所對應的句向量。6.根據權利要求5所述的評論標簽挖掘方法,其特征在于,所述采用聚類算法把具有相似度的所述訓練短句進行聚類,得到若干聚類簇包括:按照排列組合的方式兩兩組合所述訓練短句;...

    【專利技術屬性】
    技術研發(fā)人員:陸靖橋
    申請(專利權)人:廣州力摯網絡科技有限公司
    類型:發(fā)明
    國別省市:

    網友詢問留言 已有0條評論
    • 還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。

    1
    主站蜘蛛池模板: 免费A级毛片无码久久版| 午夜无码A级毛片免费视频| 东京热av人妻无码| 人妻少妇AV无码一区二区| 亚洲国产日产无码精品| 精品无码一级毛片免费视频观看| 无码人妻久久一区二区三区 | 精品无码一区二区三区水蜜桃| 亚洲乱亚洲乱少妇无码| 亚洲中文字幕无码mv| 成人A片产无码免费视频在线观看| 亚洲av极品无码专区在线观看| 久久久精品无码专区不卡| 成人免费无码视频在线网站 | 18禁网站免费无遮挡无码中文| 一本大道无码日韩精品影视_| 97人妻无码一区二区精品免费| 国产高新无码在线观看| 久久久精品天堂无码中文字幕| 久久亚洲AV成人出白浆无码国产| 不卡无码人妻一区三区音频| 精品久久久久久无码不卡| 亚洲国产精品成人精品无码区| 久久亚洲精品无码播放| 无码的免费不卡毛片视频| 成人免费一区二区无码视频| 日韩成人无码一区二区三区| 99精品一区二区三区无码吞精| 直接看的成人无码视频网站| 无码性午夜视频在线观看| 亚洲AV日韩AV永久无码久久| 无码AV岛国片在线播放| 性无码专区无码片| 久久久久亚洲精品无码蜜桃| 无码国产精品一区二区免费模式| 亚洲AV无码成人网站久久精品大| 国产成人AV片无码免费| 免费无遮挡无码永久视频| 亚洲国产成人精品无码一区二区| 无码任你躁久久久久久老妇App| 50岁人妻丰满熟妇αv无码区|