【技術實現(xiàn)步驟摘要】
一種商戶行業(yè)智能分類的方法及裝置
[0001]本專利技術實施例涉及大數(shù)據(jù)
,尤其涉及一種商戶行業(yè)智能分類的方法及裝置。
技術介紹
[0002]隨著大數(shù)據(jù)和數(shù)據(jù)挖掘技術的發(fā)展,依賴大數(shù)據(jù)和數(shù)據(jù)挖掘技術輔助各行業(yè)生產研究愈發(fā)成熟。銀聯(lián)跨行交易數(shù)據(jù)作為支付數(shù)據(jù)重要的一部分,結合大數(shù)據(jù)和數(shù)據(jù)挖掘技術可以幫助金融業(yè)、商業(yè)等行業(yè)進行行業(yè)分析和商業(yè)決策。但是銀聯(lián)交易數(shù)據(jù)中對商戶的行業(yè)分類不準確,造成對行業(yè)數(shù)據(jù)分析產生誤差,影響決策判斷。因此對商戶行業(yè)準確分類才能為對行業(yè)交易情況分析以及精準營銷提供有效的信息。
[0003]現(xiàn)有的商戶行業(yè)分類方法主要是將用戶在不同商戶進行交易的進行關聯(lián),構建商戶關聯(lián)拓撲網(wǎng)絡,并根據(jù)給定的公式賦予商戶節(jié)點以及商戶之間關聯(lián)邊權重,每次迭代將關聯(lián)交易中的節(jié)點加入到能夠使拓撲網(wǎng)絡模塊度提升最大的網(wǎng)絡中,從而更新拓撲網(wǎng)絡,直至網(wǎng)絡模塊度不再變化,最終將同一網(wǎng)絡中的商戶劃分為同一類別。然而,這種分類方法只能對商戶之間存在關聯(lián)的商戶進行分類,對關聯(lián)較少的商戶則難以分類,因此只是實現(xiàn)了對商戶地理位置上的分類,而較難對商戶進行更進一步的行業(yè)分類,從而導致對商戶行業(yè)的分類具有局限性,難以覆蓋全量商戶。再者,該分類方法由于需要對關聯(lián)商戶之間的交易進行多次迭代才能構建穩(wěn)定的時序交易網(wǎng)絡,因此導致時序交易網(wǎng)絡的構建耗時長且更新復雜。
[0004]綜上,目前亟需一種商戶行業(yè)智能分類的方法,用以解決現(xiàn)有技術中存在對商戶行業(yè)的分類具有局限性,難以覆蓋全量商戶的問題。
技術實現(xiàn)思路
[0005] ...
【技術保護點】
【技術特征摘要】
1.一種商戶行業(yè)智能分類的方法,其特征在于,包括:獲取待識別商戶名稱;對所述待識別商戶名稱進行字切分處理,得到所述待識別商戶名稱的每個字;基于字向量矩陣,確定出所述待識別商戶名稱的每個字對應的字向量;所述字向量矩陣是基于標注行業(yè)標簽的樣本商戶名稱集對卷積神經網(wǎng)絡進行訓練確定的;將所述待識別商戶名稱的每個字對應的字向量輸入到商戶行業(yè)分類模型進行識別,確定出所述待識別商戶名稱所屬的行業(yè)類型。2.如權利要求1所述的方法,其特征在于,所述基于字向量矩陣,確定出所述待識別商戶名稱的每個字對應的字向量,包括:針對所述待識別商戶名稱的每個字,根據(jù)所述字在關鍵字庫的位置,將所述字向量矩陣中處于所述位置的字向量確定為所述字的字向量;所述關鍵字庫中每個字的位置是按照所述字的字頻高低進行排序確定的。3.如權利要求1所述的方法,其特征在于,所述基于標注行業(yè)標簽的樣本商戶名稱集對卷積神經網(wǎng)絡進行訓練確定所述字向量矩陣,包括:獲取樣本商戶名稱集;將所述樣本商戶名稱集中各樣本商戶名稱標注上對應的行業(yè)標簽,得到標注行業(yè)標簽的各樣本商戶名稱;針對標注行業(yè)標簽的各樣本商戶名稱中任一樣本商戶名稱,對所述樣本商戶名稱進行字切分處理,得到所述樣本商戶名稱的每個字;基于初始的字向量矩陣,確定出所述樣本商戶名稱的每個字對應的字向量;將所述樣本商戶名稱的每個字對應的字向量輸入到卷積神經網(wǎng)絡進行訓練,得到所述樣本商戶名稱的預測行業(yè),并通過所述預測行業(yè)與所述標注行業(yè)標簽之間的損失函數(shù)更新所述初始的字向量矩陣和所述卷積神經網(wǎng)絡,直至滿足訓練終止條件,得到所述商戶行業(yè)分類模型和所述字向量矩陣。4.如權利要求3所述的方法,其特征在于,所述將所述樣本商戶名稱集中各樣本商戶名稱標注上對應的行業(yè)標簽,得到標注行業(yè)標簽的各樣本商戶名稱,包括:依據(jù)商戶行業(yè)類別映射規(guī)則,將所述樣本商戶名稱集中各樣本商戶名稱映射為各自所屬的商戶行業(yè)類別;從每一商戶行業(yè)類別所包含的全部樣本商戶名稱中選取預設數(shù)量的樣本商戶名稱,對所述預設數(shù)量的樣本商戶名稱中每一樣本商戶名稱進行詞切分處理,得到所述樣本商戶名稱的每個詞;根據(jù)所述每個詞的詞頻,確定出行業(yè)關鍵詞庫;確定所述行業(yè)關鍵詞庫中是否存在與所述樣本商戶名稱集中任一樣本商戶名稱匹配的行業(yè)關鍵詞;若是,則將與所述樣本商戶名稱集中任一樣本商戶名稱匹配的行業(yè)關鍵詞確定為所述樣本商戶名稱所屬的行業(yè)標簽,否則對所述樣本商戶名稱所屬的商戶行業(yè)類別進行更改,確定出所述樣本商戶名稱所屬的行業(yè)標簽。5.如權利要求4所述的方法,其特征在于,所述根據(jù)所述每個詞的詞頻,確定出行業(yè)關鍵詞庫,包括:
根據(jù)所述每個詞的詞頻,確定出初始的行業(yè)關鍵詞庫;針對所述初始的行業(yè)關鍵詞庫中每個行業(yè)關鍵詞,統(tǒng)計出所述行業(yè)關鍵詞在所述行業(yè)關鍵詞所屬的當前商戶行業(yè)類別中出現(xiàn)的次數(shù),并統(tǒng)計出所述行業(yè)關鍵詞在全部商戶行業(yè)類別中出現(xiàn)的次數(shù);根據(jù)所述行業(yè)關鍵詞在所述行業(yè)關鍵詞所屬的當前商戶行業(yè)類別中出現(xiàn)的次數(shù)以及所述行業(yè)關鍵詞在全部商戶行業(yè)類別中出現(xiàn)的次數(shù),計算出所述行業(yè)關鍵詞在所述行業(yè)關鍵詞所屬的當前商戶行業(yè)類別中出現(xiàn)的次數(shù)與所述行業(yè)關鍵詞在全部商戶行業(yè)類別中出現(xiàn)的次數(shù)的比值;若所述行業(yè)關鍵詞的比值小于預設閾值,則將所述行業(yè)關鍵詞從所述初始的行業(yè)關鍵詞庫中進行剔除處理,確定出所述行業(yè)關鍵詞庫。6.如權利要求3所述的方法,其特征在于,在所述將所述樣本商戶名稱集中各樣本商戶名稱標注上對應的行業(yè)標簽之前,還包括:對所述樣本商戶名稱集中的不規(guī)范商戶名稱和特殊符號進行清除處理,得到處理后的所述樣本商戶名稱集。7.如權利要求1至6任一項所述的方法,其特征在于,所述將所述待識別商戶名稱的每個字對應的字向量輸入到商戶行業(yè)分類模型進行識別,確定出所述待識別商戶名稱所屬的行業(yè)類型,包括:將所述待識別商戶名稱的每個字對應的字向量輸入到所述商戶行業(yè)分類模型進行識別,得到所述待識別商戶名稱與預設商戶行業(yè)類型庫中各商戶行業(yè)類型匹配的概率,并將所述待識別商戶名稱與預設商戶行業(yè)類型庫中各預設商戶行業(yè)類型匹配的概率進行對比,確定出最大匹配概率,并將所述最大匹配概率對應的預設商戶行業(yè)類型確定為所述待識別商戶名稱所屬的行業(yè)類型。8.一種商戶行業(yè)智能分類的裝置,其特征在...
【專利技術屬性】
技術研發(fā)人員:王雪彤,杜智康,趙萌,
申請(專利權)人:銀聯(lián)智策顧問上海有限公司,
類型:發(fā)明
國別省市:
還沒有人留言評論。發(fā)表了對其他瀏覽者有用的留言會獲得科技券。