本發明專利技術實施例提供一種數據處理方法及裝置,該方法包括:對商戶數據庫中的第二商戶名稱進行分詞,得到所述第二商戶名稱的各關鍵詞及各關鍵詞在所述第二商戶名稱中的詞序;確定各設定詞性在商戶名稱中的初始詞性分布概率;確定所述各關鍵詞在所述各設定詞性下的觀測概率矩陣和詞性轉移概率矩陣;基于各關鍵詞在所述第二商戶名稱中的詞序,通過所述初始詞性分布概率、所述詞性轉移概率矩陣和所述觀測概率矩陣,確定所述各關鍵詞中作為所述第二商戶名稱的品牌關鍵詞。上述方法用于提高商戶數據庫中商戶名稱匹配到品牌關鍵詞的數量,提高數據價值。據價值。據價值。
【技術實現步驟摘要】
一種數據處理方法及裝置
[0001]本申請涉及數據處理
,尤其涉及一種數據處理方法及裝置。
技術介紹
[0002]近年來,由于計算機技術和網絡技術的迅猛發展,大數據技術的應用愈加廣泛。在大數據產業中,對海量數據的分析與利用,促進了相關行業的健康發展。如,銀聯的跨行交易數據是最具價值的海量數據之一,可以通過數據分析和建模等手段獲取包含數據特征的分析結果,幫助用戶進行相關決策。
[0003]現有技術中,銀聯的跨行交易數據中沒有商戶所屬的品牌信息。因此,通過網頁爬蟲方式獲取品牌信息,再通過分詞算法獲得品牌信息中的品牌關鍵詞和商戶名稱,從而將該品牌關鍵詞與銀聯商戶庫中的商戶名稱進行逐一匹配,建立商戶庫中商戶名稱與品牌關鍵詞的關聯關系。但該方式需要網頁爬蟲得到的品牌信息中包括品牌關鍵詞,使得難以為商戶庫中所有商戶名稱均匹配到品牌關鍵詞。
[0004]因此,現在亟需一種數據處理方法及裝置,用于提高商戶庫中商戶名稱匹配到品牌關鍵詞的數量。
技術實現思路
[0005]本專利技術實施例提供一種數據處理方法及裝置,用于提高商戶數據庫中商戶名稱匹配到品牌關鍵詞的數量,提高數據價值。
[0006]第一方面,本專利技術實施例提供一種數據處理方法,該方法包括:
[0007]對商戶數據庫中的第二商戶名稱進行分詞,得到所述第二商戶名稱的各關鍵詞及各關鍵詞在所述第二商戶名稱中的詞序;確定各設定詞性在商戶名稱中的初始詞性分布概率;確定所述各關鍵詞在所述各設定詞性下的觀測概率矩陣和詞性轉移概率矩陣;基于各關鍵詞在所述第二商戶名稱中的詞序,通過所述初始詞性分布概率、所述詞性轉移概率矩陣和所述觀測概率矩陣,確定所述各關鍵詞中作為所述第二商戶名稱的品牌關鍵詞。
[0008]上述方法中,對商戶數據庫中的第二商戶名稱進行分詞獲取第二商戶名稱對應的各關鍵詞以及各關鍵詞的詞序,進一步確定各關鍵詞對應的初始詞性分布概率、詞性轉移概率矩陣和觀測概率矩陣,確定第二商戶名稱的品牌關鍵詞。如此,將商戶數據庫中沒有品牌關鍵詞的第二商戶名稱補全品牌關鍵詞,提高商戶數據庫中商戶名稱匹配到品牌關鍵詞的數量。
[0009]可選的,對商戶數據庫中的第二商戶名稱進行分詞之前,還包括:抓取外部品牌數據,通過規則分詞模型對所述外部品牌數據進行分詞,得到外部關鍵詞;從所述商戶數據庫中確定出與所述外部關鍵詞匹配的第一商戶名稱,并作為所述第一商戶名稱的品牌關鍵詞;將所述商戶數據庫中未匹配到所述外部關鍵詞的商戶名稱,確定為第二商戶名稱。
[0010]上述方法中,通過根據規則分詞模型對外部品牌數據分詞獲得外部關鍵詞,并將該外部關鍵詞的作為與其匹配的第一商戶名稱的品牌關鍵詞。如此,提高商戶名稱與關聯
的品牌關鍵詞的準確度,彌補根據歷史商戶數據確定的詞性概率、初始詞性分布概率和轉移詞性分布概率不準確導致的錯誤概率。
[0011]可選的,從所述商戶數據庫中確定出與所述外部關鍵詞匹配的第一商戶名稱,包括:對各外部關鍵詞構建字典樹;將所述商戶數據庫中的商戶名稱分別與所述字典樹進行匹配;確定包含所述字典樹任一分支的第一商戶名稱,并將所述分支對應的外部關鍵詞作為所述第一商戶名稱的品牌關鍵詞。
[0012]上述方法中,通過字典樹的方式,相比于現有技術中將外部關鍵詞逐一與商戶數據庫中的第一商戶名稱匹配的方法,可以加快匹配速度。
[0013]可選的,確定包含所述字典樹任一分支的第一商戶名稱,包括:確定包含所述字典樹任一分支的商戶名稱;針對任一所述商戶名稱,若所述商戶名稱中包含所述分支對應的外部關鍵詞的品牌關聯詞集中任一關聯詞,且所述商戶名稱中不包含所述分支對應的外部關鍵詞的品牌非關聯詞集中任一非關聯詞,則確定所述商戶名稱為所述第一商戶名稱。
[0014]上述方法中,通過根據外部關鍵詞的品牌關聯詞集和品牌非關聯詞集分別與外部關鍵詞進行匹配。如此,可以將與外部關鍵詞匹配,但實際與外部關鍵詞為不同性質的商戶名稱剔除,這里不同性質為外部關鍵詞對應的商戶行業與商戶名稱的商戶行業不同,如,衷琴為鐘表行業,則對應的品牌關鍵詞集為:專柜、鐘表、專賣等,品牌非關鍵詞集:KTV、服飾等。
[0015]可選的,基于如下公式,確定所述各關鍵詞中作為所述第二商戶名稱的品牌關鍵詞:
[0016][0017]其中,i∈(reg,brand,ind,other)表示關鍵詞i屬于所述第二商戶名稱對應的地區詞性/品牌詞性/行業詞性/其他詞性;O(t)表示所述第二商戶名稱中第t個關鍵詞的最大概率詞性;init(i)表示所述第t個關鍵詞為i的初始詞性分布概率;Q(i|word)表示所述第t個關鍵詞是i的觀測概率;(i|O(t
?
1))表示所述第t個關鍵詞與相鄰關鍵詞i對應的詞性轉移概率。
[0018]上述方法中,通過該公式可以將第二商戶名稱中各關鍵詞中品牌詞性概率最大的關鍵詞獲取,提高確定第二商戶名稱的品牌關鍵詞的準確率。
[0019]可選的,所述初始詞性分布概率、所述詞性轉移概率矩陣和所述觀測概率矩陣是通過樣本數據學習得到的。
[0020]上述方法中,根據大量已經確定所包含各關鍵詞詞性的商戶名稱學習獲取初始詞性分布概率、詞性轉移概率矩陣和觀測概率矩陣,提高數據處理的準確性。
[0021]可選的,所述初始詞性分布概率是根據樣本數據中各關鍵詞對應的設定詞性的分布概率確定的;所述詞性轉移概率矩陣是根據樣本數據中處于相鄰位置的關鍵詞對應的設定詞性分布概率確定的;所述觀測概率矩陣是根據樣本數據中關鍵詞的設定詞性的分布概率確定的。
[0022]上述方法中,根據樣本數據中各關鍵詞對應的設定詞性的分布概率確定初始詞性分布概率。如此,可以準確獲取各關鍵詞對應的初始詞性分布概率。根據樣本數據中處于相
鄰位置的關鍵詞的分布概率確定詞性轉移概率矩陣。如此,可以準確獲取相鄰關鍵詞詞性轉移概率,基于初始詞性分布概率和相鄰關鍵詞詞性轉移概率綜合影響關鍵詞詞性,提高最終獲取的各關鍵詞詞性的準確性。根據樣本數據中各關鍵詞的分布概率確定觀測概率矩陣。如此,基于關鍵詞本身特征獲取關鍵詞詞性概率。進一步提高最終獲取的各關鍵詞詞性的準確性。
[0023]第二方面,本專利技術實施例提供一種數據處理裝置,該裝置包括:
[0024]確定模塊,用于對商戶數據庫中的第二商戶名稱進行分詞,得到所述第二商戶名稱的各關鍵詞及各關鍵詞在所述第二商戶名稱中的詞序;
[0025]所述確定模塊還用于,確定各設定詞性在商戶名稱中的初始詞性分布概率;
[0026]所述確定模塊還用于,確定所述各關鍵詞在所述各設定詞性下的觀測概率矩陣和詞性轉移概率矩陣;
[0027]關聯模塊,用于基于各關鍵詞在所述第二商戶名稱中的詞序,通過所述初始詞性分布概率、所述詞性轉移概率矩陣和所述觀測概率矩陣,確定所述各關鍵詞中作為所述第二商戶名稱的品牌關鍵詞。
[0028]第三方面,本申請實施例還提供一種計算設備,包括:存儲器,用于存儲程序;處理器,用于調用本文檔來自技高網...
【技術保護點】
【技術特征摘要】
1.一種數據處理方法,其特征在于,所述方法包括:對商戶數據庫中的第二商戶名稱進行分詞,得到所述第二商戶名稱的各關鍵詞及各關鍵詞在所述第二商戶名稱中的詞序;確定各設定詞性在商戶名稱中的初始詞性分布概率;確定所述各關鍵詞在所述各設定詞性下的觀測概率矩陣和詞性轉移概率矩陣;基于各關鍵詞在所述第二商戶名稱中的詞序,通過所述初始詞性分布概率、所述詞性轉移概率矩陣和所述觀測概率矩陣,確定所述各關鍵詞中作為所述第二商戶名稱的品牌關鍵詞。2.如權利要求1中所述的方法,其特征在于,對商戶數據庫中的第二商戶名稱進行分詞之前,還包括:抓取外部品牌數據,通過規則分詞模型對所述外部品牌數據進行分詞,得到外部關鍵詞;從所述商戶數據庫中確定出與所述外部關鍵詞匹配的第一商戶名稱,并作為所述第一商戶名稱的品牌關鍵詞;將所述商戶數據庫中未匹配到所述外部關鍵詞的商戶名稱,確定為第二商戶名稱。3.如權利要求2中所述的方法,其特征在于,從所述商戶數據庫中確定出與所述外部關鍵詞匹配的第一商戶名稱,包括:對各外部關鍵詞構建字典樹;將所述商戶數據庫中的商戶名稱分別與所述字典樹進行匹配;確定包含所述字典樹任一分支的第一商戶名稱,并將所述分支對應的外部關鍵詞作為所述第一商戶名稱的品牌關鍵詞。4.如權利要求3中所述的方法,其特征在于,確定包含所述字典樹任一分支的第一商戶名稱,包括:確定包含所述字典樹任一分支的商戶名稱;針對任一所述商戶名稱,若所述商戶名稱中包含所述分支對應的外部關鍵詞的品牌關聯詞集中任一關聯詞,且所述商戶名稱中不包含所述分支對應的外部關鍵詞的品牌非關聯詞集中任一非關聯詞,則確定所述商戶名稱為所述第一商戶名稱。5.如權利要求1中所述的方法,其特征在于,基于如下公式,確定所述各關鍵詞中作為所述第二商戶名稱的品牌關鍵詞:其中,i∈(reg,brand,ind,other)表示關鍵詞i屬于所述第二...
【專利技術屬性】
技術研發人員:周航,陳鑫,徐婷婷,趙萌,
申請(專利權)人:銀聯智策顧問上海有限公司,
類型:發明
國別省市:
還沒有人留言評論。發表了對其他瀏覽者有用的留言會獲得科技券。