【技術(shù)實(shí)現(xiàn)步驟摘要】
一種基于文本的商品分類處理方法及其系統(tǒng)
本專利技術(shù)涉及互聯(lián)網(wǎng)電子商務(wù)領(lǐng)域,尤其涉及利用計(jì)算機(jī)實(shí)現(xiàn)基于文本的商品分類處理方法及其系統(tǒng)。
技術(shù)介紹
互聯(lián)網(wǎng)發(fā)展迅猛,越來(lái)越多的商品通過(guò)電子商務(wù)的方式進(jìn)行銷售。快速、準(zhǔn)確的對(duì)所出售的商品進(jìn)行類別的劃分顯得更加的重要。商品分類是為了方便消費(fèi)者購(gòu)買的需要,將商品選擇適當(dāng)?shù)姆诸悩?biāo)志,系統(tǒng)地逐級(jí)劃分大類,中類,小類以至品種、花色、規(guī)格等的過(guò)程。準(zhǔn)確的分類有利于電子商務(wù)企業(yè)更有序組織管理商品。而具體到電子商務(wù)網(wǎng)站,商品分類就是把一些新上產(chǎn)品劃歸為已有某個(gè)所屬類別的過(guò)程。在目前的互聯(lián)網(wǎng)電子商務(wù)網(wǎng)站,尚有很多商品分類系統(tǒng)還是通過(guò)網(wǎng)站編輯或者網(wǎng)絡(luò)賣家自身進(jìn)行手工分類。這樣的方式存在以下幾個(gè)弊端:1,大量的商品分類工作消耗了過(guò)多的人力成本。2,隨著網(wǎng)站規(guī)模的不斷膨脹,由于人工選擇分類速度緩慢,導(dǎo)致很多商品不能及時(shí)上傳到網(wǎng)站,從而錯(cuò)過(guò)了交易機(jī)會(huì)。3,人工分類會(huì)因?yàn)椴煌藢?duì)商品的特征的不同理解從而造成分類結(jié)果的不一致。
技術(shù)實(shí)現(xiàn)思路
為解決上述現(xiàn)有技術(shù)所存在的問(wèn)題,本專利技術(shù)提出了一種基于文本的商品分類處理方法,以及建立在此方法上的系統(tǒng)。進(jìn)一步地提出了通過(guò)電子商務(wù)網(wǎng)站站內(nèi)的現(xiàn)有商品相關(guān)數(shù)據(jù),運(yùn)用分詞系統(tǒng)和樸素貝葉斯分類算法進(jìn)行分類,再輔助人工校對(duì)進(jìn)行優(yōu)化的商品分類系統(tǒng)。本專利技術(shù)的方法和系統(tǒng)運(yùn)用機(jī)器學(xué)習(xí)的方式,分類速度快,適合大容量電子商務(wù)網(wǎng)站的商品分類處理。本專利技術(shù)采用如下技術(shù)方案:從商品數(shù)據(jù)庫(kù)提取文本格式商品數(shù)據(jù),對(duì)商品數(shù)據(jù)進(jìn)行分組并進(jìn)行特征提取,利用訓(xùn)練文件依據(jù)概率模型構(gòu)造出分類器,對(duì)商品數(shù)據(jù)進(jìn)行分類。優(yōu)選地,其中商品分 ...
【技術(shù)保護(hù)點(diǎn)】
一種基于文本的商品分類處理方法,其特征在于,從商品數(shù)據(jù)庫(kù)提取文本格式商品數(shù)據(jù),對(duì)商品數(shù)據(jù)進(jìn)行分組并進(jìn)行特征提取,利用訓(xùn)練文件依據(jù)概率模型構(gòu)造出分類器,對(duì)商品數(shù)據(jù)進(jìn)行分類。
【技術(shù)特征摘要】
1.一種基于文本的商品分類處理方法,其特征在于, 從商品數(shù)據(jù)庫(kù)提取文本格式商品數(shù)據(jù),對(duì)商品數(shù)據(jù)進(jìn)行分組并進(jìn)行特征提取,利用訓(xùn)練文件依據(jù)概率模型構(gòu)造出分類器,對(duì)商品數(shù)據(jù)進(jìn)行分類。2.根據(jù)權(quán)利要求1所述的方法,其中所述文本格式商品數(shù)據(jù)包括:類目信息和商品信肩、O3.根據(jù)權(quán)利要求2所述的方法,其中所述類目信息包括類目ID、類目名稱和父類目ID。4.根據(jù)權(quán)利要求2所述的方法,其中所述商品信息包括商品ID、商品描述和商品所屬類目號(hào)。5.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括以下步驟:在對(duì)商品數(shù)據(jù)進(jìn)行分組之前對(duì)商品數(shù)據(jù)進(jìn)行預(yù)處理。6.根據(jù)權(quán)利要求4所述的方法,其中對(duì)商品數(shù)據(jù)進(jìn)行特征提取包括:對(duì)商品描述進(jìn)行機(jī)器分詞處理,形成包含有效詞匯的待分類項(xiàng)。7.根據(jù)權(quán)利要求1所述的方法,其中對(duì)商品數(shù)據(jù)進(jìn)行分組包括將商品數(shù)據(jù)按比例隨機(jī)分組為訓(xùn)練文件和測(cè)試文件。8.根據(jù)權(quán)利要求1所述的方法,其中概率模型為樸素貝葉斯變換。9.根據(jù)權(quán)利要求8所述的方法,其中樸素貝葉斯變換計(jì)算式為: 貝葉斯全概率公式 10.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括對(duì)商品分類結(jié)果進(jìn)行糾錯(cuò)、更新以及對(duì)分類器進(jìn)行定時(shí)訓(xùn)練。11.一種基于文本的商品分類處理系統(tǒng),其特征在于包括: 數(shù)據(jù)提取模塊,用于提取文本格式商...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:王冬杰,朱勇勇,
申請(qǐng)(專利權(quán))人:世紀(jì)禾光科技發(fā)展北京有限責(zé)任公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。