本發(fā)明專利技術(shù)公開了一種用戶購(gòu)物意圖預(yù)測(cè)方法,尤其是一種基于支持向量機(jī)的隨機(jī)多項(xiàng)式核的用戶購(gòu)物意圖預(yù)測(cè)方法。該方法首先收集用戶在網(wǎng)站上的行為數(shù)據(jù),接著確定支持向量機(jī)SVM訓(xùn)練模型在訓(xùn)練測(cè)試樣本集上的參數(shù)組合的最優(yōu)值,最后利用最優(yōu)參數(shù)組合的支持向量機(jī)SVM訓(xùn)練模型測(cè)試驗(yàn)證樣本集,得到用戶的購(gòu)物意圖。本發(fā)明專利技術(shù)在傳統(tǒng)單尺度多項(xiàng)式核函數(shù)的支持向量機(jī)的基礎(chǔ)上,擴(kuò)展了多項(xiàng)式核函數(shù)的參數(shù),提升了支持向量機(jī)參數(shù)選擇的效率。與傳統(tǒng)單尺度多項(xiàng)式核函數(shù)的支持向量機(jī)相比,該方法在損失較小的泛化性能的基礎(chǔ)上,學(xué)習(xí)模型參數(shù)選取的時(shí)間僅需傳統(tǒng)SVM多項(xiàng)式核方法的不到1%的時(shí)間,并且擁有較好的穩(wěn)定性。并且擁有較好的穩(wěn)定性。并且擁有較好的穩(wěn)定性。
【技術(shù)實(shí)現(xiàn)步驟摘要】
一種基于隨機(jī)多項(xiàng)式核的用戶購(gòu)物意圖預(yù)測(cè)方法
[0001]本專利技術(shù)屬于電子商務(wù)領(lǐng)域,特別是一種基于隨機(jī)多項(xiàng)式核的用戶購(gòu)物意圖預(yù)測(cè)方法。
技術(shù)介紹
[0002]隨著中國(guó)互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)購(gòu)物日益成為一種重要的購(gòu)物形式。在目前的電子商務(wù)環(huán)境之下,用戶的購(gòu)物需求表現(xiàn)出多樣化的發(fā)展趨勢(shì)。購(gòu)買意圖是指用戶愿意購(gòu)買商品的可能性或概率,它是用戶購(gòu)買商品的主觀可能性。對(duì)于傳統(tǒng)的電子商務(wù)公司來說,每天有大量的潛在用戶瀏覽數(shù)以萬計(jì)的商品,如何有效地識(shí)別這些用戶的購(gòu)物意圖,是這些公司面臨的越來越大的挑戰(zhàn)。
[0003]用戶的購(gòu)買意圖是通過在購(gòu)物網(wǎng)站上的一系列顯式的和隱式的行為表現(xiàn)出來的。例如,用戶直接輸入對(duì)商品的分級(jí)評(píng)分或評(píng)價(jià)信息為顯式的行為,瀏覽商品的停留時(shí)間可以認(rèn)定為隱式的行為。個(gè)性化推薦是目前電子商務(wù)公司采用的較為成功的商品營(yíng)銷策略,根據(jù)用戶之前的瀏覽、評(píng)價(jià)、購(gòu)買或者搜索歷史等行為數(shù)據(jù)以及相似用戶群體的歷史行為數(shù)據(jù)推測(cè)目標(biāo)用戶的購(gòu)物意圖,然后在目標(biāo)用戶訪問網(wǎng)站時(shí)為其推薦或展一組他們最有可能購(gòu)買的商品。
[0004]判斷用戶的購(gòu)買意圖這類問題在機(jī)器學(xué)習(xí)方法中可以作為一種分類問題來研究,目前已經(jīng)有一些機(jī)器學(xué)習(xí)算法針對(duì)由于用戶的歷史行為數(shù)據(jù)判斷用戶的購(gòu)買意圖,如支持向量機(jī)(SVM)和神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)的適應(yīng)性好,但是容易陷入局部最小化的問題,計(jì)算代價(jià)也比較大。SVM是近年應(yīng)用于分類問題和回歸問題上最成功的學(xué)習(xí)機(jī)器之一。對(duì)于分類問題,由于大多數(shù)樣本點(diǎn)在原始空間中是線性不可分的,SVM采用非線性映射的方法,將原始空間樣本的輸入向量x映射到高維特征空間φ(x)中,使樣本在高維空間中線性可分。由于輸入向量在特征空間中的內(nèi)積主要利用核函數(shù)來度量,使用不同的核函數(shù)會(huì)映射到不同的特征空間,所以核函數(shù)類型的確定以及核參數(shù)的選擇是影響SVM泛化性能的主要因素。
[0005]當(dāng)前對(duì)于參數(shù)選擇的方法主要有兩種:首先是基于測(cè)試精度的方法,通過測(cè)試非訓(xùn)練樣本在某個(gè)參數(shù)值上的錯(cuò)誤率,然后不斷修正參數(shù)使錯(cuò)誤率更小。具體的技術(shù)有Doan提出的十折交叉驗(yàn)證法(10-Cross Validation),但是這種方法在參數(shù)空間較大的時(shí)候花費(fèi)的計(jì)算代價(jià)太大,研究學(xué)者們將現(xiàn)有的一些優(yōu)化技術(shù)集成到參數(shù)選擇的方法中,如粒子群優(yōu)化(Particle Swarm Optimization,簡(jiǎn)稱PSO)方法和基因算法;其次是基于某種理論界的逼近方法,如基于影響函數(shù)(Influence Function)的估計(jì)和VC維的界。
[0006]上述的研究在一定的程度上緩解了模型選擇的問題,但是沒有從根本上解決問題。對(duì)于一個(gè)學(xué)習(xí)算法,訓(xùn)練速度快,泛化能力強(qiáng)和不用調(diào)節(jié)太多的參數(shù)是各個(gè)應(yīng)用領(lǐng)域所追求的理想情況。然而這幾方面在SVM身上是矛盾的,追求訓(xùn)練速度就得犧牲泛化性能,追求泛化性能就得花費(fèi)大量時(shí)間來選擇最優(yōu)的模型。
[0007]訓(xùn)練樣本的每個(gè)特征對(duì)分類的貢獻(xiàn)是不同的,所有特征都設(shè)置相同的核參數(shù),則難以區(qū)分每個(gè)特征的貢獻(xiàn)度。當(dāng)訓(xùn)練樣本的特征數(shù)目較少時(shí),設(shè)置1個(gè)核函數(shù)參數(shù)對(duì)訓(xùn)練模
型影響較小。當(dāng)訓(xùn)練樣本特征數(shù)目較多時(shí),應(yīng)該對(duì)每個(gè)特征都設(shè)置相應(yīng)的核函數(shù)參數(shù)。但是如果核函數(shù)參數(shù)較多時(shí),使用上述提到的模型選擇方法計(jì)算代價(jià)非常巨大,且很難找到符合樣本實(shí)際分布的最佳參數(shù)組合。
技術(shù)實(shí)現(xiàn)思路
[0008]本專利技術(shù)所解決的技術(shù)問題在于提供一種基于隨機(jī)多項(xiàng)式核的用戶購(gòu)物意圖預(yù)測(cè)方法,能夠在保持泛化性能的同時(shí)極大地提高模型選擇的效率。
[0009]實(shí)現(xiàn)本專利技術(shù)目的的技術(shù)解決方案為:一種基于隨機(jī)多項(xiàng)式核的用戶購(gòu)物意圖預(yù)測(cè)方法,包括以下步驟:
[0010]步驟1、收集用戶在網(wǎng)站上的行為數(shù)據(jù),構(gòu)建用戶行為數(shù)據(jù)集,所述用戶行為數(shù)據(jù)集包括訓(xùn)練測(cè)試樣本集S和驗(yàn)證樣本集V;
[0011]步驟2、確定支持向量機(jī)SVM訓(xùn)練模型在訓(xùn)練測(cè)試樣本集S上的參數(shù)組合(C,σ)的最優(yōu)值,其中C為SVM訓(xùn)練模型的懲罰系數(shù)參數(shù),σ為SVM訓(xùn)練模型的核參數(shù);
[0012]步驟3、利用最優(yōu)參數(shù)組合(C,σ)的支持向量機(jī)SVM訓(xùn)練模型測(cè)試驗(yàn)證樣本集V,得到用戶的購(gòu)物意圖。
[0013]優(yōu)選的,所述步驟1中所述訓(xùn)練測(cè)試樣本集其中x
i
∈R
d
為用戶購(gòu)物意圖的因素特征,t
i
∈{-1,1}為類別,1表示有購(gòu)買意圖,-1表示沒有購(gòu)買意圖,N為數(shù)據(jù)樣本的個(gè)數(shù)。
[0014]優(yōu)選的,所述步驟2確定支持向量機(jī)SVM訓(xùn)練模型在訓(xùn)練測(cè)試樣本集S上的參數(shù)組合(C,σ)的最優(yōu)值具體為:
[0015]步驟2-1、將用戶行為數(shù)據(jù)樣本集S劃分為訓(xùn)練集S
train
和測(cè)試集S
test
;
[0016]步驟2-2、確定支持向量機(jī)SVM訓(xùn)練模型的核函數(shù)及其參數(shù)σ;
[0017]步驟2-3、從候選集T中選擇一個(gè)元素作為支持向量機(jī)SVM訓(xùn)練模型的參數(shù)C,然后從候選集T中刪去該元素,重復(fù)迭代執(zhí)行步驟2-3~步驟2-8,直至候選集T為空;
[0018]步驟2-4、計(jì)算支持向量機(jī)SVM訓(xùn)練模型的核矩陣K(x
i
,x
j
),其中,x
i
,x
j
為用戶購(gòu)物意圖預(yù)測(cè)的數(shù)據(jù),i=1,
…
,N,j=1,
…
,N。
[0019]步驟2-5、確定使支持向量機(jī)SVM訓(xùn)練模型對(duì)偶優(yōu)化的最優(yōu)解,所用公式為:
[0020][0021][0022]其中為SVM的核函數(shù),是對(duì)x做變換的函數(shù),有些變換會(huì)將樣本映射到更高維的空間,α
i
為非負(fù)拉格朗日乘子,每個(gè)拉格朗日乘子α
i
對(duì)應(yīng)著一個(gè)訓(xùn)練樣本(x
i
,t
i
),t
i
為用戶購(gòu)物意圖預(yù)測(cè)的數(shù)據(jù)的類別;
[0023]步驟2-6、求解法向量w和偏置b,所用公式為:
[0024]式中w為SVM的權(quán)值向量,b為SVM
的閾值。
[0025]步驟2-7、確定SVM分類模型f(x),其中式中sgn為符號(hào)函數(shù);
[0026]步驟2-8、使用SVM分類模型f(x)對(duì)測(cè)試集S
test
進(jìn)行預(yù)測(cè),得到預(yù)測(cè)準(zhǔn)確率A
k
,其中k為第k次迭代;
[0027]步驟2-9、從集合A=[A1,
…
A
k
,
…
]中找出最大值,并標(biāo)記出相應(yīng)的參數(shù)C的值,從而確定支持向量機(jī)SVM訓(xùn)練模型在用戶購(gòu)物意圖預(yù)測(cè)的數(shù)據(jù)樣本集上的參數(shù)組合(C,σ)。
[0028]優(yōu)選的,所述步驟2-1中將用戶行為數(shù)據(jù)樣本集S劃分為訓(xùn)練集S
train
和測(cè)試集S
test
的方法是將樣本集S中前m個(gè)樣本設(shè)為訓(xùn)練集S
train
,其它樣本作為測(cè)試集S
test
。
[0029]優(yōu)選的,所述步驟2-2中支持向量機(jī)SVM訓(xùn)練模型的核本文檔來自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
【技術(shù)特征摘要】
1.一種基于隨機(jī)多項(xiàng)式核的用戶購(gòu)物意圖預(yù)測(cè)方法,其特征在于,包括以下步驟:步驟1、收集用戶在網(wǎng)站上的行為數(shù)據(jù),構(gòu)建用戶行為數(shù)據(jù)集,所述用戶行為數(shù)據(jù)集包括訓(xùn)練測(cè)試樣本集S和驗(yàn)證樣本集V;步驟2、確定支持向量機(jī)SVM訓(xùn)練模型在訓(xùn)練測(cè)試樣本集S上的參數(shù)組合(C,σ)的最優(yōu)值,其中C為SVM訓(xùn)練模型的懲罰系數(shù)參數(shù),σ為SVM訓(xùn)練模型的核參數(shù);步驟3、利用最優(yōu)參數(shù)組合(C,σ)的支持向量機(jī)SVM訓(xùn)練模型測(cè)試驗(yàn)證樣本集V,得到用戶的購(gòu)物意圖。2.根據(jù)權(quán)利要求1所述的基于隨機(jī)多項(xiàng)式核的用戶購(gòu)物意圖預(yù)測(cè)方法,其特征在于,步驟1中所述訓(xùn)練測(cè)試樣本集其中,x
i
∈R
d
為用戶購(gòu)物意圖的因素特征,t
i
∈{-1,1}為類別,1表示有購(gòu)買意圖,-1表示沒有購(gòu)買意圖,R
d
為d維特征個(gè)數(shù),N為數(shù)據(jù)樣本的個(gè)數(shù)。3.根據(jù)權(quán)利要求2所述的基于隨機(jī)多項(xiàng)式核的用戶購(gòu)物意圖預(yù)測(cè)方法,其特征在于,步驟2確定支持向量機(jī)SVM訓(xùn)練模型在訓(xùn)練測(cè)試樣本集S上的參數(shù)組合(C,σ)的最優(yōu)值具體為:步驟2-1、將用戶行為數(shù)據(jù)樣本集S劃分為訓(xùn)練集S
train
和測(cè)試集S
test
;步驟2-2、確定支持向量機(jī)SVM訓(xùn)練模型的核函數(shù)及其參數(shù)σ;步驟2-3、從候選集T中選擇一個(gè)元素作為支持向量機(jī)SVM訓(xùn)練模型的參數(shù)C,然后從候選集T中刪去該元素,重復(fù)迭代執(zhí)行步驟2-3~步驟2-8,直至候選集T為空;步驟2-4、確定支持向量機(jī)SVM訓(xùn)練模型的核矩陣K(x
i
,x
j
),其中,x
i
,x
j
為用戶購(gòu)物意圖預(yù)測(cè)的數(shù)據(jù),i=1,...,N,j=1,...,N;步驟2-5、確定使支持向量機(jī)SVM訓(xùn)練模型對(duì)偶優(yōu)化的最優(yōu)解,所用公式為:Minimize:Subject to:其中為SVM的核函數(shù),是對(duì)x做變換的函數(shù),將樣本映射到更高維的空間,α
i
為非負(fù)拉格朗日乘子,每個(gè)拉格朗日乘子α
i
對(duì)應(yīng)著一個(gè)訓(xùn)練樣本(x
i
,t
i
),t
i
為用戶購(gòu)物意圖預(yù)測(cè)的數(shù)據(jù)的類別;步驟2-6、求解法向量w和偏置b,所用公式為:式中w為SVM的權(quán)值向量,b為SVM的閾值;步驟2-7、確定SVM分類模型f(x),其中式中sgn為符號(hào)函數(shù);步驟2-8、使用SVM分類模型f(x)對(duì)測(cè)試集S
test
進(jìn)行預(yù)測(cè),得到預(yù)測(cè)準(zhǔn)確...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:丁曉劍,楊帆,劉健,程偉,曹杰,
申請(qǐng)(專利權(quán))人:南京財(cái)經(jīng)大學(xué),
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。