System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本專利技術(shù)涉及垃圾郵件識(shí)別,特別是涉及一種垃圾郵件的識(shí)別方法、系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì)。
技術(shù)介紹
1、垃圾郵件的識(shí)別是郵件安全領(lǐng)域的核心問(wèn)題,隨著人工智能、深度學(xué)習(xí)的不斷迭代與更新,該領(lǐng)域也取得了較大發(fā)展。然而,在實(shí)際應(yīng)用中,垃圾郵件的識(shí)別是一個(gè)動(dòng)態(tài)博弈的過(guò)程,發(fā)信人會(huì)嘗試各種方式繞過(guò)當(dāng)前模型的檢測(cè),各類垃圾郵件變種層出不窮,這對(duì)檢測(cè)模型的更新提出了較高要求。
2、目前常規(guī)的基于神經(jīng)網(wǎng)絡(luò)進(jìn)行垃圾郵件識(shí)別的方法中,模型的更新是在一段時(shí)間內(nèi)收集到足夠多的新樣本后,再重新訓(xùn)練并替換掉舊模型,因此存在周期長(zhǎng),響應(yīng)慢,人工干預(yù)較多的問(wèn)題。此外,部分郵件處于灰色地帶,其判定還與用戶主觀偏好相關(guān),而當(dāng)前常規(guī)的單一模型顯然無(wú)法滿足用戶個(gè)性化的需求。
技術(shù)實(shí)現(xiàn)思路
1、為了解決上述技術(shù)問(wèn)題,本專利技術(shù)提供了一種垃圾郵件的識(shí)別方法、系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),以能夠解決現(xiàn)有方法更新周期長(zhǎng)且響應(yīng)不及時(shí)的問(wèn)題,達(dá)到準(zhǔn)確高效的識(shí)別垃圾郵件以及滿足用戶個(gè)性化需求的效果。
2、第一方面,本專利技術(shù)提供了一種垃圾郵件的識(shí)別方法,所述方法包括:
3、將待識(shí)別郵件輸入預(yù)設(shè)的郵件識(shí)別模型進(jìn)行垃圾郵件識(shí)別,得到待識(shí)別郵件的識(shí)別結(jié)果,所述郵件識(shí)別模型包括依次串聯(lián)的特征提取模塊、特征識(shí)別子模型和結(jié)果融合模塊,所述特征識(shí)別子模型包括并聯(lián)的基礎(chǔ)識(shí)別子模型、個(gè)性化識(shí)別子模型和權(quán)重分配子模型,且所述基礎(chǔ)識(shí)別子模型和所述個(gè)性化識(shí)別子模型的結(jié)構(gòu)一致;
4、獲取用戶對(duì)于識(shí)別結(jié)果的反饋數(shù)據(jù)
5、從預(yù)設(shè)的向量數(shù)據(jù)庫(kù)中采集樣本數(shù)據(jù),組成訓(xùn)練樣本,根據(jù)所述訓(xùn)練樣本,并采用變分貝葉斯在線學(xué)習(xí)算法,對(duì)所述郵件識(shí)別模型的模型參數(shù)進(jìn)行更新;
6、使用更新的所述郵件識(shí)別模型進(jìn)行垃圾郵件識(shí)別。
7、進(jìn)一步地,所述特征提取模塊包括文本特征提取模塊、非文本特征提取模塊和特征拼接模塊,所述文本特征提取模塊基于輕量級(jí)預(yù)訓(xùn)練模型構(gòu)建得到,所述非文本特征提取模塊基于變分自編碼器構(gòu)建得到;
8、所述基礎(chǔ)識(shí)別子模型和所述個(gè)性化識(shí)別子模型均包括依次串聯(lián)的特征交互層、多層感知機(jī)和歸一化層;
9、所述權(quán)重分配子模型基于隱變量模型構(gòu)建得到。
10、進(jìn)一步地,所述將待識(shí)別郵件輸入預(yù)設(shè)的郵件識(shí)別模型進(jìn)行垃圾郵件識(shí)別的步驟包括:
11、將待識(shí)別郵件分別輸入所述文本特征提取模塊和所述非文本特征提取模塊進(jìn)行特征提取,并將提取出的文本特征向量和非文本特征向量輸入所述特征拼接模塊進(jìn)行特征拼接,得到特征向量;
12、將所述特征向量分別輸入所述基礎(chǔ)識(shí)別子模型和所述個(gè)性化識(shí)別子模型進(jìn)行特征交互和特征識(shí)別,得到基礎(chǔ)識(shí)別結(jié)果和個(gè)性化識(shí)別結(jié)果;
13、將所述特征向量輸入所述權(quán)重分配子模型進(jìn)行潛在特征分析,得到基礎(chǔ)識(shí)別權(quán)重和個(gè)性化識(shí)別權(quán)重;
14、將所述基礎(chǔ)識(shí)別結(jié)果、所述個(gè)性化識(shí)別結(jié)果、所述基礎(chǔ)識(shí)別權(quán)重和所述個(gè)性化識(shí)別權(quán)重輸入所述結(jié)果融合模塊進(jìn)行加權(quán)求和,得到待識(shí)別郵件的識(shí)別結(jié)果。
15、進(jìn)一步地,所述基礎(chǔ)識(shí)別子模型和所述個(gè)性化識(shí)別子模型的特征交互和特征識(shí)別的步驟包括:
16、通過(guò)所述特征交互層對(duì)所述文本特征向量和所述非文本特征向量進(jìn)行特征交互,并通過(guò)所述多層感知機(jī)和所述歸一化層對(duì)交互得到的交互特征向量進(jìn)行特征識(shí)別。
17、進(jìn)一步地,所述通過(guò)所述特征交互層對(duì)所述文本特征向量和所述非文本特征向量進(jìn)行特征交互的步驟包括:
18、分別對(duì)所述文本特征向量和所述非文本特征向量進(jìn)行線性變換,得到第一列向量和第二列向量;
19、根據(jù)所述第一列向量和所述第二列向量,構(gòu)建二階交互矩陣,并對(duì)所述二階交互矩陣中的各個(gè)元素進(jìn)行拼接,得到交互列向量;
20、將所述文本特征向量、所述非文本特征向量和所述交互列向量進(jìn)行拼接,得到交互特征向量。
21、進(jìn)一步地,所述預(yù)設(shè)的郵件識(shí)別模型的訓(xùn)練步驟包括:
22、分別對(duì)所述特征提取模塊和所述基礎(chǔ)識(shí)別子模型進(jìn)行訓(xùn)練;
23、將訓(xùn)練完成的所述基礎(chǔ)識(shí)別子模型的模型參數(shù)作為所述個(gè)性化識(shí)別子模型的初始模型參數(shù);
24、采用隨機(jī)初始化法確定所述權(quán)重分配子模型的初始模型參數(shù)。
25、進(jìn)一步地,所述根據(jù)所述訓(xùn)練樣本,并采用變分貝葉斯在線學(xué)習(xí)算法,對(duì)所述郵件識(shí)別模型的模型參數(shù)進(jìn)行更新的步驟包括:
26、基于變分貝葉斯推斷,構(gòu)建所述特征識(shí)別子模型的似然函數(shù)的變分下界,通過(guò)對(duì)所述基礎(chǔ)識(shí)別子模型引入高斯先驗(yàn),對(duì)所述變分下界進(jìn)行重構(gòu),得到優(yōu)化目標(biāo)函數(shù);
27、根據(jù)所述訓(xùn)練樣本,對(duì)所述優(yōu)化目標(biāo)函數(shù)進(jìn)行迭代計(jì)算,更新所述特征識(shí)別子模型的參數(shù)。
28、第二方面,本專利技術(shù)提供了一種垃圾郵件的識(shí)別系統(tǒng),所述系統(tǒng)包括:
29、郵件識(shí)別模塊,用于將待識(shí)別郵件輸入預(yù)設(shè)的郵件識(shí)別模型進(jìn)行垃圾郵件識(shí)別,得到待識(shí)別郵件的識(shí)別結(jié)果,所述郵件識(shí)別模型包括依次串聯(lián)的特征提取模塊、特征識(shí)別子模型和結(jié)果融合模塊,所述特征識(shí)別子模型包括并聯(lián)的基礎(chǔ)識(shí)別子模型、個(gè)性化識(shí)別子模型和權(quán)重分配子模型,且所述基礎(chǔ)識(shí)別子模型和所述個(gè)性化識(shí)別子模型的結(jié)構(gòu)一致;
30、在線學(xué)習(xí)觸發(fā)模塊,用于獲取用戶對(duì)于識(shí)別結(jié)果的反饋數(shù)據(jù),根據(jù)所述反饋數(shù)據(jù),觸發(fā)在線學(xué)習(xí)機(jī)制;
31、模型更新模塊,用于從預(yù)設(shè)的向量數(shù)據(jù)庫(kù)中采集樣本數(shù)據(jù),組成訓(xùn)練樣本,根據(jù)所述訓(xùn)練樣本,并采用變分貝葉斯在線學(xué)習(xí)算法,對(duì)所述郵件識(shí)別模型的模型參數(shù)進(jìn)行更新;
32、所述郵件識(shí)別模塊,還用于使用更新的所述郵件識(shí)別模型進(jìn)行垃圾郵件識(shí)別。
33、第三方面,本專利技術(shù)實(shí)施例還提供了一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)上述方法的步驟。
34、第四方面,本專利技術(shù)實(shí)施例還提供一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)上述方法的步驟。
35、本專利技術(shù)提供了一種垃圾郵件的識(shí)別方法、系統(tǒng)、計(jì)算機(jī)設(shè)備和存儲(chǔ)介質(zhì),通過(guò)構(gòu)建基于孿生網(wǎng)絡(luò)結(jié)構(gòu)和實(shí)時(shí)在線學(xué)習(xí)更新的郵件識(shí)別模型,本專利技術(shù)不僅能夠準(zhǔn)確高效的動(dòng)態(tài)識(shí)別各類垃圾郵件及其變種,并且能夠根據(jù)用戶反饋對(duì)模型進(jìn)行實(shí)時(shí)調(diào)整,從而滿足用戶個(gè)性化的需求。
本文檔來(lái)自技高網(wǎng)...【技術(shù)保護(hù)點(diǎn)】
1.一種垃圾郵件的識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的垃圾郵件的識(shí)別方法,其特征在于,所述特征提取模塊包括文本特征提取模塊、非文本特征提取模塊和特征拼接模塊,所述文本特征提取模塊基于輕量級(jí)預(yù)訓(xùn)練模型構(gòu)建得到,所述非文本特征提取模塊基于變分自編碼器構(gòu)建得到;
3.根據(jù)權(quán)利要求2所述的垃圾郵件的識(shí)別方法,其特征在于,所述將待識(shí)別郵件輸入預(yù)設(shè)的郵件識(shí)別模型進(jìn)行垃圾郵件識(shí)別的步驟包括:
4.根據(jù)權(quán)利要求3所述的垃圾郵件的識(shí)別方法,其特征在于,所述基礎(chǔ)識(shí)別子模型和所述個(gè)性化識(shí)別子模型的特征交互和特征識(shí)別的步驟包括:
5.根據(jù)權(quán)利要求4所述的垃圾郵件的識(shí)別方法,其特征在于,所述通過(guò)所述特征交互層對(duì)所述文本特征向量和所述非文本特征向量進(jìn)行特征交互的步驟包括:
6.根據(jù)權(quán)利要求2所述的垃圾郵件的識(shí)別方法,其特征在于,所述預(yù)設(shè)的郵件識(shí)別模型的訓(xùn)練步驟包括:
7.根據(jù)權(quán)利要求2所述的垃圾郵件的識(shí)別方法,其特征在于,所述根據(jù)所述訓(xùn)練樣本,并采用變分貝葉斯在線學(xué)習(xí)算法,對(duì)所述郵件識(shí)別模型的模型參數(shù)進(jìn)行更新的步驟包括
8.一種垃圾郵件的識(shí)別系統(tǒng),其特征在于,包括:
9.一種計(jì)算機(jī)設(shè)備,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上并可在處理器上運(yùn)行的計(jì)算機(jī)程序,其特征在于,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述方法的步驟。
10.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其上存儲(chǔ)有計(jì)算機(jī)程序,其特征在于,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至7中任一項(xiàng)所述的方法的步驟。
...【技術(shù)特征摘要】
1.一種垃圾郵件的識(shí)別方法,其特征在于,包括:
2.根據(jù)權(quán)利要求1所述的垃圾郵件的識(shí)別方法,其特征在于,所述特征提取模塊包括文本特征提取模塊、非文本特征提取模塊和特征拼接模塊,所述文本特征提取模塊基于輕量級(jí)預(yù)訓(xùn)練模型構(gòu)建得到,所述非文本特征提取模塊基于變分自編碼器構(gòu)建得到;
3.根據(jù)權(quán)利要求2所述的垃圾郵件的識(shí)別方法,其特征在于,所述將待識(shí)別郵件輸入預(yù)設(shè)的郵件識(shí)別模型進(jìn)行垃圾郵件識(shí)別的步驟包括:
4.根據(jù)權(quán)利要求3所述的垃圾郵件的識(shí)別方法,其特征在于,所述基礎(chǔ)識(shí)別子模型和所述個(gè)性化識(shí)別子模型的特征交互和特征識(shí)別的步驟包括:
5.根據(jù)權(quán)利要求4所述的垃圾郵件的識(shí)別方法,其特征在于,所述通過(guò)所述特征交互層對(duì)所述文本特征向量和所述非文本特征向量進(jìn)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:林延中,劉健,潘慶峰,
申請(qǐng)(專利權(quán))人:廣東盈世計(jì)算機(jī)科技有限公司,
類型:發(fā)明
國(guó)別省市:
還沒有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。