System.ArgumentOutOfRangeException: 索引和長(zhǎng)度必須引用該字符串內(nèi)的位置。 參數(shù)名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技術(shù)實(shí)現(xiàn)步驟摘要】
本申請(qǐng)涉及郵件檢測(cè),尤其是涉及一種垃圾郵件檢測(cè)和歸因告警方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品。
技術(shù)介紹
1、目前,垃圾郵件的識(shí)別是郵件安全領(lǐng)域的核心問(wèn)題。近年來(lái),隨著深度學(xué)習(xí)的爆炸性發(fā)展,其在自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域均取得了突破性的進(jìn)展,垃圾郵件的識(shí)別也進(jìn)入到人工智能時(shí)代。除郵件文本外,判斷一封郵件是否為垃圾郵件,還需考慮諸如發(fā)信人信譽(yù)、html特征、郵件重復(fù)次數(shù)等諸多非文本特征。
2、雖然深度學(xué)習(xí)具有極強(qiáng)的特征抽取和學(xué)習(xí)能力,但目前的垃圾郵件識(shí)別方法還與主觀認(rèn)識(shí)相關(guān),因此難以避免誤判和漏判的問(wèn)題。此外,作為一種黑盒模型,深度學(xué)習(xí)也無(wú)法對(duì)預(yù)測(cè)結(jié)果進(jìn)行解釋,即主要是哪些因素使得模型認(rèn)為該郵件是垃圾郵件或正常郵件。
3、針對(duì)上述中的相關(guān)技術(shù),專利技術(shù)人發(fā)現(xiàn)現(xiàn)有的垃圾郵件識(shí)別方法存在有識(shí)別精度低和不利于分析的問(wèn)題。
技術(shù)實(shí)現(xiàn)思路
1、為了提高垃圾郵件的識(shí)別精度,以及對(duì)預(yù)測(cè)結(jié)果進(jìn)行歸因分析,本申請(qǐng)?zhí)峁┝艘环N垃圾郵件檢測(cè)和歸因告警方法、裝置、計(jì)算機(jī)設(shè)備、可讀存儲(chǔ)介質(zhì)和程序產(chǎn)品。
2、第一方面,本申請(qǐng)?zhí)峁┮环N垃圾郵件檢測(cè)和歸因告警方法。
3、本申請(qǐng)是通過(guò)以下技術(shù)方案得以實(shí)現(xiàn)的:
4、一種垃圾郵件檢測(cè)和歸因告警方法,包括以下步驟,
5、獲取待檢測(cè)郵件的文本內(nèi)容特征、圖片內(nèi)容特征、重復(fù)次數(shù)和超文本標(biāo)記語(yǔ)言特征,輸入預(yù)設(shè)的全局敏感性分析模型,輸出垃圾郵件的檢測(cè)結(jié)果,并給出各輸入項(xiàng)的歸因;
6、其中,
7、采用最大熵原理,構(gòu)造所述全局敏感性分析模型的輸出響應(yīng),以及采用kashyap信息準(zhǔn)則,構(gòu)造所述全局敏感性分析模型的基函數(shù)向量,得到基函數(shù)集;
8、根據(jù)所述輸出響應(yīng)和所述基函數(shù)向量,計(jì)算所述基函數(shù)集中的每個(gè)基函數(shù)與模型響應(yīng)的皮爾遜相關(guān)系數(shù);
9、利用所述皮爾遜相關(guān)系數(shù)對(duì)所述基函數(shù)集中的各個(gè)基函數(shù)進(jìn)行排序,更新所述基函數(shù)向量;
10、基于最新的基函數(shù)集,結(jié)合最大后驗(yàn)估計(jì),訓(xùn)練所述全局敏感性分析模型;
11、訓(xùn)練過(guò)程中,獲取歷史郵件的文本內(nèi)容特征、圖片內(nèi)容特征、重復(fù)次數(shù)和超文本標(biāo)記語(yǔ)言特征,作為樣本特征;將所述樣本特征輸入預(yù)設(shè)的教師模型中,得到初級(jí)預(yù)測(cè)結(jié)果,以及獲得所述教師模型的輸出概率分布;將所述樣本特征和所述初級(jí)預(yù)測(cè)結(jié)果作為所述全局敏感性分析模型的訓(xùn)練數(shù)據(jù),將所述教師模型的輸出概率分布作為所述全局敏感性分析模型的目標(biāo)標(biāo)簽。
12、本申請(qǐng)?jiān)谝惠^佳示例中可以進(jìn)一步配置為:所述全局敏感性分析模型的構(gòu)建步驟還包括,
13、根據(jù)所述輸出響應(yīng)和所述基函數(shù)向量,計(jì)算更新的基函數(shù)集中的每個(gè)基函數(shù)與模型響應(yīng)的偏相關(guān)系數(shù);
14、利用所述偏相關(guān)系數(shù)對(duì)所述基函數(shù)集中的各個(gè)基函數(shù)進(jìn)行再次排序,更新所述基函數(shù)向量。
15、本申請(qǐng)?jiān)谝惠^佳示例中可以進(jìn)一步配置為:所述基于最新的基函數(shù)集,結(jié)合最大后驗(yàn)估計(jì),訓(xùn)練所述全局敏感性分析模型的步驟包括,
16、根據(jù)最新的所述基函數(shù)集,定義稀疏多項(xiàng)式混沌展開(kāi)模型;
17、計(jì)算加入當(dāng)前待考察基函數(shù)后的基函數(shù)向量的kashyap信息準(zhǔn)則的數(shù)值及其上一基函數(shù)向量的kashyap信息準(zhǔn)則的數(shù)值;
18、比較所述基函數(shù)向量的kashyap信息準(zhǔn)則的數(shù)值與上一基函數(shù)向量的kashyap信息準(zhǔn)則的數(shù)值大小;
19、判定所述基函數(shù)是否加入預(yù)設(shè)的最優(yōu)基函數(shù)集;
20、當(dāng)完成所有基函數(shù)向量的kashyap信息準(zhǔn)則的數(shù)值計(jì)算、比較與判定后,獲得最優(yōu)基函數(shù)集;
21、基于最新的所述最優(yōu)基函數(shù)集,結(jié)合最大后驗(yàn)估計(jì)的多項(xiàng)式系數(shù),得到所述全局敏感性分析模型。
22、本申請(qǐng)?jiān)谝惠^佳示例中可以進(jìn)一步配置為:所述基于最新的基函數(shù)集,結(jié)合最大后驗(yàn)估計(jì),訓(xùn)練所述全局敏感性分析模型的步驟還包括,
23、當(dāng)所述全局敏感性分析模型中存在總階數(shù)滿足預(yù)設(shè)階數(shù)條件或交互項(xiàng)的階數(shù)達(dá)到預(yù)設(shè)階數(shù)項(xiàng)時(shí),提高本次迭代時(shí)的總階數(shù)閾值和交互項(xiàng)階數(shù)閾值;
24、在不超過(guò)所述總階數(shù)閾值和所述交互項(xiàng)階數(shù)閾值的情況下,采用枚舉的方式,提高所述全局敏感性分析模型的基函數(shù)的總階數(shù)和交互項(xiàng)階數(shù),以擴(kuò)充基函數(shù)向量,得到新的最優(yōu)基函數(shù)集。
25、本申請(qǐng)?jiān)谝惠^佳示例中可以進(jìn)一步配置為:還包括以下步驟,
26、計(jì)算所述全局敏感性分析模型的訓(xùn)練誤差;
27、判斷所述訓(xùn)練誤差是否小于預(yù)設(shè)閾值;
28、當(dāng)所述訓(xùn)練誤差大于或等于所述閾值時(shí),增加所述樣本特征的數(shù)量。
29、本申請(qǐng)?jiān)谝惠^佳示例中可以進(jìn)一步配置為:給出各輸入項(xiàng)的歸因的步驟包括,
30、將構(gòu)建的所述全局敏感性分析模型的每一項(xiàng)進(jìn)行分解,歸因到每個(gè)輸入;
31、計(jì)算每個(gè)輸入的貢獻(xiàn)值;
32、將所有相同的輸入的所述貢獻(xiàn)值累加,得到該輸入對(duì)所述全局敏感性分析模型響應(yīng)的總貢獻(xiàn)值;
33、計(jì)算同一類型的不同輸入對(duì)所述全局敏感性分析模型響應(yīng)的相對(duì)貢獻(xiàn)值;
34、基于所述相對(duì)貢獻(xiàn)值進(jìn)行由大到小的排序,選取前k個(gè)影響因素作為各輸入項(xiàng)的歸因解釋,其中,k為正整數(shù)。
35、本申請(qǐng)?jiān)谝惠^佳示例中可以進(jìn)一步配置為:所述計(jì)算同一類型的不同輸入對(duì)所述全局敏感性分析模型響應(yīng)的相對(duì)貢獻(xiàn)值的步驟包括,
36、累加劃分至同一類型的不同輸入對(duì)應(yīng)的所述總貢獻(xiàn)值,得到全局貢獻(xiàn)值;
37、將所述全局貢獻(xiàn)值除以所有的貢獻(xiàn)值,得到同類型的所有輸入對(duì)所述全局敏感性分析模型響應(yīng)的相對(duì)貢獻(xiàn)值。
38、本申請(qǐng)?jiān)谝惠^佳示例中可以進(jìn)一步配置為:所述教師模型的訓(xùn)練步驟包括,
39、提取歷史郵件的文本內(nèi)容特征、圖片內(nèi)容特征、重復(fù)次數(shù)和超文本標(biāo)記語(yǔ)言特征,作為原始訓(xùn)練數(shù)據(jù);
40、將所述原始訓(xùn)練數(shù)據(jù)輸入預(yù)設(shè)的二分類的神經(jīng)網(wǎng)絡(luò)中,并使用反向傳播算法優(yōu)化二分類的神經(jīng)網(wǎng)絡(luò)的交叉熵?fù)p失函數(shù),訓(xùn)練所述教師模型。
41、第二方面,本申請(qǐng)?zhí)峁┮环N垃圾郵件檢測(cè)和歸因告警裝置。
42、本申請(qǐng)是通過(guò)以下技術(shù)方案得以實(shí)現(xiàn)的:
43、一種垃圾郵件檢測(cè)和歸因告警裝置,包括,
44、第一樣本模塊,用于獲取歷史郵件的文本內(nèi)容特征、圖片內(nèi)容特征、重復(fù)次數(shù)和超文本標(biāo)記語(yǔ)言特征,作為樣本特征;
45、第二樣本模塊,用于將所述樣本特征輸入預(yù)設(shè)的教師模型中,得到初級(jí)預(yù)測(cè)結(jié)果,以及獲得所述教師模型的輸出概率分布;
46、全局敏感性分析模塊,用于構(gòu)建全局敏感性分析模型,包括,采用最大熵原理,構(gòu)造所述全局敏感性分析模型的輸出響應(yīng),以及采用kashyap信息準(zhǔn)則,構(gòu)造所述全局敏感性分析模型的基函數(shù)向量,得到基函數(shù)集;根據(jù)所述輸出響應(yīng)和所述基函數(shù)向量,計(jì)算所述基函數(shù)集中的每個(gè)基函數(shù)與模型響應(yīng)的皮爾遜相關(guān)系數(shù);利用所述皮爾遜相關(guān)系數(shù)對(duì)所述基函數(shù)集中的各個(gè)基函數(shù)進(jìn)行排序,本文檔來(lái)自技高網(wǎng)...
【技術(shù)保護(hù)點(diǎn)】
1.一種垃圾郵件檢測(cè)和歸因告警方法,其特征在于,包括以下步驟,
2.根據(jù)權(quán)利要求1所述的垃圾郵件檢測(cè)和歸因告警方法,其特征在于,所述全局敏感性分析模型的構(gòu)建步驟還包括,
3.根據(jù)權(quán)利要求1所述的垃圾郵件檢測(cè)和歸因告警方法,其特征在于,所述基于最新的基函數(shù)集,結(jié)合最大后驗(yàn)估計(jì),訓(xùn)練所述全局敏感性分析模型的步驟包括,
4.根據(jù)權(quán)利要求3所述的垃圾郵件檢測(cè)和歸因告警方法,其特征在于,所述基于最新的基函數(shù)集,結(jié)合最大后驗(yàn)估計(jì),訓(xùn)練所述全局敏感性分析模型的步驟還包括,
5.根據(jù)權(quán)利要求3或4所述的垃圾郵件檢測(cè)和歸因告警方法,其特征在于,還包括以下步驟,
6.根據(jù)權(quán)利要求1所述的垃圾郵件檢測(cè)和歸因告警方法,其特征在于,給出各輸入項(xiàng)的歸因的步驟包括,
7.根據(jù)權(quán)利要求6所述的垃圾郵件檢測(cè)和歸因告警方法,其特征在于,所述計(jì)算同一類型的不同輸入對(duì)所述全局敏感性分析模型響應(yīng)的相對(duì)貢獻(xiàn)值的步驟包括,
8.根據(jù)權(quán)利要求1所述的垃圾郵件檢測(cè)和歸因告警方法,其特征在于,所述教師模型的訓(xùn)練步驟包括,
9.一種垃圾郵
10.一種計(jì)算機(jī)設(shè)備,其特征在于,包括存儲(chǔ)器、處理器及存儲(chǔ)在存儲(chǔ)器上的計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序以實(shí)現(xiàn)權(quán)利要求1至8任意一項(xiàng)所述方法的步驟。
11.一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),其特征在于,所述計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至8任意一項(xiàng)所述方法的步驟。
12.一種計(jì)算機(jī)程序產(chǎn)品,其特征在于,包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)權(quán)利要求1至8任意一項(xiàng)所述方法的步驟。
...【技術(shù)特征摘要】
1.一種垃圾郵件檢測(cè)和歸因告警方法,其特征在于,包括以下步驟,
2.根據(jù)權(quán)利要求1所述的垃圾郵件檢測(cè)和歸因告警方法,其特征在于,所述全局敏感性分析模型的構(gòu)建步驟還包括,
3.根據(jù)權(quán)利要求1所述的垃圾郵件檢測(cè)和歸因告警方法,其特征在于,所述基于最新的基函數(shù)集,結(jié)合最大后驗(yàn)估計(jì),訓(xùn)練所述全局敏感性分析模型的步驟包括,
4.根據(jù)權(quán)利要求3所述的垃圾郵件檢測(cè)和歸因告警方法,其特征在于,所述基于最新的基函數(shù)集,結(jié)合最大后驗(yàn)估計(jì),訓(xùn)練所述全局敏感性分析模型的步驟還包括,
5.根據(jù)權(quán)利要求3或4所述的垃圾郵件檢測(cè)和歸因告警方法,其特征在于,還包括以下步驟,
6.根據(jù)權(quán)利要求1所述的垃圾郵件檢測(cè)和歸因告警方法,其特征在于,給出各輸入項(xiàng)的歸因的步驟包括,
7.根據(jù)權(quán)利要求6所述的垃圾郵件檢測(cè)...
【專利技術(shù)屬性】
技術(shù)研發(fā)人員:林延中,劉健,潘慶峰,
申請(qǐng)(專利權(quán))人:廣東盈世計(jì)算機(jī)科技有限公司,
類型:發(fā)明
國(guó)別省市:
還沒(méi)有人留言評(píng)論。發(fā)表了對(duì)其他瀏覽者有用的留言會(huì)獲得科技券。